播客推荐 | 计算与现实的无形规则

播客推荐 | 计算与现实的无形规则本次继续推荐一个播客的内容

大家好,欢迎来到IT知识分享网。

本次继续推荐一个播客的内容。

《Machine Learning Street Talk》的《The Invisible Rules That Govern Our World》

title: The Invisible Rules That Govern Our World url: https://www.youtube.com/watch?v=dB9lJkUkIUM date: 

摘要

00:00:00 – 00:02:04:引言

对话开篇即点出核心议题,强调艾伦·图灵的卓越贡献并不仅仅是抗击纳粹,更在于他开创了让程序处理自身的革命性思想。然而,这种形式化的强大能力与现实世界的复杂性形成了鲜明对比——真实世界中丰富的对象与层次结构,极难被完全数学化。当听到“我们需要更多算力(compute)”这种说法时,Chris Moore坦言这在他听来“不太对劲”。他通过自己设计的谜题来挑战AI,并期待我们能从大型语言模型(LLM)的成功中,更深刻地理解这个世界本身的奇妙结构。

00:02:05 – 00:07:24:理论与现实:计算机科学家的视角

Christopher Moore的学术道路始于物理学,但在阅读了道格拉斯·霍夫施塔特的经典著作《哥德尔、埃舍尔、巴赫》后,深受启发,转向理论计算机科学,并逐渐将研究领域扩展至网络理论和机器学习。他钟爱计算机科学的双重性:既可以作为工程师,寻找解决问题的高效算法;又可以在此路不通时,转而扮演理论家的角色,去证明问题本身的内在困难性,而这种“困难”本身又能在密码学等领域转化为宝贵的资源。

引用物理学家弗里曼·戴森关于“飞鸟”与“青蛙”的比喻,Chris将自己定位为一名脚踏实地的“青蛙”。相比于从高空俯瞰、寻求宏大统一理论的“飞鸟”,他更倾向于通过具体的、可触摸的实例来理解抽象理论,这种亲身实践的偏好也塑造了他对理论与现实关系的看法。他指出,计算机科学中定义的“难题”,通常是指在两种极端情况下的困难:一是经过对手精心设计的“最坏情况”,二是从简单概率模型生成的“随机情况”。然而,真实世界的数据既非最坏情况,也远非随机,它充满了有待发掘的丰富结构。正是这些结构,为人类和人工智能提供了解决问题的“抓手”。因此,他认为未来我们可能会发现,LLM的成功关键并非Transformer这个特定架构,而是因为世界本身是结构化的,任何足够丰富的架构只要能有效捕捉这种结构,就能表现出色。

00:07:26 – 00:13:33:相变、模型局限与现实世界的结构

Chris引入了从物理学(特别是自旋玻璃理论)借鉴的“相变”概念来解释机器学习中的挑战。他将数据中的噪声比作物理系统中的“温度”:

  • 在信噪比高(低噪声)的“简单”区域,许多经典算法如谱方法、主成分分析(PCA)和信念传播都能快速找到数据背后隐藏的真实模式。
  • 在信噪比极低(高噪声)的区域,真实模式被完全淹没,任何算法都无能为力。
  • 最有趣的是介于两者之间的“困难”区域。在这里,真实模式依然存在,但隐藏在物理学所谓的“能量壁垒”之后。所有高效的实用算法,如蒙特卡洛或梯度下降,都会陷入一个由海量不准确解构成的“非晶态泥潭”中,计算时间呈指数级增长。

然而,Chris强调,所有这些深刻的理论都建立在“随机问题”的假设之上。现实世界问题的复杂结构恰恰是这些理论难以完全刻画的。他提出了一个富有洞察力的观点:LLM和Transformer的成功,最终可能会反过来成为我们的工具,帮助我们去数学化和理解现实世界的这种复杂结构。尽管如此,他也承认当前Transformer的架构在学习某些深度结构化问题时存在局限,人们对AI的期望在不断提高(即“移动球门”),而研究的魅力就在于观察“球门移动的速度”。

00:13:34 – 00:17:16:AI面临的谜题挑战:逻辑与空间推理的试金石

Chris以自己热衷的谜题设计为例,说明了当前AI在理解抽象规则和进行空间推理方面的短板。他提到了AI公司Sakana与知名解谜频道“Cracking the Cryptic”合作的一个项目,该项目旨在让AI阅读人类语言描述的复杂数独变体规则(如“温度计”或“骑士步”等附加约束),并解决这些谜题。

截至目前,AI在该任务上的表现堪称“可怜”,仅能勉强应对最简单的入门级谜题。这揭示了人类与当前AI在解决此类问题时根本性的差异。人类玩家擅长从规则中提炼出高级的逻辑约束和启发式策略,进行高效的智能搜索。此外,人类的视觉系统(sensorium)天然适应于处理二维空间信息,可以轻松地扫描数独的行、列、宫。

相比之下,目前的大型语言模型严重依赖于一维的文本序列,难以处理二维空间关系。虽然理论上可以将问题转化为一个巨大的布尔可满足性问题(SAT problem)交由求解器处理,但这是一种缺乏洞察力的“笨拙”方法。Chris对自己设计的8个谜题被收录进该测试数据集感到自豪,并期待着AI最终能激活成功教程它们的那一天。

00:17:16 – 00:22:40:人类洞察力的本质:在问题中创造知识

这一部分深入探讨了人类解决问题时独特的创造性思维。Chris认为,智能的艺术在于“事半功倍”,即通过深刻的洞察力将复杂问题转化为简单问题。他将谜题设计的哲学比作一位“富有同情心的老师”,旨在为解题者创造发现解决方案时的“啊哈时刻”。

人类在这种过程中最独特的能力,是在解决问题的过程中动态地、流畅地发明新的“变量”或构建“部分知识”。这不同于传统AI预设的启发式规则。例如,在解决数独或拼图(如五格骨牌)时,人类会自发地创造出新的约束形式,比如“这两个格子的数字必须相同,但我暂时不知道是几,先把它们涂成同一种颜色”或者“这三个格子的数字各不相同”。

这个过程,本质上是一种将问题“数学化”的创造性活动。Chris指出,在科学研究中,90%的工作往往在于为问题找到合适的数学结构来描述它;一旦这个框架建立起来,后续的求解和证明通常会变得相对直接。因此,让AI学会这种“在问题中创造知识和变量”的能力,是其迈向更高智能的一个至关重要的前沿。

00:22:41 – 00:27:27:AI的意义接地问题:从文本统计到真实理解

对话的焦点转向了人工智能是否能真正理解“意义”。主持人引入了由卡尔·弗里斯顿提出的“认知觅食”概念,形象地描述了人类探索知识空间的过程。Chris通过其历史学家朋友亨利·法雷尔的一个经历,阐述了当前LLM存在的“意义接地”问题。他的朋友写了一篇观点非常新颖的文章,让一个LLM进行总结。结果,LLM完全错过了文章中所有独创性的论点,反而将其“平庸化”,总结成了一系列关于该主题最常见、最陈腐的观点集合。

这个例子深刻地表明,当前的系统并未将语言“接地”到真实世界的意义上。它处理的是词语与词语之间的统计关系,而不是这些词语所指向的思想、概念和现实。这种差异也体现在AI与人类朋友的推荐行为上。AI的推荐系统倾向于“你喜欢这个,这里有更多类似的东西”,是一种缺乏挑战性的模式延续。而一个好朋友的推荐,则会基于对你的深入了解,为你推荐一些你可能不喜欢但却对你有益的东西(比如,“我知道你不喜欢科幻,但你必须读读吉恩·沃尔夫”),旨在挑战和拓宽你的视野。这种高质量的推荐,恰恰是源于对“意义”的深刻理解。

00:27:27 – 00:32:50:柏拉图主义、AI工作空间与真正的创造力

在本节中,Chris探讨了数学的客观实在性,并展望了AI的未来。他倾向于一种柏拉图主义的观点,认为数学对象具有某种客观实在性。他用一个例子来说明:当两个人闭上眼睛想象一个立方体时,他们都能通过内心的“感知”共同确认它拥有8个顶点和12条边,这暗示着他们正在观察同一个“真实”的数学对象。

他构想,未来AI需要超越一维的文本处理,被赋予模块化的、多模态的“工作空间”,像人类使用草稿纸一样进行“涂鸦”和“感知”。同时,让AI形成一个编写、运行、测试并调试代码的完整闭环。与此相比,当前AI的创造力则显得较为肤浅。他引用作家马丁·艾米斯在《反对陈词滥调的战争》中的观点,认为真正的文学创造力在于主动避免俗套。他的博士导师菲利普·霍姆斯也曾感慨,写诗是一项比做数学更困难、更严谨的工作。简单地通过提高模型的“温度”参数来激发所谓的“创造力”,通常只会产生无意义的“垃圾”,因为它并未真正理解结构与规则。

00:32:51 – 00:37:11:艺术创作的同步性:与观众的认知博弈

此节深入探讨了人类创造力的一个核心特质:与观众之间建立一种精妙的同步性。这本质上是一场对观众认知状态的精确建模和博弈。对话中提出了一个核心概念——“渐进式复杂性揭示”。无论是在视频剪辑、音频制作还是写作中,高明的艺术创作都是一个向观众逐步展示复杂性的过程。创作者需要通过各种技巧(如在音视频中加入特定的噪声或纹理来引导观众的感知),将信息精确地放置在略微超出观众当前预测或认知水平的“甜蜜点”上。信息既不能太简单以免观众感到无聊,也不能太复杂以免观众因无法理解而感到挫败。要实现这种精妙的平衡,创作者必须在脑海中构建一个关于观众心理状态的精确模型,不断地将自己代入观众的视角,去感受和预判他们对作品的反应。

00:37:12 – 00:44:31:谜题设计的艺术与“啊哈”时刻的奥秘

Chris再次以谜题设计为切入点,深入剖析了“啊哈时刻”这一认知现象。他指出,谜题设计是高度共情的过程,设计师必须时刻代入解谜者的角色,精心校准线索的难度。这种体验具有强烈的主观性,与人类有限的认知能力(他自嘲为“一个2磅重、1赫兹的肉体处理器”)和习惯紧密相关。例如,他个人就觉得数独中的“不交集组”规则既困难又无趣,因为它不符合人类视觉系统高效扫描的习惯。

然而,尽管体验是主观的,Chris认为“洞察力”本身似乎具有某种客观的、可被识别的数学特质。他强调,一个好的谜题和一个难的谜题是两个相互独立的维度,因此存在“简单而优美”与“困难而优美”的谜题。最后,他将解谜这一行为提升到了一个“元问题”的层面:它不仅仅是解决一个给定的问题,而是在面对一个来自结构化世界(而非由对手精心设计的世界)的问题实例时,去寻找并确定那个能够高效解决它的正确算法,这与智能的本质有着深刻的相似之处。

00:44:31 – 00:53:05:计算的极限:不可约性与复杂性理论的未知地带

对话转向了计算本身的内在限制,特别是“计算不可约性”概念。它描述的是这样一类系统——如某些元胞自动机(与可预测的线性规则如Rule 150形成对比)或混沌系统——它们的未来状态无法通过“捷径”预测,唯一的方法就是一步一步地进行模拟。有趣的是,我们目前证明一个系统具有这种复杂性的唯一有力手段,就是证明我们能够利用这个系统来构建一台通用计算机(如图灵机)。

然而,这揭示了我们理论知识中的一个灰色地带。自然界中存在大量看起来极其复杂的系统(Chris将其比作一团无序的“熔岩”),但我们无法利用它们来搭建可控的计算结构,就像在晶体管出现前,人们曾设想但难以实现的“微流体计算机”一样。因此,尽管它们看起来是不可约的,我们却无法用现有方法证明这一点。类似地,在计算复杂性理论中,也存在这样的“中间地带”:理论上存在一类问题,它们比P类问题更难,但又不像NP完全问题那样具有最高的表达能力。我们证明一个问题“难”的唯一方法,几乎总是通过证明它是“完备的”,这表明我们现有的理论工具在理解复杂性的完整谱系方面还存在局限。

00:53:06 – 00:59:30:智能的分野:图灵完备性是一个好的标准吗?

主持人提出了一个观点:通用人工智能(AGI)与当前AI的根本区别可能在于是否具备图灵完备性。其论证逻辑是,Transformer等模型本质上是有限状态自动机(FSA),其训练方式不适合处理真正的递归,因此存在智能上限。

Chris对此给出了回应。他首先引用图灵本人在1951年的论文,指出图灵也主张像抚养孩子一样“训练”而非“编程”人工智能。接着,他批评图灵机架构本身是“脆弱的”和“冯·诺依曼式”的,认为神经网络的连续特性更有利于训练。他指出,从物理角度看,人类本身也是一个有限状态机。人类之所以能处理复杂递归任务,关键在于我们是使用工具的生物,通过纸笔等外部工具扩展了我们的工作记忆(他提到人类心智的“栈深度”其实很小),这在功能上等同于增加了一条无限长的“图灵机纸带”。

随后,主持人进一步澄清了更精妙的论点:人脑这个FSA内部,可能演化出了一类极其特殊的算法,它们懂得如何去控制一个外部的图灵机(如通过读写操作纸张)。而这类能够与外部环境进行递归交互的特殊控制算法,可能恰恰是无法通过现有的随机梯度下降等方法有效训练出来的。

00:59:30 – 01:06:52:通用性与抽象:超越特定计算架构

Chris继续深入,认为不应将智能的概念与“图灵机”这一具体的计算架构过度绑定,而应关注其背后更普适的通用计算原理。他从智能的起源提出对比:人类智能是触觉、视觉优先的,而LLM是语言优先的。这导致我们期望它们能直接跃升到形式化思维,但我们必须认识到,它们本质上是“令牌生成系统”,正如大多数人类对话一样,只有在遇到认知边界时,才会启动深刻的自我反思。

他强调,图灵机本身并非问题的核心。它只是众多实现计算通用性的模型之一,其他等价的模型还包括明斯基等人研究的计数器机、双堆栈自动机,以及Lambda演算等。上世纪计算理论的伟大之处,就在于证明了这些表面上截然不同的计算模型,在计算能力上是完全等价的。真正的关键在于组合与构建的能力:能够使用简单的构建模块,创造出更复杂的事物;然后将这些新创造的事物本身作为新的模块,再将它们相互连接(甚至连接到自身),这种无限的、层次化的构建能力,才是智能和技术的精髓。

01:06:52 – 01:11:25:自我指涉的力量:从哥德尔到图灵的革命

本节着重强调了“自我指涉”这一概念在思想史上的革命性意义。Chris指出,在哥德尔和图灵的工作之前,数学世界被认为是严格分层的,一个实体不能作用于其自身。他们的惊人之处,在于打破了这一禁忌,巧妙地构建了让数学公式谈论自身、让程序处理自身的机制。他引用道格拉斯·霍夫施塔特的观点,将这种自我指涉类比为生物学中酶和蛋白质既是程序又是数据的双重角色。

这种思想在当时是颠覆性的,但在今天却已成为数字世界的常识,以至于学生在学习停机问题时,难以体会其在思想史上的巨大震撼。这背后体现了智能的一次伟大飞跃——抽象。一个图灵机虽然可以被看作一个拥有无限多个状态的有限状态机,但它本身可以用一个有限的描述来完全定义。从无限的具体状态中,识别并提炼出那个有限的、更高层次的生成规则,这个从无限到有限的抽象过程,是智能一个极其强大的特征。

01:11:27 – 01:16:53:计算作为一种“透镜”:理解世界的多元视角

对于“泛计算主义”这一哲学立场,Chris表达了一种工具化的看法。他倾向于将“计算”视为我们理解世界的一种“透镜”,而不是一个关于宇宙本体的终极论断。当戴上这副透镜时,我们关注的是一个系统中信息的存储、传输和转换。

他通过生命起源的例子来说明,除了计算透镜(“复制子优先”理论),还存在同样强大的物理/热力学透镜(“新陈代谢优先”理论),后者认为生命起源于能稳定引导能量流的化学循环,而基因等信息结构只是这个代谢系统演化出的“工具”。Chris强调,没有任何一个单一的透镜能够解释所有现象。面对不同的问题,我们应该学会灵活地切换视角。例如,他个人对用进化心理学来解释人类伦理持保留态度,因为他认为一个事物的起源,并不应该完全决定它当下的全部意义和价值。

01:16:54 – 01:23:09:宇宙在本体论上是计算的吗?

当被直接问及宇宙的终极本质是否是计算时,Chris将这个哲学问题转化为一个物理问题:“宇宙是否可以被一台计算机模拟?” 他引用了理查德·费曼的一个著名问题:一个给定的“时空盒子”(a space-time box)内的计算量是否是有限的?

Chris表示,他倾向于相信物理版的丘奇-图灵论题为真,即宇宙中发生的任何物理过程,原则上都可以被一台有限资源的量子计算机所模拟。这个信念背后意味着,宇宙在最底层可能是离散的,时空在普朗克尺度上可能是不连续的,但并非规则的晶格,而是一种更无定形的结构。这也排除了宇宙中存在真正的、拥有无限小数位精度的实数(即模拟计算)的可能性,因为那将意味着无限的信息和计算能力。

01:23:10 – 01:26:45:超计算与物理学家对“无限”的过敏反应

对话延伸到了“超计算”的可能性,即利用黑洞或封闭类时曲线等极端物理现象来解决不可判定问题。Chris解释了物理学界对此普遍存在的“过敏反应”。在物理学中,当一个理论在某个点上预测出无限大的结果时,这通常被视为理论本身在该点失效的标志,预示着需要一个更深层次的新理论来修正它。

基于这种科学哲学,物理学家倾向于相信宇宙自身会存在某种“审查机制”来阻止超计算的发生。他提到了肖恩·卡罗尔的一个略显悲观的观点,即宇宙的加速膨胀为我们能在恒星熄灭前所能完成的总计算量设定了一个宏大的上限。对此,Chris以一种充满科幻精神的口吻回应道:“我们应该为此做点什么”,这反映了他认为世界的规则并非一成不变,而是可以被改变的信念。

01:26:46 – 01:34:46:算法正义:超越准确性的透明度要求

在对话的最后,话题转向了算法在社会关键决策中的应用。Chris明确表示,在涉及人类基本权利(如司法)的场景,绝对不能接受不可解释的“黑箱”模型。他强调了一个核心原则:程序正义高于结果准确性。刑事司法系统之所以如此设计,是因为它追求的不仅仅是准确性,更重要的是维护公民与国家权力之间的健康关系和明确边界。

他指出现实中一个严峻的问题:许多正在法庭上被用来分析DNA证据的软件,是专有的、闭源的商业产品,它们未经充分的独立验证(不像消费品有类似“消费者报告”的机构评估),不同软件之间甚至会得出相互矛盾的结论。因此,他呼吁使用比“可解释性”更强硬的词——透明度

他认为透明度是一个连续的光谱:在医疗诊断领域,如果一个经过严格独立测试的黑箱模型能救他的命,他或许可以接受;但在涉及宪法权利的司法领域,则必须要求最高程度的透明度,即能够审查其内部工作原理。在这种情况下,知识产权不应成为阻碍司法公正和程序正义的挡箭牌。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。

本文于2025.9.12 首发于头条号

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/188280.html

(0)
上一篇 2025-09-18 12:10
下一篇 2025-09-18 12:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信