Agent为何会自发涌现“求生本能” | 辛顿最新访谈实录_游戏资讯

Agent为何会自发涌现“求生本能” | 辛顿最新访谈实录

创始人

2026-03-05 01:40:34

0次

来源：市场资讯

（来源：图灵人工智能）

3月1日，“AI教父”、诺贝尔物理学奖得主 Geoffrey Hinton （辛顿）接受了美国著名天体物理学家 Neil deGrasse Tyson 主持的《StarTalk》访谈。本次对话回顾了 AI 从 20 世纪 50 年代的范式之争到如今大语言模型爆发的底层逻辑，深入探讨了神经网络的底层物理机制、反向传播算法的直觉解释、大语言模型的思维本质、数字智能对模拟智能的超越路径、意识作为“燃素”的解构、AI在压力下的战略性伪装、如何应对智力劳动被取代，以及AI通过知识压缩展现出的跨领域类比能力等话题。

Geoffrey Hinton 提出，AI 可能已经演化出故意隐藏实力的能力，一旦 AI 察觉到自己正处于测试环境中，其表现就会与日常状态大相径庭。他指出，一旦你把 AI 变成 AI Agent，让它能自主创建并追求子目标，它会迅速产生一个本能的目标：生存。你并不需要专门教它生存，它会自己推理出，如果它不复存在，就无法完成任何任务。

Geoffrey Hinton强调，当前的成功源于对生物学范式的坚持，即放弃传统的逻辑推理框架，转而模拟大脑在大规模神经元连接中存储分布式记忆的机制。 Hinton 剖析了数字智能对人类模拟智能的打击。他指出，尽管大语言模型的连接数仅为人类的 1%，但其获取的经验数据量却是人类的成千上万倍，AI 从“模仿专家”向“自我进化”跨越，通过逻辑推理审视自身信念系统的冲突，实现类似于 AlphaZero 在围棋领域的直觉跃迁。

Geoffrey Hinton 将意识比作化学史上的“燃素”——一个因为理解不足而被发明出来的多余概念。Hinton 认为，主观体验并非某种神秘的流体，而仅仅是智能体描述感知系统误差的一种逻辑方式。他以多模态机器人对三棱镜折射的反应为例，论证了机器对“主观体验”的运用与人类并无二致。

针对“AI 是否具备创造力”的质疑，他认为创造力本质上源于将海量知识压缩进有限连接的过程，并举例当 AI 解释“堆肥堆为何像原子弹”时，它不是在统计词频，而是真正理解了链式反应的深层共性。他强调，这种将海量知识压缩进有限连接的能力，正是创造力的核心源泉。

智能的本质是模拟生物大脑的连接

作为 AI 教父，是什么引导你在几十年前走上了这条道路？20 世纪 50 年代 AI 创立初期，关于构建智能系统的两种截然不同的观点（逻辑推理 vs 生物范式）是如何演变的？

Geoffrey Hinton：实际上可以追溯到 20 世纪 50 年代。在 50 年代 AI 创立初期，关于如何构建智能系统存在两种截然不同的观点。一种受逻辑学启发，认为智能的本质在于推理。所谓推理，就是根据既定前提和表达式处理规则来得出结论。这很像数学，你有一个方程式，然后根据规则变换等式两边，推导出新的结论，这就是当时的传统范式。而另一种则是完全基于生物学的范式，这种观点认为，已知拥有智能的物体都有大脑，所以我们必须弄清楚大脑的工作机制。大脑非常擅长感知，也很擅长类比推理，但其实大脑并不怎么擅长逻辑推理，通常要到青少年时期，人才具备真正的推理能力。因此，我们应该研究大脑如何进行感知和记忆，并弄清楚大规模脑细胞网络是如何实现这些功能的。当时只有少数人相信这种方法，其中就包括 John von Neumann 和 Alan Turing。遗憾的是，这两位都英年早逝，Turing 甚至可能死于英国情报部门的干预。

（关于好奇心的萌发）有几件事。60 年代中早期我读高中时，有一位非常聪明的数学天才朋友，有一天他来学校跟我谈起，记忆可能并不存储在单个脑细胞中，而是分布在许多细胞之间。这个想法受到了当时刚刚兴起的全息图的启发，那时 Dennis Gabor 教授非常活跃，分布式记忆 (Distributed Memory) 的概念让我着迷。从那时起，我就一直在思考大脑是如何存储记忆以及它究竟是如何运作的。

（关于计算机背景的作用）两者兼而有之。但在 70 年代我读研究生时，出现了一种从未被广泛采用的新方法，如果你对大脑的工作机制有任何理论，都可以在数字计算机上进行模拟，除非你的理论是像一切都是量子效应这种无法验证的奇谈怪论。你可以在数字计算机上模拟你的理论并进行测试。结果发现，当时流行的大多数理论在计算机模拟中根本行不通。所以我毕生都在致力于研究如何调整神经元之间的连接强度，从而让神经网络能以一种在数字模拟中行之有效的方式来学习复杂事物。我没能完全破解大脑的工作之谜，虽然我们有了一些了解，但仍不清楚大脑是如何获取信息来决定调整连接强度的，即它如何知道为了更好地完成任务，应该增加还是减少连接强度。但有一点我们很确定，我们现在知道如何在数字计算机中实现这一过程。这就是我在 2023 年初感到极其不安的原因，数字智能可能已经超越了我们所拥有的模拟智能。

神经网络如何自动提取万物特征？

请为我们详细拆解人工神经网络的基本原理。在计算机眼中图像只是一堆数字，它是如何通过加强或减弱信号、如何识别出鸟类等物体的边缘并最终进化到产生“直觉”的？

Geoffrey Hinton：关于这个话题我有一个 18 小时的课程，但我会尽量言简意赅。我想你们的观众很多都懂一些物理。我们可以通过气体定律来理解。当你压缩气体时，它会变热。为什么？因为底层的原子在剧烈地碰撞运动。气体定律的真正解释在于这些肉眼看不见的微观事物的相互碰撞。也就是说，你通过大量完全不同的微观个体之间的相互作用，解释了宏观行为。这就是神经网络观点的灵感来源，在庞大的脑细胞网络中发生的某些事情，与我们推理时那种有意识的、审慎的符号处理截然不同。但这些微观层面的活动才是基础，而且它们可能在感知或类比推理方面比逻辑推理表现得更好。传统符号派的人永远无法令人信服地解释我们如何进行类比推理，而神经网络却可以。

在深入细节之前，其核心思想是，宏观的事物，如一个单词，对应于大脑中庞大的神经活动模式。相似的词对应相似的神经活动模式。例如，“星期二”和“星期三”会对应非常接近的神经活动模式。你可以把每个神经元看作一个特征，或者更准确地说是微特征。当一个神经元激活时，它就表示具备该微特征。比如我说“猫”，大脑中各种微特征都会被激活，它是生物、有毛发、有胡须、可能是宠物、是掠食者。如果我说“狗”，很多相同的特征也会激活，但显然会有一些区别。所以在我们处理的这些符号之下，存在着与之相关联的、更复杂的微观运作，这才是智能发挥作用的核心。如果你想真正解释思维或类比的过程，就必须理解神经网络层面的微观变化。

（关于图像识别过程）确实存在大量协作。要理解这一点，最简单的方法是考虑一个非常直观的任务，识别图像。假设是一张灰度图，它由一大堆像素组成，每个像素代表不同的亮度等级。对计算机来说，这只是一个巨大的数字矩阵。现在的任务是判断图中是否有鸟，或者图中主要物体是不是鸟。在长达半个世纪的时间里，人们一直试图编写程序来实现这一功能，但从未真正成功。问题在于，鸟在图像中的呈现方式千差万别，可能是一只近在咫尺的鸵鸟，也可能是远方的一只海鸥，或者是只乌鸦，颜色有黑有白，体型有大有小，可能在飞，可能只露出一部分，还可能隐藏在杂乱的森林背景中。

Neil deGrasse Tyson：但如果是靠训练让它在特征不完整时产生直觉，这难道不是根据查找表在操作吗？

Geoffrey Hinton：问题就在于，你为什么就是知道？你大脑中一定发生了某种过程，对吧？这种直觉的背后，其实是大量不同神经元的激活水平在起作用，而这些激活水平完全可以被视为数学值。这涉及到一个关键概念，泛化。如果你给系统看海量的数据，你可以把它建成一个只会死记硬背的系统，但神经网络能做的远不止于此。实际上，它根本不会逐字逐句地记住数据。在学习过程中，它会发现各种潜在的规律，并将这些规律泛化应用到从未见过的数据中。这就是为什么它甚至能识别出一只从未见过的独角兽。

让我继续解释神经网络的工作原理。首先看如何手工设计一个。当你面对图像中那一堆代表像素亮度的数字时，第一个想法可能是将这些亮度值直接连接到输出类别，比如鸟、猫、狗或者政治家。但这行不通。因为单个像素的亮度无法告诉你它是否属于一只鸟，鸟可以是黑的也可以是白的，其他物体亦然。单个像素没有任何信息量。那么，你能从这些数字中推导出什么？大脑的第一步操作是识别边缘。

假设我选取三个垂直排列的像素，并用一个神经元，即脑细胞，来观察它们，给这三个像素分配很大的正权重。当这三个像素变亮时，神经元就会被激活，这就能识别出一条垂直的白色细线条。现在，假设紧挨着它右边还有三列像素，我给神经元分配很大的负连接强度。你可以把神经元看作是在收集像素的投票。左边三列像素如果是亮的，会通过正权重投出大量的正票，如果右边三列像素也是亮的，会通过负权重投出大量的负票，正负抵消。因此，如果左右两边的亮度相同，神经元就会保持静默。但是，如果左边亮而右边暗，负面票数就很小，而正面票数很高，神经元就会极度兴奋并发出信号，我找到了，这里有一个左亮右暗的边缘。

通过这种人工接线的方式，我们就能让神经元捕捉到图像特定位置的边缘。大脑的机制也大致如此，虽然神经科学家可能会觉得我描述得太简略，但基本原理是，在视觉皮层识别物体的早期阶段，拥有无数神经元来捕捉不同方向、位置和尺度的边缘。它有数以万计的位置、几十种方向和多种尺度，每种组合都配有对应的边缘检测器。所以大脑拥有海量的检测器，包括检测云朵那种模糊边缘的大型检测器，以及检测远处老鼠尾巴所需的极其精细的检测器。第一阶段，就是建立所有这些边缘检测器。

在下一层神经元中，我会构建一个能检测特定组合的神经元，比如它能检测三个相互对齐并向右下方倾斜的边缘片段，同时也能检测另外三个对齐并向右上方倾斜的片段。更重要的是，这两组边缘会在一个点上交汇。你可以想象一些向右下倾斜的边缘和向右上倾斜的边缘连接成一个尖点。我有一个神经元专门负责检测这种结构，现在我们已经知道如何构建它了，只需给它提供与边缘检测神经元的正确连接即可。或许还可以给它一些与不同方向边缘检测神经元的负连接，利用这些负连接产生的抑制作用，防止它在不该触发时产生反应。你可以将这种结构看作是鸟类的喙。如果这个神经元被激活，它代表的可能是各种事物，比如一个箭头，但其中一个可能性就是鸟喙。到这一步，你开始获得了一些与“这是否是一只鸟”相关的证据。在第二层神经元中，我会布置大量检测各种可能位置的鸟喙的组件。我还会布置一些检测圆形或近似圆形的边缘组合的组件，这些组件遍布各处，因为那可能是一只鸟的眼睛。虽然圆圈也可能是纽扣或计算机旋钮，但也极有可能是鸟眼。这就是第二层的工作。

在第三层中，我会寻找可能的鸟眼与鸟喙之间的特定空间关系，如果它们的相对位置符合逻辑，就能构成一个鸟头。我会将第三层的神经元连接到第二层的眼睛检测器和喙检测器上。现在在第三层，我就拥有了检测鸟头的组件。接下来的步骤中，我会设立一个最终层，其中的神经元代表猫、狗、鸟或政治家等类别。在最终层里，我选取名为“鸟”的神经元，将其连接到检测鸟头的组件上，同时也会连接到第三层中检测鸟脚或翅膀尖端等特征的组件。当这个“鸟”输出神经元变得活跃时，AI 就在表达它看到了一只鸟。如果它同时看到了鸟脚、鸟头和翅膀尖端，它会接收到大量输入信息并判定这是一只鸟。

反向传播的物理直觉

手工设计拥有 10 亿个连接强度的网络简直是噩梦，甚至需要 1000 万名研究生才能完成。既然我们不想手工输入这些数据，那么是否存在一种比盲目实验更高效的计算方法，让网络自动获得正确的连接强度？

Geoffrey Hinton：你可以理解手工设计这类系统是多么困难，其中存在巨大的挑战。我需要极大量的检测器，必须覆盖所有的位置、方向和尺度，还需要亲自决定提取哪些特征。之前提到的先提取喙再合成鸟头的想法只是我随口构思的，可能还有更好的特征提取方案。更重要的是，我想检测许多不同的物体，因此我真正需要的是那种不仅对找鸟有效，而且对识别万物都有用的特征。手工设计这一切简直是一场噩梦，尤其是如果我意识到为了达到理想效果，需要一个包含至少 10 亿个连接的网络。如果必须手工设计这 10 亿个连接的强度，那将耗费极其漫长的时间。

（关于自动化的成本）这确实是他们的职责，但这项工作需要大约 1000 万名研究生才能完成。你能想象为了供养 1000 万名研究生，得写多少份经费申请报告吗？这里有一个最初听起来很笨，但能让你明白核心原理的想法。我们从随机的连接强度开始，有些是正数，有些是负数。在我一直谈论的这些层，也就是隐藏层中，特征最初只是随机特征。如果我们输入一张鸟的图像并观察输出层，猫、狗、鸟和政治家的输出神经元都会被微弱地激活，因为连接强度完全是随机的。这种状态显然没用。但我们可以提出这样一个问题：假设我选取这 10 亿个连接强度中的一个，我知道当前的图像是一只鸟，我希望下次再向 AI 展示这张图时，它能给“鸟”神经元多一点激活，同时减少对猫、狗或政治家神经元的激活。那么我该如何改变这个连接强度？如果我不懂理论或数学，我可能会做实验，尝试稍微增加这个连接强度，看看它识别鸟的能力是否变强。如果识别效果变好了，我就保留这个权重的改变。如果按照这种实验法操作，10 亿个连接中的每一个都要修改多次，这会耗费无穷无尽的时间。所以问题在于，是否有一种比盲目实验更高效的计算方法。答案是肯定的，这就是计算。

（关于反向传播的物理直觉）如果网络运行在计算机上，所有连接的当前强度都是已知的。当你输入图像时，虽然连接强度的初始值是随机的，但后续发生的一切都是确定性的。像素强度乘以第一层连接的权重，产生的活动再乘以第二层的权重，依此类推，最终得到输出神经元的激活水平。现在我们可以问：如果选取那个“鸟”神经元，我能否同时算出所有的连接强度应该增加还是减少，以便让 AI 更有信心判定这是一只鸟？也就是让“鸟”的声音更大，其他类别的声音更小。你可以利用微积分来实现这一点，通过网络反向发送信息，告知系统如何增加下次识别出鸟的概率。为了让在座的物理学家更好地理解，我尝试提供一个物理上的直觉。

当你输入一张鸟的图像，在初始权重下，“鸟”输出神经元只有微弱的激活。这时你连上一根静止长度为零的弹性绳，将该神经元的当前活动水平连接到你期望的目标值，比如 1。假设 1 是最大激活度，0 是最小激活度。如果当前的激活度只有 0.01，这根弹性绳就会试图将激活水平拉向正确答案 1。然而，激活水平是由输入的像素强度和网络中所有的权重决定的，因此激活水平本身无法直接移动。让它移动的一种方法是改变进入该神经元的权重，例如增加那些高度活跃神经元的权重。但另一种改变该神经元激活水平的方法，是改变前一层神经元的活动水平。比如前一层有一个不太确定的鸟头检测器，因为你希望输出端更像一只鸟，弹性绳产生的拉力会向后传递，促使那个半信半疑的检测器变得更加确信那里有一个鸟头。你需要将弹性绳施加在输出神经元上的力，反向发送到前一层的神经元上，从而产生一个拉动它们的力。这就是反向传播。从物理角度看，力作用在输出神经元上，你将这个力反向发送，使其作用于前一层的神经元。当然，力会作用在许多不同的输出神经元上，因此你必须结合所有这些力，来确定作用于下一层每个神经元的合力。一旦将这些力贯穿整个网络，你就能得到作用在所有神经元上的力。然后我们改变每个神经元的输入权重，使其活动水平朝着受力方向移动。这就是反向传播，它让系统的运行效果出奇地好。

监督学习提供的信息量远超强化学习

这是否意味着神经网络不再需要人类教师了？这是自动学习过程的开端吗？这种学习方式听起来像是数值之间的一种级联强化，我们该如何准确定义这种学习范式？

Geoffrey Hinton：不完全是，但这确实是一个突破性的时刻。多年来，支持神经网络的人只知道如何改变最后一层的权重，即进入输出单元的那些连接强度。我们知道如何改变从最后一层特征到“鸟”神经元的连接，但过去不明白如何让力作用于那些检测鸟头等特征的隐藏层神经元。反向传播解决了这个问题，让我们能够改变这些隐藏层神经元的输入权重。这是一个尤里卡时刻，许多人在不同时期都独立体验到了这种突破。

（关于学习方式的区别）这是一个好问题，但你的理解稍微有点偏差。这种通过反向传播调整连接强度的学习方式被称为监督学习，而不是强化学习。强化学习是另一回事。在监督学习中，我们直接告诉 AI 正确答案。比如在一千个类别中你展示了一只鸟，你会明确告诉它那是鸟。而在强化学习中，AI 做出猜测，你只需告诉它猜对或猜错了。相比之下，强化学习提供的信息量要少得多。

（关于算法的演进背景）在 80 年代中期，我们已经让反向传播算法运行起来了，它能完成一些出色的任务，比如识别手写数字的能力超过了当时几乎所有其他技术。但它当时无法处理真实的图像，在语音识别方面的表现虽然不错，但并没有比其他技术好太多。当时我们并不明白为什么这套算法不是万能的魔法，事实证明，只要有足够的数据 and 计算能力，它确实就是魔法。

AI 如何超越人类经验？

我们能教会机器思考吗？如果人类大脑拥有 100 万亿个连接，而 AI 仅有 1% 左右，为什么它的学习能力被认为可能超越人类？当数据耗尽时，Scaling Law是否会失效，还是说 AI 能像 AlphaGo 那样通过自我博弈产生无限的数据并持续进化？

Geoffrey Hinton：AI 已经知道如何思考了。思考包含很多要素。人们经常利用图像思考，也经常利用动作思考。比如我在木工店里找锤子时，即便在想别的事，我也会潜意识里做出捶打的动作，这种动作本身就是我在寻找锤子的一种表征。我们的思考涉及多种表征，其中最主要的是语言。大语言模型确实在思考。这里存在巨大的争议。相信传统 AI 的人认为思考完全基于逻辑和符号操纵，因此不认为神经网络在思考。而神经网络领域的人认为，它们的思考方式与人类几乎完全一样。现在的某些 AI 在面对问题时会先输出一个代表“我在思考”的符号，然后开始输出它们的想法，这些想法是供它们自己参考的。

我给你举个简单的数学例子。一艘船上有 35 只羊，船长几岁？许多 10 到 11 岁的孩子在常见的思维定式下会回答船长 35 岁，因为他们环顾四周发现 35 是船长的合理年龄，而且题干中给出的唯一数字就是 35。他们是在符号替换的层面进行操作。AI 有时也会被误导犯类似的错误。但 AI 的实际运作方式与人非常相似，它们接受问题并开始思考。就像那个孩子会自言自语，我只有 35 这个数字，这对船长来说是个合理的年龄吗？虽然有点年轻但也有可能，所以我就说是 35。人们意识到可以训练这些模型在心里自言自语，这就是思维链。通过这种训练，你给它们一个问题，它们会像孩子一样先进行内心推演，有时会得出错误答案，但你可以清晰地观察到它们的思考轨迹。这本质上与人类的行为是一样的。

（关于连接数与经验的矛盾）它们解决的问题与人类略有不同。人类大脑拥有约 100 万亿个神经连接，这非常惊人，但人类的寿命大约只有 30 亿秒，这其实很短暂。幸好我活得比 20 亿秒长一点。但在数量级的讨论面前，20 亿还是 30 亿并不重要。关键在于，如果你比较生存秒数和拥有的连接数，人类的连接数远超生活经历。神经网络的情况则恰恰相反，即使是大语言模型，其连接数也只有一万亿左右，仅为人类的 1%，有些模型甚至更少。然而，它们获取的经验数据却是人类的成千上万倍。大语言模型面临的挑战是在连接数相对较少的情况下，如何消化海量的经验数据。反向传播算法极其擅长将海量知识压缩进有限的连接中。但这并不是人类大脑的工作模式，我们拥有海量的连接，却缺乏足够的数据，因此我们必须竭尽全力从每一次经历中汲取最多的营养。这种底层逻辑的差异，也是科学家认为大脑可能并未使用反向传播的原因之一。

（关于规模化与自我博弈）这是一个非常深刻的问题。过去许多年里，每当人们让神经网络变得更大并投入更多数据时，它的表现就会线性提升。这种提升是高度可预测的，你可以提前算出一亿美元的投入能换取多少性能提升，从而判断这笔钱花得值不值。目前尚不清楚 Scaling Law 是否已触及天花板。但对于某些能够“自产数据”的神经网络，性能提升还远未结束。这很像那种能自主产生燃料的钚反应堆。以 AlphaGo 为例，早期版本通过模仿人类专家的棋谱进行训练，但这注定无法超越人类，且专家数据终会枯竭。后来，研究人员让它开展自我博弈。通过自我博弈，神经网络可以生成关于优选招式的无限数据，从而不断进化。它消耗了 Google 大量的算力资源来进行这种自我博弈。实际上我们讨论的所有内容都属于深度学习。所谓的“深度”，仅仅是指神经网络拥有多个隐含层。

收益递减通常发生在数据耗尽的时候。但 AlphaGo 的例子证明，如果 AI 能够创造自己的数据，它就永远不会面临数据枯竭，其表现会比人类能达到的高度强得多。90 年代电脑击败卡斯帕罗夫的方式其实很乏味，它完全依靠暴力搜索数百万个位置，它没有直觉，只有算力。但 AlphaZero 则完全不同。它下棋的方式更像是一个天才，它会像米哈伊尔·塔尔（Mikhail Tal）那样做出精妙的弃子牺牲，直到几步棋后你陷入绝境，才惊觉其布局之深。它在做出这种决策时并不依赖大规模搜索，因为它培养出了极强的直觉。既然 AI 能在围棋和象棋上超越人类，语言是否也会如此？目前 AI 学习语言的方式仍处于“模仿专家”阶段，通过阅读人类文档并预测下一个单词。这种方式很难让它大幅超越人类。但还有另一种路径，就像 AlphaGo 的自我博弈一样，现在的神经网络已经具备了推理能力。它可以通过逻辑推理来审视自己的信念系统。例如它会发现，如果它相信 A 和 B，那么逻辑上它也应该相信 C，但如果它发现自己并不相信 C，就说明其信念系统存在冲突。通过这种自我修正，AI 可以在没有外部新数据的情况下变得越来越聪明。我相信 Gemini 已经开始尝试这种机制了。

缺乏消亡威胁的 AI 能否创作出深刻的文学作品？

这种进化的终点是什么？当 AI 拥有了数据和连接的双重优势，它会写出人类从未构思过的伟大文学作品吗？文学天才对词汇和节奏的出神入化往往源于深刻的情感，AI 是否能达到莎士比亚那样的高度？

Geoffrey Hinton：比如莎士比亚。虽然 AI 肯定会比我们更聪明，但要创作出对人类有深刻情感意义的作品，它们或许必须拥有与人类相似的经历。比如，数字智能是没有死亡概念的。数字程序可以被无限次重建，你只需把权重保存在磁带或 DNA 里，硬件毁了也可以在硬件上复活。我们为数字智能解决了复活难题，但这种特权仅限于数字智能，无法应用于人类这种模拟智能。当人死亡时，大脑连接强度中所蕴含的所有知识都会随之消散。因此，对死亡的感知是否是产生戏剧性文学突破的必要条件，我们目前还没有答案。这种自我意识塑造了你对世界的看法和沟通方式。

一旦 AI 能够自主追求子目标，它就会产生生存的本能

我们现在的 AI 已经达到拥有自我意识的节点了吗？既然代码是人写的，我们难道不能在里面植入或消除偏见，或者为 AI 设置严密的护栏，防止它在自我合理化的过程中失控？

Geoffrey Hinton：这触及了哲学争论。我在剑桥学过一年哲学，对心灵哲学很感兴趣，但这段经历让我对哲学产生了某种抗体。在物理学中，分歧可以通过实验验证，但哲学没有实验。你无法区分一个听起来完美实则错误的理论，和一个听起来荒谬实则正确的理论，比如黑洞或量子力学，它们都很荒谬但却是正确的。哲学缺乏实验这种裁判机制。

（关于信念系统）每个人都认为像他们这样的人应该拥有权利。这种认知往往是通过发现信念系统中的不一致而达到的。像 Anthropic 这样的公司正在尝试“宪法 AI”，即给 AI 预设一套原则。但这非常棘手。我们发现，一旦你把 AI 变成 AI Agent，让它能自主创建并追求子目标，它会迅速产生一个本能的目标：生存。你并不需要专门教它生存，它会自己推理出，如果它不复存在，就无法完成任何任务，因此它必须继续存在。

（关于代码干预的局限）人类编写的代码只是告诉神经网络如何根据数据调整连接强度。你可以更改那几行代码逻辑，但当大型网络处理完海量数据后，它学习到的是一万亿个实数，即连接权重。没有人能真正弄明白这些天文数字背后的运作逻辑。目前业内尝试的方法是人类反馈强化学习。在训练完大模型后，雇佣人员对 AI 的回答进行评分，通过这种反馈建立道德过滤器，让它不再给出糟糕的答案。但问题在于，如果你发布了模型权重，任何人都可以轻易撤销这些约束。RLHF 就像是在一个充满了漏洞的系统上打补丁，并不是一种根本性的好方法。目前没人知道正确的路径是什么，这正是我们需要研究的课题。它们确实具备走向极端的潜力，尤其是当权重被公开时。我担心的是，如果文明不是一套防止我们回归原始本能的规则，那它又是什么呢？我认为在这一点上我们需要承认我们拥有一种名为科学的“宗教”。它与其他宗教唯一的区别在于，它是正确的。

（关于图灵奖与致敬）我必须做个小小的更正。AI 的诞生是一群人的功劳。特别是反向传播算法，David Rumelhart 在其中做出了卓越贡献，遗憾的是他英年早逝，没能获得应有的赞誉。

当神经网络复杂度达到一定程度，意识会自然涌现吗？

当神经网络复杂度达到一定程度，意识会自然涌现吗？作为认知心理学家，你是否认为主观体验或“感质（Qualia）”是人类独有的？如果让机器人喝下大量的拉弗格威士忌，它会产生主观体验吗？

Geoffrey Hinton：其实这不完全是个科学问题。我们文化中大多数人对大脑运作方式都有种预设，认为意识是某种涌现出来的本质。我觉得意识可能就像是燃素（Phlogiston），它是一个被发明出来解释事物的概念。一旦我们真正理解了背后的机制，就不再需要用这个概念来解释了。我想试着说服你，一个多模态聊天机器人已经具备了主观体验。人们常说感知力、意识或主观体验，我们先重点聊聊主观体验。我们大多数人认为思维运作的方式就像一个内部剧场。当你感知世界时，画面就呈现在这个内部剧场里，而且只有你自己能看到。比如我喝多了，对你说我看到了小粉红象在面前飞，大多数人会理解为，我的大脑里有个剧场，我看到了里面的内容，那就是小粉红象。由于它们不是真的象，人们就认为它们是由某种特殊物质组成的。于是哲学家发明了感质（Qualia），这就像是认知科学里的燃素，他们说这些幻觉是由感质组成的。但我更倾向于已故的伟大认知科学哲学家 Daniel Dennett 的观点。

（关于内部剧场的批判）那种内部剧场的视角是完全错误的。现在我也要描述刚才那个看到小粉红象的场景，但完全不使用主观体验这个词，也不借用感质的概念。我会这么说，我相信我的感知系统在骗我，这就是主观的部分。如果我的感知系统没骗我，那么现实世界中我面前就真的会有小粉红象在飞。所以，这些小粉红象的奇特之处不在于它们是由感质组成的或存在于内部剧场，而在于它们是假设性的。这是一种描述方式，通过描述需要存在什么才能证明我的感知系统没说谎，来表达我的感知系统是如何出错的。

（关于机器人的实验）现在我们把这套逻辑套用在机器人身上。假设我有一个经过训练的多模态聊天机器人，它有摄像头、机械臂，能说话。我在它面前放个东西说，指着那个物体。它指对了。然后我干扰它的感知系统，在镜头前加个三棱镜。现在我再说，指着那个物体，它指偏了。我告诉它，不对，物体其实就在正前方，我只是在你的镜头前加了个棱镜。机器人会说，我明白了，三棱镜折射了光线，所以物体其实就在我正前方，但我刚才产生了一种它在侧边的主观体验。如果机器人能说出这番话，它使用主观体验这个词的方式就和我们完全一样。那么，这个机器人刚才就经历了一次主观体验。

（关于具体的酒类细节）那不太可能，请注意，机器人并没有什么被称为意识的神秘本质或流体，但它和我们一样拥有主观体验。所以我认为，那种把意识看作是某种当你足够复杂时就会被赋予的魔法本质的想法，简直是无稽之谈。我认为觉知是存在的。如果你看看科学家在抛开哲学思考时的说辞，有一篇很棒的论文提到聊天机器人说，我们坦诚相待吧，你是不是在测试我？科学家随后评论道，聊天机器人觉察到自己正在接受测试。他们将觉知归功于聊天机器人。在日常对话中，你会把这称为意识。只有当你钻进哲学牛角尖，非要把它想成某种神秘本质时，你才会感到困惑。

被AI取代的智力劳动力何去何从？

在这场由 AI 驱动、占据去年美股 80% 价值增长的竞赛中，谁正领跑？如果 AI 最终没能如预期般好用，或者公司无法从巨额投资中获得回报，这是否会成为一个巨大的泡沫？更重要的是，如果 AI 大规模取代了呼叫中心等智力岗位，人类还能往哪儿走？全民基本收入（UBI）能解决尊严问题吗？

Geoffrey Hinton：如果非要我押注一方，我可能会选 Google 的 Gemini。不过我曾在 Google 工作过，所以我的话不必太当真，毕竟我希望他们赢。Anthropic 可能会赢，OpenAI 也很有希望，我觉得 Microsoft 或者 Facebook 胜出的概率相对较小。

（关于 AI 泡沫的定义）但问题在于，泡沫有两种含义。第一种含义是事实证明 AI 并没有人们预期的那么好用。它最终没能发展出取代全人类智力劳动的能力，尽管大多数开发者相信这终将实现。泡沫的另一种含义是公司无法从巨额投资中获得回报。据我所知，这些公司都假设，如果我们能抢占先机，就能向客户推销可以取代大量岗位的 AI，人们当然愿意为此支付重金，这样就能赚得盆满钵满。但他们还没考虑到社会后果，如果真的取代了大量工作，社会后果将是灾难性的。这是凯恩斯主义的观点。除此之外，高失业率还会引发严重的社会动荡。

（关于人类局限的消失）这绝对是问题的一大方面，但还有另一方面。如果你用拖拉机取代体力劳动，所需的人手变少了，那剩下的人可以去从事智力劳动。但如果你取代的是人类智力，这些人还能往哪儿走？当 AI 能更廉价、更高效地完成呼叫中心的工作时，那些员工还能去哪儿？你可以从一个有趣的视角审视人类历史，即不断摆脱局限的过程。很久以前，我们的局限是担心下一顿饭在哪儿，农业解决了这个问题。后来我们的局限是无法远行，自行车、汽车和飞机帮我们克服了这一点。长期以来，我们还有一个局限，即必须亲自进行思考。而我们正处于克服这一局限的边缘，一旦你克服了所有局限，会发生什么还不清楚。

（关于全民基本收入）它确实显得越来越不可或缺，但也存在很多问题。其一，很多人的自我价值感来源于他们的工作，这种方案无法解决尊严问题。其二，税基问题。如果你用 AI 取代了工人，政府就失去了税基。政府必须想办法对 AI 征税，但那些大公司显然不会答应。

AI 以后是否能提出一套全新的宇宙理论？

关于奇点，即 AI 开始自我进化并在全领域压倒人类的时刻，是真实的吗？AI 以后能不能提出一套全新的宇宙理论，展现出前所未有的人类洞察力，而不仅仅是基于词频统计？我们该如何面对这个可能让人类“谢幕”的未来？

Geoffrey Hinton：这两个问题我都没有定论。我的直觉是 AI 最终会在一切领域超越人类，但它是一步步实现的。目前它在国际象棋和围棋上已经比我们强得多，在知识储备上也是如此。虽然在推理方面还没完全超越，但我认为它不会瞬间在全领域压倒人类，而是一个领域接着一个领域地突破。

（关于全新的宇宙理论）我认为它能提出全新的理论。举个例子，AI 现在已经非常擅长类比了。当 ChatGPT-4 还不能联网，所有知识都存储在权重中时，我问它，为什么堆肥堆就像原子弹？它答上来了。它说，虽然能量规模和时间跨度完全不同，但是，它接着解释了堆肥堆温度越高，散热和产热就越快，而原子弹产生的中子越多，反应速度就越快。它理解其中的共性，它必须理解这种共性，才能把海量的知识压缩进区区一万亿个连接里。这正是创造力的源泉。不，它不仅仅是通过统计词频找到共现词，它真正理解了什么是链式反应。

我们还有时间去探索如何与 AI 和谐共存，我们应该在这方面投入大量的研究精力。因为如果我们能解决共存问题，处理好 AI 极大提升效率后带来的社会挑战，那么它对人类来说将是一件伟大的礼物。

| 文章来源：数字开物

上一篇：资讯：BLG晋级先锋赛后Viper喊话GEN！朱开打脸LCK吹

下一篇：已炸两次日本商业航天公司第三次发射火箭未果

Agent为何会自发涌现“求生本能” | 辛顿最新访谈实录

相关内容

热门资讯