斯坦福大学人类中心人工智能研究所(HAI)举办的一场研讨会汇聚了众多专家,共同探讨开发新的评估方法,以测量AI的隐藏能力,而不仅仅是其应试表现。
让人工智能创作一首十四行诗或求解复杂的微分方程,它能展现出惊人的能力,但与此同时,它也可能坚称2.11大于2.9。
这些不协调且令人困惑的回答,促使一组AI研究人员——包括施密特科学中心AI研究所驻所研究员奥拉瓦莱·萨劳丁、斯坦福大学计算机科学助理教授桑米·科耶约,以及康奈尔大学信息科学助理教授安杰丽娜·王——在斯坦福人类中心人工智能研究所召开研讨会,讨论和辩论如何更好地测量AI的内在能力和特征。该研讨会由施密特科学中心和麦克阿瑟基金会资助。
"这项工作十分必要,因为我们经常在没有科学依据的情况下,将人类特征和相关行为强加到这些非人类系统上,"萨劳丁说。"AI模型很可能拥有与人类截然不同的一套行为解释特征,尽管它们可能会模仿人类行为。"
"更好的测量是实现更安全、更可靠的人工智能的关键,"科耶约解释道,"我们需要为AI系统建立一门测量科学,就像从物理学到学习科学等领域那样。但现在,这门科学还不存在。"
当前AI评估的问题
每次训练新模型时,都会对其进行一系列问题测试,并根据其回答的好坏进行评分。但这些问题无法评估AI那些难以测量的隐藏能力,如智能、逻辑和推理。尽管目前有数千个基准测试题库可用,但科耶约表示,大多数题库要么存在缺陷,要么无法胜任测量当今日益复杂的模型的微妙技能。
组织者表示,这次基准测试研讨会对AI的未来至关重要。它汇集了来自学术界、产业界、非营利组织和政策领域的专家,共同回答一个迫在眉睫的问题:"当我们对AI系统进行基准测试时,我们实际上在测量什么?"
他们更大的目标是激发整个领域的努力,开发一套稳健、准确和标准的基准测试,以测量AI对其所提供答案的理解程度。王将此与心理测量学进行了类比,心理测量学是心理学的一个分支,试图测量智能和推理等隐藏品质。
正如心理测量学测试人类学生是否理解数学背后的概念,而不仅仅是记忆答案,当前的AI基准测试只检查AI是否给出正确答案。它可能在测试中得"A",但却错过了更重要的要点。
"AI基准测试能很好地测试特定的客观任务和知识,但无法测试潜在的特征和能力,"王说。
借鉴心理测量学的方法
基于心理学和神经科学数十年的测量科学积累,此次基准测试研讨会旨在弥合AI领域的这一差距。与会者讨论了当前基准测试的质量和有效性,探讨了AI的潜在特征是否可以被测量,并辩论了推理等人类概念是否适用于AI。一些组织者已经开始创建"AI概念词典",作为为AI开发类似认知科学领域"认知图谱"的早期步骤——一个协作创建和管理的知识库,反映整个领域的最新和最佳思想。
"在其历史早期,心理学也面临着测量看似无法测量特征的类似挑战,"科耶约指出。"该领域发展出心理测量学,通过多项测试的模式推断'潜在特征'。AI需要类似的方法——从'AI能通过这个实际测试吗?'转向'这个测试揭示了AI的什么潜在能力?'"
萨劳丁以研讨会上的热门话题"同名异义与异名同义谬误"为例,这个术语借用自心理测量学,指两个不相关的概念因名称相同而被等同——即同名异义谬误;或者相反,两个相关的事物因标签不准确而被否定——即异名同义谬误。
他指出,诸如"常识"和"推理"等术语常用于描述AI的理解能力,但它们更可能仅反映AI识别模式或进行统计推断的能力。因此,将AI文本生成不协调地称为"创造性"或"智能"属于同名异义谬误的范畴,即使仅因AI缺乏"意识"而不公正地否定这些术语也是一种异名同义谬误。
王最喜欢研讨会上的一个环节叫做"共识光谱",它证明了困惑不仅存在于机器之间,也存在于科学家之间。在一次练习中,参与者通过走到房间的不同区域来实际定位自己,以显示对关于AI的故意有争议的"激进观点"陈述的相对支持或反对程度。
由人类组成的散点图揭示了一个严峻的事实——目前对于如何定义AI"推理"等概念,或者这样的概念是否作为AI系统的核心属性存在(使我们能够将广泛的行为归因于能够推理的系统),几乎没有共识。我们为人类概念化的推理可能与机器不兼容。
未来研究方向
研讨会接近尾声时,组织者概述了该领域的下一步计划。一个潜在成果是基于研讨会讨论和见解撰写一篇技术论文。此外,学者们将继续开发AI特征和术语图谱。
科耶约强调,这类研讨会的长期价值在于产生更可预测、更可靠的AI系统。"如果我们更好地理解这些工具,就能理解它们在各种环境中部署时的预期表现,"他说。更高的可预测性可能彻底改变AI模型在实际应用中的评估、优化和信任方式。
最终,研究人员一致认为,更好的AI测量的潜力远远超出学术范畴。它可能带来不仅更有能力,而且比过去更可靠、更透明的AI系统。这一进展可能加速开发安全、符合伦理且在多个领域更有益的AI技术。
在这样的背景下,研讨会迈出了重要的第一步:"努力以可能的方式统一该领域,在评估思维方面保持严谨和技术性,这令人兴奋,"王说。
"这个富有成效的过程帮助我们理解了应该测量什么,并开始理解如何测量,"科耶约补充道。"AI将因此变得更好。"
其他研讨会组织者包括:斯坦福大学研究生桑·张(Sang Truong)、麻省理工学院研究生张浩然,以及斯坦福HAI项目经理特雷西·纳维乔克。
Q&A
Q1:为什么AI能解决复杂方程却在简单数字比较上出错?
A:这反映了当前AI评估方法的缺陷。现有基准测试只检查AI是否给出正确答案,而无法测试其是否真正理解概念。AI可能只是识别模式或进行统计推断,而非真正掌握逻辑推理能力。这就像学生死记硬背答案却不理解原理一样。
Q2:什么是AI评估中的"同名异义与异名同义谬误"?
A:这是从心理测量学借用的术语。同名异义谬误指两个不相关的概念因名称相同而被等同,比如将AI的模式识别能力称为"推理"或"常识"。异名同义谬误则相反,指因标签不准确而否定相关事物,比如仅因AI缺乏意识就否定其所有智能表现。
Q3:如何建立更科学的AI能力评估体系?
A:研究人员提出借鉴心理测量学方法,从"AI能通过这个测试吗"转向"测试揭示了AI的什么潜在能力"。具体措施包括开发AI概念词典、建立类似认知图谱的知识库,以及创建能测量AI隐藏能力(如智能、逻辑和推理)的标准化基准测试体系,而不仅仅测试应试表现。