一场需要耐心的长期主义竞赛具身智能业内激辩三大核心问题_游戏资讯

一场需要耐心的长期主义竞赛具身智能业内激辩三大核心问题

创始人

2025-11-22 10:41:31

0次

来源：市场资讯

（来源：每日经济新闻）

11月20日下午，在智源2025具身开放日上，在多位技术负责人参与的BAAI具身模型会客厅讨论中，关于具身智能未来的共识远少于分歧。

世界模型是不是核心，具身智能是否会收敛到统一架构，语言是否应该退居次要，动作模型如何设计，数据从哪里来⋯⋯每一个问题都仍在探索之中。

但《每日经济新闻》记者注意到，另一种更深层的共识正在形成——具身智能的真正竞争不在概念，而在长期投入、真实落地与数据质量。

未来几十年，当机器人在真实世界中创造价值、积累经验、形成反馈时，或许才能孕育出具身智能的“ChatGPT时刻”。在此之前，这仍是一场需要耐心的长期主义竞赛。

图片来源：主办方供图

世界模型是万能钥匙？

当讨论具身智能的关键路径时，世界模型总是被提及，与世界模型的结合是不是未来具身智能发展的关键？

这个问题随着世界模型概念的模糊化，而在业内产生分歧。

北京大学助理教授、银河通用创始人王鹤认为，“世界模型”一词最早来自强化学习领域，指的是根据当前状态与所采取的动作，预测下一步状态变化的动力学模型。然而，在Sora等视频生成模型出现后，世界模型概念逐渐向用视频生成未来倾斜，这让它与具身智能所需的能力发生了偏移。

王鹤认为，视频生成模型并不能直接作为具身智能的通用解决方案。原因在于，机器人与人的身体差异巨大，即使训练出一个能想象人类如何操作世界的视频模型，也不能保证它对机器人同样有效。即便是当下最像人的人形机器人，其动作空间、灵巧度和执行方式都与人类存在不小差距，看起来像人做事，不等于机器人学会了做事。

但王鹤同时强调，对未来进行预测是具身智能不可缺少的一环，机器人必须能够根据未来目标倒推当前动作，并对环境变化保持前向与后向的推理能力。因此，具身世界模型是必要的，但它必须根植于真实机器人数据，才能有真正属于机器人的世界模型诞生。

智源研究院院长王仲远认可世界模型对具身智能未来发展的重要性。他指出，当下业界对世界模型并无统一定义。“如果世界模型仅仅指视频生成（Video Generation），那显然不够。”真正对具身智能有意义的是能够根据过去的时空状态，准确预测“下一时刻状态”，并据此规划动作的模型，这种预测是基于前序的时空状态和现场环境上下文，进而给出的精准决策。

王仲远举例称，自己回答问题时，要基于前一位嘉宾的发言内容以及现场环境，做出“拿起话筒”这一决策。这才是机器人需要的世界模型，不仅仅是生成几秒钟后的画面，而是要基于对环境的理解，给出一个准确的步骤动作和响应。

具身智能会否收敛到统一架构？

在大语言模型时代，Transformer架构（一种基于自注意力机制的神经网络架构）一统天下。具身智能领域是否会收敛到一个统一的架构？是否会出现属于机器人的“具身Transformer”？

中国科学院大学教授赵东斌给出了一种可能性。他表示，目前Transformer在具身智能领域的应用已经带来了显著的性能提升，例如近期Physical Intelligence发布的π*0.6模型，利用强化学习获取数据链，能够在叠衣服、装盒子等多个任务中实现通用。他认为，随着技术演进，模型架构可能会收敛到单一模型，或者呈现多样化但核心统一的态势。

此外，大部分嘉宾则对于技术路线的收敛持认可态度。在此基础上，如果具身智能最终会收敛到一个统一架构，那么这个“具身Transformer”的技术路径在哪里？

招商局集团AI首席科学家张家兴认为，当下大模型的发展逻辑难以直接迁移到具身智能。“过去三年形成的LLM（Large Language Model，大语言模型）与VLM（Vision-Language Model，视觉语言模型）等结构，是以语言为中心，而语言在人类执行动作时并不参与。”他举例称，人类开车时不会在大脑中不断语言化动作指令，因此语言作为中间层的VLA架构（视觉语言动作模型，Vision-Language-Action），其本质与机器人需要的结构不一致。

张家兴提出，具身智能需要一个完全属于机器人自身的智能结构，而不是从现有VLA体系延展出来的产物。现阶段，他认为真正的具身架构还未出现，业界正在等待一个来自基础大模型领域的突破性创新，类似当年Transformer论文那样。这种创新将有可能弱化语言在模型中的中心地位，让模型以行动和视觉作为驱动核心。

与张家兴的视角类似，清华大学助理教授、星海图联合创始人赵行认为，视觉是世界上最通用的感知传感器，具身智能的基础模型应当遵循生物进化规律：先有运动和视觉，最后才诞生高级语言智慧。因此，理想的模型顺序应该是Action First（动作优先），然后Vision（视觉），最后Language（语言）。

赵行强调了一个关键差异：具身模型是一个闭环系统。语言模型是一问一答的开放系统，而具身模型需要“动作—反馈—再次动作”的实时循环，其核心是持续的环境交互。它必须从世界反馈中修正自己的策略，而不是完成一次思考后给出单一答案。

智元机器人合伙人、首席科学家罗剑岚在此基础上进一步扩展了闭环系统的结构组成。他认为，未来一定会出现闭环一致的“具身Transformer 系统”，但未必是单一模型，而更可能是由视觉（V）、语言（L）、动作（A）等模块共同构成的系统。“VLA 的趋势是对的，但最终形态不会是今天这个样子。”真正的质变可能需要等到具身智能互联网形成，即成千上万台机器人在真实场景中解决具体问题，累积海量数据后，才能催生出真正的统一系统。

在架构探索之外，动作输出端的不成熟也是当下具身智能无法收敛的重要原因。王鹤指出，目前行业在动作输出上尚未收敛，存在大量基于概率匹配的方法，这类方法虽然适合处理连续变量，但为端到端的深度强化学习埋下了隐患，如何对概率模型应用策略更新是尚未解决的问题。

王鹤认为，短期内行业需依赖仿真环境和合成数据来探索动作优先的架构，因为目前全球仅有约一千台人形机器人在运行，数据量远不足以支撑新架构的探索。“长期来看，地球上人形机器人的数量必须保持长期高速增长，只有这样，它们的能力才能同步提升，而反过来，能力的增长又会进一步推动数量增长，最终才能孕育出真正强大的模型。”

自变量创始人、CEO王潜则认为，是否叫Transformer并不重要，Transformer 更像盖楼的钢筋，真正决定楼是什么样子的，是建筑的结构设计。他强调，物理世界充满了语言和图像无法描述的精细摩擦与接触过程，因此必须建立一个独立于虚拟世界的、能够描绘复杂物理过程的基础模型。“可能十年后或者是五年后，可能反而是我们从物理世界中收集到的数据来做出来的多模态模型，反过来吞噬今天的一些基础模型。”

突破跨域数据瓶颈一定要用真实数据吗？

无论是否收敛到一个统一模型，对所有具身企业而言，一个共识正在形成：如果具身智能要走到“ChatGPT时刻”，必须先解决数据问题。

张家兴团队选择“高质量+低成本”的路线，以真实物理世界的探索数据为基础，并通过低成本的人类采集来构建数据金字塔的中间层，试图以最高效的方式夯实数据地基。

赵行则提出了数据采集的三个维度：真实性、多样性和规模化。他强调必须以真实机器人的素材为起点，且不能局限于实验室，必须深入真实场景。罗剑岚同样坚持真实数据路线，他认为，靠遥控操作采集数据只是起步，未来必须依靠大量部署在真实环境中的机器人，在自主交互中产生广泛数据，形成自我反馈和提升的闭环。

王仲远主张利用互联网上的海量视频数据作为基座模型的学习来源，这类似于人类儿童通过看视频认识世界。在此基础上，再通过真机采集的数据进行强化学习和反馈，不断精进能力。

但亦有真实数据之外的探索路径。

王鹤在讨论中提到，全球规模化运行的人形机器人可能仅在千台级，甚至更少，如此小的机器人人口，远不足以支撑一个动作优先的基础模型。

王鹤认为，短期内行业必须依赖模拟环境与合成数据，这会比受限于真实机器数量的方式发展得更快。但长期来看，只有当机器人数量进入指数级增长，数据才可能形成正反馈循环，推动模型与能力共同演进。

加速进化创始人、CEO程昊认为，数据瓶颈的破解是一个螺旋上升的过程。目前极速进化多使用仿真数据以求速度，目标是为了让机器人具备落地能力，从而在真实场景中收集数据。当真实数据遇到瓶颈时，再回退到仿真环境中进行针对性训练。“机器人落地创造价值，价值驱动规模，规模反哺模型。”

在海量数据需求之外，王潜认为，自变量什么数据都在用，只是侧重点不同。互联网数据用于学习通用常识，仿真数据用于导航和探索，而真实的物理接触数据则是核心壁垒。

王潜提到，根本在于所有类型的数据都可以被利用，但真正的挑战在于：处理好任何单一类型的数据都相当困难。这背后涉及大量核心的工程问题，也正是团队日常工作的重点所在，同时这些难题也构成了行业的技术壁垒。

一个清晰的现实浮现出来：具身智能的未来并非由某一种技术突破决定，而是取决于架构创新、真实世界落地、机器人数量增长与高质量动作数据积累是否能同时发生。具身智能的发展路径比语言模型时代更复杂，也更漫长。

上一篇：交通运输部发布23个低空交通运输应用场景典型案例

下一篇：成都郫都区“牵手”智元机器人，将共建西南具身智能产业基地

一场需要耐心的长期主义竞赛具身智能业内激辩三大核心问题

相关内容

热门资讯

一场需要耐心的长期主义竞赛 具身智能业内激辩三大核心问题

相关内容

热门资讯

一场需要耐心的长期主义竞赛具身智能业内激辩三大核心问题