一场需要耐心的长期主义竞赛 具身智能业内激辩三大核心问题
创始人
2025-11-22 10:41:31
0

来源:市场资讯

(来源:每日经济新闻)

11月20日下午,在智源2025具身开放日上,在多位技术负责人参与的BAAI具身模型会客厅讨论中,关于具身智能未来的共识远少于分歧。

世界模型是不是核心,具身智能是否会收敛到统一架构,语言是否应该退居次要,动作模型如何设计,数据从哪里来⋯⋯每一个问题都仍在探索之中。

但《每日经济新闻》记者注意到,另一种更深层的共识正在形成——具身智能的真正竞争不在概念,而在长期投入、真实落地与数据质量。

未来几十年,当机器人在真实世界中创造价值、积累经验、形成反馈时,或许才能孕育出具身智能的“ChatGPT时刻”。在此之前,这仍是一场需要耐心的长期主义竞赛。

图片来源:主办方供图

世界模型是万能钥匙?

当讨论具身智能的关键路径时,世界模型总是被提及,与世界模型的结合是不是未来具身智能发展的关键?

这个问题随着世界模型概念的模糊化,而在业内产生分歧。

北京大学助理教授、银河通用创始人王鹤认为,“世界模型”一词最早来自强化学习领域,指的是根据当前状态与所采取的动作,预测下一步状态变化的动力学模型。然而,在Sora等视频生成模型出现后,世界模型概念逐渐向用视频生成未来倾斜,这让它与具身智能所需的能力发生了偏移。

王鹤认为,视频生成模型并不能直接作为具身智能的通用解决方案。原因在于,机器人与人的身体差异巨大,即使训练出一个能想象人类如何操作世界的视频模型,也不能保证它对机器人同样有效。即便是当下最像人的人形机器人,其动作空间、灵巧度和执行方式都与人类存在不小差距,看起来像人做事,不等于机器人学会了做事。

但王鹤同时强调,对未来进行预测是具身智能不可缺少的一环,机器人必须能够根据未来目标倒推当前动作,并对环境变化保持前向与后向的推理能力。因此,具身世界模型是必要的,但它必须根植于真实机器人数据,才能有真正属于机器人的世界模型诞生。

智源研究院院长王仲远认可世界模型对具身智能未来发展的重要性。他指出,当下业界对世界模型并无统一定义。“如果世界模型仅仅指视频生成(Video Generation),那显然不够。”真正对具身智能有意义的是能够根据过去的时空状态,准确预测“下一时刻状态”,并据此规划动作的模型,这种预测是基于前序的时空状态和现场环境上下文,进而给出的精准决策。

王仲远举例称,自己回答问题时,要基于前一位嘉宾的发言内容以及现场环境,做出“拿起话筒”这一决策。这才是机器人需要的世界模型,不仅仅是生成几秒钟后的画面,而是要基于对环境的理解,给出一个准确的步骤动作和响应。

具身智能会否收敛到统一架构?

在大语言模型时代,Transformer架构(一种基于自注意力机制的神经网络架构)一统天下。具身智能领域是否会收敛到一个统一的架构?是否会出现属于机器人的“具身Transformer”?

中国科学院大学教授赵东斌给出了一种可能性。他表示,目前Transformer在具身智能领域的应用已经带来了显著的性能提升,例如近期Physical Intelligence发布的π*0.6模型,利用强化学习获取数据链,能够在叠衣服、装盒子等多个任务中实现通用。他认为,随着技术演进,模型架构可能会收敛到单一模型,或者呈现多样化但核心统一的态势。

此外,大部分嘉宾则对于技术路线的收敛持认可态度。在此基础上,如果具身智能最终会收敛到一个统一架构,那么这个“具身Transformer”的技术路径在哪里?

招商局集团AI首席科学家张家兴认为,当下大模型的发展逻辑难以直接迁移到具身智能。“过去三年形成的LLM(Large Language Model,大语言模型)与VLM(Vision-Language Model,视觉语言模型)等结构,是以语言为中心,而语言在人类执行动作时并不参与。”他举例称,人类开车时不会在大脑中不断语言化动作指令,因此语言作为中间层的VLA架构(视觉语言动作模型,Vision-Language-Action),其本质与机器人需要的结构不一致。

张家兴提出,具身智能需要一个完全属于机器人自身的智能结构,而不是从现有VLA体系延展出来的产物。现阶段,他认为真正的具身架构还未出现,业界正在等待一个来自基础大模型领域的突破性创新,类似当年Transformer论文那样。这种创新将有可能弱化语言在模型中的中心地位,让模型以行动和视觉作为驱动核心。

与张家兴的视角类似,清华大学助理教授、星海图联合创始人赵行认为,视觉是世界上最通用的感知传感器,具身智能的基础模型应当遵循生物进化规律:先有运动和视觉,最后才诞生高级语言智慧。因此,理想的模型顺序应该是Action First(动作优先),然后Vision(视觉),最后Language(语言)。

赵行强调了一个关键差异:具身模型是一个闭环系统。语言模型是一问一答的开放系统,而具身模型需要“动作—反馈—再次动作”的实时循环,其核心是持续的环境交互。它必须从世界反馈中修正自己的策略,而不是完成一次思考后给出单一答案。

智元机器人合伙人、首席科学家罗剑岚在此基础上进一步扩展了闭环系统的结构组成。他认为,未来一定会出现闭环一致的“具身Transformer 系统”,但未必是单一模型,而更可能是由视觉(V)、语言(L)、动作(A)等模块共同构成的系统。“VLA 的趋势是对的,但最终形态不会是今天这个样子。”真正的质变可能需要等到具身智能互联网形成,即成千上万台机器人在真实场景中解决具体问题,累积海量数据后,才能催生出真正的统一系统。

在架构探索之外,动作输出端的不成熟也是当下具身智能无法收敛的重要原因。王鹤指出,目前行业在动作输出上尚未收敛,存在大量基于概率匹配的方法,这类方法虽然适合处理连续变量,但为端到端的深度强化学习埋下了隐患,如何对概率模型应用策略更新是尚未解决的问题。

王鹤认为,短期内行业需依赖仿真环境和合成数据来探索动作优先的架构,因为目前全球仅有约一千台人形机器人在运行,数据量远不足以支撑新架构的探索。“长期来看,地球上人形机器人的数量必须保持长期高速增长,只有这样,它们的能力才能同步提升,而反过来,能力的增长又会进一步推动数量增长,最终才能孕育出真正强大的模型。”

自变量创始人、CEO王潜则认为,是否叫Transformer并不重要,Transformer 更像盖楼的钢筋,真正决定楼是什么样子的,是建筑的结构设计。他强调,物理世界充满了语言和图像无法描述的精细摩擦与接触过程,因此必须建立一个独立于虚拟世界的、能够描绘复杂物理过程的基础模型。“可能十年后或者是五年后,可能反而是我们从物理世界中收集到的数据来做出来的多模态模型,反过来吞噬今天的一些基础模型。”

突破跨域数据瓶颈一定要用真实数据吗?

无论是否收敛到一个统一模型,对所有具身企业而言,一个共识正在形成:如果具身智能要走到“ChatGPT时刻”,必须先解决数据问题。

张家兴团队选择“高质量+低成本”的路线,以真实物理世界的探索数据为基础,并通过低成本的人类采集来构建数据金字塔的中间层,试图以最高效的方式夯实数据地基。

赵行则提出了数据采集的三个维度:真实性、多样性和规模化。他强调必须以真实机器人的素材为起点,且不能局限于实验室,必须深入真实场景。罗剑岚同样坚持真实数据路线,他认为,靠遥控操作采集数据只是起步,未来必须依靠大量部署在真实环境中的机器人,在自主交互中产生广泛数据,形成自我反馈和提升的闭环。

王仲远主张利用互联网上的海量视频数据作为基座模型的学习来源,这类似于人类儿童通过看视频认识世界。在此基础上,再通过真机采集的数据进行强化学习和反馈,不断精进能力。

但亦有真实数据之外的探索路径。

王鹤在讨论中提到,全球规模化运行的人形机器人可能仅在千台级,甚至更少,如此小的机器人人口,远不足以支撑一个动作优先的基础模型。

王鹤认为,短期内行业必须依赖模拟环境与合成数据,这会比受限于真实机器数量的方式发展得更快。但长期来看,只有当机器人数量进入指数级增长,数据才可能形成正反馈循环,推动模型与能力共同演进。

加速进化创始人、CEO程昊认为,数据瓶颈的破解是一个螺旋上升的过程。目前极速进化多使用仿真数据以求速度,目标是为了让机器人具备落地能力,从而在真实场景中收集数据。当真实数据遇到瓶颈时,再回退到仿真环境中进行针对性训练。“机器人落地创造价值,价值驱动规模,规模反哺模型。”

在海量数据需求之外,王潜认为,自变量什么数据都在用,只是侧重点不同。互联网数据用于学习通用常识,仿真数据用于导航和探索,而真实的物理接触数据则是核心壁垒。

王潜提到,根本在于所有类型的数据都可以被利用,但真正的挑战在于:处理好任何单一类型的数据都相当困难。这背后涉及大量核心的工程问题,也正是团队日常工作的重点所在,同时这些难题也构成了行业的技术壁垒。

一个清晰的现实浮现出来:具身智能的未来并非由某一种技术突破决定,而是取决于架构创新、真实世界落地、机器人数量增长与高质量动作数据积累是否能同时发生。具身智能的发展路径比语言模型时代更复杂,也更漫长。

相关内容

热门资讯

影石“连麦”腾讯背后:AI硬件... 来源:新京报 当下,一场看似无序的AI硬件跨界潮正在上演:阿里做AI眼镜,影石做无人机,大疆做扫地机...
深圳前海发布四大领域场景 科技日报讯(记者罗云鹏)记者12月15日获悉,在日前举办的2025前海·宝安“宝景创享”场景对接大会...
迈向自动驾驶:地平线技术生态大... 时代奔涌,风聚成潮。中国智能驾驶产业在经历了技术验证与场景探索后,正步入以“规模化商用”为核心命题的...
丝芭传媒回应鞠婧祎待遇和收入:... 12月16日,上海丝芭文化传媒集团有限公司官方微博@丝芭传媒发布“关于我司艺人鞠婧祎的事实阐述和声明...
原创 将... 前段时间,我们有个朋友在直播电商这个领域做了5年。他最近突然跟我们说,想转向做内容创作和电商的结合,...
2亿像素背后,藏着什么代价?厂... 在开头,我只想问一下各位小伙伴,你有没有这样的经历,平时去喜欢看演唱会或者某体育项目的赛事,如果有,...
一堂商学院的AI智能体课程纪实... 出品|虎嗅科技组 作者|陈伊凡 编辑|苗正卿 头图|中欧商学院提供 2025年12月12日,中欧国际...
《失落星船:马拉松》将于202... IT之家 12 月 17 日消息,索尼旗下游戏开发工作室 Bungie 在经历版权风波等事件后,本周...
豪威科技推出专为智能眼镜打造的... IT之家 12 月 17 日消息,半导体技术研发企业豪威科技(OMNIVISION)推出了业内首款单...
成都商业航天补全关键一环 转自:成都日报锦观 成都商业航天补全关键一环 此次配套“东坡之眼号”,卫星制造与核心分系统,在都市圈...
女报评论|祛AI魔改之“魔”,... AI技术衍生出的网络乱象,不断变换花样泛起。近两年,诸多视频平台兴起一阵AI“魔改”风。从《甄嬛传》...
小学生沉迷“刷赞当大佬”,每天... 儿童电话手表已成为未成年人数字社交圈的载体。电话手表的功能不断迭代,早已突破“定位+通话”的核心功能...
哪个品牌的吸尘器好?小型吸尘器... 不想做太多功课也没关系。我把十几台热门吸尘器都试过,把表现最稳的挑成这一份闭眼清单。每台都实际测了吸...
天基算力竞速赛:突破能源与带宽... 慧博投研近日发布研究报告,对太空算力这一前沿领域进行深度梳理。报告指出,太空算力指将数据处理与计算设...
小米:已拥有S级短剧1000部... 观点网讯:12月17日,小米互联网业务部总经理刘婵公开表示,小米互联网已构筑起真正意义上的全局生态,...
曝一加Turbo配备全新165... 【CNMO科技消息】12月17日,数码博主爆料称,一加即将推出的全新Turbo系列将打破传统“Tur...
徕芬i2电动牙刷:老用户7折换... 作为一名徕芬第一代电动牙刷的早期用户,我曾是这个国产新锐品牌的支持者。然而,当品牌推出第二代i2并打...
我国侵入式脑机接口临床试验取得... 12月17日,中国科学院脑科学与智能技术卓越创新中心发布该中心与国内科研机构及医疗单位合作开展的第二...
一次让轴组件“重生”的质量效率... 来源:滚动播报 (来源:中国航空报) 张博欣 在航空工业华燕精密制造中心的研磨间里,王松平盯着手...
存储成本上涨致中端设备涨价 头... 2025-12-16 15:01:39 作者:狼叫兽 此前有消息指出,部分在售的小米平板产品已出现...