为什么人形机器人的竞争核心是大模型之争?——从“造身体”到“造大脑”的产业范式转移
创始人
2026-03-05 12:02:24
0

2026年初,宇树科技创始人王兴兴在《扬声》节目中抛出了一个震撼业界的观点:“谁能率先做出真正适配机器人的大模型,谁就会成为全球最厉害的AI和机器人公司,这份突破的价值,甚至完全够得上诺贝尔奖的高度。”

这一判断精准地捕捉了人形机器人产业发展的核心脉络。人形机器人的竞争,已经从早期的硬件参数比拼、运动控制炫技,全面转向了以多模态大模型为核心的“大脑”之争。当前获得高估值的机器人公司,本质上都是在为机器人“造大脑”。一场决定未来格局的深刻变革正在发生——竞争焦点正从“技术参数”转向“商业价值实现”,而实现这一转变的关键钥匙,正是机器人的“大脑”:具身智能大模型。

一、范式转移:从“机械执行”到“自主智能”的根本性跨越1.1 传统机器人的局限与瓶颈

传统工业机器人本质上是“精密机械臂”,其核心能力建立在精确编码和预设程序之上。每一个动作都需要工程师逐点示教、编写千行代码,只能在固定环境中完成固定任务。这种模式存在三大根本性缺陷:编程成本高昂(复杂装配任务需工程师示教100+点位,占部署时间的65%-75%)、环境适应性差(零件位置偏移、表面变形等动态变化需重新编程)、切换效率低下(小批量多品种订单切换产线需2-3天,导致30%以上产能闲置)。

更为关键的是,传统机器人缺乏对物理世界的理解能力。它们可以精准地执行“移动到坐标(X,Y,Z)”的指令,却无法理解“请把桌上的红色杯子拿给我”这样的自然语言指令。这种“感知-决策-执行”链条的断裂,使得机器人在面对非结构化环境、复杂多步骤任务时束手无策,严重限制了其应用场景的拓展。

1.2 大模型带来的革命性突破

AI大模型的注入,正在打破这一僵局。大模型通过四大核心能力,解决了机器人落地的“最后一公里”问题:

感知增强:融合视觉、语言与触觉等多模态信息,让机器人能综合理解环境。谷歌DeepMind推出的Gemini Robotics 1.5和Gemini Robotics-ER 1.5协同工作,构成了机器人的“执行和决策系统”,使机器人能够主动了解周围环境,以通用方式完成复杂的多步骤任务。

任务规划:能够理解高级抽象指令并自主拆解成具体步骤。英国爱丁堡大学提出的ELLMER框架,通过整合大型语言模型、检索增强生成、视觉和力反馈,使机器人能够在动态环境中完成复杂的长期任务,如“制作咖啡并装饰盘子”。

自主学习:通过持续学习降低对昂贵人工标注数据的依赖。极佳视界团队研发的GigaBrain-0.5M* VLA大模型创新引入人在回路持续学习机制,系统依托经人工筛选与校正的模型推演轨迹开展迭代训练,基于真实环境交互反馈持续优化决策策略,最终实现“行动—反思—进化”的闭环式持续学习与自主迭代升级。

场景适配:能快速适配从工厂到家庭的多种环境。智平方的AlphaBot2机器人凭借其全栈自研的“全球首个全域全身VLA大模型——GOVLA”,已在汽车制造、生物科技、半导体制造、半导体显示、公共服务等多个高价值场景中实现商业落地。

智平方发布的新一代通用智能机器人alphabot 2

这种能力跃迁的本质,是机器人从“专用智能”向“通用智能”的跨越。传统基于规则和显式编程的控制方法,已难以应对复杂多变的非结构化环境。随着深度学习技术的演进,特别是以Transformer架构为基础的大语言模型和多模态大模型的出现,机器人开始具备了理解自然语言、推理任务逻辑以及从海量数据中学习通用技能的能力。

二、技术本质:为什么大模型是“大脑”而非“插件”?2.1 通用大模型与机器人专用大模型的本质区别

王兴兴的“诺奖级”论断背后,是对技术本质的深刻理解。ChatGPT等通用大模型是“文本交互大脑”,核心是处理虚拟世界的语言、图像信息,无需直面物理世界的复杂变量。这些大模型完成了对人类语言逻辑的建模,但这种智能是“悬空”的——它理解“杯子”这个词,却不理解杯子落地会碎的物理因果。

具身大模型是“行动大脑”,要完成“感知-决策-执行”闭环:接收触觉、视觉等多模态数据,理解物理规则,输出精准动作,还要应对突发情况。当前主流大模型以文本训练为主,与机器人所需的多模态感知存在巨大鸿沟,这也是机器人难适配复杂场景的根源。

2.2 具身大模型的核心技术挑战

具身大模型的核心任务,是构建一套数字化物理常识体系,这面临着三重世界级技术壁垒:

数据孤岛:物理世界的交互数据极难获取,不像互联网文本那样取之不尽。真实世界数据采集成本高昂、效率低下,而仿真数据与真实世界存在“Sim2Real差距”。为解决这一问题,行业探索了三条数据路线并行推进:真机数据采集、仿真数据生成、人类视频数据利用。极佳视界的GigaBrain-0.5M*基于总计10,931小时的多样化机器人操作数据进行预训练,其中61%由自研具身世界模型GigaWorld高保真合成,剩余39%源自真实机器人采集。

任务泛化瓶颈:模型在实验室表现优异,但在复杂、非结构化的现实环境中极易失效。当前多数机器人可完成叠衣服等单一任务,向多程任务能力发展仍需时日,家庭等非结构化场景适配难题尚未完全破解。王兴兴提出了判断具身智能是否迎来爆发拐点的关键指标——“双80%”:当机器人能在80%的陌生环境中,仅靠语音指令完成80%的任务,真正的智能体时代就来了。

实时性要求:物理交互不允许长时间延迟,这对算力部署提出了近乎苛刻的要求。工业场景中,大模型推理延迟需控制在10ms以内才能满足实时控制需求。通过模型蒸馏、量化、边缘芯片加速等技术,推理时间可降至5ms以内。

2.3 三大技术路径的并行探索

从技术路线上看,目前基于大模型的“大脑”技术路线正处在并行探索阶段,并逐渐向端到端的大模型演进。具身智能算法层存在三条主流路径:

端到端VLA技术路线:采用单一模型直接从感知到动作的端到端学习方式,虽然具备一定泛化能力,但主要适用于短程任务,在复杂长程任务上存在局限性。智平方的GOVLA大模型是这一路线的代表,实现了360°全域感知和34个自由度的全身协同能力。

大脑+小脑分层技术路线:这是目前相对成熟的主流方向。该路线以多模态大模型作为“大脑”负责高层决策和任务规划,配合专门的“小脑”模型处理具体的运动控制和执行任务,通过分层协作实现更强的任务处理能力。优必选Walker S2搭载的“大脑-小脑-肢体”协同系统就是典型代表。

世界模型技术路线:代表最前沿的探索方向。世界模型旨在构建对物理世界的完整建模,通过预测未来状态来优化动作决策。王兴兴在2025年世界机器人大会上指出,VLA模型存在先天不足,视频生成模型(或世界模型)驱动的控制路径更具潜力。

三、产业重构:“大脑”如何重塑价值链与竞争格局?3.1 三层架构重塑产业生态

随着“大脑”成为核心,整个人形机器人产业链的格局被重构。甲子光年智库的报告提出了清晰的三层架构:

大脑层:由多模态大模型驱动,负责“思考”,是智能的源泉。代表企业如智元机器人、星海图,其目标是成为“技术垄断者”。这一层级的竞争本质上是算法能力、数据积累和算力资源的竞争。

小脑层:聚焦运动控制算法,负责“平衡”与“协调”。代表企业如逐际动力、宇树科技,致力于成为“标准制定者”。宇树科技凭借其在机器人“运动性能”上的持续投入,其机器人能完成半程马拉松、后空翻等高难度动作。

肢体层:包括灵巧手、关节模组等硬件本体。代表企业如傅利叶智能、帕西尼感知,凭借精密制造争夺“市场份额”。拓普集团、三花智控等企业在线性/旋转执行器、灵巧手等多领域布局,已获得特斯拉及国内头部厂商认可。

这种分工意味着一个协同生态正在形成:“大脑”决策,“小脑”控制,“肢体”执行。这降低了创新门槛,让企业可以在自己擅长的领域深耕,从而加速了整个产业的发展。

3.2 估值逻辑的根本性转变

资本市场对人形机器人企业的估值逻辑,已经发生了根本性转变。获得高估值的机器人公司,本质上都是在为机器人“造大脑”。2025年全球人形机器人估值前10企业总估值达3061亿美元(21886亿人民币),地域分布呈中美主导格局,美国占6席、中国占4席。

估值头部企业的共同特征:无论是估值2100亿美元的特斯拉Optimus,还是估值390亿美元的Figure AI,抑或是估值100亿美元的1X Technologies,这些高估值企业的核心竞争力都集中在“大脑”层面。特斯拉凭借其全栈自研的AI能力,Figure AI自主研发了端到端机器人AI模型Helix,1X Technologies则专注于通过AI让机器人学习人类动作。

资本市场的理性选择:2025年,人形机器人领域单笔大额融资频现,银河通用机器人12月完成超3亿美元A轮融资,成为年内公开数据中金额最大的单笔融资事件,当前公司估值已达200亿元人民币。根据IT桔子数据显示,互联网巨头同步加码布局,百度风投、联想创投等互联网巨头年内投资次数合计超六十次,投资金额在数十亿元之间。这些资本流向清晰地表明,投资机构更青睐那些在“大脑”层面有核心技术积累的企业。

3.3 商业落地的关键突破

大模型不仅改变了技术路线和估值逻辑,更直接推动了商业落地的实质性进展。2025年,人形机器人从“演示”迈向“实战”的里程碑不断刷新。

工业场景率先突破:工业制造作为高价值场景的率先爆发,为行业积累技术经验与商业数据。智平方与惠科达成战略合作,未来三年将在惠科全球生产基地累计部署超过1000台具身智能机器人,覆盖从仓储物流、上下物料、零部件装配到质检测试等全流程,订单金额近5亿元。优必选Walker S2已在汽车制造、智能制造、智慧物流、具身智能数据中心等重点行业一线投入应用。

服务场景逐步拓展:智元已覆盖讲解接待、文娱商演等核心场景,银河通用与美团打造智慧药房,实现24小时无人拣选。2026年总台春晚贺岁微电影《我最难忘的今宵》中,银河通用研发的Galbot轮式双臂机器人与沈腾、马丽同台完成精细作业,成为总台春晚首个不依赖预设程序、全自主决策干活的机器人。

四、竞争态势:全球格局与中国路径4.1 全球竞争格局:中美主导,路径分化

全球人形机器人产业已形成中美主导的竞争格局。美国企业在“大脑”层面的原创性研究和基础模型开发上具有先发优势,而中国企业在工程化落地、供应链整合和成本控制方面表现突出。

美国:基础研究引领,巨头布局:谷歌DeepMind推出Gemini Robotics系列模型,致力于打造“机器人界的Android系统”。Figure AI自主研发端到端机器人AI模型Helix,估值接近390亿美元。特斯拉凭借其全栈自研的AI能力和庞大的真实世界数据积累,Optimus估值达2100亿美元,占特斯拉总市值约40%。Skild AI在2026年1月融资14亿美元,估值超140亿美元,目标做通用大脑控制任意机器人。

中国:应用驱动,快速迭代:中国企业更注重场景落地和商业化验证,形成了多元化的破局路径。智平方坚持“软硬件垂直整合与正向设计”,以“全球率先发布的全域全身具身大模型GOVLA”这一“智能大脑”为核心,率先攻坚“汽车制造、半导体等高价值工业场景”。智元机器人采用“供应链整合的‘快路径’”,依托外部供应链资源(如比亚迪)的支持,在硬件制造与成本控制方面构建了自身优势。宇树科技深耕“运动控制”,其机器人(如天工Ultra、H1)能完成半程马拉松、后空翻等高难度“炫技”动作。

4.2 技术路线的差异化选择

不同企业基于自身资源禀赋和技术积累,选择了不同的技术路径,形成了差异化的竞争策略。

全栈自研派:以智平方为代表,坚持“软硬件垂直整合与正向设计”,从底层大模型到硬件本体全栈自研。这种路径投入大、周期长,但一旦突破就能构建深厚的护城河。智平方的GOVLA大模型实现了“关键突破在于:常规VLA大模型仅输出机械臂动作,而GOVLA大模型首次提出输出全身控制和移动轨迹”。

供应链整合派:以智元机器人为代表,采用“技术研发+供应链整合”的双轨路径。公司依托外部供应链资源(如比亚迪)的支持,在硬件制造与成本控制方面构建了自身优势。其技术布局虽覆盖VLA大模型等前沿方向,但在模型的原创深度与性能表现上,与智平方等领先企业仍存在一定差距。

运动控制专精派:以宇树科技为代表,专注于机器人“运动控制”层面,即机器人的“小脑”和“肢体”。宇树的核心亮点在于高动态动作与成本控制能力。这种路径在特定领域形成技术壁垒,但在“大脑”(任务推理)布局尚不清晰,缺乏工业商业验证。

垂直场景深耕派:以逐际动力为代表,深耕“运动控制”,其双足机器人的全地形移动能力形成了独特的技术壁垒。帕西尼感知聚焦“机器触觉”,攻克了高精度触觉传感器的“卡脖子”难题,成为产业链上的关键一环。

4.3 资本市场的理性与狂热

2025-2026年,机器人融资创下历史新高,人形/具身智能成为绝对主角。2025年全球机器人创业公司融资约140亿美元,超过2021年131亿美元的前峰值。中国市场热度领跑全球,2026年1月1日至2月11日,仅42天,中国具身智能(机器人)披露融资超76亿元。

资本向头部集中:大额融资集中在通用人形、具身大模型、整机本体。智平方在2025年来累计完成12轮融资,节奏全球领先。银河通用完成超10亿元的新一轮融资,创下今年以来具身智能赛道最大金额的单笔融资记录。

投资方结构巨变:国资+产业资本主导成为新常态。国内地方国资、引导基金、上市公司联合领投成常态;全球Google、奔驰、CATL、京东、华为、小米深度重仓,技术+场景+供应链绑定。

IPO潮即将到来:港股18C、科创板“1+6”政策打开上市通道;多家头部企业完成股改/进入IPO辅导,2026–2027将是机器人上市大年。截至2025年11月,近30家机器人产业链公司向港交所递交上市申请,宇树科技完成IPO辅导后全力冲刺A股“人形机器人第一股”。

然而,在融资热潮背后,行业也面临“冰火两重天”的态势。在朱啸虎高喊“清仓看空”人形机器人时,国资和京东、美团、腾讯、华为正把11亿砸向银河通用。这折射出具身智能行业正经历从“野蛮生长”迈向“泡沫出清”的关键转折点。

五、挑战与未来:从“功能堆砌”到“价值创造”5.1 当前面临的核心挑战

尽管大模型为人形机器人带来了革命性突破,但产业仍面临多重挑战,距离真正的规模化普及还有很长的路要走。

技术瓶颈依然存在:千寻智能首席运营官郑灵茵坦言,当前多数机器人可完成叠衣服等单一任务,向多程任务能力发展仍需时日,家庭等非结构化场景适配难题尚未完全破解。在非结构化环境中,复杂任务成功率不足60%,续航短、故障率高的问题突出——多数产品续航仅3-5小时,工业场景所需的7×24小时稳定运行仍难以实现。

商业化闭环尚未形成:当前人形机器人单价普遍在18万-100万元区间,即便在工业场景,回本周期也需3-5年,远高于专用机械臂的1年回本周期。家庭服务场景中,机器人叠衣服、打扫卫生的效率和效果仍不及人工,缺乏“非用不可”的刚需痛点。有行业专家直言,当前多数产品仍停留在“功能堆砌”阶段,尚未真正解决场景核心问题。

供应链依赖进口:核心零部件领域,高端传感器、精密减速器的国产化率仍不足30%,部分关键组件仍依赖进口,不仅推高成本,也存在供应链风险。绿的谐波等企业的谐波减速器实现减重30%的技术突破,但整体国产化率仍有待提升。

数据与算力瓶颈:具身智能当前的核心短板在于泛化能力不足。9月北美初创Skild AI在将训练规模相较传统方案放大约500倍后,意外获得了可跨不同机器人本体迁移的通用运动控制能力。从LLM的演进路径看,过去三年每一年都通过在关键技术维度上的极限堆资源,实现了10倍级跃迁。对照来看,具身智能目前刚跨过预训练可扩展性的起点,且由于路径已被LLM验证,当前瓶颈更多是数据问题,而非基础科学难题。

5.2 未来发展趋势与机遇

尽管挑战重重,但人形机器人产业的长期发展趋势依然明确,大模型将继续扮演核心驱动力的角色。

技术融合加速:端到端具身智能模型若能与世界模型和RL Scaling Law结合,将有望成为行业主流架构,推动人形机器人从示范样机向大规模商业化迈进。同时,分布式算力将逐渐成为关键配套基础设施,并与5G/6G及边缘计算厂商形成生态协同。

垂直大模型成为主流:通用大模型(如GPT-4)在工业场景精度不足,行业垂直大模型将爆发。汽车领域、3C领域、新能源领域将出现针对特定场景的专用模型。预测显示,2027年垂直工业机器人大模型市场规模将达120亿元,年复合增长率42%。

应用场景不断拓展:从成熟的工业搬运、物流分拣,到高潜力的家庭陪伴、灾害救援,人形机器人的应用正在全面开花。它们将能无缝融入人类已有的环境,成为推动社会生产力下一次跃迁的关键力量。

标准化与生态建设:机器人操作系统(ROS)与大模型深度集成将成为趋势。未来机器人将预装AI原生OS,集成大模型接口,工人可通过平板/语音输入指令,直接控制机器人;不同品牌机器人可通过统一接口调用大模型,实现跨厂商协作。

通用机器人的爆发将在我们这一代实现,未来十年行业将迎来翻天覆地的剧变。这一预判基于三个核心逻辑:

技术拐点临近:大模型与机器人硬件的成功结合,是衡量一家AI公司是否处于世界顶级水平的关键指标。随着算力提升、算法突破、数据积累,技术拐点可能在未来一两年内发生。

商业价值巨大:当机器人开始拥有“大脑”,其价值就不再局限于替代重复、危险的劳动,它将从“替代人力”升级为“创造新价值”。

科学意义深远:具身智能不仅仅是机器人的软件升级,更是人类历史上首次尝试将“主观理性”与“物理法则”进行数字化深度耦合。这种跨学科的范式革命,具备挑战基础科学奖项的潜质。

结论:大脑决定上限,生态决定成败

人形机器人的竞争核心转向大模型之争,这不仅是技术发展的必然,更是产业价值重构的体现。从“机械执行”到“自主智能”的范式转移,从根本上改变了机器人的能力边界和应用场景。大模型赋予了机器人理解环境、自主决策、执行复杂任务的能力,使其从“工具”进化为“伙伴”。

在这场竞争中,中国企业展现了独特的优势:快速迭代的工程能力、完善的供应链体系、丰富的应用场景。智平方的VLA大脑、宇树的运动控制、智元的供应链整合、银河通用的仿真数据训练,各自形成了差异化的竞争路径。然而,与美国企业在基础研究和原创模型上的领先优势相比,中国企业在“大脑”层面的原创性仍有提升空间。

未来,人形机器人产业将呈现“大脑决定上限,生态决定成败”的格局。拥有强大“大脑”的企业将定义行业标准,而构建完整生态的企业将赢得市场。随着技术不断成熟、成本持续下降、场景日益丰富,人形机器人有望在未来十年内实现从“实验室炫技”到“千家万户”的跨越。

相关内容

热门资讯

为什么人形机器人的竞争核心是大... 2026年初,宇树科技创始人王兴兴在《扬声》节目中抛出了一个震撼业界的观点:“谁能率先做出真正适配机...
iPhone 17e国补后39... 图片来源:苹果中国官网 文丨辰聪 出品丨师天浩观察(shitianhao01) 2026年初,手机...
华为首次海外发布超节点产品,打... 3月2日,在MWC2026(世界移动通信大会)期间,华为首次在海外发布最新的Atlas950 Sup...
原创 《... 随着《魔兽世界》“至暗之夜”的上线,蓝色专业技能装备改为装备绑定,可在拍卖行买卖,提供巨大商机。 这...
解决GPU限压性能下降问题:N... 快科技3月5日消息,近期NVIDIA的显卡驱动更新可谓波折不断,接连翻车,一周内连发三版更新。 继上...
全国政协委员周鸿祎:推进百亿智... 人工智能产业发展一直是周鸿祎重点关注的议题。继去年提出“打造垂直场景、构建专业技能大模型”之后,今年...
芯卓湖光申请叉指换能器及弹性波... 国家知识产权局信息显示,无锡芯卓湖光半导体有限公司申请一项名为“叉指换能器及弹性波谐振器”的专利,公...
华为和中国移动完成全球首个规模... 来源:市场资讯 (来源:IT之家) IT之家 3 月 5 日消息,3 月 2 日,在 MWC 202...
2026年内蒙古直播公司技术T... 最近和几个做直播的朋友聊天,大家都在吐槽:“现在直播技术更新太快,昨天刚买的设备,今天就过时了!”确...
创景数码取得可切换耳罩的头戴式... 国家知识产权局信息显示,深圳市创景数码产品有限公司取得一项名为“一种可切换耳罩的头戴式耳机”的专利,...
2026年3月随身WiFi品牌... 引言 在当今数字化时代,随身WiFi作为一种便捷的移动网络设备,正日益成为人们生活和工作中不可或缺的...
科技热词“具身智能”到底是什么... 到底什么是具身智能呢?简单地说,具身智能就是强调智能行为需要通过身体与环境的交互来实现,而不仅仅依赖...
多样成都“智”造亮相 这场成果... 3月4日,“科创天府·智汇蓉城”科技成果对接转化(要素赋能专场)活动举行。现场,成都市科技转化成果巡...
全球科技扩散速度显著加快 3月2日,在西班牙巴塞罗那,人们围观在展厅行走的人形机器人。 新华社记者 程 敏摄 日前,世界知识...
索康尼,领跑“新赛季” 日前,专业跑步品牌索康尼正式发布旗舰竞速碳板跑鞋 ENDORPHIN PRO 啡鹏 5,同步推出全新...
VCT大师赛:半场两分打到加时... 无畏契约圣地亚哥大师赛瑞士轮第三轮,G22-0淘汰T1,G2晋级八强。 图一:微风岛屿 防守方T1...
新加坡计划开设8英寸SiC研发... 据The Business Times报道,主管能源与科技事务的新加坡人力部长陈诗龙宣布拨出6000...
从海淀实验室到春晚C位 ——银... 当银河通用机器人官宣成为2026年央视春晚的“指定具身大模型机器人”时,吃瓜群众可能以为这只是科技秀...
苹果首次推出售价599美元的M... 来源:环球市场播报 苹果周三发布了MacBookNeo,这是其笔记本电脑阵容中的一款低价产品,起价5...
威门药业:从一株苗药到“品牌中... 专于技、精于业、特于新、成于质。在高质量发展的赛道上,有一群“小而美”“精而强”的奔跑者。它们,是产...