星尘智能x清华x MIT等重磅发布CLAP框架!让机器人看视频学操作技能
创始人
2026-01-20 17:00:57
0

近日,星尘智能与清华、港大、MIT联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。

这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能!

论文地址:https://arxiv.org/abs/2601.04061

长期以来,机器人学习面临着一个令人头疼的“数据饥荒”难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。这种数据不对称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人类行为视频数据虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。

现有的潜在动作模型(Latent Action Models)试图利用视频数据,但往往会遭遇“视觉纠缠”(visual entanglement)问题——模型学到的更多是与实际操控无关的视觉噪声,而非真实的操控技能。

CLAP框架的核心创新正是解决了这一长期困扰业界的技术瓶颈。该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,有效避免了以往潜在动作模型中普遍存在的"视觉纠缠"问题。通过对比学习,CLAP 将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上。

研究团队基于两种VLA建模范式进行训练:其一是 CLAP-NTP,一种自回归模型,在指令跟随与对象泛化方面表现突出;其二是 CLAP-RF,一种基于 Rectified Flow 的策略,面向高频率、精细化的操控。

这一技术突破的实际意义体现在多个层面。首先,从数据利用效率来看,CLAP框架使得机器人能够从YouTube、抖音等平台上的海量视频中学习技能,极大扩展了可用训练数据的规模。其次,从成本效益角度分析,这种“看视频学技能”的方式显著降低了机器人技能获取的门槛。

此外,该框架还解决了机器人学习中的一个关键技术挑战——知识迁移问题。通过知识匹配(Knowledge Matching, KM)正则化策略,CLAP有效缓解了模型微调过程中的灾难性遗忘现象,确保机器人在学习新技能的同时不会丢失已掌握的能力。大量实验表明,CLAP 显著优于强基线方法,使得从人类视频中学习到的技能能够有效迁移到机器人执行中。

从产业应用前景来看,CLAP框架的长期价值不仅在于技术创新,更在于其对机器人产业化进程的推动作用。当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低,这有望加速机器人在服务业、制造业等领域的规模化应用。

详解CLAP框架

研究团队构建了一个统一的视觉-语言-动作(VLA)框架,使其能够同时利用机器数据的动作精确性大规模无标注人类视频演示的语义多样性。框架分为两个相互衔接的阶段:

通过 CLAP 进行跨模态对齐:建立共享的潜在动作空间,弥合无标注人类视频与有标注机器人轨迹之间的监督缺口。该过程基于对比学习进行隐空间动作预训练(CLAP):它将人类视频中的视觉状态转移“锚定”到一个量化的、物理上可执行的动作空间中。

分层策略训练:研究团队通过连续训练两个 VLA 模型,将语义理解与控制动力学有效解耦:

(1) CLAP-NTP:采用“下一词元预测”(Next-Token-Prediction)训练的 VLA,擅长指令跟随与任务规划;

(2) CLAP-RF:包含一个 VLM 模型与一个采用 Rectified Flow 训练的动作专家,以实现高频、精确控制。

为高效适配新的本体形态并防止预训练先验在微调中发生灾难性遗忘,研究团队进一步提出知识匹配(Knowledge Matching, KM)微调策略:一种正则化方法,在微调过程中将策略更新锚定在可信区域内。

实验结果

大量实验表明,CLAP 显著优于强基线方法,使得从人类视频中学习到的技能能够有效迁移到机器人执行中。

下表 1 为初始设置下,CLAP 与基线方法在真实世界任务中的性能比较。

下表2 为 CLAP 与基线方法在环境扰动下的鲁棒性评估。

更多实验结果请参阅原论文。

论文标题:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

论文地址:https://arxiv.org/abs/2601.04061

项目地址:https://lin-shan.com/CLAP/#

相关内容

热门资讯

光与夜之恋农场怎么玩 光与夜之恋游戏推出了农场的玩法,在这里玩家需要和松鼠家族一起来努力耕作,更好的重建农业帝国的目标,更...
海翼智新申请对象跟踪方法专利,... 国家知识产权局信息显示,深圳海翼智新科技有限公司申请一项名为“对象跟踪方法、装置及系统”的专利,公开...
创维数字涨1.30% 成交额达... 1月9日,创维数字涨1.30%,成交额达2.19亿元,换手率为1.59%,总市值为142.81亿元。...
逆战未来怎么获取曙光印记 “曙光印记”是《逆战:未来》中的一把冲锋枪,也是我们刚刚入坑游戏开荒好用的武器,很多小伙伴都没有这把...
盛路通信取得天线角度调节装置专... 国家知识产权局信息显示,广东盛路通信科技股份有限公司取得一项名为“一种天线角度调节装置及天线”的专利...
洛克王国世界五大稀有宠物介绍 洛克王国世界五大稀有宠物介绍,本游戏里玩家都想要去收集喜欢的稀有宠物,毕竟这些宠物都强大且帅气,捕捉...
从裸辞跨界到稳定营收:一位98... 在当下,年轻人的职业路径正变得愈发多元。不再满足于单一轨道的稳定,越来越多人选择挣脱原有专业束缚,在...
星尘智能x清华x MIT等重磅... 近日,星尘智能与清华、港大、MIT联合提出基于对比学习的隐空间动作预训练(Contrastive L...
高科技手术将设收费封顶线 今天,国家医保局发布新版立项指南,对手术中使用的3D打印、手术机器人等高科技辅助手段设置收费封顶线。...
AI技术的驱动下“一人公司”悄... “以前创业需要组建团队、筹备资金、对接资源,门槛高、风险大;现在有了AI工具,一个人、一台电脑就能启...
原创 1... 大爆发,往往伴随着大溃退。 “这是一个AI漫剧的黄金时代。”不少行业内人士都曾在采访中,不约而同地给...
安徽省高校“百场千项”科技成果... 来源:新华网   1月17日“智创生态融合向新”第二届(2026)安徽省高校“百场千项”科技成果路演...
荣耀手机拿下5000元以上通信... 【CNMO科技消息】1月20日,荣耀手机官方宣布,根据《2025中国电信终端洞察报告》认证结果,荣耀...
网速实测不足宣传1/10,“理... 近日,江苏盐城一用户购买标称“下行500M”的5G套餐,实测网速却仅有35M,不足宣传值的1/10。...
财经观察:科技巨头竞争从AI迈... 【环球时报驻美国特约记者 卓然 环球时报记者 陈子帅 环球时报特约记者 陈欣】编者的话:在全球科技巨...
《魔兽世界》前首席制作人加盟拳... IT之家 1 月 20 日消息,据 Insider Gaming 报道,《魔兽世界》前首席制作人已确...
《真三国无双:起源》计划制作三... 近日,《真·三国无双 起源》制作人庄知彦在接受Fami通采访时,分享了关于本作未来发展的构想。 庄...
阿里云PolarDB,最新发布 1月20日,在2026阿里云PolarDB开发者大会上,阿里云旗下云原生数据库PolarDB正式发布...
轨道能源架构的新纪元:太空光伏... 轨道能源架构的新纪元:太空光伏产业演进与基本半导体(BASiC)的技术贡献 BASiC Semico...
袁记云饺的“手工现包”,不是营... 出品|中访网 审核|李晓燕 从广州菜市场的小档口,到全球布局4266家门店的行业龙头,袁记云饺用十余...