AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊
创始人
2025-09-10 11:02:56
0

henry 发自 凹非寺

量子位 | 公众号 QbitAI

一群机械臂手忙脚乱地自己干活,彼此配合、互不碰撞。

科幻大片场景真的走入现实了。优雅,实在是优雅。

△视频中为4个机械臂,在仿真环境下4个安装在桌子上,另外4个安装在天花板上。

这就是发表在Science子刊Science Robotics上,由DeepMind、Intrinsic AI和UCL等研究机构共同提出的最新成果——RoboBallet(机器芭蕾)。

RoboBallet创新性地将图神经网络(GNN)用于强化学习,作为其策略网络和状态-动作价值估计,以解决多机器人(机械臂)协作运动规划中的复杂问题。

这一方法最多可以同时控制8个机械臂,协调多达56个自由度的配置空间,并处理多达40个共享任务, 每一步规划仅需0.3毫秒,且任务分配和调度完全不受约束。

值得一提的是,这篇论文的通讯作者——Matthew Lai,可谓是谷歌DeepMind的资深研究员。自2016年加入谷歌DeepMind以来,他曾参与过AlphaGoAlphaZero等明星项目。

利用图神经网络与强化学习

总的来说,RoboBallet的核心是把图神经网络与强化学习结合起来,采用图神经网络(GNN)作为策略网络和状态-动作价值估计,解决了大规模多机器人任务分配、调度和运动规划的联合问题,实现了在计算上高效、可扩展且能零样本泛化的高质量轨迹规划

具体来说,在现代自动化制造中,核心挑战在于如何让多个机器人在共享的、充满障碍物的空间中无碰撞地高效协作,以完成大量任务(如焊接、装配等)。

这涉及到三个高度复杂的子问题:

  • 任务分配(Task Allocation):决定哪个机器人执行哪个任务,以最小化总执行时间。

  • 任务调度(Task Scheduling):决定任务的执行顺序。

  • 运动规划(Motion Planning):在关节空间中寻找一条无碰撞路径,使机器人末端执行器移动到目标姿态。

这三个子问题一组合,复杂度急剧增加,传统算法在真实场景中往往难以计算可行解,工业界目前主要依赖耗时且劳动密集的人工规划。

因此,为了应对这种高维复杂性,RoboBallet就被用来在随机生成的环境中进行任务和运动规划,其能够为与训练期间所见环境不同的环境(具有任意障碍物几何形状、任务姿态和机器人位置)规划多臂抓取轨迹。

为了实现这一点,RoboBallet在数据表示层面,创新性地将整个场景建模为图结构

其中,图中的节点代表场景中的核心实体,包括机器人、任务和障碍物,而边(Edge)则表示这些实体之间的关系(例如,相对姿态)。

机器人节点之间存在双向边,以支持相互协调和避碰。而任务节点和障碍物节点到机器人节点则存在单向边,用于向机器人传递规划所需的环境信息(如图c)

接下来,RoboBallet使用图神经网络(GNN)作为策略网络,通过权重共享来处理不断变化的图大小。其以观测图作为输入,并在每个时间步为所有机器人生成指令关节速度。这使得机械臂能够在只接收原始状态作为输入的情况下,进行关系和组合推理。

而在具体的策略学习和评估阶段,RoboBallet通过微调TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法来训练策略网络,使模型能够生成多机械臂轨迹,同时解决任务分配、调度和运动规划等子问题,使得昂贵的在线计算转移到了离线训练阶段。

(注:在此任务中,机械臂因成功解决任务和避免碰撞而获得奖励)

同时,为了解决稀疏奖励的问题,RoboBallet还采用了Hindsight Experience Replay方法,使模型能够在没有人工设计的奖励函数的情况下高效学习。

在具体的部署方面,RoboBallet使用Franka Panda七自由度机械臂、在随机障碍物和任务的模拟环境进行训练。

为了验证性能,研究团队在一个包含4(8)个机器人、40个任务和30个障碍物的模拟工作单元中进行测试,并与RRT-Connect方法进行比较。值得一提的是,这一切都只需在一块 GPU(图形处理单元)上完成,无论是真实的还是模拟的多臂工作单元。

实验表明,RoboBallet在多个关键指标上表现出色:

在训练时间的扩展性方面,即使任务数量增加四倍,RoboBallet收敛所需的训练步数也只是略有增加。

在规划速度方面。实验表明,在推理阶段,即便是包含8个机器人和40个任务的最大场景,每个规划步在NVIDIA A100上只需约0.3毫秒,能够实现10 Hz时间步下超过300倍的实时规划速度

在单个Intel Cascade Lake CPU核心上,每个步长大约需要30毫秒,在10Hz时间步下仍比实时快约3倍。每个规划步骤包括对整个场景进行一次推理和一次碰撞检测。

在多智能体协同方面,随着机器人数量从4个增加到8个 ,平均执行时间减少了约60%

而在泛化性方面,模型在随机生成的环境中训练后,无需额外训练即可零样本迁移(zero-shot)到具有不同机器人位置、障碍物几何形状和任务姿态的新环境中。

最后,RoboBallet 的高速和可扩展性使其能够应用于工作单元布局优化(将任务执行时间缩短了33%)、容错规划和基于在线感知的重新规划等新能力。

参考链接

相关内容

热门资讯

报告显示生产性服务业呈现五大演... 近日,中国信息通信研究院政策与经济研究所发布了《生产性服务业发展报告(2025年)》。报告认为,生产...
“光影绽放科技行”清华站圆满落... 人民网北京12月23日电 (记者赵竹青)据国家国防科技工业局官网消息,由国家国防科技工业局新闻宣传中...
“空中汽车”上路标准统一在即,... 界面新闻记者 | 刘素楠 界面新闻编辑 | 庄键 中国低空经济发展又迈出关键一步。 近日,中国民...
原创 F... 最近这段时间,LPL赛区忙着打德杯,不过现在打下来,组成豪华战舰的几支队伍BLG、JDG、WBG都相...
多款3A游戏史低,Steam冬... 这个圣诞,常年关注PC游戏促销动态的小伙伴,大概被海量介绍Steam促销活动的视频刷屏了——“大作背...
华昌达:自主研发制造系统数字化... 证券之星消息,华昌达(300278)12月23日在投资者关系平台上答复投资者关心的问题。 投资者提问...
成神还是入魔?都由你决定!《新... 小时候看动画片时,你是否曾在为主角匡扶正义而热血沸腾的同时,也对那些同样不懈奋斗却终被打败的反派生出...
流水超7亿,被CEO评价“平庸... 12月20日,笔者前往杭州全程参与了《问剑长生》1周年的发布会。 不得不说,这些年这类主打与玩家同乐...
长春高新子公司GenSci14... 12月24日,长春高新(000661)发布公告,子公司金赛药业的GenSci145片注册临床试验申请...
浪潮KaiwuDB四度斩获IT... 近日,国内权威IT媒体IT168与旗下ITPUB社区联合揭晓2025年度“技术卓越奖”榜单,浪潮分布...
秦始皇都不能长生,这游戏让你获... 秦始皇砸锅卖铁找长生不老药,到死都没摸到永生的边儿。谁能想到,现在打游戏就能“白嫖”永生机会? 最...
JUG与TE溯共写“无畏之约”... 当武汉PANDA电竞中心(未来城店)的灯光渐暗,12月19日这场“齐聚江城 无畏电竞”主题活动的余温...
英山县毕昇小学入选教育部第二批... 近日,教育部办公厅公布第二批中小学人工智能教育基地名单,英山县毕昇小学成功入选,成为黄冈市唯一获此殊...
近七成玩家在抖音“刷游戏”,这... 在刚过去不久的产业年会上,抖音游戏负责人苏禾分享的数据格外引人注目: ·中国接近70%的游戏用户...
原创 德... 在韩国KeSPA杯结束之后,紧接着而来的就是LPL的德玛西亚杯了。本届德玛西亚杯邀请了14支LPL战...
Viper被海超阿卡丽狂切,E... LOL德杯赛事精彩继续,关注赛程的都清楚,目前第二阶段的比赛都快接近尾声了,B组的大战真的是看点拉满...
鸣潮3.0全局抽卡指南:琳奈和... 鸣潮3.0版本明天就要开启啦!这次即将上线6位UP角色,上下半场即将登场全新角色琳奈和莫宁,那么琳奈...
Take-Two官方出手,高手... IT之家 12 月 24 日消息,据外媒 GamesRadar+ 今日报道,将《GTA:罪恶都市》搬...
原创 F... 在最近的Kespa杯的比赛落下帷幕后,LCK赛区迎来了新赛季开启前难得的休赛期,很多队伍都开始给选手...
湖北中瑞取得一项自保温砂浆及其... ** 国家知识产权局信息显示,湖北中瑞建筑有限责任公司取得一项名为“一种自保温砂浆及其制备方法”的专...