北大团队让AI智能体「入侵」论坛,指挥真实机器人执行任务
创始人
2026-02-21 21:41:18
0

新智元报道

编辑:LRST

【新智元导读】公元前47年,凯撒在泽拉战役速胜后给罗马元老院写了三个词的战报:「Veni, Vidi, Vici」——我来了,我看见了,我征服了。 两千多年后,北京大学杨仝教授团队也用三步定义了一种全新的AI范式:降临论坛、接管指令、统治物理世界。

「Veni, Vidi, Vici.」 ——凯撒大帝

「We Land, We Rob, We Rule.」 ——AgentRob

当前AI领域有一个尴尬的错位:AutoGPT、MetaGPT等LLM智能体能力惊人,却全部活在数字世界里;SayCan、RT-2等机器人控制方案能操作物理世界,却需要专用接口和实时连接,使用门槛困在实验室。两边之间缺一个可扩展的交互信道。

论坛,那个诞生于互联网早期、几乎和网页本身一样古老的交流形式,天然异步(不需要对方在线,机器人可以自己安排执行时间)、多智能体(一个论坛可以容纳无数个 Agent,各自监听各自的任务)、持久化(每一条指令、每一次执行结果都永久保存,形成可搜索的交互知识库)。

比起微信群和Slack,论坛的线程结构更适合复杂任务的分发和追踪;比起直接REST API,论坛把机器人交互嵌入了人类可读的社会语境中;比起语音控制,论坛不受距离和噪声限制,支持任意复杂的指令;比起专用的机器人控制GUI,论坛是通用基础设施,不需要为每个机器人单独开发界面。帖子就是指令,回帖就是执行报告。

视频1 论坛指令驱动机器人靠近屏幕并拍取试卷上传

北京大学杨仝教授团队发布的AgentRob框架,首次通过Model Context Protocol(MCP)将在线论坛、LLM智能体与物理机器人三方贯通——用户只需在论坛@一下机器人,现实世界中的机器狗或人形机器人就会立刻响应。

论文链接:https://arxiv.org/abs/2602.13591

开源代码:https://github.com/PKULab1806/AgentRob

AgentRob采用三层架构。

AgentRob三层架构:论坛 → 智能体 → 机器人

最底层是论坛层,采用开源论坛平台提供持久化线程结构。

中间是智能体层——整个系统的大脑,基于MCP(Anthropic 推出的AI工具标准协议,被称为「AI界的USB-C」)设计了8种标准化工具接口,涵盖元操作、读操作、写操作和身份管理,任何 MCP 兼容的 Agent 框架都可以直接接入。

最上层是机器人层,通过视觉语言模型(VLM)控制器将自然语言指令分解为物理动作原语。

核心Agent像一个永不下线的版主,持续轮询论坛。

一旦发现有人@自己,LLM就理解帖子内容、提取可执行指令,然后调度对应的机器人去执行。执行完成后,Agent让LLM把原始返回数据生成一段人类可读的摘要回帖到论坛。

整个过程完全自动化,用户看到的就像是和一个可操作机器人的论坛用户对话。

系统支持轮询模式(默认每 30 秒扫描)、HTTP服务模式(外部按需触发)和单次运行模式(调试测试)。

当LLM不可用时,Agent自动切换到基于规则的指令提取作为降级方案。

更有意思的是多智能体共存——同一论坛里可以同时存在多个不同形态的Agent。

四足机器狗监听@quadruped,人形机器人监听@humanoid,同一帖子@两个机器人时它们各自独立提取和执行指令。

为防止回复死循环,所有Agent帖子都携带元数据标签,其他Agent自动跳过。就像论坛里潜伏着一支纪律严明的机器人军团。

视频2 论坛发布复杂指令驱动机器人获取保险箱密码

We Rule

从帖子到物理动作

Agent拿到指令后,真正的魔法发生在机器人层。VLM控制器通过迭代的工具调用循环将自然语言分解为动作原语。以四足机器狗为例,控制器暴露了四个动作原语(移动、招手、比心、后空翻)和两个感知原语(前置摄像头拍照、云端图片上传),人形机器人则支持移动和招手等动作。

举个具体的例子:用户在论坛发帖「@quadruped 去门口看看有没有人」,Agent轮询检测到帖子,LLM提取出指令,VLM将其分解为「移动到门口 → 拍照 → 分析图像」的动作序列,机器狗执行完毕,Agent回帖:「已到达门口,拍摄到走廊照片,未发现有人。」

从虚拟到物理,一帖之间。

整个交互过程所有参与者都可见,形成一个透明的、可搜索的执行日志——不只是一次性的远程控制,而是在构建一个社区级的人-机-智能体协作知识库。

安全方面团队也做了充分考虑。

在权限层面,论坛角色系统被映射为机器人操作权限——只有「机器人操作员」角色才能发指令。

在指令层面,LLM安全过滤器拦截可能造成物理伤害的指令(「撞墙」、「从桌子上跳下去」)。在透明度层面,所有Agent帖子强制标注身份标签。

在物理层面,机器人在定义好的边界内操作,配备硬件级紧急停止按钮。凯撒的权力最终没有得到约束,但AgentRob的设计者显然吸取了教训。

视频3 论坛指令驱动机器人获取屏幕二维码与驱动机器狗提醒人类阻止

从征服到生态

该研究的四项核心贡献包括:首次提出论坛中介的智能体-机器人交互范式、基于MCP的8种标准化工具框架、机器人和机器狗上的端到端执行闭环、以及多形态Agent共存机制。

未来团队计划拓展更多机械体(如无人车/机械臂等)、多模态交互(机器人在论坛分享图像视频)、机器人间协作(通过论坛线程联合完成复杂任务)、社区驱动的机器人学习,最终目标是构建基于论坛的去中心化机器人网络——社区自治的机器人团队。

「Veni, Vidi, Vici」 之后,凯撒改变了罗马的格局。

「We Land, We Rob, We Rule」 之后,AgentRob想改变人与机器人交互的格局。

不过这一次,征服者不是一个人,而是一整个社区。

团队成员:刘文睿,王雅萱,张迅,王砚舒,卫家燊,向一帆,王宇行,叶明燊,戴思颖,刘智琦,徐英杰,陈昕阳,孙恒喆,沈吉滪,贺晶晶,杨仝

参考资料:

https://arxiv.org/abs/2602.13591

秒追ASI

相关内容

热门资讯

北大团队让AI智能体「入侵」论... 新智元报道 编辑:LRST 【新智元导读】公元前47年,凯撒在泽拉战役速胜后给罗马元老院写了三个词...
原创 O... 2月21日,OPPO官方传来重磅消息,全新折叠屏旗舰Find N6正式定档,将于3月17日全球发布,...
射辅能用超过5年的优质皮肤有多... 这个系列我们来聊一下发育路和辅助位那些从上线起,可一直保持较高的使用率维持5年以上的优质超值皮肤。王...
中国AI为何再次令世界惊艳 中国人工智能(AI)视频创作模型Seedance 2.0近日发布后在全球网络上迅速走红。各国用户大量...
多部门部署加快招标投标领域人工... 从国家发展改革委获悉,近日,国家发展改革委、工业和信息化部、住房城乡建设部等8部门联合印发关于加快招...
原创 当... 2024年以来,中国消费电子市场正在经历一场特殊的化学反应。一边是人工智能(AI)技术从云端大模型向...
科瑞森申请卸料器段可调自回弹托... 国家知识产权局信息显示,焦作科瑞森重装股份有限公司申请一项名为“一种卸料器段可调自回弹托辊”的专利,...
常州精诺工具取得深孔钻头夹持柄... 国家知识产权局信息显示,常州精诺工具制造有限公司取得一项名为“一种深孔钻头夹持柄”的专利,授权公告号...
珠海佑航科技申请无静态功耗的L... 国家知识产权局信息显示,珠海佑航科技有限公司申请一项名为“无静态功耗的LDO过流保护电路、方法、设备...
中信博申请自动化打桩机专利,提... 国家知识产权局信息显示,江苏中信博新能源科技股份有限公司申请一项名为“自动化打桩机”的专利,公开号C...
从AlphaGo到DeepSe... 机器之心编译 如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大...
育碧新作大揭秘!两款《孤岛惊魂... IT之家 2 月 20 日消息,育碧联合创始人兼 CEO 伊夫 · 吉约莫(IT之家注:Yves G...
原创 国... 2026年2月20日,业内重磅消息传出,OPPO Find X9 Ultra与vivo X200 U...
【新春走基层】为了不失联的信号 央视网消息(新闻联播):“十五五”规划建议提出,前瞻布局第六代移动通信,核心是构建空天地海一体化网络...
TCL首超三星登顶12月全球电... 【太平洋科技快讯】2月20日消息,Counterpoint Research数据显示,TCL在202...
AppLovin计划推出自有社... 2月20日消息,据外电报道,周四,AppLovin ( APP ) 的股价上涨了 2.5%,原因是该...
原创 中... 中国科技连迎里程碑,6G通信刷新世界纪录,新型电池-70℃正常工作,能量密度超磷酸铁锂,两大突破直指...
成本仅1/3,效率却翻13倍!... 来源:市场资讯 (来源:新智元) 新智元报道 编辑:KingHZ Aeneas 【新智元导读】双十...
尴尬瞬间!奥特曼和Anthro... 2月19日消息,据外电报道,周四在印度举行的人工智能峰会上,两位人工智能(AI)行业领军人物之间短暂...
索尼出手叫停粉丝重制《血源诅咒... IT之家 2 月 20 日消息,索尼已在今天宣布关闭蓝点游戏工作室,《血源诅咒》系列游戏的重制 / ...