突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research
创始人
2025-06-17 19:20:48
0

港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。

该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。

  • 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
  • 论文地址:https://arxiv.org/abs/2505.23885
  • 项目代码:https://github.com/camel-ai/owl

背景与挑战:多智能体系统的「领域壁垒」

随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。然而,当前的多智能体系统普遍面临一个核心问题:跨领域迁移能力严重不足。现有系统往往针对特定领域深度定制,这种设计模式带来了两大弊端:

  1. 推理层面的限制:部署到新领域往往需要重新设计整个系统架构。例如,专为软件工程设计的 MetaGPT 框架依赖于特定的标准操作程序,难以直接应用到其他领域。
  2. 训练层面的挑战:现有方法通常需要对所有智能体进行全量训练。以 MALT 为例,其固定的生成器 - 验证器 - 改进器流水线要求对每个组件分别进行训练,迁移成本极高。

这些局限性制约了多智能体系统的灵活性和可扩展性,迫切需要一种更加通用、模块化的解决方案。

创新突破:Workforce 架构的「解耦设计」

研究团队提出的 Workforce 框架通过创新的「解耦设计」理念,解决了跨领域迁移难题。该框架将系统分解为三个核心组件:

  1. 领域无关的规划器(Planner Agent),其负责分析输入任务并将其分解为若干子任务,基于高层目标生成抽象的任务分解策略。这个组件是整个系统的「大脑」,其设计完全独立于具体应用领域。
  2. 智能协调器(Coordinator Agent),作为中央协调机制,负责将子任务分配给最适合的工作节点,同时管理任务依赖关系并整合中间结果。协调器通过共享的 「任务通道」实现高效的通信管理。
  3. 专业工作节点(Worker Nodes),由一个或多个专门化智能体组成,配备特定的能力和工具包来执行分配的子任务。工作节点可以根据应用需求灵活替换或添加,无需修改核心规划机制。

这种模块化架构的最大优势在于实现了「稳定核心,可变外围」的设计哲学。当需要适应新领域时,只需更换或添加相应的工作节点,而规划器和协调器可以保持不变,大大降低了系统迁移的复杂度和成本。

技术创新:OWL 训练方法的「精准优化」

在 Workforce 架构基础上,研究团队进一步提出了 OWL(Optimized Workforce Learning)训练方法,专注于优化核心规划器的能力,而非对整个系统进行全量训练。整体采用两阶段训练策略:

  1. 第一阶段:监督微调(SFT),使用专家演示数据对规划器进行初始化训练,让其掌握基础的任务分解技能。研究团队精心构建了包含 1599 个高质量轨迹的训练数据集,涵盖在线信息搜索、推理、多模态处理等多个能力维度。
  2. 第二阶段:强化学习优化,采用直接偏好优化(DPO)算法进一步提升规划器的决策质量,使其能够发展出超越简单模仿的复杂决策能力。

这种精心设计的课程确保了规划器能够处理现实世界中的各种复杂任务类型。

实验验证:全面超越现有基准

研究团队在 GAIA 基准测试上进行了全面的实验验证。GAIA 是评估通用 AI 助手的权威基准,要求系统具备多模态理解、网络搜索、代码执行和复杂推理等综合能力。

在多智能体推理方面,Workforce 展现出了显著优势,在 GAIA 的 validation 集上 pass@1 达到了 69.70% 的准确率,大幅超越此前最好的开源系统,并超越了 OpenAI Deep Research(67.36%)等强大的商业系统。

在 OWL 训练方法效果验证方面,OWL 的训练设计使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能从 36.36% 提升到了 52.73%,超越了未训练的 72B 模型(49.09%),并在 Level 3 任务上达到了与 GPT-4o 相当的性能(26.92%)。

深入的分析实验揭示了 Workforce 框架的多项优势:

  1. 跨能力维度维持稳定:Workforce 框架在各个能力维度都展现出优势,无论任务需要 1 种、2 种还是 3 种以上的能力,Workforce 都能保持稳定的性能表现,而单智能体方法在多能力任务上出现显著性能下降。
  2. 测试时自我纠错:通过 Workforce 设计的任务失败时触发的自我反思与重新规划机制,系统能够在测试时动态调整策略,随着重新规划次数增加,性能持续提升,展现出强大的自我纠错和进化能力。
  3. 模块化训练优势:对比实验显示,仅训练规划器就能达到与训练全部组件相近的性能,同时大幅降低计算成本,验证了「规划器优先」设计理念的正确性。

实际应用:真实环境下的诸多挑战

由于真实世界任务的复杂性和不稳定性,在真实环境中解决问题会面临诸多挑战。对此,研究团队进行了深入分析,将挑战主要分为以下几类:

  1. 信息源差异:同一查询在不同信息源可能得到不同答案。
  2. 信息时效性:网络信息的动态变化可能导致预期答案失效。
  3. 语言歧义性:用户查询中的模糊表达需要系统进行智能推理和消歧。
  4. 网络环境限制:网络不稳定、访问权限限制等现实问题都需要系统妥善处理。

结论:通向通用人工智能的新路径

OWL 的成功为构建真正通用的人工智能系统开辟了一种新的路径。其中,Workforce 的模块化设计和跨领域迁移能力,带来了以下优势:

  1. 架构层面:通过解耦设计实现系统的高度模块化,既保证了核心能力的稳定性,又提供了外围功能的灵活性。
  2. 训练层面:专注于核心组件的优化而非全系统训练,显著提高了训练效率和迁移能力。
  3. 应用层面:为各种实际应用场景提供了即插即用的解决方案,大大降低了部署门槛。

通过将即插即用的工作节点与可泛化的规划核心相结合,该方法能够为通用 AI 助手提供可扩展的基础,加速通用 AI 助手的研究进程。

相关内容

热门资讯

簇拥烈日的花 观点2026新年... 观点网你好,2026。每当新年的第一缕晨光穿透晨雾,我们如簇拥烈日的花,又一次抬起头来,回望来处的足...
跨界风又起!电池新能源赛道再成... 来源:市场资讯 (来源:我的电池网) 导语丨mybattery 跨界从来不是稳赚不赔的买卖,此前也有...
翻斗式雨量监测站:实时测雨的科... 在生活中,降雨是我们再熟悉不过的自然现象。春日的细雨如牛毛般轻柔,唤醒沉睡的大地;夏日的暴雨倾盆而下...
争议中登顶,《燕云十六声》周年... 文 | 游戏价值论 2025 年 12 月 27 日,《燕云十六声》周年版本 “饮马渡秋水” 正式...
全国首套真空式自动系泊系统在青... 2026年1月1日,在山东港口青岛港全自动化集装箱码头现场,长达366米的“地中海沙特阿拉伯”集装箱...
华人团队AI公司8个月狂揽7亿... (来源:格隆汇APP) 来源:格隆汇 2025年12月30日,一个注定被载入科技史册的日子。 整个硅...
三星最便宜5G手机:Galax... IT之家 12 月 26 日消息,科技媒体 tecnoblog 于 12 月 24 日发布博文,报道...
杨植麟发内部信:已融资35亿,... 智东西 作者|王涵 编辑|冰倩 智东西12月31日报道,今日,北京大模型独角兽月之暗面的创始人、CE...
风正劲,气如虹,再扬帆——二〇... 日月其迈,岁律更新。走过春之萌发、夏之繁茂、秋之绚烂、冬之清朗,我们又迎来新的开始。 所有美好祝福,...
福建学子喜迎2026年元旦 从童趣盎然的幼儿园,到活力多彩的中小学,全省各地的校园里,一场场精心筹备的元旦庆祝活动为即将展开的新...
蓝海华腾取得水冷变频器专利,布... 国家知识产权局信息显示,深圳市蓝海华腾技术股份有限公司取得一项名为“水冷变频器”的专利,授权公告号C...
2025手机市场高开低走:苹果... 2025年,对于智能手机市场来说是动荡、瞬息万变的一年。上半年,既有国补带来的中国市场出货快速增长,...
2026,步履不停,勇毅前行 人民,永远是我们这支警察队伍的定语,我们的职责很光荣也很朴素,用平安稳定为时代的锦绣添上独有的一针一...
南乐县工商业联合会(总商会)2... 辞旧迎新 喜迎元旦 HAPPY NEW YEAR 时序更替,华章日新。值此辞旧迎新的美好时刻,南乐县...
“鹏城云脑Ⅲ”首期设备通电点亮... 深圳商报·读创客户端首席记者 王海荣 12月29日上午,“鹏城云脑Ⅲ”首期4500P计算板卡及周边辅...
广东潮州:政企同心破瓶颈 小马... 新华网广州12月30日电(李幸子 毛鑫)一个小小的马桶盖安装冲洗、烘干、杀菌等模块,即能实现感应开盖...
瑞沣集团取得光伏板快速检测装置... 国家知识产权局信息显示,瑞沣集团股份有限公司取得一项名为“一种光伏板快速检测装置”的专利,授权公告号...
嘉善宇达电子取得音膜装配工装专... 国家知识产权局信息显示,嘉善宇达电子有限公司取得一项名为“一种音膜装配工装”的专利,授权公告号CN2...
王者荣耀孙悟空无相无双限定皮肤... 大家好,王者荣耀在元旦假期期间中给玩家们提供了许多的全新福利和各种活动可以让你们来参与并获取,其中推...
科学与健康|中国“心”中国造 ... 新华社北京12月31日电 题:中国“心”中国造 这颗“心脏”不一般! 新华社记者宋晨、李力可 航空发...