突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research
创始人
2025-06-17 19:20:48
0

港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。

该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。

  • 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
  • 论文地址:https://arxiv.org/abs/2505.23885
  • 项目代码:https://github.com/camel-ai/owl

背景与挑战:多智能体系统的「领域壁垒」

随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。然而,当前的多智能体系统普遍面临一个核心问题:跨领域迁移能力严重不足。现有系统往往针对特定领域深度定制,这种设计模式带来了两大弊端:

  1. 推理层面的限制:部署到新领域往往需要重新设计整个系统架构。例如,专为软件工程设计的 MetaGPT 框架依赖于特定的标准操作程序,难以直接应用到其他领域。
  2. 训练层面的挑战:现有方法通常需要对所有智能体进行全量训练。以 MALT 为例,其固定的生成器 - 验证器 - 改进器流水线要求对每个组件分别进行训练,迁移成本极高。

这些局限性制约了多智能体系统的灵活性和可扩展性,迫切需要一种更加通用、模块化的解决方案。

创新突破:Workforce 架构的「解耦设计」

研究团队提出的 Workforce 框架通过创新的「解耦设计」理念,解决了跨领域迁移难题。该框架将系统分解为三个核心组件:

  1. 领域无关的规划器(Planner Agent),其负责分析输入任务并将其分解为若干子任务,基于高层目标生成抽象的任务分解策略。这个组件是整个系统的「大脑」,其设计完全独立于具体应用领域。
  2. 智能协调器(Coordinator Agent),作为中央协调机制,负责将子任务分配给最适合的工作节点,同时管理任务依赖关系并整合中间结果。协调器通过共享的 「任务通道」实现高效的通信管理。
  3. 专业工作节点(Worker Nodes),由一个或多个专门化智能体组成,配备特定的能力和工具包来执行分配的子任务。工作节点可以根据应用需求灵活替换或添加,无需修改核心规划机制。

这种模块化架构的最大优势在于实现了「稳定核心,可变外围」的设计哲学。当需要适应新领域时,只需更换或添加相应的工作节点,而规划器和协调器可以保持不变,大大降低了系统迁移的复杂度和成本。

技术创新:OWL 训练方法的「精准优化」

在 Workforce 架构基础上,研究团队进一步提出了 OWL(Optimized Workforce Learning)训练方法,专注于优化核心规划器的能力,而非对整个系统进行全量训练。整体采用两阶段训练策略:

  1. 第一阶段:监督微调(SFT),使用专家演示数据对规划器进行初始化训练,让其掌握基础的任务分解技能。研究团队精心构建了包含 1599 个高质量轨迹的训练数据集,涵盖在线信息搜索、推理、多模态处理等多个能力维度。
  2. 第二阶段:强化学习优化,采用直接偏好优化(DPO)算法进一步提升规划器的决策质量,使其能够发展出超越简单模仿的复杂决策能力。

这种精心设计的课程确保了规划器能够处理现实世界中的各种复杂任务类型。

实验验证:全面超越现有基准

研究团队在 GAIA 基准测试上进行了全面的实验验证。GAIA 是评估通用 AI 助手的权威基准,要求系统具备多模态理解、网络搜索、代码执行和复杂推理等综合能力。

在多智能体推理方面,Workforce 展现出了显著优势,在 GAIA 的 validation 集上 pass@1 达到了 69.70% 的准确率,大幅超越此前最好的开源系统,并超越了 OpenAI Deep Research(67.36%)等强大的商业系统。

在 OWL 训练方法效果验证方面,OWL 的训练设计使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能从 36.36% 提升到了 52.73%,超越了未训练的 72B 模型(49.09%),并在 Level 3 任务上达到了与 GPT-4o 相当的性能(26.92%)。

深入的分析实验揭示了 Workforce 框架的多项优势:

  1. 跨能力维度维持稳定:Workforce 框架在各个能力维度都展现出优势,无论任务需要 1 种、2 种还是 3 种以上的能力,Workforce 都能保持稳定的性能表现,而单智能体方法在多能力任务上出现显著性能下降。
  2. 测试时自我纠错:通过 Workforce 设计的任务失败时触发的自我反思与重新规划机制,系统能够在测试时动态调整策略,随着重新规划次数增加,性能持续提升,展现出强大的自我纠错和进化能力。
  3. 模块化训练优势:对比实验显示,仅训练规划器就能达到与训练全部组件相近的性能,同时大幅降低计算成本,验证了「规划器优先」设计理念的正确性。

实际应用:真实环境下的诸多挑战

由于真实世界任务的复杂性和不稳定性,在真实环境中解决问题会面临诸多挑战。对此,研究团队进行了深入分析,将挑战主要分为以下几类:

  1. 信息源差异:同一查询在不同信息源可能得到不同答案。
  2. 信息时效性:网络信息的动态变化可能导致预期答案失效。
  3. 语言歧义性:用户查询中的模糊表达需要系统进行智能推理和消歧。
  4. 网络环境限制:网络不稳定、访问权限限制等现实问题都需要系统妥善处理。

结论:通向通用人工智能的新路径

OWL 的成功为构建真正通用的人工智能系统开辟了一种新的路径。其中,Workforce 的模块化设计和跨领域迁移能力,带来了以下优势:

  1. 架构层面:通过解耦设计实现系统的高度模块化,既保证了核心能力的稳定性,又提供了外围功能的灵活性。
  2. 训练层面:专注于核心组件的优化而非全系统训练,显著提高了训练效率和迁移能力。
  3. 应用层面:为各种实际应用场景提供了即插即用的解决方案,大大降低了部署门槛。

通过将即插即用的工作节点与可泛化的规划核心相结合,该方法能够为通用 AI 助手提供可扩展的基础,加速通用 AI 助手的研究进程。

相关内容

热门资讯

认知优势:人工智能在国家安全决... 国家安全决策常在"不确定性"、"信息模糊性"、"时空资源约束"及多重动态变量混杂的高压环境下进行。化...
第三届“面向2050的空天创新... 深圳商报•读创客户端记者 吴吉 通讯员 王颖/文 张近民/图 近日,由中国航空学会、成都流体动力创新...
轮椅上的“空中F1”飞手:“无... 2025年成都世运会无人机竞速现场,意大利飞手路易莎·里佐双手在遥控器上快速拨动。她的竞速无人机呼啸...
刚刚!谷歌内部揭秘Genie ... 新智元报道 编辑:KingHZ 【新智元导读】Genie 3来了!这或许是最接近「模拟世界」的AI...
福耀玻璃公布“天线组件和车辆”... 天眼查APP显示,近日,福耀玻璃工业集团股份有限公司申请的“天线组件和车辆”专利公布。 摘要显示,本...
欣宇泰科取得线切割装夹工装专利... 金融界2025年8月16日消息,国家知识产权局信息显示,贵州欣宇泰科精密科技有限公司取得一项名为“一...
原创 M... Milkyway被曝光打假赛,发布律师函追责,造谣者不服爆出更多猛料,最近,LPL赛场外又迎来了一起...
原创 T... T1 COO接受采访,直言希望其他选手跟faker一样,能在战队终老,在近期的一次采访中,T1的CO...
早年条件有限开会还要自带小板凳 8月15日,在2025中国航空航天科普大会开幕式上,中国工程院院士、国家运载火箭与航天工程技术专家龙...
内蒙古科创新赛道|内蒙古首座压... 8月12日,北方稀土贮氢公司在包头建成内蒙古首座应用低压固态储氢技术的加氢示范站,为自治区能源结构绿...
水星又要“露脸”了,机会难得 8月“星空剧场”又上新了。19日,水星将迎来西大距。天文科普专家表示,今年水星共有3次西大距,本月的...
华东师大发布AIGC报告:编辑... 随着人工智能生成内容(AIGC)技术的不断发展,以内容生产为核心的出版业如何应对?AIGC技术渗透到...
灵巧智能CEO周晨:灵巧手的终... 2025年的世界机器人大会(WRC 2025),人形机器人的整个产业链几乎是“全员到齐”了。 根据官...
欧森隆取得改进支撑装置夹持结构... 金融界2025年8月16日消息,国家知识产权局信息显示,深圳欧森隆科创有限公司取得一项名为“夹持机构...
OpenAI首席科学家:AGI... 来源:市场资讯 (来源:三言科技) 8月16日,OpenAI首席科学家雅库布·帕乔基和研究员西蒙·西...
凯勒新材料取得电池包冷却液循环... 金融界2025年8月16日消息,国家知识产权局信息显示,凯勒(南京)新材料科技有限公司取得一项名为“...
马斯克“大刀阔斧”,X平台员工... 【环球网科技综合报道】8月15日消息,特斯拉CEO埃隆·马斯克日前证实,其旗下曾为推特的X平台员工数...
创新能力:自立自强有底气 8月7日,在位于天津滨海高新区的青禾晶元半导体科技(集团)有限责任公司,生产车间的工作人员在调试设备...
苹果入驻小红书:网传9月10日... 8月15日,今日有网友发现苹果官方现已正式入驻小红书,其简介写道:你好,这里是Apple,在此和大家...
“上海智慧+如东场景”,双向奔... 来源:滚动播报 (来源:上观新闻) 8月15日,“AI赋能·智造未来”如东-大零号湾离岸孵化器(科...