港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。
该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。
背景与挑战:多智能体系统的「领域壁垒」
随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。然而,当前的多智能体系统普遍面临一个核心问题:跨领域迁移能力严重不足。现有系统往往针对特定领域深度定制,这种设计模式带来了两大弊端:
这些局限性制约了多智能体系统的灵活性和可扩展性,迫切需要一种更加通用、模块化的解决方案。
创新突破:Workforce 架构的「解耦设计」
研究团队提出的 Workforce 框架通过创新的「解耦设计」理念,解决了跨领域迁移难题。该框架将系统分解为三个核心组件:
这种模块化架构的最大优势在于实现了「稳定核心,可变外围」的设计哲学。当需要适应新领域时,只需更换或添加相应的工作节点,而规划器和协调器可以保持不变,大大降低了系统迁移的复杂度和成本。
技术创新:OWL 训练方法的「精准优化」
在 Workforce 架构基础上,研究团队进一步提出了 OWL(Optimized Workforce Learning)训练方法,专注于优化核心规划器的能力,而非对整个系统进行全量训练。整体采用两阶段训练策略:
这种精心设计的课程确保了规划器能够处理现实世界中的各种复杂任务类型。
实验验证:全面超越现有基准
研究团队在 GAIA 基准测试上进行了全面的实验验证。GAIA 是评估通用 AI 助手的权威基准,要求系统具备多模态理解、网络搜索、代码执行和复杂推理等综合能力。
在多智能体推理方面,Workforce 展现出了显著优势,在 GAIA 的 validation 集上 pass@1 达到了 69.70% 的准确率,大幅超越此前最好的开源系统,并超越了 OpenAI Deep Research(67.36%)等强大的商业系统。
在 OWL 训练方法效果验证方面,OWL 的训练设计使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能从 36.36% 提升到了 52.73%,超越了未训练的 72B 模型(49.09%),并在 Level 3 任务上达到了与 GPT-4o 相当的性能(26.92%)。
深入的分析实验揭示了 Workforce 框架的多项优势:
实际应用:真实环境下的诸多挑战
由于真实世界任务的复杂性和不稳定性,在真实环境中解决问题会面临诸多挑战。对此,研究团队进行了深入分析,将挑战主要分为以下几类:
结论:通向通用人工智能的新路径
OWL 的成功为构建真正通用的人工智能系统开辟了一种新的路径。其中,Workforce 的模块化设计和跨领域迁移能力,带来了以下优势:
通过将即插即用的工作节点与可泛化的规划核心相结合,该方法能够为通用 AI 助手提供可扩展的基础,加速通用 AI 助手的研究进程。
上一篇:百度+罗永浩:干掉那些真人主播