大模型“吞噬”Agent
创始人
2025-04-24 22:22:11
0

作者 | 常棣

编辑 | 葛覃

“OpenAI要把Agent吞进模型里了。”

当OpenAI发布了新的o3 模型和 o4-mini 模型之后,一位业内人士有此感慨。行业普遍认为2025年是AI Agent元年时,大模型厂商似乎按捺不住,率先下场成为最大的AI Agent。

结合行业视角观察,大模型也正在从“对话生成”向“任务执行”跃迁,具备规划、记忆、工具调用等能力,而一些AI Agent厂商所担心的事情已经发生,即大模型本身的进化会吃掉一部分AI Agent的能力,这代表旧的Agent生态被拆解,新的Agent生态正在形成。

大模型内生Agent

无论愿意与否,大模型Agent化的趋势已经袭来。o3 拥有更强的图像分析能力,o4-mini 也首次支持图像输入,两款模型均支持 Responses API 与 Chat Completions API,其中 Responses API 支持与多个工具的无缝集成,还能输出“推理摘要”,这不仅有助于理解模型输出,还能进一步优化工具调用效果。

国内模型也在加码适合Agent化的大模型。与OpenAI发布新模型的同一天,火山引擎总裁谭待表示,Agent智能体应用发展将带动大模型进一步普及。“深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。”

豆包最新的深度思考模型采用MoE架构,总参数为200B,激活参数仅20B,以较小参数实现较好的效果,同时,豆包模型API服务保障高并发延迟低至20毫秒,且具备视觉推理能力,拓展了智能推理的应用边界。

更早之前,阿里云智能集团资深副总裁、公共云事业部总裁刘伟光提到,阿里巴巴开发新的模型最重要的两个方向,一个是Reasoning推理,一个是全模态融合。

“大模型未来一定是向越来越强的推理能力演化,尤其强化学习,不断提升思维链的能力,伴随着模型内生的任务规划、工具使用能力不断增强,大模型会越来越智慧,可以不断思考更难更高问题,完成更复杂任务。”他说。

阿里云此前开源的QwQ-32B推理模型,在小参数模型实现大参数模型的能力,已经应用于风险控制、风险审核等任务,集成了智能体能力之后,对Agent智能体更加友好,而且32B参数模型能够有效降低部署和使用成本,甚至在消费级显卡上也能够部署。

结合行业视角来看,大模型本身正在将Agent能力内生化。刘伟光介绍,第一步,用强化学习进一步提升模型的泛化能力,例如把推理任务拆解成多个子任务,从而提升模型跨领域泛化能力;

第二步,模型自行判断用快思考还是慢思考解决问题,模型该快的时候更快,该慢的时候思考的更深,可以合理使用底层计算资源,降低资源的不必要的消耗;

第三模型具备更强大的任务规划和工具调度能力,并且成为模型自身的原生能力,这些能力纳入到模型本身推理之后,从而加速Agent和AI的落地。

Agent落地,没想象的简单

Manus的火热,一定程度上说明了AI Agent行业的关注度,但是,结合Manus仍以邀请码的形式开放,以及更多面向消费级和企业级的Agent都未广泛普及的现状来看,AI Agent还有不少坎要过。

亚马逊云科技对TechForWhat表示,对比国内外企业做Agent的情况,可以从大语言模型、API和商业形态三个层次上来看。

如果大语言模型能力强的话,可能Agent 之间的交互就会少一些,所以模型能力很关键,各种模型也有不同的特点,比如Claude 3.7 代码能力很好,Amazon Nova的翻译性价比很高,而模型能力目前达到的程度,也会决定Agent构建时的复杂度。

其次,API 其实是下一步Agent 落地很重要的一环,比如亚马逊设计的 API 规范都是开放的,可以供企业参考。

最后,商业形态方面,Agent说到底都只是一个业务软件,只不过交付形态不同,但无论是以软件形式还是服务形式交付,无论是在国内还是国外,亚马逊云科技提供的Marketplace都可以支持。

Manus联合创始人张涛也表示,Agent和传统chatbot的场景不太一样,过去两年多时间,绝大部分大语言模型在不管在Pre-training还是Post-training阶段,所有的训练目标都是面向Chatbot,Chatbot的特点是,模型总是期望在一轮对话里面回答问题。

但是,现实任务很难在一轮对话里面解决问题,甚至可能可能需要50-100轮对话,Manus目前在海外使用的模型还是Claude 3.7 Sonnet,而在国内传出要和阿里云通义千问合作的消息。

谭待也表示,而要做好agent,技术上需要做好三个准备。首先最核心的是要有更强的模型,要做好agent,模型需要有能力做好思考、计划和反思,而且一定得支持多模态。因为真实世界的任务需要耳朵、嘴巴和眼睛来共同完成。

此次是更好的架构和工具,来支持大模型去操作数字和物理世界,构建好OS agent;最后是通过AI云原生,不断降低模型推理的成本和延迟,让应用无障碍。

为此,火山引擎也推出OS Agent解决方案,并演示了由Agent操作浏览器,搜索商品页,实现iPhone比价的任务,甚至由Agent在远程计算机上用剪映进行视频编辑、配乐。

火山引擎的OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,可实现对代码、浏览器、电脑、手机以及其他Agent的操作。好的模型和工具能够加速Agent的落地,但Agent也会带来更大量的模型推理消耗。火山引擎专门打造了AI云原生ServingKit 推理套件,让模型部署更快、推理成本更低,GPU 消耗相比传统方案降低80%。

AI Agent的混淆与乱象

AI Agent还未兑现真正的生产力,市场已经开始浮现一些乱象,就像大模型早期的热潮,这是新技术从出生走向成熟的必经之路。

从定义上看,今年以来行业就涌现出上百上千的AI Agent,但不是所有Agent的含AI量都足够。Anthropic(Claude背后的公司)表示,我们开始看到两种不同的模式,一种是由代码预先编排的工作流,另一种是代理,它在某种程度上更简单,但在其他方面更复杂。

Anthropic认为,真正的的AI Agent是让LLM自己决定运行多少次,不需要人类告诉它每一步该做什么,它会持续循环直到找到解决方案。

谭待也认为,能完成打油诗、简单报告等任务,不能称之为 Agent。Agent 应能完成专业度较高、耗时较长的完整任务,这是从定性角度来看。从技术实现角度,如果没有运用思考模型,缺乏反思和规划能力,也很难被认定为 Agent。

他说,随着技术落地,今年大家对 Agent 的定义会更加清晰,或许会像自动驾驶分级(Agent L1、L2、L3、L4 )一样,对 Agent 进行分级,目前绝大多数 Agent 可能只是 L1 级别,而真正落地可能需要达到 L2 及以上级别。

站在客户的视角看,不论AI Agent与否,能够在实际上场景解决业务需求才重要,工作流则像是固定的生产线,每个步骤都是预先设计好的,而代理则像是有自主思考能力的助手,可以根据情况自己决定怎么做、做多久,需要企业结合自身的生产场景做判断,现阶段AI Agent不一定比工作流的效果更好。

类比互联网技术和互联网应用生态,后者是比前者宽广千百倍的想象空间,大模型厂商、云厂商等巨头企业,没有理由不自己站在C位,把持住关键的流量和平台入口,而以往的应用范式将被进一步打破。

2025年,可能是AI Agent应用的元年,更可能是大模型产业生态重塑秩序的开端。

相关内容

热门资讯

深天马A:专业显示类产品应用于... 证券之星消息,深天马A(000050)01月14日在投资者关系平台上答复投资者关心的问题。 投资者:...
腾讯科技申请信息推荐方法专利,... 国家知识产权局信息显示,腾讯科技(深圳)有限公司申请一项名为“一种信息推荐方法、装置、设备、存储介质...
版本初期中路国服战力排行,诸葛... 大家好我是指尖,版本初期,跟大家分享一下中路的国服战力情况,方便大家去了解英雄的潜力和上限。 数据取...
眸深智能申请具身智能运动生成方... 国家知识产权局信息显示,上海眸深智能科技有限公司申请一项名为“具身智能运动生成方法、及其系统及电子设...
定下一年赶超英伟达目标,追觅科... 1月15日,网上传出一张截图,追觅科技CEO俞浩被员工在千人内部群怒怼了。 事件起因于俞浩日前在朋友...
湖北重大原创性技术斩获全国大奖 原标题:让大豆花生增产超15% 湖北重大原创性技术斩获全国大奖 近日,第十四届中国创新创业大赛颠覆性...
从研发到制造的精密引擎:nSc... nScrypt 3Dn系列:工业级精密数字制造系统 nScrypt 3Dn系列融合了高速高精度运动平...
台积电大涨令投资者陷入两难 建... 来源:商业周刊 台积电的迅猛涨势令投资者进退两难,由于多头头寸过于拥挤,多空双方都难以对该股建立新的...
天津齐物科技取得极耳压平设备专... 国家知识产权局信息显示,天津齐物科技有限公司取得一项名为“一种极耳压平设备”的专利,授权公告号CN2...
如何选择更适合新手的云手机,多... 2026 年,中国智能手机市场正经历着一场前所未有的“成本风暴”。随着内存与闪存芯片价格进入超级牛市...
威胁猎人:2025年互联网黑灰... 今天分享的是:威胁猎人:2025年互联网黑灰产趋势年度总结报告 报告共计:88页 2025年互联网黑...
合肥瑶海:科技打头阵 产业勇争... 央广网合肥1月14日消息(记者徐秋韵 通讯员于敏)时序更替,华章日新。站在“十五五”的崭新起点回望,...
【机构调研记录】富国基金调研新... 证券之星消息,根据市场公开信息及1月14日披露的机构调研信息,富国基金近期对2家上市公司进行了调研,...
2025年安防人必看!太阳能预... 一、行业背景与现状分析 太阳能预警哨兵作为智慧交通体系中的关键设备,扮演着多重重要角色。它不仅是执法...
中国版太空旅游要来了? 1月12日,中科宇航力鸿一号遥一飞行器在我国酒泉卫星发射中心完成亚轨道飞行试验任务,返回式载荷舱通过...
阿里千问上线“千问小讲堂”:整... 来源:市场资讯 (来源:IT之家) IT之家 1 月 15 日消息,在今天的阿里千问 App 产品发...
数智导刊丨黄群慧:确保“人工智... 开栏的话 2026年,作为“十五五”规划的开局之年,数智化浪潮正以不可阻挡之势深度重塑中国经济社会的...
美国Verizon网络瘫痪:i... 1月15日消息,美国电信运营商Verizon在全美范围内发生重大网络故障,故障追踪网站Downdet...
原创 S... S42赛季版本陷阱出现,这3位英雄胜率暴跌,想上分就别选,S42赛季更新之后,不少玩家都有一个共同感...
苏州固锝:车规认证体系完善 业... 证券之星消息,苏州固锝(002079)01月14日在投资者关系平台上答复投资者关心的问题。 投资者:...