终极打工人诞生:OpenAI发布ChatGPT Agent,重新定义生产力边界
创始人
2025-07-19 21:40:38
0

当Agent能够完成复杂任务,我们需要学习如何与这个星球上最聪明的“打工人”共事。

作者 | 小葳

AI Agent的时代,比所有人预想的,来得更早、更猛烈。

北京时间7月18日凌晨,科技圈再次被OpenAI投下的一枚重磅炸弹引爆。没有冗长的预热,没有华丽的舞台,Sam Altman和他的团队通过一场25分钟的发布会直播,推出ChatGPT Agent

这不再是我们熟悉的那个“聊天机器人”,它是一个拥有了自己的虚拟电脑、能够自主思考、规划并执行复杂任务的“行动者”。

当看到ChatGPT Agent熟练地打开浏览器、分析网页、调用API、生成PPT、制作表格时,Sam Altman在直播中坦言:“对我来说,在观看它工作时,这是最让我感受到AGI的时刻之一。”

看完发布会,令人印象深刻的有三个方面:

第一, 面对多目标的复杂任务,ChatGPT Agent虽然耗时长一些,但完成度很高;

第二, ChatGPT Agent可以随时被打断,人类用户可以随时补充信息和指导,或增加新任务,人机协作的体验更加凸显;

第三,Agent通过自己专属的虚拟计算机完成所有任务,并将执行任务过程可视化实时展现,用户可以回放视频查看Agent每一步动作。

从“能聊”到“能干”:

统一智能体,OpenAI的必然一步

ChatGPT Agent的诞生并非凭空而来,它是OpenAI在智能体(Agent)道路上不断积累的必然结果。今年早些时候,OpenAI陆续推出了两个重磅工具:Deep Research Operator

然而,这两个工具如同两个“偏科生”。Deep Research擅长长文阅读,却无法与需要登录、交互的网页打交道;Operator擅长处理交互式与可视化的网页,却在深度分析和长文阅读方面力不从心。而许多真实世界的复杂任务,恰恰需要二者能力的结合。

正如Sam Altman在发布会上所说:“人们想要一个统一的智能体,它能自主运行,使用它自己的电脑,帮助人们完成真正复杂的任务。它能够无缝地切换,从思考到采取行动。它能使用各种工具,比如调用终端、在网页上点击操作,甚至能生成电子表格、幻灯片等文件,以及具备更多功能。”

ChatGPT Agent正是两者“强强联合”的实现,它融合了Deep Research的分析能力和Operator的执行能力,相当于赋予了Agent“大脑”和“双手”。

真正完成复杂任务:

自主选择工具,可视化执行过程

发布会上演示的第一个demo是一个多目标的复杂任务,用户9月份要出席朋友婚礼,需要准备服装、礼物、预订酒店等一揽子事情,用户把这些需求一股脑抛给Agent:

- 一套与所有场合的着装要求相匹配的服装(男士)。

- 提出五个服装选项。选择一些轻奢档次的服装,并应与场地和天气相配

- 找到那些两端都有几天缓冲期的酒店。

- 使用Booking进行预订,并务必检查可用性和当前价格。

- 同样别忘了为新人挑选一件礼物,价格最好在500美元以内。

Agent确认关键需求后就开始工作。整个任务完成花费了20分钟左右,在发布会最后,提供了完善的方案。5件服装备选直接提供了价格对比和购买链接。

当用户提出新增要求,安排一个包括美国职业棒球联盟(MLB)所有运动球场参观的旅行计划时,Agent直接给出精确到天的Excel行程表格。

Agent所有动作都是通过专属虚拟电脑完成,这台电脑上安装了很多不同的工具,Agent能自行选择如何使用。

同时,Agent将它执行任务的全过程展示为一个可视化的电脑屏幕,并在不断变化的对话框中显示文本形式的思维链过程,也就是Agent在想什么,它决定下一步做什么。

揭秘Agent的工作台:

一台虚拟电脑和它的工具集

要理解ChatGPT Agent的强大,首先要看它的“工作台”——一台专属的虚拟电脑。在这个工作台上,集成了一些强大的工具:

  • 文本浏览器 (Text Browser):和Deep Research工具类似,它能快速抓取和解析大量网页的文本内容,进行高效的搜索和信息提炼,这让它能够非常高效快速阅读大量网页并进行搜索,是Agent高效处理信息的“利器”。
  • 可视化浏览器 (Visual Browser):和operator工具类似,这是Agent的“眼睛”和“手”。让Agent能像人一样“看”到网页的图形界面,进行点击、
  • 滚动、拖拽、填写表单等操作,轻松应对为人类设计的复杂交互界面。

  • 终端 (Terminal)和API,通过与终端的连接,Agent可以运行代码、进行复杂的数据分析、处理文件,甚至直接生成可编辑的PowerPoint演示文稿和Excel电子表格。发布会演示中,Agent自行编写代码编译幻灯片,并调用图像API美化页面的场景,令人印象深刻。

通过API,Agent能够调用外部服务。包括公共API,以及用于访问你私有数据源的API,比如谷歌云端硬盘,谷歌日历,github,sharepoint等等。

拥有工具是一回事,懂得何时使用何种工具,则是更高维度的智能。OpenAI通过强化学习(Reinforcement Learning)的训练方式,学会在面对复杂任务时,自主规划并智能地选择最优工具组合。

比如,当被要求预订餐厅时,Agent可能会先用文本浏览器进行海量筛选,然后切换到可视化浏览器查看菜品图片,最后确认空位并完成预订。

从“指令-响应”到“委托-协作”:

人机协作的全新体验

如果说完成复杂任务是ChatGPT Agent的“硬实力”,那么其高度协作的交互模式则是它的“软实力”,也是它与其他AI工具显著区别。

过去,我们与AI的交互是僵硬的。一旦任务下达,我们能做的只有等待。而ChatGPT Agent被设计成一个真正的“协作伙伴”。

用户和智能体随时都能够主动与对方沟通,是ChatGPT Agent重要的交互理念。在ChatGPT Agent执行任务的任何时刻,用户都可以随时“插话”:

“Agent模型的一个关键能力是能够被随时打断,就像是在进行多轮对话。用户可以插话,引导它。”ChatGPT Agent研发人员表示。

用户可以中途补充新的要求(哦对了,再帮我找一双9.5码的黑皮鞋),可以纠正它的方向,甚至可以完全改变任务(我忘了提这件事,或者你的进度如何?做得怎么样了?)。Agent会理解新的指令,并在不丢失已有进度的前提下,继续工作。

同时,Agent也会主动沟通。在信息不足时,它会提出澄清性问题让用户确认;在执行关键操作(如发送邮件、下单支付)前,Agent会主动寻求用户的最终确认。这种双向沟通机制,确保了任务始终在用户的掌控之中。

更重要的是,用户拥有最终的“接管权”。如果对Agent的操作不满意,可以随时暂停,直接进入它的虚拟环境,自己动手修改。这极大增强了用户的安全感和控制感,使得人与AI之间建立起一种前所未有的信任关系。

碾压级跑分:

当Agent的能力被量化

为了证明ChatGPT Agent并非华而不实的“花架子”,OpenAI公布了一系列基准测试成绩。这些数据,将其强大的能力清晰地量化了出来。

  • 在被誉为“人类最后考试”的HLE (Humanity’s Last Exam)基准上,该测试旨在衡量AI在各学科专家级问题上的表现,ChatGPT Agent取得了41.6%的分数,几乎是此前o3和o4-mini模型的两倍。
  • 前沿数学基准FrontierMath上,Agent在工具的辅助下,达到了27.4%的准确率,显著优于o3和o4-mini。

  • 在衡量网页浏览和信息定位能力的BrowseCompWebArena测试中,Agent同样表现优异。

  • 在与办公场景息息相关的SpreadsheetBench(电子表格编辑能力测试)中,Agent的得分高达45.5%

这些数字背后,反映出一个清晰的信号:ChatGPT Agent在通用推理、专业知识、工具使用和任务执行等多个维度上,已经达到了一个全新的高度。它不再是一个只能在特定领域展现才华的工具,而是一个具备广泛能力的“通才”。

“前沿与实验性”:

奥特曼的谨慎与Agent的风险预警

在展示强大能力的同时,Sam Altman也反复强调了这款产品的“前沿和实验性”,并坦诚地揭示了其潜在的风险。这体现了OpenAI在推动技术边界时的审慎态度。

研发团队称,目前最大的担忧之一,是被称为“提示词注入”(Prompt Injection)的新型攻击。

当Agent访问恶意网站时,网站上的隐藏指令可能会“诱骗”它执行不当操作,比如泄露用户的敏感信息。

对此,OpenAI构建了多层防御体系,包括训练模型忽略可疑指令、部署实时监控系统来终止恶意行为等。但OpenAI也承认,他们无法阻止所有攻击。

随着AI能力的指数级增长,如何为其划定安全的伦理和技术边界,已成为整个行业面临的共同挑战。

因此,OpenAI给用户的建议是:充分意识到使用智能体所面临的风险,不随意向智能体透露个人敏感信息。

结语

ChatGPT Agent今天所展示的,还只是一个开始。

Agent不可避免会犯错,有时完成任务可能比人类手动操作更耗时。但它指明的方向,是清晰且不可逆转的。

我们正在从一个需要自己亲手操作每一个软件、点击每一个按钮的时代,迈向一个只需提出目标,便有智能体为你调度一切资源的时代。

而我们,需要学习如何与这个星球上最聪明的“打工人”共事。

END

本文为「智能进化论」原创作品。

相关内容

热门资讯

广东水利应急响应升至Ⅱ级 科学... 受今年第6号台风“韦帕”影响,广东省水利厅于19日11时将水利防汛防台风Ⅳ级应急响应提升为Ⅱ级。截至...
培育人工智能领域技能人才,12... 7月19日,东莞市2025首届人工智能训练师大赛决赛举办。大赛以“技术赋能产业,创新引领未来”为主题...
AI超级联赛,何以落户广西? 中新网南宁7月18日电(记者 杨陈)近期全国各地高温热浪持续。在广西南宁,即将于7月19日启动的AI...
王俊凯黄子弘凡助阵《英雄联盟手... 搜狐娱乐讯(马蓉玲/文 孟莎/图、视频)7月20日,《英雄联盟手游》3周年庆典暨超级联赛第一赛段总决...
浙江卓展科技取得双袋包装设备专... 金融界2025年7月19日消息,国家知识产权局信息显示,浙江卓展科技有限公司取得一项名为“一种双袋包...
原创 华... 目前市面上折叠屏手机越来越多了,三星和华为的折叠屏价格比较贵,华为作为十分注重品质的厂商,得到了很多...
《GTA6》PS5版或锁定30... 《GTA6》自公布以来便引发了玩家们的高度期待,任何官方消息或泄露情报都能迅速成为焦点。 Rocks...
外媒独家爆料《黑暗之魂3:复刻... 7月18日时,外媒报道称FromSoftware还有一款未公布的多平台游戏,代号为FMC,可能是《装...
蜂巢能源取得电池包和动力装置专... 金融界2025年7月19日消息,国家知识产权局信息显示,蜂巢能源科技股份有限公司取得一项名为“电池包...
“浙BA”台州赛区,冠军队伍诞... 60:57 “浙BA”台州赛区巅峰对决 台州湾新区代表队战胜玉环代表队 成为台州赛区冠军 台州湾新...
点点互动又出爆款,抖音小游戏用... 随着这些年国内游戏厂商声量壮大,中国游戏全球化/区域化新品布局、中国厂商于宣发联动、投资并购等业态频...
我国科学家发现大豆种子油蛋比调... 记者从安徽农业大学获悉,该校王晓波教授团队联合中国农业科学院作物科学研究所邱丽娟、李英慧研究员团队,...
“墨子”又有新突破!实现对银河... 记者7月18日从中国科学技术大学了解到,我国墨子巡天望远镜(WFST)于近期实现了对银河系的分钟级高...
【东图名师讲坛】农业机器人的核... 2024年 与366位名师相约 每天30分钟一讲座 把你的思维带到未曾去过的地方 第272期 农业机...
数字孪生赋予船舶设计新思路 近日,新加坡推出其首个海事数字孪生项目,该项目由新加坡港务局与新加坡政府技术局合作开发,包括实时船舶...
联影医疗获得发明专利授权:“射... 证券之星消息,根据天眼查APP数据显示联影医疗(688271)新获得一项发明专利授权,专利名为“射线...
周口市图书馆“绘创作”创意手工... 绘创作·创意手工专场 7月19日—20日活动回顾 暑假里的创意时光总是格外珍贵!7月19日至20日...
高效链条牵引科技与产业融合 科技成果从“实验室”走向“生产线”,是推动科技创新迈向纵深的关键一跃,也是赋能产业升级、助力新质生产...
Manus“撤退”,智能体“退... 文 | 伯虎财经,作者 | 楷楷 近两年,以大模型为代表的AI行业,其迭代速度之快,已经远超我们想...
原创 高... 大家好我是指尖,任何热门英雄都可能经历版本变革后变成冷门,当然了,挑战和机遇并存,那些常年下水道的英...