原创 重大的突破!OpenAI新模型在专业任务中表现优于人类,成本仅1%
创始人
2025-09-29 00:01:13
0

9月27日OpenAI推出了一套名为GDPval的新型评估体系。

它不再依赖学术试题,而是直接取材于每年创造约3万亿美元经济价值的真实工作任务,从撰写法律意见书到设计工程图纸,覆盖44种职业。

AI究竟能在多大程度上,像一位真正的行业专家一样工作?

初步结果显示,顶尖模型在一部分任务上的表现已逼近人类专家水平,而其成本与速度却呈现出数量级的优势。

AI 发展新态势与评估体系诞生背景

在当今这个科技日新月异的时代,AI 已然成为了最热门的话题之一,一步步将我们带入了一个充满未知与可能的智能时代。

曾经,AGI 作为人工智能领域的璀璨之星,承载着人们对智能机器的诸多美好憧憬各界都对其发展拭目以待,相关讨论也是热火朝天。

然而,时光流转,科技的车轮滚滚向前,AI 领域的发展方向出现了新的变化。

AGI 竟已渐渐淡出人们关注的焦点,取而代之的是一个全新的概念,ASI吸引了整个行业的目光。

在这样的大背景下,OpenAI 作为行业内的中流砥柱,一举一动都备受瞩目。

其首席科学家所透露的研究路线图,将重点聚焦于推理这一方向,并且雄心勃勃地计划在未来五年打造自动化研究人员。

让 AI 具备自动发现新想法、自主开展机器学习研究等一系列令人惊叹的能力,这无疑预示着 AI 即将踏上一段更为波澜壮阔的发展征程。

可是,我们该如何去清晰且准确地知晓 AI 这些能力到底发展到了何种地步?

毕竟在以往,大模型的评估大多局限在学术测试或者编程挑战这类相对单一的维度上。

虽说这些评估方式在一定程度上确实推动了模型推理能力的进步,但它们和现实世界中复杂多样、千变万化的工作场景之间隔着一道难以逾越的鸿沟。

就好比在实验室里培育出的奇花异草,放到大自然中却不一定能茁壮成长一样。

那些在学术测试里表现优异的大模型,一旦应用到实际的工作当中,到底能不能发挥出应有的作用,又能发挥多大的作用?

这一系列的疑问,促使 OpenAI 下定决心要打破常规,另辟蹊径,着手去开发一套全新的、更贴合实际且更具经济意义的评估方法。

而 GDPval 评估体系就这样在 AI 发展的浪潮中应运而生了,承载着为人们照亮 AI 真实价值与能力的重要使命,成为了当下 AI 发展之路上不可或缺的关键环节。

GDPval 评估体系详情及独特之处

GDPval 评估体系有着令人惊叹的丰富内容与严谨架构。

它所覆盖的范围极为广泛,足足涉及 9 大行业,涵盖了 44 种不同的职业,将众多与人们生活和经济息息相关的领域都囊括其中。

而这背后所关联的经济价值更是不容小觑,每年高达 3 万亿美元。

这一庞大的数字足以彰显其在现实世界中的分量,也意味着它所评估的对象是实实在在影响着经济发展的关键所在。

整个任务集里,有着 1320 个高度专业化的任务,它们可不是随意拼凑而成的。

其中,还有 220 个金标任务子集,并且这部分已经大方地开源了,这无疑为众多研究者和开发者们打开了一扇深入了解。

这些任务的来源,皆来自于真实的工作产出,它们带着浓厚的现实生活气息。

无论是严谨的法律意见书,还是充满创意与技术含量的工程图纸,亦或是日常的客服对话记录,以及关乎人们健康的护理计划等等。

每一个任务都仿佛是从真实的工作场景中直接 “摘取” 而来,它们就像是一面镜子,真实地反映着现实世界中不同工作所面临的各种情况和要求。

为了确保这些任务的质量和有效性,每一项任务都要经历多轮严格的审核流程。

必须要高度贴近实际工作场景,这意味着它不能是脱离实际的空中楼阁,而是要实实在在地与现实中的工作内容、流程相契合,让模型在评估时能够真正模拟实际操作。

要可由同领域的专业人士独立完成,这保证了任务的专业性和权威性,毕竟只有专业的人才能评判出在专业领域里的优劣。

最后,还要有着明确的评估标准,能够清晰地衡量出模型在各项任务中的表现到底如何。

每项任务平均要经历 5 轮专家评审,参与评审的团队也是阵容强大,汇聚了其他任务撰写者、独立职业评审专家等各路专业人士,他们还会辅以模型可行性与清晰度校验,不放过任何一个可能影响评估准确性的细节。

与传统的评估方式相比,GDPval 的独特之处更是展露无遗。

它跳出了以往简单的文本提示任务的局限,它要求模型不仅仅是对简单的文字提示做出回应,而是要能够处理完整的参考材料以及工作背景。

而且,它的输出形式也极为丰富多样,不再仅仅局限于单调的文字。

而是拓展到了文档、PPT、图表、电子表格,甚至多媒体内容等多个维度,这使得模型的表现能够更加立体、全方位地呈现出来,更贴合现实工作中多样化的成果形式。

尽管目前它还存在一定的局限性,尚未能完全覆盖现实知识工作中任务的复杂性。

顶尖模型在 GDPval 中的亮眼表现与对比

在 GDPval 这一严苛又极具现实意义的评估体系的 “审视” 之下,各大主流模型如同舞台上的选手,纷纷亮出了自己的看家本领,展现出了精彩纷呈的表现。

像 Claude Opus 4.1、GPT-5 等这些备受瞩目的模型,在不同维度上各显神通,为我们带来了诸多惊喜。

Claude Opus 4.1 在美学表现方面有着令人赞叹的造诣,当涉及文档排版、PPT 布局等任务时,它总能巧妙构思,将页面打造得赏心悦目,色彩搭配和谐,元素布局合理。

仿佛赋予了这些冰冷的文档和 PPT 以独特的艺术灵魂,每一处细节都彰显着它在审美上的独特 “天赋”。

而 GPT-5 在准确性上有着卓越的表现,尤其擅长精准地定位专业知识点。

面对复杂的知识问答或是需要严谨逻辑推理的任务,它总能凭借自身强大的 “知识捕捉” 能力。

快速且准确地给出答案,展现出深厚的知识底蕴,让人不得不佩服它在信息处理方面的强大实力。

从 GPT-4o 到 GPT-5 的演进过程中,其在 GDPval 任务上的平均表现近乎翻倍。

这清晰的线性让我们直观地感受到了 AI 发展那势不可挡的迅猛速度。而且,这些顶尖模型在完成 GDPval 任务时,和人类相比,在速度和成本方面有着巨大的优势。

平均仅是人类的 1%,意味着它们能以约快 100 倍的速度、便宜 100 倍的成本来完成任务,这一数据着实令人咋舌。

不过,这仅仅统计了模型推理时间与 API 调用成本,尚未涵盖人类监督、迭代修改以及实际集成等现实工作流程所需投入的资源。

若进一步深入不同场景的测试中,比如算法任务、Web 开发、视觉推理等,GPT-5 和 Claude Opus 4.1 更是展现出了差异化的表现。

在前端页面设计任务里,GPT-5 虽然能实现功能的完整搭建,但在视觉效果上与原设计往往存在较大偏差。

而 Claude Opus 4.1 却能近乎完美地还原设计,让页面呈现出与预期高度一致的视觉美感。

在算法题测试环节,GPT-5 能够迅速给出答案,可 Claude Opus 4.1 的回答则更加详细,不仅包含完整的思考过程,还会附上测试用例,让人能更清晰地理解解题思路。

GDPval 评估体系的影响及未来展望

随着 AI 凭借在处理重复性强、结构清晰的任务时展现出远超人类专家的效率,劳动力市场正悄然发生着结构性的变化。

就拿那些自由接单做 PPT 的设计师来说,由于 AI 的介入,市场上的单价开始出现下降趋势。

然而,这一评估体系也并非毫无争议,它目前只针对美国的 44 种职业进行测试,并且任务设定为一次性交稿,没有给修改完善的机会。

这与真实职场中充满沟通、反复修改的复杂情况有着不小的差距。

如此一来,外界难免对其评估结果能否真实、全面地反映 AI 在复杂工作场景中的实际能力产生质疑,仿佛它是一把不够精准的尺子,在衡量 AI 价值时存在一定的偏差。

尽管存在着这些争议点,但我们也不能忽视它给行业发展带来的积极推动作用。

众多企业也从中受到启发,开始思考如何巧妙地利用 AI 来提升自身竞争力。

例如微软积极将 Claude 塞进 PowerPoint Designer,不断探索 AI 在不同应用场景中的最佳使用方式,试图挖掘出 AI 更多的潜在价值。

结语

在 AI 发展的漫漫长路上,GDPval 评估体系宛如一座灯塔,照亮了我们认识 AI 价值与能力的方向。虽有争议,但它对行业影响深远,推动着模型优化与应用拓展。

从模型表现到市场变革,再到未来展望,我们看到 AI 的无限潜力与挑战。相信在不断完善中,AI 将更好服务人类,共同谱写科技与生活交融的精彩篇章。

相关内容

热门资讯

2025年科技趋势报告:塑造2... 《2025年科技趋势报告》指出,全球科技领域正迎来颠覆性变革,量子计算、智能体AI系统、机器人技术、...
“六小龙”MiniMax招股书... 出品 | 搜狐科技 作者 | 梁昌均 编辑 | 杨锦 智谱发布招股书两天后,MiniMax也提交了港...
亚光科技:集中资源发展军工电子... 证券之星消息,亚光科技(300123)12月22日在投资者关系平台上答复投资者关心的问题。 投资者提...
滴普科技(01384)与沐曦股... 来源:智通财经网 滴普科技(01384)公布,于2025年12月17日,该公司与沐曦集成电路(上海)...
三部门印发《互联网平台价格行为... 来源:科技日报 12月20日,由国家发展改革委、市场监管总局、国家网信办制定的《互联网平台价格行为规...
蓝色粮仓装上AI引擎——励图高... 山东青岛市即墨区的虾塘边,虾农闫书义轻点手机,塘内水温、溶解氧数据实时更新;山东济宁市微山湖现代渔业...
告别“云端依赖症”:AI为何要... 算力要像水源一样,部署到离数据最近的地方。 作者|田思奇 编辑|栗子 过去三年,AI产业沉浸在轻盈的...
丹麦邮政关闭送信业务,报废邮箱... 由丹麦和瑞典邮政合并而成的北欧邮政(PostNord)宣布,该机构将于今年底关停丹麦全境送信业务,1...
微软CEO纳德拉亲自抓AI产品... IT之家 12 月 22 日消息,根据《The Information》今晚报道,微软 CEO 萨提...
“借别人的不如造自己的” 潮玩... [ 在奇梦岛集团执行总裁、联合创始人施广强看来,单纯的IP储备还不够,行业升级的必然方向是平台化。“...
打破信息孤岛 全国首个城域级场... 全国首个城域级场景公共服务平台——南京场景服务平台,日前正式运营。那么“场景”是什么意思呢? 国务院...
苹果因应用商店追踪政策被意大利... 12月22日消息,据欧洲新闻网报道,意大利竞争管理局对苹果公司、苹果分销国际公司和苹果意大利公司处以...
唐玉明:新航海时代——浅谈未来... 来源:金融一线 2025年12月17日,以“融创共生”为主题的第20届中国保险创新论坛暨第20届中国...
“无货源”跨境电商,轻松月入8... 声称经营“跨境店铺”低风险赚外汇,轻松月入8位数 “无货源”做跨境电商?一场骗局 拉黑曾经信任的挚友...
PS天塌了!阿里开源全新图像模... 快科技12月22日消息,阿里开源全新图像生成模型Qwen-Image-Layered,首次在模型内实...
对话追觅扫地机总裁孟佳:明年要... 作者 | 黄昱 编辑 | 王小娟 2025年临近收官之际,追觅在香港开设了首个线下门店。这是追觅全球...
原创 苹... 之前有国产手机说48周、49周超越了苹果,然而正如另一家国产手机品牌那样,这回事需要讲究耐力的,如今...
互联网平台不得“亏本卖”,香港... 国家发展改革委、市场监管总局、国家网信办12月20日联合发布的《互联网平台价格行为规则》(下称《规则...
苹果公司滥用市场支配地位被意大... 来源:环球时报 本文转自【央视新闻客户端】; 当地时间12月22日,意大利反垄断机构意大利竞争与市场...
米哈游、腾讯、阿里押注,Min... 来源:市场资讯 (来源:时代财经) 本文来源:时代财经 12月21日,时代财经注意到,MiniMax...