新测试表明AI实际办公准确率不足25%,但进展比想象更快
创始人
2026-01-26 17:42:57
0

来源:市场资讯

(来源:IT之家)

IT之家 1 月 26 日消息,Digital Trends 24 日报道,一项由训练数据公司 Mercor 发布的研究报告指出,当前主流人工智能模型在处理实际办公室任务时表现不佳,最高准确率未超过 25%,研究表明 AI 在短期内难以替代人类知识工作者。

该研究基于 Mercor 新推出的 APEX-Agents 基准进行测试,有别于传统上通过写诗和解数学题为主的 AI 评估方法,该基准测试直接采用律师、顾问和银行家的真实工作流,要求受试模型完成横跨多个信息来源的多步骤综合任务。

结果显示,即使是市场上明显处于领先地位的模型也无法达到 25% 的准确率,测试中成绩领先的 Gemini 3 Flash 和 GPT-5.2,其准确率也仅为 24% 和 23%,而其他大多数受试模型的成绩则不高于 20%。

为何 AI 会在“办公测试”中失败?Mercor 首席执行官 Brendan Foody 分析称,AI 失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散资源,比如查看日程,翻阅即时通讯记录、阅读 PDF 文档和电子表格,而 AI 在跨源信息搜索与整理时容易混淆、出错,要么干脆放弃。这导致目前的 AI 在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。

IT之家附 APEX-Agents 准确率测试结果如下(排名从高到低):

尽管表现有限,但 AI 的进步引人关注。Foody 指出,一年前同类测试的准确率仅为 5%-10%,如今已提升至 24%,AI 的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换之前,AI 尚无法胜任复杂的知识工作。

相关内容

热门资讯

原创 猎... 大家好,我是正在汇总信息的何二维一。 今天游戏也是于先遣服正式更新了1.5版本,虽然内容量和咱们之前...
《生化危机:安魂曲》导演称新作... IT之家 1 月 26 日消息,《生化危机:安魂曲》导演中西晃史今天接受游戏媒体 EuroGamer...
华为多款手机通过星闪认证,测试... IT之家 1 月 26 日消息,国际星闪联盟官网显示,华为多款手机新通过了星闪认证,主要覆盖车钥匙协...
苹果新一代Siri下月登场!i... 快科技1月26日消息,本月早些时候,苹果与谷歌正式宣布达成合作,为今年晚些时候推出的产品功能(如Si...
“写实动漫风”的终末地,靠什么... 最近几天,就算你没玩过《明日方舟:终末地》(以下简称《终末地》),大概率也从各个渠道知道了这款游戏公...
1月27日精选热点:马斯克星舰... 1、算力租赁:腾讯春节分10亿现金,百度文心助手5亿跟进春节AI大战 据报道,腾讯发布《关于春节分1...
史上最优秀移动处理器!酷睿Ul... 一、前言:能与Zen 5不相上下的E-Core 如果一个月前有人告诉你1款拥有16个大核的高性能笔记...
四川省地质灾害风险预警系统通过... 为进一步优化提升地质灾害防治业务系统功能,响应新形势下精细化、智能化防灾减灾需求,自然资源厅抓住增发...
科研单位ALD设备配套VMB阀... 引言:科研用VMB阀门的特殊需求 在原子层沉积(ALD)等高端科研设备中,阀门分配箱(Valve M...
欧盟对马斯克旗下X平台展开调查... 来源:市场资讯 (来源:财联社) 财联社1月26日讯(编辑 夏军雄)当地时间周一(1月26日),欧盟...
可“解难题”也可“出好题”!中... 新华社北京1月26日电(记者魏梦佳)中国科研团队近日自主研发出的一款“通矩模型”,该成果26日晚在线...
北京航空航天大学讣告:沉痛悼念... 1月26日,北京航空航天大学发布讣告,沉痛悼念李未同志—— 在北航从事计算机科研与教育工作的李未...
哪款游戏手机性价比最高?202... 在2026年的游戏手机市场中,性价比已成为玩家最关注的选购指标。一台合格的游戏旗舰不仅要性能炸裂,更...
跨越千年的“对话”:前沿科技如... 东方网记者王佳妮1月26日报道:当千年文物遇见现代大科学装置,会碰撞出怎样的火花?由上海科技馆与故宫...
72%ChatGPT订阅者设其... 如果这一数据属实,那谷歌在搜索引擎领域的长期霸主地位将受到重大打击。过去几十年里,从来没有一款搜索引...
采用创新架构 新型“智能”芯片... 来源:科技日报 据最新《自然·电子学》杂志,包括意大利米兰理工大学在内的联合研究团队开发出一种新型“...
投影仪销量暴跌:电视降价、短剧... 两三年前,几乎每个人都曾考虑或购买过智能投影仪。在当时,投影仪被视为大屏娱乐的一种折中方案,它不像电...
2026年科学探索营本周开营:... 1月30日,由中国科学院系统的云南天文台、昆明动物博物馆和昆明植物园三方联合举办、针对12岁以上青少...
京东物流:38亿不买股权,买走... 文|三车财观 2026年初,中国物流业迎来了一个改写版图的里程碑交易。京东物流正式对外宣布,将以3...
杭州“模”力,又高又新 对发展方位的精确标注,体现了一座城市的战略远见与治理智慧。 加快构建城市多元智算供给服务体系,拥有6...