OpenAI研究人员宣称已破解模型“幻觉”:重新设计评估指标即可
创始人
2025-09-06 17:40:54
0

IT之家 9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题

IT之家注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。

OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。

不过,不同模型的表现差别明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”

结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”

其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”

相关内容

热门资讯

浪潮云帆行业智能云发布 来源:市场资讯 (来源:上游新闻) 9月6日,在2025世界智能产业博览会召开之际,由浪潮集团承办的...
深度医工融合实现技术迭代升级,... 深圳商报·读创客户端记者 苑伟斌 在深圳大学附属华南医院消化内科内镜诊疗室,黄思霖教授正忙碌地为患者...
原创 v... vivo Y500 的出现,可以说是今年千元手机市场里一个颇有看点的搅局者。毕竟荣耀才不久拿出荣耀 ...
智慧园区管理平台软件的核心定义... 智慧园区管理平台软件的核心概念解析 简单来说,智慧园区管理平台软件就是一套把所有高科技整合起来的系统...
2025智博会|全球首款智能两... 9月5日,海铂科技自主研发的全球首款智能两轮电动露营车——Minicamper在2025智博会上首发...
OpenAI研究人员宣称已破解... IT之家 9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性...
原创 夏... 虽然夏季赛还剩下最后的一场决赛没有打,但是可以说,已经算是结束了!大家觉得,在KPL夏季赛的四强战队...
2025智博会“重大”尖端科技... 9月5日,2025年世界智能产业博览会(简称“2025智博会”)在重庆开幕,重庆大学携18项重大科技...
金盘科技锚定AI驱动战略,加速... 在“十五五”规划全面推进、“人工智能+”行动深入实施的关键时期,金盘科技在“AI Factory”生...
以更优标准助力产业提质 新华社北京9月4日电(记者赵文君)智能制造、纳米制造、智能电网、新型储能系统…近年来我国牵头制定了一...
宁陵来了位“智能邮差” 成为县... 河南日报客户端记者 李凤虎 刘梦珂 通讯员 何水清/文 王化辰/图 近日,在河南省宁陵县孔集乡的县道...
瑞泰科技:多数所属生产型企业已... 证券之星消息,瑞泰科技(002066)09月05日在投资者关系平台上答复投资者关心的问题。 投资者提...
重庆高校智算节点正式启动 本报讯 (新重庆-重庆日报记者 邱小雅)9月5日,“开源·开放:阿里云AI Agent开发者大会”在...
AI与人形机器人深度融合:商业... 来源:市场资讯 (来源:网易科技) 2025年,人形机器人与人工智能技术的深度融合正以前所未有的速度...
贵州土豆巴士开进浙江乡村 (来源:河北长城网) 转自:河北长城网 【#贵州土豆巴士开进浙江乡村# 】#贵州无人驾驶小巴开进浙江...
原创 男... 男主播公布恋情,刷200多万的榜一大姐破防了,改名怒骂他没良心,在直播行业中,主播与粉丝之间的关系往...
原创 D... Duke接受采访,直言很怀念IG的时光,跟theshy和rookie还有联系,在英雄联盟的历史长河中...
原创 美... 美国登月计划屡次推迟,中国2030年载人登月能否弯道超车? 片头:尊敬的审阅人员和品鉴读者:本文是经...
原创 R... Ruler透露退役时间,准备跟faker死磕到底,想打到32岁,在电竞赛场上,选手的职业寿命往往格外...
原创 游... 游戏主播陷入代打风波,参加比赛自证清白,表现太差人设彻底崩塌,在直播行业里,主播的人设往往是吸引观众...