AI聊天机器人越聊越“笨”?可能真不是错觉
创始人
2026-02-22 11:40:50
0

不知道大家有没有这种感觉:和AI机器人短时间聊天的话还行,时间一长,就感觉对话开始变的前言不搭后语、逻辑不通。

其实这种感觉并不是错觉。

最近,微软发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的核心能力仅降低约 15%,但“不可靠性”却飙升 112%。

也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”。模型在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设,模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。

研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。

因此,对于那些依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着未来将要接受严峻挑战。

再来看看其他消息。

微软日前测试 Windows 11新版“画图”(Paint)应用,重点引入“自由旋转”功能。

根据微软官方描述,用户现在可以全方位角度调整形状、文本框以及任何活动的图像选区。用户选中对象后,其上方会出现一个“旋转手柄”,用户只需拖动该手柄即可向任意方向自由旋转对象,从而实现更自然的构图和布局。

除了直观的手动拖拽,微软还为需要高精度编辑的用户提供了解决方案。在“旋转”菜单下新增了“自定义旋转”选项,用户可以在此输入具体的角度数值,实现精确到 1 度的微调。

相关内容

热门资讯

王兴兴揭秘《武BOT》:宇树弹... 2026年2月18日消息,2026年央视马年春晚武术节目《武BOT》凭借科技与传统的深度融合惊艳全网...
AI聊天机器人越聊越“笨”?可... 不知道大家有没有这种感觉:和AI机器人短时间聊天的话还行,时间一长,就感觉对话开始变的前言不搭后语、...
陆家嘴财经早餐2026年2月2... • 春运返程高峰来袭,全社会跨区域人员流动量连续三日超过历史同期单日峰值 • 2026年春节档总场次...
【电波警戒线⑤】维护电波秩序 ... 极目新闻通讯员 杨雨梅 胡敏 【编者按】当数字浪潮席卷全球,电磁频谱作为国家战略资源的地位愈发凸显,...
盘点《战舰世界》15.1免费福... 《战舰世界》15.1春节版本已经上线一周了,相信各位已经体验过最新精彩内容了吧?这次版本更新,官方在...
原创 马... 大家好呀,我是瑜瑜。王者荣耀马年限定皮肤,包括李信的墨染江湖系列皮肤已经上线第 7 天了,在这 7 ...
中信建投:原生多模态与世界模型... 2月21日, 中信建投最新发布的研报显示,展望未来,原生多模态与世界模型技术共同演进,有望重塑营销、...
北大团队让AI智能体「入侵」论... 新智元报道 编辑:LRST 【新智元导读】公元前47年,凯撒在泽拉战役速胜后给罗马元老院写了三个词...
原创 O... 2月21日,OPPO官方传来重磅消息,全新折叠屏旗舰Find N6正式定档,将于3月17日全球发布,...
射辅能用超过5年的优质皮肤有多... 这个系列我们来聊一下发育路和辅助位那些从上线起,可一直保持较高的使用率维持5年以上的优质超值皮肤。王...
中国AI为何再次令世界惊艳 中国人工智能(AI)视频创作模型Seedance 2.0近日发布后在全球网络上迅速走红。各国用户大量...
多部门部署加快招标投标领域人工... 从国家发展改革委获悉,近日,国家发展改革委、工业和信息化部、住房城乡建设部等8部门联合印发关于加快招...
原创 当... 2024年以来,中国消费电子市场正在经历一场特殊的化学反应。一边是人工智能(AI)技术从云端大模型向...
科瑞森申请卸料器段可调自回弹托... 国家知识产权局信息显示,焦作科瑞森重装股份有限公司申请一项名为“一种卸料器段可调自回弹托辊”的专利,...
常州精诺工具取得深孔钻头夹持柄... 国家知识产权局信息显示,常州精诺工具制造有限公司取得一项名为“一种深孔钻头夹持柄”的专利,授权公告号...
珠海佑航科技申请无静态功耗的L... 国家知识产权局信息显示,珠海佑航科技有限公司申请一项名为“无静态功耗的LDO过流保护电路、方法、设备...
中信博申请自动化打桩机专利,提... 国家知识产权局信息显示,江苏中信博新能源科技股份有限公司申请一项名为“自动化打桩机”的专利,公开号C...
从AlphaGo到DeepSe... 机器之心编译 如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大...
育碧新作大揭秘!两款《孤岛惊魂... IT之家 2 月 20 日消息,育碧联合创始人兼 CEO 伊夫 · 吉约莫(IT之家注:Yves G...
原创 国... 2026年2月20日,业内重磅消息传出,OPPO Find X9 Ultra与vivo X200 U...