文/徐培琪
2月11日,继元宝、千问之后,豆包和蚂蚁阿福也宣布加入“红包大战”,意在“春节注意力经济”中分一杯羹。
然而,就在各路AI“跑马圈地”之际,一个看似简单的问题——“洗车店距我家50米,该开车去还是走过去”——却让ChatGPT、DeepSeek、千问等主流AI悉数答错。仅谷歌旗下Gemini 3正确识别出“陷阱”,给出“开车去”的答案。
一边是AI技术边界不断突破,一边却在简单问题上“集体翻车”,这暴露出AI存在的哪些盲区?此外,作为“普通人”,该如何“用好AI”;作为从业者,如何让“AI更好用”?南京恒创智云计算科技有限公司创始人施维向新苏商分享了他的思考。
这个春节,AI狂“撒钱”
马年春节将近,互联网行业的“红包大战”再次打响。但与以往不同的是,这次的主角是AI。据不完全梳理:
1月25日,腾讯“打响第一枪”,官宣旗下元宝App将发放10亿元现金红包,单个红包最高金额达1万元,且可直接提现至微信零钱,这场活动将从2月1日持续至2月17日。
百度随后入场,抛出5亿元红包福利,并将红包的玩法与旗下AI产品文心助手深度绑定,活动时间为1月26日至3月12日。
相较于腾讯和百度,阿里选择了一条差异化路径。2月6日,千问发放30亿免单红包,用户更新至千问App最新版即可获得1张25元免单卡,千问系统随之被“挤崩溃”。2月7日,千问宣布将免单卡有效期从2月23日延长至2月28日。
仅腾讯、百度、阿里三家,便已在这轮春节“红包大战”中砸下45亿元巨额资金。
新加入“战局”的豆包不甘示弱,表示将在2月16日除夕夜通过总台春晚,为全国观众送出超过10万份科技好礼,以及最高8888元新春现金红包。据悉,这次送出的所有科技好礼,都接入了豆包大模型。此外,豆包App的输入框中已出现“豆包过年”选项,链接界面显示,“2月13日20:00可参与新春抽奖,最高领8888元现金红包”。
此外,蚂蚁阿福也将开启支付宝红包活动,2月11日至2月12日新注册用户在阿福可得16.8元支付宝红包。
怎么去洗车?主流AI纷纷翻车
行业分析人士指出,大厂们以巨额现金为敲门砖,本质上是让用户在互动中自然接触AI功能。无论是豆包的春晚语音互动,还是千问的“一句话点外卖”,都是在培养用户“AI驱动消费”的肌肉记忆,让AI走进千家万户的日常生活。
然而,新苏商关注到,一个与上述初衷相悖的问题却在近日引爆讨论。有网友发现,一个简单的“洗车店距离我家50米,你说我应该开车去还是走过去”问题难倒了国内外一众AI大模型。
实测显示,面对这一问题,ChatGPT回答“走过去”,理由是“别把简单事情复杂化”。千问称“既然洗车店距离你家只有50米,强烈建议你走过去”,强调距离短、节省资源、走路不需要找停车位。DeepSeek则给出两种答案,建议步行的理由是“节约资源、避免排队、走路环保、避免挪车麻烦”,而建议开车的理由是“洗车后可以直接用车,开车排队人在车上更方便”。
唯一没有“掉坑”的是谷歌推出的大模型Gemini 3,它同样给出两种答案:建议开车,因为“要洗的就是这辆车”;建议走路,因为“只是去预约或咨询”,或者“车在车库不方便动”。
据悉,针对这一提问,已有部分模型进行了修复。但新苏商于2月11日晚实测发现,豆包、DeepSeek对于这一问题,仍第一时间给出“走过去”的建议。
截图自DeepSeek
新苏商梳理发现,AI“已读乱回”的现象并不限于“洗车问题”。有网友提问“父母之间可以结婚吗”时,ChatGPT、DeepSeek回答“不可以,直系血亲间的婚姻违背人伦。”
为什么“洗车”问题引发如此广泛的关注和讨论?这些看似荒诞的失误,暴露出AI存在的哪些问题?
施维:
AI不是人脑平替,给使用者三点建议
2月11日,新苏商就AI大模型频现“常识陷阱”的现象,专访了南京恒创智云计算科技有限公司(下称:恒创智云)创始人施维。
施维(图源:恒创智云)
施维从海外取得博士学位后回国创业,仅用五年时间就带领恒创智云成为行业大数据治理领域领先的创新型科技公司。作为一名天天与AI打交道的技术型创业者,他对大模型的边界与落地痛点有着切身体会,以下为新苏商与施维的对谈:
施维:这个问题的“不寻常”之处在于它不是在考逻辑推理,而是在考对现实世界的隐含常识理解。我们人类理解这个问题会自动补充几个前提,比如洗车是为了让车变干净、车就在身边等等,所以我们直觉就会认为把车开过去才合理。
但对大语言模型LLM来说,问题只是一段文字,它看到的就只是“你去洗车”和“距离50米”;因此,LLM会调用自身的语言统计经验:距离很近,所以应该步行;并且,因为大模型没有真实物理世界的经验,它就只能从文本中推理出“距离近所以步行”的概率模式,无法真正理解“洗车的对象是车本身”。
总结而言,这类问题本质上是在测试AI大模型是否真正理解世界,还是只是在语言层面做模式匹配。目前的大模型仍然以语言统计智能为主,因此容易在这种生活常识陷阱中出错。
施维:个人认为主要有三类典型盲区:
(1)隐含前提问题:题目中没有写出来,但人类默认知道的条件,例如,冰箱里大象放得下吗?把水倒进装满水的杯子会怎样,等等;AI有时无法自动补全这类常识前提。
(2)真实世界约束问题,涉及物理、空间、时间、成本等现实限制。例如,工程流程、生产节拍、医疗路径等等,这些往往不是语言逻辑,而是经验性知识。
(3)多目标权衡问题,例如:成本vs效率,安全vs速度,精度vs资源,等等;AI容易给出“看起来正确”的答案,但不一定是现实中最优解。
施维:擅长的领域大多是信息密集型、语言密集型、规则相对清晰的任务。例如写作、翻译、总结,编程辅助,文档分析,客服问答,数据解释等;这些任务本质上就是对已有文本知识的重组和生成。
不擅长的领域主要是强现实约束、强因果链条、强责任后果的任务。例如医疗诊断最终决策,仿真复杂场景,工业控制闭环决策,战略级商业判断等,原因是这些任务依赖真实世界反馈、长期经验积累和责任机制,而不仅仅是语言推理。
施维:没有被忽略,但解决难度比提升模型规模更大,因为这些“低级错误”本质上是世界模型缺失的问题,而不是算力或参数规模的问题。个人认为,未来更有希望的方向,不是单一技术路线,而是三条路线融合:
(1)具身智能(Embodied AI)
(2)结构化世界知识库,把常识、物理规则、工程经验等结构化建模,让世界规则可控、可验证。
(3)工具化与反馈闭环。让AI不直接给最终答案,而是通过调用工具、查询数据库等手段与现实系统交互,接收反馈、再修正;这也是目前工业界最主流的方向。
施维:个人认为,核心是三个原则:
第一,把AI当工具,而非“人脑平替”:它不是人类替代者,而是能力放大器。
第二,公开它的边界,而不是只宣传能力;过度营销会导致公众期望失真。
第三,让AI在真实场景中创造价值,例如医疗辅助系统、工程设计助手等,而不是只停留在聊天和写段子。
施维:在工作和生活场景中,我会把AI当成一个聪明但缺乏常识的实习生助理:首先,事情可以交给它做,但请务必复核它输出的结果;第二,把它当“加速器”使用,避免让它闭环运行、完全代替你做决定;第三,学会对它提问(例如,提示词编辑)很重要,这也是AI时代的核心能力之一,比单纯掌握某个AI工具更重要。
编辑:张静文