“洗车店距我家50米,开车去还是走过去”为何难倒一众AI大模型,南京恒创智云创始人释疑
创始人
2026-02-11 22:01:50
0

文/徐培琪

2月11日,继元宝、千问之后,豆包和蚂蚁阿福也宣布加入“红包大战”,意在“春节注意力经济”中分一杯羹。

然而,就在各路AI“跑马圈地”之际,一个看似简单的问题——“洗车店距我家50米,该开车去还是走过去”——却让ChatGPT、DeepSeek、千问等主流AI悉数答错。仅谷歌旗下Gemini 3正确识别出“陷阱”,给出“开车去”的答案。

一边是AI技术边界不断突破,一边却在简单问题上“集体翻车”,这暴露出AI存在的哪些盲区?此外,作为“普通人”,该如何“用好AI”;作为从业者,如何让“AI更好用”?南京恒创智云计算科技有限公司创始人施维向新苏商分享了他的思考。

这个春节,AI狂“撒钱”

马年春节将近,互联网行业的“红包大战”再次打响。但与以往不同的是,这次的主角是AI。据不完全梳理:

1月25日,腾讯“打响第一枪”,官宣旗下元宝App将发放10亿元现金红包,单个红包最高金额达1万元,且可直接提现至微信零钱,这场活动将从2月1日持续至2月17日。

百度随后入场,抛出5亿元红包福利,并将红包的玩法与旗下AI产品文心助手深度绑定,活动时间为1月26日至3月12日。

相较于腾讯和百度,阿里选择了一条差异化路径。2月6日,千问发放30亿免单红包,用户更新至千问App最新版即可获得1张25元免单卡,千问系统随之被“挤崩溃”。2月7日,千问宣布将免单卡有效期从2月23日延长至2月28日。

仅腾讯、百度、阿里三家,便已在这轮春节“红包大战”中砸下45亿元巨额资金。

新加入“战局”的豆包不甘示弱,表示将在2月16日除夕夜通过总台春晚,为全国观众送出超过10万份科技好礼,以及最高8888元新春现金红包。据悉,这次送出的所有科技好礼,都接入了豆包大模型。此外,豆包App的输入框中已出现“豆包过年”选项,链接界面显示,“2月13日20:00可参与新春抽奖,最高领8888元现金红包”。

此外,蚂蚁阿福也将开启支付宝红包活动,2月11日至2月12日新注册用户在阿福可得16.8元支付宝红包。

怎么去洗车?主流AI纷纷翻车

行业分析人士指出,大厂们以巨额现金为敲门砖,本质上是让用户在互动中自然接触AI功能。无论是豆包的春晚语音互动,还是千问的“一句话点外卖”,都是在培养用户“AI驱动消费”的肌肉记忆,让AI走进千家万户的日常生活。

然而,新苏商关注到,一个与上述初衷相悖的问题却在近日引爆讨论。有网友发现,一个简单的“洗车店距离我家50米,你说我应该开车去还是走过去”问题难倒了国内外一众AI大模型。

实测显示,面对这一问题,ChatGPT回答“走过去”,理由是“别把简单事情复杂化”。千问称“既然洗车店距离你家只有50米,强烈建议你走过去”,强调距离短、节省资源、走路不需要找停车位。DeepSeek则给出两种答案,建议步行的理由是“节约资源、避免排队、走路环保、避免挪车麻烦”,而建议开车的理由是“洗车后可以直接用车,开车排队人在车上更方便”。

唯一没有“掉坑”的是谷歌推出的大模型Gemini 3,它同样给出两种答案:建议开车,因为“要洗的就是这辆车”;建议走路,因为“只是去预约或咨询”,或者“车在车库不方便动”。

据悉,针对这一提问,已有部分模型进行了修复。但新苏商于2月11日晚实测发现,豆包、DeepSeek对于这一问题,仍第一时间给出“走过去”的建议。

截图自DeepSeek

新苏商梳理发现,AI“已读乱回”的现象并不限于“洗车问题”。有网友提问“父母之间可以结婚吗”时,ChatGPT、DeepSeek回答“不可以,直系血亲间的婚姻违背人伦。”

为什么“洗车”问题引发如此广泛的关注和讨论?这些看似荒诞的失误,暴露出AI存在的哪些问题?

施维:

AI不是人脑平替,给使用者三点建议

2月11日,新苏商就AI大模型频现“常识陷阱”的现象,专访了南京恒创智云计算科技有限公司(下称:恒创智云)创始人施维。

施维(图源:恒创智云)

施维从海外取得博士学位后回国创业,仅用五年时间就带领恒创智云成为行业大数据治理领域领先的创新型科技公司。作为一名天天与AI打交道的技术型创业者,他对大模型的边界与落地痛点有着切身体会,以下为新苏商与施维的对谈:

  • 新苏商:您看到“洗车问题”的第一反应是什么?它“狡猾”在哪?作为一个看似简单的问题,它为何能难倒这么多较为成熟的AI工具?

施维:这个问题的“不寻常”之处在于它不是在考逻辑推理,而是在考对现实世界的隐含常识理解。我们人类理解这个问题会自动补充几个前提,比如洗车是为了让车变干净、车就在身边等等,所以我们直觉就会认为把车开过去才合理。

但对大语言模型LLM来说,问题只是一段文字,它看到的就只是“你去洗车”和“距离50米”;因此,LLM会调用自身的语言统计经验:距离很近,所以应该步行;并且,因为大模型没有真实物理世界的经验,它就只能从文本中推理出“距离近所以步行”的概率模式,无法真正理解“洗车的对象是车本身”。

总结而言,这类问题本质上是在测试AI大模型是否真正理解世界,还是只是在语言层面做模式匹配。目前的大模型仍然以语言统计智能为主,因此容易在这种生活常识陷阱中出错。

  • 新苏商:除了这种“暗藏玄机”的生活常识类问题,现在的AI还存在哪些盲区?

施维:个人认为主要有三类典型盲区:

(1)隐含前提问题:题目中没有写出来,但人类默认知道的条件,例如,冰箱里大象放得下吗?把水倒进装满水的杯子会怎样,等等;AI有时无法自动补全这类常识前提。

(2)真实世界约束问题,涉及物理、空间、时间、成本等现实限制。例如,工程流程、生产节拍、医疗路径等等,这些往往不是语言逻辑,而是经验性知识。

(3)多目标权衡问题,例如:成本vs效率,安全vs速度,精度vs资源,等等;AI容易给出“看起来正确”的答案,但不一定是现实中最优解。

  • 新苏商:在您看来,当前AI更擅长做哪些事情,做不好的又有哪些事情?为什么?

施维:擅长的领域大多是信息密集型、语言密集型、规则相对清晰的任务。例如写作、翻译、总结,编程辅助,文档分析,客服问答,数据解释等;这些任务本质上就是对已有文本知识的重组和生成。

不擅长的领域主要是强现实约束、强因果链条、强责任后果的任务。例如医疗诊断最终决策,仿真复杂场景,工业控制闭环决策,战略级商业判断等,原因是这些任务依赖真实世界反馈、长期经验积累和责任机制,而不仅仅是语言推理。

  • 新苏商:现在,AI的上限在众多从业者的努力下不断突破,但这类“低级错误”是否被忽略了?要让AI变得更“接地气”、更靠谱、更服务于人,您认为接下来最有希望的研究方向是什么?是让AI拥有“身体”去感知世界,还是建立更完善的“世界知识库”,或者其他什么方法?

施维:没有被忽略,但解决难度比提升模型规模更大,因为这些“低级错误”本质上是世界模型缺失的问题,而不是算力或参数规模的问题。个人认为,未来更有希望的方向,不是单一技术路线,而是三条路线融合:

(1)具身智能(Embodied AI)

(2)结构化世界知识库,把常识、物理规则、工程经验等结构化建模,让世界规则可控、可验证。

(3)工具化与反馈闭环。让AI不直接给最终答案,而是通过调用工具、查询数据库等手段与现实系统交互,接收反馈、再修正;这也是目前工业界最主流的方向。

  • 新苏商:行业应该如何帮助公众建立一个更平和、更客观的认识——既看到它的强大潜力,也清楚它的当前局限?

施维:个人认为,核心是三个原则:

第一,把AI当工具,而非“人脑平替”:它不是人类替代者,而是能力放大器。

第二,公开它的边界,而不是只宣传能力;过度营销会导致公众期望失真。

第三,让AI在真实场景中创造价值,例如医疗辅助系统、工程设计助手等,而不是只停留在聊天和写段子。

  • 新苏商:请您给我们的读者一些建议,在今天,普通人应该怎么和AI这个工具相处,才是最好的方式?

施维:在工作和生活场景中,我会把AI当成一个聪明但缺乏常识的实习生助理:首先,事情可以交给它做,但请务必复核它输出的结果;第二,把它当“加速器”使用,避免让它闭环运行、完全代替你做决定;第三,学会对它提问(例如,提示词编辑)很重要,这也是AI时代的核心能力之一,比单纯掌握某个AI工具更重要。

编辑:张静文

相关内容

热门资讯

Zeus采访渴望回归T1了,会... 大家好,S16赛季的比赛已经正式开始了,相信绝大多数的玩家都关注了最近一段时间的对抗,Lck赛区的比...
柯尔特、铁锹-竞技荣光爆料它来... 手游巴士(www.shouyoubus.com)2026年01月22日: 哈喽,各位CFer大家好~...
线上家宴如火如荼,马上发财礼盒... 各位宝子们马上就要马年新年啦,过几天大家肯定会在社交平台分享各式各样的春节美食,而对于三界中的少侠来...
《仁王3》首发立省35!《绝地... 今天刚发售的《仁王3》首发立减 35 元;多人联机打枪金游《绝地潜兵2》击破史低;《如龙 极3》《生...
重返伟大航路!《大航海时代:起... 35年经典沉淀,《大航海时代》是一代人的航海启蒙,是深植于青春记忆中的浪漫梦想。它以一张波澜壮阔的世...
原创 阿... 随着今天的两场BO5落下帷幕,LPL第一赛段骑士之路的比赛也就此告一段落,这也是春节前LPL的最后一...
美女天团+帅哥总裁,倩女新服这... 号外号外!就在上周五,顶级神仙女团 IPO•Astra 入驻倩女啦!倘若你平时有所关注,想必对 IP...
《逆战:未来》甩出王炸?S1赛... 从未想过,会有一款游戏胆子这么大。 仅用23天便更新了一个全新赛季不说,还从题材风格、剧情表达、地图...
谷歌Genie 3暴击游戏公司... 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌正式开放世界模型Genie 3的实验性研究...
没官中、不保底,这款怪诞二游凭... 2025年的最后一天,Steam中国区热销榜也出了点状况。 一款韩国游戏《边狱公司》(Limbus ...
北大毕业、离职腾讯,这群人做的... 文 | 游戏茶馆 诸葛孔明已逝,魏军逼近成都。如果你是此时的刘禅,又将如何? 一款名叫《我的三国》...
暴雪从来没有这么拼命 《守望先锋》真回来了? 文/林致 今天(2月11日),《守望先锋》新赛季开始了。 前几天(2月5日...
星际战甲warframe手游上... 喜欢刷宝游戏的玩家有福了!作为经典刷子游戏《星际战甲》的手游版本,由Digital Extremes...
原创 摩... 文/杨剑勇 自2022年底推出ChatGPT后,各种大模型服务如潮水般涌现,尤其去年的DeepSee...
Valve代码库发现《半条命3... IT之家 2 月 7 日消息,消息源 @Gabefollower 深入挖掘 Valve 新作《Dea...
没有德拉诺?暴雪公布2026年... 近日,暴雪正式公布《魔兽世界2026年运营计划》,主要包括怀旧服MOP、怀旧服ProMax以及正式服...
2026竞争最激烈的赛道,打响... 2026年,要说哪个赛道将迎来最激烈的竞争?“捉宠大世界”无疑是最具火药味的竞技场。 近日,杭州爪印...
一跃沧溟!穿越火线枪战王者全新... 手游巴士(www.shouyoubus.com)2026年01月22日:CFer们大家好,马年怎么能...
《魔兽世界》前制作人加盟,拳头... 据外媒报道,《魔兽世界》首席制作人Raymond Bartos上个月宣布离开暴雪后,透露了自己的下一...
《Highguard》第二赛季... 当《Apex英雄》与《泰坦陨落》原班人马在TGA2025压轴公布新作《Highguard》时,瞬间吸...