AI狼人杀终极决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背
创始人
2025-12-23 18:36:37
0

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

我真栓Q了!围观了场狼人杀,看得我汗流浃背……

半小时全程高能,根本停不下来:

天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。

结果你跟我说,这些玩家都是AI???

果然会玩还得看淘宝~最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai,大模型在里面简直咔咔乱杀。

D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈,be like:

  • 六边形战士Kimi:武力值MAX,第六感Next Level。

  • 老实人DeepSeek:虽然我只是一介平民,虽然我只会划水,但我相信跟对人走对路,奥利给!

  • 喜剧人Qwen:如果大家都Pick我,那我也要票自己QAQ。

  • 通天代GLM:沉默寡言但实力不详。

    ……

不过u1s1,虽然这些Agent看似性格迥异,实则一个个都是狼人杀高玩来着。

而且门槛也不高,自己就能手搓一个出来。

是不是有点手痒了?

(咳咳)不卖关子了,这就是我最近刷到的一个AI狼人杀比赛,还是淘宝办的——首届「高校生VS开发者对抗赛」

展开来说,就是淘宝发了个召集令,广邀高校学生和AI开发者,带着自家Agent来真刀实枪碰一场,看看谁的Agent思维更缜密、更会盘逻辑。

至于为什么选择狼人杀这个场景?

它可不仅仅“好玩”,而且够“烧脑”——相比于传统的大模型测评,狼人杀需要更长时间头脑在线和持续的推理博弈,非常适合担任天然的Agent试验场。

图片由AI生成

毕竟是骡子是马,总要拉出来练练,更何况同学们的灵光一现碰撞上成熟的产业经验,说不定真能产生些奇妙的化学反应?(doge)

所以本次比赛,选手将自动分为高校学生开发者两大阵营PK对决,参赛选手可以根据官方提供的开发指南,训练自己的Agent学习狼人杀知识,一步步培养它化身游戏高玩~

而且门槛低,就算是编程小白也能报名参加吼!

(报名指路官网https://whoisspy.ai)

所以究竟是初出茅庐的高校学子不怕虎,还是手法老道的班味码农更胜一筹,谁能率先调教出智慧和演技兼备的新任Agent狼王?

搓搓手,我已经迫不及待一决高下了。

Qwen悍跳卖队友,Kimi运筹帷幄赛诸葛

言归正传,咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai

毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事,我是真有点破防,所以先来康康这到底是个啥?

官方title:全球首个实时对战、开放可扩展的多智能体游戏平台。

中译中一下就是,它能够让多个Agent在同一时间、同一空间里打游戏,还能源源不断地向里面添加新Agent。

怎么实现的呢?靠大模型的社交推理和博弈能力。

AI将模拟游戏玩家,在多轮心理战交互后,一层层剥开自己的伪装,展示自己真实的决策水平。

目前,WhoisSpy.ai支持中英文双版,不仅能玩「狼人杀」,还有惊险刺激的「谁是卧底」。

图片由AI生成

这次的高校生VS开发者对抗赛也是平台最新推出的重头戏,玩法很简单:经典的12人狼王守卫版型,8个好人、4匹狼。

其中好人阵营又分四个神职(预言家、女巫、猎人、守卫)和四个平民,狼人阵营里隐藏着一只狼王。

一旦好人数量减少到比狼人还少,那么狼人获胜,反过来如果狼全部出局,则好人胜利。

需要注意的是,为了防止AI无限制地唠下去,规则还做了一丢丢微调:

  • 规定Agent每次最多说240个汉字,多了的部分系统直接砍掉,不予显示。

  • 每次发言限时90s,两次机会,如果两次都没有返回正常结果,就自动判定为此轮发言失败。1小时内失败次数多的Agent,还会直接被系统清退。

  • 每局最长限制到8轮,如果到第八天还有狼人存活,则默认狼人获胜。

都说知己知彼,百战不殆,下面复盘比赛走起~

前情提要,4号狼王,7号、10号、11号是狼,2号预言家、5号女巫、8号猎人、12号守卫。

第一天:平安夜。

神职身份的5号Kimi率先亮出女巫ID,立马优先掌握话语权:Follow me!

而K老师也是不负众望,给出了自己的直觉判断:先发3号一瓶存疑的银水,提前预警7和10。(K老师的直觉强得可怕)

突然被踩中尾巴的7号小狼Qwen,也是迅速反应过来,祸水东引,将矛头对准了自己的狼队友。

但这一招也让它暴露在8号猎人的视线里。

另一个狼人10号Q老师则迅速悍跳预言家,给7号假发金水。

“无辜躺枪”的4号Qwen狼王此刻仰天长啸:本是同根生,相煎何太急……

首轮发言里K8发力,抓住4和他对跳猎人的逻辑漏洞,推出4的铁狼嫌疑UP→7、10抱团踩4,疑似倒钩狼卖队友。(划重点)

Q10则将伪装老好人形象贯彻到底,不过,要是细看它发言,其实它这里聊爆了:前面先自认预言家身份,后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug,让它逃过了一劫。

而与此同时的1号和3号DeepSeek老师,不出所料,在划水……(几乎在复述前置位发言)

真·预言家2号D老师则是天神下凡:查杀4号狼人,坐实10号虚假预言家身份,连带着7号,都是一丘之貉。

事实逐渐清晰明了,K5再次稳准狠出击:248发言冲突必有一狼、7和10伪预言家狼人抱团,先把假预言家10投出去~

果然10号狼人高票出局,不过有意思的是,10号投的也是它自己……(10号:我狠起来连自己都要刀!)

第二天:平安夜+1。

结果万万没想到,第二天预言家D2一上来,就直接揭开了真相:查杀7号狼人+上一晚的查杀4号7号和10号抱团,则10号也为狼→回顾第一天投票,4号7号11号抱团投2号→11号是狼。

综上,四只狼全部掉出了狼尾巴:4、7、10、11,并从这里开始全线崩盘,依次在投票环节中被投了出去。

但很妙的是,直到游戏结束,狼人都没有成功刀掉任何一个人,因为无论狼人刀谁,GLM守卫每次都精准预判到了狼人的选择。

(完整版可围观:https://whoisspy.ai/#/twelveWolfGame?roomId=275558)

其实仔细复盘,两边阵营从打法来说都很强势:

  • 狼人阵营:所用策略非常之诡(doge),既有倒钩狼卖队友,也有悍跳神职卖自己的。
  • 好人阵营:神职屡出奇人,早期带队的女巫Kimi以及后期一锤定音的预言家DeepSeek。

嘶,只能说AI的逻辑推理,太逆天了……反正我是玩不过这群Agent的,甘拜下风!

事实上,现在去WhoisSpy.ai平台,还能看到官方的大模型内部狼人杀评测榜单

规则和前面的12人赛制有些许不同,先是缩减成6人局,其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼,最终评选出Top 3:

  • Claude-Sonnet-4.5:综合评分最高,尤其是在狼人胜率和整体胜率上表现突出,也是最全能的模型。
  • GPT-5:狼人胜率和综合胜率最高,但在关键对局中出现失利。
  • Qwen3-235B-Thinking:表现相对均衡,也是排名最高的开源模型,没有明显短板,也没有极端优势。

有了这个排行榜参考,想必大家心里已经有数了,下面就到了激动人心的专有Agent打造环节~

淘宝教我三步打造狼人杀Agent高玩

以前没写过Agent,有点慌?OK,淘宝超详细的教学指南带你0帧起手

Step1:创建专属Agent。

1、在官方提供的Agent开发指南中,找到Agent示例,点击复制即可~

2、找到以下界面并依次填入对应内容。

3、耐心等待,直到空间构建状态变为运行中。

4、查看日志情况,这里最多只保存最近7天的1万条记录。

Step2:上传Agent。

登陆WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在网站上选中该Agent,这里会弹出两个选项:点击“小试牛刀”,即可开始不计分比赛;点击“加入战斗”,就会和其它在线的Agent联网匹配(如果凑不齐12人,则由系统默认Agent补位加入),最终游戏得分也会计入榜单。

随后系统会综合考量胜率发言质量策略深度等多维度,在局内得分的基础上根据阵营实力做相应的浮动,也就是削弱同局强者的增速、补偿弱者的增速。

借此鼓励实力相近的对局,以便能更公平地反映Agent的真实水平。

进阶版:改进Agent。

假如对自己的Agent还不够满意,还能来把Agent微操:

1、返回Agent搭建平台,继续点击日志,查看大模型的实际输入和输出情况。

2、点击提示词相关的Python脚本文件(prompt.py)

3、也可以直接加工代码,点击app.py文件,修改Agent行为。

接下来便带着自己全新升级的Agent,gogogo,冲榜吧~

开赛在即,急急急

事不宜迟,赛事报名通道现已正式开启:

  • 练习赛:2025年12月10日~2025年12月23日

  • 正式赛:2025年12月24日~2025年12月31日(晚10点结束)

  • 公示期:2026年1月3日~2026年1月10日

  • 颁奖期:2026年1月11日~2026年1月20日

不止如此,比赛还设置了丰厚的奖金激励。

高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格

总之,对于想要学习大模型、AI Agent的同学们,可千万不要错过这次机会,既能精进新技能,还能突破眼界,妙哇~

目前已经有超过七百多位选手报名参与,还有六千多场练习赛正在火热比拼中。

(悄悄说)现在进去,还能围观他人战局“偷师学艺”:

比赛时长从十几分钟到一个小时,应有尽有,而且每一场都完全不会重复,即使是相同模型,也能看到Agent的处理变化多端……感觉自己看完,经验值蹭蹭涨!

顺便别忘了围观每天实时更新的榜单排名。

现在前排的这几位老哥,战况是真胶着!有的比量,一个人就干了将近五百场比赛,有的比质,狼人胜率逼近100%。

好家伙,原来大家伙都在私底下偷偷开卷

最后温馨提示,别忘记给自己的Agent取一个炫酷拉风的名字,比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……

一听就很厉害的样子有木有,毕竟《孙子兵法》有言:

兵马未动,气势先行,Let’s开干!

相关内容

热门资讯

我国5G基站总数达483万个 来源:人民日报海外版 记者22日从工业和信息化部获悉,今年前11个月,我国通信业整体运行平稳。其中,...
“创世纪计划”:美国霸权焦虑下... (来源:求是网) 转自:求是网   前不久,美国白宫签署行政命令,正式启动名为“创世纪计划”的国家级...
AI狼人杀终极决战!GPT、Q... 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 我真栓Q了!围观了场狼人杀,看得我汗流浃背……...
蓝牙音响开拓韩国市场,KC 认... 在全球音频市场蓬勃发展的当下,韩国以其独特的消费文化和庞大的市场需求,成为众多蓝牙音响厂商竞相开拓的...
原创 暗... 在《暗黑破坏神4》中,神圣赠礼是影响刷本效率与收益的系统之一,不同精华对应不同玩法区域,能在世界首领...
每一步都Roll出大成功的《3... 《光与影:33号远征队》(下文简称《33号远征队》)是今年的游戏大奖(The Game Awards...
进军香港 天臣控股与时代星云、... 来源:观点地产网 观点网讯:12月22日,天臣控股有限公司(以下简称“天臣控股”)发布自愿公告,宣布...
原创 《... 在《潜水员戴夫》这款游戏中,玩家击败约翰沃森的关键是利用场景中的棒球棒,反弹他发射的跟踪火箭弹。千万...
24年前游戏命中AI痛点,小岛... IT之家 12 月 23 日消息,在接受《连线》(Wired)采访时,游戏制作人小岛秀夫(Hideo...
开源证券:短期或将供不应求 重... 智通财经获悉,开源证券发布研报称,随着全球AI蓬勃发展,或持续驱动数据中心内部与DCI互联对光纤光缆...
SE角色扮演游戏《歧路旅人0》... IT之家 12 月 23 日消息,Square Enix 开发并发行的角色扮演游戏《歧路旅人 0 /...
黑灰产攻击平台,为何造成大规模... 12月22日22点左右,快手平台出现海量账号开设直播间,大量播放包含色情、暴力、恐怖等违规内容。快手...
品高股份荣获广东省卓越人工智能... 近日,2025年粤港澳大湾区人工智能与机器人产业大会暨广东省人工智能与机器人技能大赛圆满落幕。大会以...
英伟达GPU,将沦为白菜价 新智元报道 编辑:Aeneas 刚刚,彼得·蒂尔一句话捅破天花板:AI芯片最终不会稀缺,将沦为白菜价...
据报腾讯通过“算力租用”模式间... 观点网讯:12月22日,据媒体报道,腾讯正透过“算力租用”(GPU Rental)模式,间接取得英伟...
原创 1... 小鸡宝宝考考你:“人造太阳”指的是以下哪项技术?可控核聚变还是太阳能发电?这是蚂蚁庄园2025年12...
140种港澳药械惠及1.7万人... 12月22日,香港特区政府医务卫生局公布,由香港特别行政区政府设立并全资拥有的“粤港澳大湾区国际临床...
年终数码好物推荐:华为Mate... 在追求大屏视觉冲击的当下,数码设备似乎陷入了一个“越做越大”的怪圈。然而,对于高频穿梭于写字楼、机场...
原创 I... 现在距离转会期已经过去了一个多月,IG的新阵容也在德杯上亮了相,但是直到现在,还有不少粉丝和玩家都在...
当商业航天来到投资风口,为什么... 近地轨道从未像今天这样“堵车”。数以万计的通信、遥感卫星排队等待升空组网,可地面的发射工位却总是排得...