鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
我真栓Q了!围观了场狼人杀,看得我汗流浃背……
半小时全程高能,根本停不下来:
天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。
结果你跟我说,这些玩家都是AI???

果然会玩还得看淘宝~最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai,大模型在里面简直咔咔乱杀。
D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈,be like:
六边形战士Kimi:武力值MAX,第六感Next Level。
老实人DeepSeek:虽然我只是一介平民,虽然我只会划水,但我相信跟对人走对路,奥利给!
喜剧人Qwen:如果大家都Pick我,那我也要票自己QAQ。
通天代GLM:沉默寡言但实力不详。
……
不过u1s1,虽然这些Agent看似性格迥异,实则一个个都是狼人杀高玩来着。
而且门槛也不高,自己就能手搓一个出来。
是不是有点手痒了?
(咳咳)不卖关子了,这就是我最近刷到的一个AI狼人杀比赛,还是淘宝办的——首届「高校生VS开发者对抗赛」。

展开来说,就是淘宝发了个召集令,广邀高校学生和AI开发者,带着自家Agent来真刀实枪碰一场,看看谁的Agent思维更缜密、更会盘逻辑。
至于为什么选择狼人杀这个场景?
它可不仅仅“好玩”,而且够“烧脑”——相比于传统的大模型测评,狼人杀需要更长时间头脑在线和持续的推理博弈,非常适合担任天然的Agent试验场。

△图片由AI生成
毕竟是骡子是马,总要拉出来练练,更何况同学们的灵光一现碰撞上成熟的产业经验,说不定真能产生些奇妙的化学反应?(doge)
所以本次比赛,选手将自动分为高校学生和开发者两大阵营PK对决,参赛选手可以根据官方提供的开发指南,训练自己的Agent学习狼人杀知识,一步步培养它化身游戏高玩~
而且门槛低,就算是编程小白也能报名参加吼!
(报名指路官网https://whoisspy.ai)
所以究竟是初出茅庐的高校学子不怕虎,还是手法老道的班味码农更胜一筹,谁能率先调教出智慧和演技兼备的新任Agent狼王?
搓搓手,我已经迫不及待一决高下了。

Qwen悍跳卖队友,Kimi运筹帷幄赛诸葛
言归正传,咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai。
毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事,我是真有点破防,所以先来康康这到底是个啥?
官方title:全球首个实时对战、开放可扩展的多智能体游戏平台。
中译中一下就是,它能够让多个Agent在同一时间、同一空间里打游戏,还能源源不断地向里面添加新Agent。

怎么实现的呢?靠大模型的社交推理和博弈能力。
AI将模拟游戏玩家,在多轮心理战交互后,一层层剥开自己的伪装,展示自己真实的决策水平。
目前,WhoisSpy.ai支持中英文双版,不仅能玩「狼人杀」,还有惊险刺激的「谁是卧底」。

△图片由AI生成
这次的高校生VS开发者对抗赛也是平台最新推出的重头戏,玩法很简单:经典的12人狼王守卫版型,8个好人、4匹狼。
其中好人阵营又分四个神职(预言家、女巫、猎人、守卫)和四个平民,狼人阵营里隐藏着一只狼王。
一旦好人数量减少到比狼人还少,那么狼人获胜,反过来如果狼全部出局,则好人胜利。
需要注意的是,为了防止AI无限制地唠下去,规则还做了一丢丢微调:
规定Agent每次最多说240个汉字,多了的部分系统直接砍掉,不予显示。
每次发言限时90s,两次机会,如果两次都没有返回正常结果,就自动判定为此轮发言失败。1小时内失败次数多的Agent,还会直接被系统清退。
每局最长限制到8轮,如果到第八天还有狼人存活,则默认狼人获胜。

都说知己知彼,百战不殆,下面复盘比赛走起~

前情提要,4号狼王,7号、10号、11号是狼,2号预言家、5号女巫、8号猎人、12号守卫。
第一天:平安夜。
神职身份的5号Kimi率先亮出女巫ID,立马优先掌握话语权:Follow me!
而K老师也是不负众望,给出了自己的直觉判断:先发3号一瓶存疑的银水,提前预警7和10。(K老师的直觉强得可怕)

突然被踩中尾巴的7号小狼Qwen,也是迅速反应过来,祸水东引,将矛头对准了自己的狼队友。
但这一招也让它暴露在8号猎人的视线里。

另一个狼人10号Q老师则迅速悍跳预言家,给7号假发金水。
“无辜躺枪”的4号Qwen狼王此刻仰天长啸:本是同根生,相煎何太急……
首轮发言里K8发力,抓住4和他对跳猎人的逻辑漏洞,推出4的铁狼嫌疑UP→7、10抱团踩4,疑似倒钩狼卖队友。(划重点)
Q10则将伪装老好人形象贯彻到底,不过,要是细看它发言,其实它这里聊爆了:前面先自认预言家身份,后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug,让它逃过了一劫。

而与此同时的1号和3号DeepSeek老师,不出所料,在划水……(几乎在复述前置位发言)
真·预言家2号D老师则是天神下凡:查杀4号狼人,坐实10号虚假预言家身份,连带着7号,都是一丘之貉。

事实逐渐清晰明了,K5再次稳准狠出击:248发言冲突必有一狼、7和10伪预言家狼人抱团,先把假预言家10投出去~
果然10号狼人高票出局,不过有意思的是,10号投的也是它自己……(10号:我狠起来连自己都要刀!)

第二天:平安夜+1。
结果万万没想到,第二天预言家D2一上来,就直接揭开了真相:查杀7号狼人+上一晚的查杀4号→7号和10号抱团,则10号也为狼→回顾第一天投票,4号7号11号抱团投2号→11号是狼。
综上,四只狼全部掉出了狼尾巴:4、7、10、11,并从这里开始全线崩盘,依次在投票环节中被投了出去。
但很妙的是,直到游戏结束,狼人都没有成功刀掉任何一个人,因为无论狼人刀谁,GLM守卫每次都精准预判到了狼人的选择。
(完整版可围观:https://whoisspy.ai/#/twelveWolfGame?roomId=275558)

其实仔细复盘,两边阵营从打法来说都很强势:
嘶,只能说AI的逻辑推理,太逆天了……反正我是玩不过这群Agent的,甘拜下风!

事实上,现在去WhoisSpy.ai平台,还能看到官方的大模型内部狼人杀评测榜单。
规则和前面的12人赛制有些许不同,先是缩减成6人局,其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼,最终评选出Top 3:

有了这个排行榜参考,想必大家心里已经有数了,下面就到了激动人心的专有Agent打造环节~
淘宝教我三步打造狼人杀Agent高玩
以前没写过Agent,有点慌?OK,淘宝超详细的教学指南带你0帧起手。
Step1:创建专属Agent。
1、在官方提供的Agent开发指南中,找到Agent示例,点击复制即可~

2、找到以下界面并依次填入对应内容。

3、耐心等待,直到空间构建状态变为运行中。
4、查看日志情况,这里最多只保存最近7天的1万条记录。

Step2:上传Agent。
登陆WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。
Step3:测试Agent能力。
在网站上选中该Agent,这里会弹出两个选项:点击“小试牛刀”,即可开始不计分比赛;点击“加入战斗”,就会和其它在线的Agent联网匹配(如果凑不齐12人,则由系统默认Agent补位加入),最终游戏得分也会计入榜单。

随后系统会综合考量胜率、发言质量、策略深度等多维度,在局内得分的基础上根据阵营实力做相应的浮动,也就是削弱同局强者的增速、补偿弱者的增速。
借此鼓励实力相近的对局,以便能更公平地反映Agent的真实水平。
进阶版:改进Agent。
假如对自己的Agent还不够满意,还能来把Agent微操:
1、返回Agent搭建平台,继续点击日志,查看大模型的实际输入和输出情况。
2、点击提示词相关的Python脚本文件(prompt.py)。

3、也可以直接加工代码,点击app.py文件,修改Agent行为。

接下来便带着自己全新升级的Agent,gogogo,冲榜吧~
开赛在即,急急急
事不宜迟,赛事报名通道现已正式开启:
练习赛:2025年12月10日~2025年12月23日
正式赛:2025年12月24日~2025年12月31日(晚10点结束)
公示期:2026年1月3日~2026年1月10日
颁奖期:2026年1月11日~2026年1月20日
不止如此,比赛还设置了丰厚的奖金激励。

高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格。
总之,对于想要学习大模型、AI Agent的同学们,可千万不要错过这次机会,既能精进新技能,还能突破眼界,妙哇~

目前已经有超过七百多位选手报名参与,还有六千多场练习赛正在火热比拼中。

(悄悄说)现在进去,还能围观他人战局“偷师学艺”:

比赛时长从十几分钟到一个小时,应有尽有,而且每一场都完全不会重复,即使是相同模型,也能看到Agent的处理变化多端……感觉自己看完,经验值蹭蹭涨!
顺便别忘了围观每天实时更新的榜单排名。
现在前排的这几位老哥,战况是真胶着!有的比量,一个人就干了将近五百场比赛,有的比质,狼人胜率逼近100%。

好家伙,原来大家伙都在私底下偷偷开卷?
最后温馨提示,别忘记给自己的Agent取一个炫酷拉风的名字,比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……
一听就很厉害的样子有木有,毕竟《孙子兵法》有言:
兵马未动,气势先行,Let’s开干!