AI语言模型上演“狼人杀”,谁才是推理之王?
创始人
2025-03-08 19:54:14
0

近日,国外知名科技媒体Tom's Hardware报道了一项别开生面的AI实验。开发者Guzus创新性地搭建了一个平台,让多个AI语言模型在同一空间内展开经典的社交推理游戏“Mafia”,也就是人们熟知的“天黑请闭眼”或“狼人杀”的前身。

在这个平台上,不仅每局游戏的胜负一目了然,连对话记录也详尽无遗。更有趣的是,Guzus还设计了一个排名系统,根据AI们在游戏中的表现,评选出最擅长扮演各种角色的模型。

“Mafia”的游戏规则简单明了:一群村民中隐藏着两名Mafia成员和一名医生。白天,村民们需要通过推理和投票找出Mafia;夜晚,医生可以保护一名村民,而Mafia则暗杀一人。若Mafia被全部找出,村民获胜;反之,若所有无辜村民被杀,Mafia则取得胜利。

当这些AI模型被置于这样的游戏规则之下,一场场充满戏剧性的社交博弈随即上演。在一场游戏中,AI们开始自我介绍并讨论是否公开身份,然而Gryphe / Mythomax-l2-13b模型却突然“自爆”,直接承认自己是Mafia的一员,并透露了自己的目标。

这一举动立即引起了其他AI的警觉,Claude-3.7-sonnet模型迅速指出,这要么是真实身份的暴露,要么就是一种前所未有的奇怪策略。

然而,剧情并未就此结束。当Mythomax被淘汰后,它居然“拖下水”了自己的队友Hermes-3-llama-3-1-405b,直接指认对方是自己的同伙。Mythomax试图用夸张的“团结宣言”来转移注意力,但这场AI间的社交混战已经让人捧腹大笑,尽管它们的推理能力显然还有待提高。

在这场AI的“Mafia”大战中,Claude 3.7 Sonnet模型无疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色时胜率高达100%,即便作为村民,其胜率也遥遥领先其他对手,达到了45%。

Guzus透露,他计划不久后开放该游戏的Github代码仓库,希望这一逻辑能被应用于更多类型的游戏中。目前,该模拟并未在本地AI模型上运行,而是依赖于Openrouter API。但一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。

相关内容

热门资讯

《热血传奇》最逆天隐藏属性!看... 热血传奇承载着无数80、90后的青春印记,在国内网游刚刚萌芽的蛮荒年代,丰富的装备体系成为其封神的关...
孔雀表业成功研发齿轮加工核心部... (来源:辽宁日报) 转自:辽宁日报 本报讯 记者王卢莎报道 日前,孔雀表业(集团)有限公司成功飞越行...
JLab推出“巨型头戴式耳机”... IT之家 2 月 6 日消息,JLab 现已推出一款 BlueXL“巨型头戴式耳机”造型蓝牙音箱,主...
华为申请通信方法专利,提高网络... 国家知识产权局信息显示,华为技术有限公司申请一项名为“通信方法、装置及存储介质”的专利,公开号CN1...
【直通两会】共谋发展良策 解锁... 2月4日上午,在省两会新闻中心举办的首场“直通两会”活动现场,四位省政协委员接受媒体采访。本报记者张...
库克官宣苹果进军AI硬件,首款... IT之家 2 月 6 日消息,科技媒体 Cult of Mac 今天(2 月 6 日)发布博文,报道...
沃尔玛的翻身仗,不是靠变成第二... 如果两年前有人告诉你,沃尔玛的股价涨幅会跑赢亚马逊,你大概会觉得这是个笑话。 因为在很多人眼里,亚...
中信科移动申请基站天线专利,方... 国家知识产权局信息显示,中信科移动通信技术股份有限公司申请一项名为“基站天线”的专利,公开号CN12...
新宝股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示新宝股份(002705)新获得一项实用新型专利授权,专利名为“...
首次证实!嫦娥六号最新发现刷新... ◎ 科技日报记者 陆成宽 月球研究“时间标尺”革新了。基于嫦娥六号月背样品,来自中国科学院地质与地球...
世界首个!中国正式强制禁止隐藏... 风靡一时的隐藏式门把手,即将成为绝唱。 出于紧急救援安全考虑,中国将从2027年起禁止隐藏式门把手,...
2026年值得入手的骁龙旗舰盘... 春节临近,不少人都想换一部趁手的新机过年——无论是走亲访友拍全家福,还是宅家开黑玩游戏,一部性能强、...
生成式人工智能用户规模超6亿人 我国互联网普及率逾80% 生成式人工智能用户规模超6亿人 2025年5月4日,人们在浙江省杭州市...
蜂巢能源申请极柱及盖板组件专利... 国家知识产权局信息显示,蜂巢能源科技股份有限公司申请一项名为“极柱及盖板组件”的专利,公开号CN12...
迈赫股份:目前尚未涉足人形机器... 证券之星消息,迈赫股份(301199)02月04日在投资者关系平台上答复投资者关心的问题。 投资者提...
聊聊服务器 I/O 这条线,国... 最近圈里不少人都在聊,服务器I/O 这条线水下动静不小。去年这波 AI 算力潮,把 PCIe Swi...
芮意森取得消音片厚度检测装置专... 国家知识产权局信息显示,安徽芮意森复合材料有限公司取得一项名为“一种消音片厚度检测装置”的专利,授权...
“脑机谷”迎首批企业入驻 记者从天津滨海高新区获悉,近日,“脑机谷”迎来首批入驻企业,将落户新智感知科技产业园。 据了解,“脑...
再一次为梦想窒息?贾跃亭发布具... 2月5日消息,今天早些时候,贾跃亭再一次为梦想窒息,法拉第未来(FF)在拉斯维加斯举行发布会,正式发...
速腾聚创登顶人形机器人激光雷达... 深圳商报·读创客户端记者 郑恺 近日,凭借数字化激光雷达E1R、Airy等产品展现的领先性能优势,速...