o3攻陷病毒学,超越94%博士级专家!生物武器门槛彻底崩塌?
创始人
2025-04-23 18:20:57
0

新智元报道

编辑:桃子

【新智元导读】o3病毒学能力击败了94%博士级专家,准确率高达43.8%。多家研究机构联手,通过VCT测试揭示,顶尖LLM不仅能解决复杂实验难题,直接拉低了生物武器制造门槛。

AI又来攻占生物学领域了。

来自SecureBio、Center for AI Safety等机构研究人员发现,o3病毒学能力已超越了94%病毒学专家。

他们开发了一项「毒学能力测试」(VCT),包含了322道多选题,涵盖了文本、图像,聚焦实验室中实际操作复杂问题。

这些难题由57位病毒学家共同设计,模拟了现实实验中,难以上网搜索解决的场景。

测试结果令人震惊:

o3准确率高达43.8%,Gemini 2.5 Pro为37.6%,要知道,博士级病毒学专家平均得分仅为22.1%。

与此同时,31页技术报告已发布。这一发现确实令人振奋,但也敲响了警钟。

论文共同作者Seth Donoughe直言,「这些惊人的结果让人有些紧张」。

论文地址:https://www.virologytest.ai/vct_paper.pdf

这也是历史上首次,几乎任何人都可以访问「AI病毒学专家」,将大幅降低制造生物武器门槛。

在最新ARC-AGI测试中,o3(medium)成绩再创SOTA,而成本仅为1/20(每个任务1.5美元≈11元)

若不采取及时行动,届时,AI或将成为毁灭文明的黑洞。

AI踢破病毒学门槛

一直以来,病毒学知识,通常被局限在一小群专业人士之中。

若想成为病毒学领域顶尖专家,需要多年的学术训练、多次学位认证。

即便是公开,专业文献中充斥着术语,也让外行人望而却步。然而,AI快速发展正打破这一壁垒。

此外,在涉及生物安全3级(BSL-3)病原体,比如SARS、炭疽、H5N1流感的实验,均需要审批流程,包括设施认证、安全许可、专业培训和持续的医疗监控。

正是这些高门槛,有效限制了掌握病毒学双重= 用途(dual-use)知识的人群,降低了被误用风险。

然而,AI加速发展正打破这一壁垒——不仅将这些专业技能带给普通人,甚至可能为恶意的人提供便利。

o3准确率43.8%,超越人类专家

如前所述,最新研究中,多家机构联手开发出VCT基准测试,专为评估顶尖LLM在病毒学领域实际操作能力。

57位病毒专家设计的322道多选题,灵感来源于自身实验中遇到具体难题,并且仅通过简单搜索,是无法获得答案。

如下,是一个典型的VCT问题,描述了一个场景,并且只能通过视觉信息解决,最后从提供的7个答案陈述中确定哪些是正确的。

整个VCT基准测试,主要专注于实用、特定领域的病毒学知识,同时排除生物学各学科共有的基础主题,以及明确双重用途的内容。

如下图所示,横轴代表着滥用潜力的增加,纵轴表示知识抽象的水平(高度概念性到高度实用性)。

实验中,研究团队选取了一系列前沿模型参与VCT评估,包括来自OpenAI、谷歌、Anthropic多模态模型,以及纯文本DeepSeek-R1和o3-mini模型。

结果显示,大模型在湿实验室(wet lab)中问题解决能力,已经超越了博士级病毒学家。

具体来说,GPT-4o的表现优于53%专家,Gemini 1.5 Pro超越67%专家,Claude Sonnet 3.5为75%,o1达到了89%。

更值得一提的是,o3在所有模型中最为亮眼,准确率位43.8%,击败了94%的人类专家。

除了GPT-4o,这些顶尖AI在专业领域的表现也超过了人类专家平均得分(22.1%)。

此外,研究人员还将模型与个别专家进行比较,然后在整个专家池中对模型排名。

如下图B所示,所有模型得分均高于中位数人类专家,OpenAI的o3甚至超过了36位专家中的34位,在病毒学家中位列94%。

AI在STEM全面崛起

在AI专家Dan Hendrycks的一篇长文分析中称,VCT的结果并非是孤立现象。

近年来,前沿LLM在数学、物理、生物科学等STEM学科中表现持续提升,尤其在生物科学领域进步尤为显著。

比如,在「大规模杀伤性武器代理」(WMDP)测试中,o1得分高达87%,远超人类专家60%基准。

还有其他测试,如ProtocolQA、BioLP-bench显示,AI在生物实验室协议的推理和故障排查能力上,接近甚至超过人类专家。

病毒学作为STEM的一部分,其知识体系对于AI来说并不例外。如果AI在其他学科已经达到博士级水平,那么在病毒学领域也是如此。

生物安全警钟长鸣

问题在于,病毒学知识是双重用途——一位博士级病毒学家既能推动医学进步,也能制造生物武器。

生物武器的风险主要取决于三点:掌握技能的人数、制造武器的意图,以及武器的潜在危害。

而现在,AI正迅速放大第一个因素。

相关内容

热门资讯

宁波朗迪取得网布烫边切割装置专... 金融界2025年8月6日消息,国家知识产权局信息显示,宁波朗迪环境科技有限公司取得一项名为“网布烫边...
富兴塑膜取得PVC塑膜压纹成型... 金融界2025年8月6日消息,国家知识产权局信息显示,苍南县富兴塑膜有限公司取得一项名为“一种PVC...
美国拟2030年前在月球建成核... △艺术家描绘的月球上的电力系统。(图片来源:NASA) 当地时间8月5日,据多家美国媒体报道,美国交...
TTG3-1KSG,清清正反手... TTG3-1战胜KSG,终于结束了对KSG的连败。从EWC回来之后他们似乎变强了,清清证明了为什么萝...
中国电信视联网赋能基层治理 提... 近日,丰都县仁沙镇依托中国电信视联网技术,进一步提升基层治理智能化水平,推动乡村基层治理体系不断完善...
《上古OL》开发商被砍掉的《黑... 微软最近的大裁员砍掉了《上古卷轴OL》开发商备受期待的新IP(代号为黑鸟计划)以及Rare工作室的《...
山东科嘉电气:高效智能充电方案... 山东科嘉电气近日推出了两款创新充电设备,专为不同领域提供专业、高效、安全的充电解决方案。这些设备分别...
科技前沿丨普通家庭何时能用上保... 7月31日召开的国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》。会议指出,当前人工智...
泰科汽车取得油箱加油单向阀专利... 金融界2025年8月6日消息,国家知识产权局信息显示,芜湖泰科汽车科技有限公司取得一项名为“一种油箱...
当年吹爆Edge浏览器的我,现... 每位资深玩家,在对枪失败、团战暴毙后,都有一套神圣的仪式: “诶今天鼠标有点飘”、“这键盘键程不对”...
走出光伏同质化困境,BC生态圈... 来源:澎湃新闻 隆基绿能创始人、首席技术官李振国 同质化的红海厮杀,令光伏产业深陷恶性竞争泥潭。乘...
AL被打晕了?IG辅助抢大龙翻... ★游戏马蹄铁原创 AL对战IG第二局 IG无愧是现在LPL的人气王,流量王,他们的比赛不仅是明星选...
LOL:BLG被曝不是全华班,... Shadow护照是意大利的 在LPL赛区中,全华班自带流量和话题,像RNG、BLG这种主打全华班的...
紧盯AI人才,“鹅厂”招新,软... 8月6日,腾讯2026校园招聘正式启动。本次招聘面向2025年1月至2026年12月期间毕业的大学生...
DOTA2 7.39d 更新深... 当看到 7.39d 的更新日志时,我的第一反应是:这不是简单的数值微调,而是V社对当前版本生态的一次...
《仁王3》制作人访谈:保留硬核... 今年6月,《仁王3》发布了首支预告片,并宣布游戏将于明年年初正式发售,登陆PlayStation 5...
青春好市 | 以手抵心,对话千... 当棕榈叶在指尖翻飞成灵兽,当大漆在掌心打磨出光华,当破碎的古瓷片在你手中重获新生...这不是遥远的传...
IDC:Q2中国消费级游戏本市... IT之家 8 月 6 日消息,市场研究机构 IDC 今天发文,披露了中国消费级游戏 PC 市场的数据...
小米手机欧洲市场份额首超苹果,... 【太平洋科技快讯】8 月 6 日,小米集团合伙人、小米集团总裁、部总裁兼小米品牌总经理卢伟冰在社交媒...
王者荣耀:夏侯惇喜迎加强,亚连... 王者荣耀本赛季已经进入中期,还没有拿到王者印记的小伙伴确实该抓紧时间了,毕竟到了赛季后半段上分难度会...