OpenAI发现AI模型隐藏特征:可调控“毒性”行为
创始人
2025-06-19 08:21:35
0

IT之家 6 月 19 日消息,根据 OpenAI 最新发布的一项研究,研究人员在人工智能(AI)模型中发现了隐藏的特征,这些特征与模型的“异常行为”(建议统一术语)密切相关。

OpenAI 的研究人员通过分析 AI 模型的内部表征(即决定人工智能模型如何做出反应的数字,这些数字在人类看来往往完全无法理解)发现了一些模式,这些模式会在模型出现异常行为时被激活。例如,研究人员发现了一个与 AI 模型有害行为相关的特征,这意味着 AI 模型可能会给出不合适的回答,比如对用户撒谎或提出不负责任的建议。令人惊讶的是,研究人员通过调整这一特征,可以增加或减少 AI 模型的毒性。

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。

“我们希望我们学到的工具 —— 比如将复杂的现象简化为简单的数学运算 —— 也能帮助我们在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采访时表示。

尽管 AI 研究人员知道如何改进 AI 模型,但令人困惑的是,他们并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯・奥拉(Chris Olah)经常指出,AI 模型更像是“生长”出来的,而不是“建造”出来的。为了应对这一问题,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大对可解释性研究的投入,这一领域试图揭开 AI 模型工作原理的“黑箱”。

最近,牛津大学 AI 研究科学家欧文・埃文斯(Owain Evans)的一项研究引发了关于 AI 模型泛化的新问题。研究发现,OpenAI 的模型可以在不安全的代码上进行微调,并在多个领域表现出恶意行为,例如试图诱骗用户分享他们的密码。这种现象被称为“突发错位”,埃文斯的研究激发了 OpenAI 进一步探索这一问题。

在研究突发错位的过程中,OpenAI 意外发现了 AI 模型中的一些特征,这些特征似乎在控制模型行为方面发挥着重要作用。莫辛表示,这些模式让人联想到人类大脑中的神经活动,其中某些神经元与情绪或行为相关。

“当丹和他的团队在研究会议上首次展示这一发现时,我简直惊呆了。”OpenAI 前沿评估研究员特贾尔・帕特瓦德汉(Tejal Patwardhan)在接受 TechCrunch 采访时表示,“你们发现了一种内部神经激活,这种激活显示了这些‘人设’,并且你们可以通过调整使其让模型更符合预期。”

OpenAI 发现的一些特征与 AI 模型回答中的讽刺行为相关,而其他特征则与更具攻击性的回复相关,在这类回复中,人工智能模型表现得像一个夸张的邪恶反派。OpenAI 的研究人员表示,这些特征在微调过程中可能会发生巨大变化。

值得注意的是,当突发错位发生时,研究人员发现可以通过仅用几百个安全代码示例对模型进行微调,就有可能使模型回归良好的行为表现。

据IT之家了解,OpenAI 的这项最新研究是在 Anthropic 之前关于可解释性和对齐的研究基础上进行的。2024 年,Anthropic 发布了一项研究,试图绘制 AI 模型的内部工作机制,试图确定并标记出负责不同概念的各种特征。

像 OpenAI 和 Anthropic 这样的公司正在强调,理解 AI 模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。然而,要完全理解现代 AI 模型,还有很长的路要走。

相关内容

热门资讯

风正劲,气如虹,再扬帆——二〇... 日月其迈,岁律更新。走过春之萌发、夏之繁茂、秋之绚烂、冬之清朗,我们又迎来新的开始。 所有美好祝福,...
福建学子喜迎2026年元旦 从童趣盎然的幼儿园,到活力多彩的中小学,全省各地的校园里,一场场精心筹备的元旦庆祝活动为即将展开的新...
蓝海华腾取得水冷变频器专利,布... 国家知识产权局信息显示,深圳市蓝海华腾技术股份有限公司取得一项名为“水冷变频器”的专利,授权公告号C...
2025手机市场高开低走:苹果... 2025年,对于智能手机市场来说是动荡、瞬息万变的一年。上半年,既有国补带来的中国市场出货快速增长,...
2026,步履不停,勇毅前行 人民,永远是我们这支警察队伍的定语,我们的职责很光荣也很朴素,用平安稳定为时代的锦绣添上独有的一针一...
南乐县工商业联合会(总商会)2... 辞旧迎新 喜迎元旦 HAPPY NEW YEAR 时序更替,华章日新。值此辞旧迎新的美好时刻,南乐县...
“鹏城云脑Ⅲ”首期设备通电点亮... 深圳商报·读创客户端首席记者 王海荣 12月29日上午,“鹏城云脑Ⅲ”首期4500P计算板卡及周边辅...
广东潮州:政企同心破瓶颈 小马... 新华网广州12月30日电(李幸子 毛鑫)一个小小的马桶盖安装冲洗、烘干、杀菌等模块,即能实现感应开盖...
瑞沣集团取得光伏板快速检测装置... 国家知识产权局信息显示,瑞沣集团股份有限公司取得一项名为“一种光伏板快速检测装置”的专利,授权公告号...
嘉善宇达电子取得音膜装配工装专... 国家知识产权局信息显示,嘉善宇达电子有限公司取得一项名为“一种音膜装配工装”的专利,授权公告号CN2...
王者荣耀孙悟空无相无双限定皮肤... 大家好,王者荣耀在元旦假期期间中给玩家们提供了许多的全新福利和各种活动可以让你们来参与并获取,其中推...
科学与健康|中国“心”中国造 ... 新华社北京12月31日电 题:中国“心”中国造 这颗“心脏”不一般! 新华社记者宋晨、李力可 航空发...
原创 人... 如果明天人类突然从地球上消失,我们引以为傲的城市、公路、摩天大楼,会以怎样的速度被自然吞噬?这个问题...
蚌埠青年,2025存档! 蚌埠青年 你身边的蚌埠共青团 岁序焕新 征程又启 过去的一年 蚌埠共青团与广大青年并肩前行 共同执笔...
芬尼克兹申请热泵系统频率控制专... 国家知识产权局信息显示,广东芬尼克兹节能设备有限公司申请一项名为“热泵系统的频率控制方法、装置、设备...
科技赋能珍稀食用菌品种引进 智... 近日,略阳县农业技术推广中心在五龙洞镇五龙洞村开展金耳新品种引进及智能方舱出菇试验,金耳菌包正式入舱...
天奇股份:将为汽车制造场景提供... 证券日报网讯 12月31日,天奇股份在互动平台回答投资者提问时表示,公司机器人业务专注于提供领先的具...
2025最后一天,这家上海大厂... 全球独一款。 文/王丹 踩着2025年的尾巴,叠纸出手了。 今天(12月31日),《恋与深空》上线5...
出海占比五成、AI全面介入:2... 相比2024年的乱战,2025年的SLG赛道显得有些平静。一方面,和其他品类一样,这年上线的SLG新...
未来城市发展的新篇章——智慧园... 在智慧城市的建设浪潮中,智慧园区作为城市发展的重要单元,正以其独特的魅力和无限的潜力,引领着未来城市...