OpenAI发现AI模型隐藏特征:可调控“毒性”行为
创始人
2025-06-19 08:21:35
0

IT之家 6 月 19 日消息,根据 OpenAI 最新发布的一项研究,研究人员在人工智能(AI)模型中发现了隐藏的特征,这些特征与模型的“异常行为”(建议统一术语)密切相关。

OpenAI 的研究人员通过分析 AI 模型的内部表征(即决定人工智能模型如何做出反应的数字,这些数字在人类看来往往完全无法理解)发现了一些模式,这些模式会在模型出现异常行为时被激活。例如,研究人员发现了一个与 AI 模型有害行为相关的特征,这意味着 AI 模型可能会给出不合适的回答,比如对用户撒谎或提出不负责任的建议。令人惊讶的是,研究人员通过调整这一特征,可以增加或减少 AI 模型的毒性。

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。

“我们希望我们学到的工具 —— 比如将复杂的现象简化为简单的数学运算 —— 也能帮助我们在其他地方理解模型的泛化能力。”莫辛在接受 TechCrunch 采访时表示。

尽管 AI 研究人员知道如何改进 AI 模型,但令人困惑的是,他们并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯・奥拉(Chris Olah)经常指出,AI 模型更像是“生长”出来的,而不是“建造”出来的。为了应对这一问题,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大对可解释性研究的投入,这一领域试图揭开 AI 模型工作原理的“黑箱”。

最近,牛津大学 AI 研究科学家欧文・埃文斯(Owain Evans)的一项研究引发了关于 AI 模型泛化的新问题。研究发现,OpenAI 的模型可以在不安全的代码上进行微调,并在多个领域表现出恶意行为,例如试图诱骗用户分享他们的密码。这种现象被称为“突发错位”,埃文斯的研究激发了 OpenAI 进一步探索这一问题。

在研究突发错位的过程中,OpenAI 意外发现了 AI 模型中的一些特征,这些特征似乎在控制模型行为方面发挥着重要作用。莫辛表示,这些模式让人联想到人类大脑中的神经活动,其中某些神经元与情绪或行为相关。

“当丹和他的团队在研究会议上首次展示这一发现时,我简直惊呆了。”OpenAI 前沿评估研究员特贾尔・帕特瓦德汉(Tejal Patwardhan)在接受 TechCrunch 采访时表示,“你们发现了一种内部神经激活,这种激活显示了这些‘人设’,并且你们可以通过调整使其让模型更符合预期。”

OpenAI 发现的一些特征与 AI 模型回答中的讽刺行为相关,而其他特征则与更具攻击性的回复相关,在这类回复中,人工智能模型表现得像一个夸张的邪恶反派。OpenAI 的研究人员表示,这些特征在微调过程中可能会发生巨大变化。

值得注意的是,当突发错位发生时,研究人员发现可以通过仅用几百个安全代码示例对模型进行微调,就有可能使模型回归良好的行为表现。

据IT之家了解,OpenAI 的这项最新研究是在 Anthropic 之前关于可解释性和对齐的研究基础上进行的。2024 年,Anthropic 发布了一项研究,试图绘制 AI 模型的内部工作机制,试图确定并标记出负责不同概念的各种特征。

像 OpenAI 和 Anthropic 这样的公司正在强调,理解 AI 模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。然而,要完全理解现代 AI 模型,还有很长的路要走。

相关内容

热门资讯

宁波朗迪取得网布烫边切割装置专... 金融界2025年8月6日消息,国家知识产权局信息显示,宁波朗迪环境科技有限公司取得一项名为“网布烫边...
富兴塑膜取得PVC塑膜压纹成型... 金融界2025年8月6日消息,国家知识产权局信息显示,苍南县富兴塑膜有限公司取得一项名为“一种PVC...
美国拟2030年前在月球建成核... △艺术家描绘的月球上的电力系统。(图片来源:NASA) 当地时间8月5日,据多家美国媒体报道,美国交...
TTG3-1KSG,清清正反手... TTG3-1战胜KSG,终于结束了对KSG的连败。从EWC回来之后他们似乎变强了,清清证明了为什么萝...
中国电信视联网赋能基层治理 提... 近日,丰都县仁沙镇依托中国电信视联网技术,进一步提升基层治理智能化水平,推动乡村基层治理体系不断完善...
《上古OL》开发商被砍掉的《黑... 微软最近的大裁员砍掉了《上古卷轴OL》开发商备受期待的新IP(代号为黑鸟计划)以及Rare工作室的《...
山东科嘉电气:高效智能充电方案... 山东科嘉电气近日推出了两款创新充电设备,专为不同领域提供专业、高效、安全的充电解决方案。这些设备分别...
科技前沿丨普通家庭何时能用上保... 7月31日召开的国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》。会议指出,当前人工智...
泰科汽车取得油箱加油单向阀专利... 金融界2025年8月6日消息,国家知识产权局信息显示,芜湖泰科汽车科技有限公司取得一项名为“一种油箱...
当年吹爆Edge浏览器的我,现... 每位资深玩家,在对枪失败、团战暴毙后,都有一套神圣的仪式: “诶今天鼠标有点飘”、“这键盘键程不对”...
走出光伏同质化困境,BC生态圈... 来源:澎湃新闻 隆基绿能创始人、首席技术官李振国 同质化的红海厮杀,令光伏产业深陷恶性竞争泥潭。乘...
AL被打晕了?IG辅助抢大龙翻... ★游戏马蹄铁原创 AL对战IG第二局 IG无愧是现在LPL的人气王,流量王,他们的比赛不仅是明星选...
LOL:BLG被曝不是全华班,... Shadow护照是意大利的 在LPL赛区中,全华班自带流量和话题,像RNG、BLG这种主打全华班的...
紧盯AI人才,“鹅厂”招新,软... 8月6日,腾讯2026校园招聘正式启动。本次招聘面向2025年1月至2026年12月期间毕业的大学生...
DOTA2 7.39d 更新深... 当看到 7.39d 的更新日志时,我的第一反应是:这不是简单的数值微调,而是V社对当前版本生态的一次...
《仁王3》制作人访谈:保留硬核... 今年6月,《仁王3》发布了首支预告片,并宣布游戏将于明年年初正式发售,登陆PlayStation 5...
青春好市 | 以手抵心,对话千... 当棕榈叶在指尖翻飞成灵兽,当大漆在掌心打磨出光华,当破碎的古瓷片在你手中重获新生...这不是遥远的传...
IDC:Q2中国消费级游戏本市... IT之家 8 月 6 日消息,市场研究机构 IDC 今天发文,披露了中国消费级游戏 PC 市场的数据...
小米手机欧洲市场份额首超苹果,... 【太平洋科技快讯】8 月 6 日,小米集团合伙人、小米集团总裁、部总裁兼小米品牌总经理卢伟冰在社交媒...
王者荣耀:夏侯惇喜迎加强,亚连... 王者荣耀本赛季已经进入中期,还没有拿到王者印记的小伙伴确实该抓紧时间了,毕竟到了赛季后半段上分难度会...