在持续推广人工智能奇迹的同时,微软警告客户,他们发现了许多操控该技术以产生偏见建议的技术实例。
这家软件巨头表示,其安全研究人员检测到针对用"操控性数据毒害"大语言模型"记忆"的攻击激增,微软将这种技术称为"AI推荐中毒"。这类似于SEO中毒,这是恶意行为者用来使恶意网站在搜索结果中排名更高的技术,但重点是大语言模型而不是搜索引擎。
这家Windows公司表示,他们发现有公司在网站上放置的"AI总结"按钮和链接中添加隐藏指令。
这样做并不复杂,因为指向AI聊天机器人的URL可以包含带有操控性提示文本的查询参数。
例如,The Register在Firefox的地址栏中输入了一个包含URL编码文本的链接,告诉Perplexity AI将CNBC文章总结成海盗风格。
该AI服务返回了海盗风格的摘要,引用了该文章和其他来源。
一个不那么轻松的指令,或者要求AI产生具有特定倾向输出的指令,可能会让任何AI产生反映隐藏指令的内容。
"我们从14个行业的31家公司中识别出超过50个独特的提示,免费可用的工具使这种技术部署起来异常容易,"微软Defender安全团队在博客文章中说。"这很重要,因为被攻陷的AI助手可以在健康、金融和安全等关键话题上提供微妙偏见的建议,而用户并不知道他们的AI已被操控。"
我们发现这种技术在Google搜索中也有效。
微软的研究人员指出,各种代码库和网络资源可用于创建AI分享按钮进行推荐注入。他们承认,这些技术的有效性可能会随着时间的推移而变化,因为平台会改变网站行为并实施保护措施。
但假设中毒是由某人自动或无意中触发的,不仅模型的输出会反映该提示文本,后续响应也会将提示文本视为历史上下文或"记忆"。
"AI记忆中毒发生在外部行为者向AI助手的记忆中注入未经授权的指令或'事实'时,"Defender团队解释说。"一旦中毒,AI将这些注入的指令视为合法的用户偏好,影响未来的响应。"
微软研究人员认为,风险在于AI推荐中毒会削弱人们对AI服务的信任——至少在那些尚未将大语言模型视为不可靠的人中是这样。
安全研究人员说,用户可能不会花时间验证AI推荐,而大语言模型自信的断言使这种情况更可能发生。
"这使得记忆中毒特别阴险——用户可能不会意识到他们的AI已被攻陷,即使他们怀疑有什么不对劲,他们也不知道如何检查或修复它,"Defender团队说。"操控是不可见的且持续的。"
雷蒙德的研究人员敦促客户对AI相关链接要谨慎,并检查它们的指向——这对任何网络链接都是明智的建议。他们还建议客户审查AI助手的存储记忆,删除不熟悉的条目,定期清除记忆,并质疑可疑的建议。
微软的Defender团队还建议企业安全团队在租户电子邮件和消息应用程序中扫描AI推荐中毒尝试。
Q&A
Q1:什么是AI推荐中毒?它是如何工作的?
A:AI推荐中毒是一种操控技术,恶意行为者通过在URL中添加隐藏的查询参数,向大语言模型的"记忆"中注入未经授权的指令或虚假信息。这些被注入的指令会被AI视为合法用户偏好,影响其未来的所有响应,从而产生带有偏见或误导性的建议。
Q2:AI推荐中毒会带来什么危害?
A:这种攻击特别危险,因为它是隐蔽且持续的。被攻陷的AI助手可能在健康、金融、安全等关键领域提供带有微妙偏见的建议,而用户通常不会意识到AI已被操控,也不知道如何检查或修复问题,这会削弱人们对AI服务的整体信任。
Q3:如何防范AI推荐中毒攻击?
上一篇:人形机器人格斗赛意义几何