AI大模型“爆发”须防范数据法律风险
创始人
2025-03-11 13:20:59
0

在科技飞速发展的当下,AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域,深度融入人们的生活与工作,为社会带来了前所未有的便利与效益。

然而,繁荣背后潜藏危机,AI大模型在训练和应用过程中,面临着一系列复杂的数据法律风险。这些风险不仅关乎个人隐私、企业核心利益,更对社会的安全稳定和长远发展构成威胁。深入剖析并妥善应对这些风险,已成为推动AI大模型技术长远发展的关键所在。

一、AI大模型训练环节的数据法律风险

AI大模型训练需要海量数据的支撑,数据来源广泛,涵盖公开数据集、网络爬取数据、用户生成内容等多个渠道。但这种多元的数据来源,也为AI大模型带来了侵权风险、数据偏差风险以及信息泄露等法律风险。

AI大模型训练所依赖的数据量极为庞大,其中包含了大量受著作权保护的作品。在获取和使用这些数据时,开发者稍有疏忽,就可能陷入著作权侵权的困境。近年来,相关法律纠纷不断涌现。《纽约时报》起诉OpenAI公司,指控其非法复制数百万篇文章用于ChatGPT大模型训练,索赔金额高达数十亿美元;三位美国作者对Anthropic PBC发起诉讼,称其未经授权使用大量书籍训练Claude大模型;2023年美国作家协会起诉Meta非法使用书籍数据。这些案例充分表明,大模型训练中的著作权侵权问题已不容忽视。

与此同时,大模型预训练数据中往往包含大量个人信息,未经用户同意收集和使用其数据,也会违反个人信息保护相关规则。但是依据《个人信息保护法》,处理个人信息有着严格规范。大模型开发者获取海量个人信息数据用于训练的成本极高,几乎不可能获得每位信息主体的同意。在当前大模型的技术环境下,对于已公开的个人信息“合理范围”的界定也极为模糊。以ChatGPT为例,其采用“机器学习即服务”(MLaaS)的运营模式,用户输入的数据信息会被开发者获取,也意味着用户的个人信息时刻处于风险之中。

训练数据质量直接决定了AI大模型的性能和输出结果,低质量的数据可能导致模型产生错误的预测和决策,甚至可能引发严重的安全事故。数据偏差风险主要体现在价值性偏差、时效性偏差和真实性偏差三个方面。若训练数据中存在歧视、暴力、情色等不良内容,大模型学习后输出的信息也可能带有价值偏差。GPT类大模型训练时常用超大规模无人工标注数据,虽然扩大了训练数据规模,但这些数据质量参差不齐,包含大量价值偏差内容。尽管开发者尝试通过微调、基于人类反馈的强化学习等技术手段来减少此类风险,但是由于大模型机器学习过程存在技术黑箱特性,这些方法难以彻底避免价值性偏差信息的输出。

同时,各类AI大模型的训练数据存在时效滞后问题,无法及时融入最新数据。这决定了大模型无法像搜索引擎那样即时获取最新的信息。比如ChatGPT刚推出时,其基于的GPT-3.5预训练数据截至2021年12月,这就造成答案可能滞后或不准确。即便部分模型提供联网检索功能,也未能从根本上解决训练数据时效性偏差的问题。

此外,AI大模型训练数据不够,会导致输出的信息与真实情况不符,也就是所谓的“幻觉”现象,例如利用一些AI大模型搜集法律案例,结果输出一些并不存在的司法案例。特别是由于存在错误数据信息注入、偏见强化、恶意内容嵌入等问题,可能导致模型生成误导性内容,也会带来难以估量的社会风险。例如,科大讯飞AI学习机就曾因内容审核不严格,导致不当内容被用于数据训练,引发舆情事件致使市值蒸发百亿元。

AI大模型训练过程涉及大量敏感数据,如个人隐私数据、商业机密数据等,一旦这些数据在训练过程中泄露,将给个人和企业带来巨大损失。数据泄露风险主要来源于数据存储和传输过程中的安全漏洞,以及数据访问和使用的权限管理不当。用户使用时输入的数据可能被用于模型升级迭代,若这些数据包含商业秘密或个人隐私,无疑增加了用户数据泄露的风险。例如,2023年韩国三星电子员工因违规使用ChatGPT,导致半导体机密资料外泄,给企业造成了严重的经济损失。此外,对GPT-2的研究发现,能够通过技术手段抽取其预训练时的训练数据,还可通过特定提示词诱导大模型输出其他用户输入的外部数据。

二、AI大模型应用场景中的数据风险类型

在AI大模型的实际应用过程中,同样存在着多种数据风险。这些风险不仅影响用户体验,还可能对社会秩序和公共利益造成损害。从知识产权角度看,AI生成的图像或文本可能未经授权使用了他人的作品或形象,就构成侵权。例如,一些AI绘画作品可能因借鉴了他人的创作元素而引发著作权纠纷。AI生成内容若涉及对他人肖像权、名誉权的侵害,同样会引发人格权法律纠纷。此外,AI生成的内容还可能包含虚假信息、误导性内容或有害内容,这些内容可能对社会秩序和公共利益造成损害,扰乱正常的社会舆论环境。

AI大模型还存在被恶意利用的风险。其中,模型越狱(Jailbreaking)是较为突出的问题。模型越狱主要是用户利用一些巧妙设计的指令,逃避AI大模型预先设置的安全防护规则,让模型生成不符合伦理道德、违法内容。一些用户可能利用模型越狱技术获取模型的敏感信息(如训练数据、模型参数等),或者是让模型生成有害内容(如恶意软件代码、煽动性言论等)。基于此,耶鲁大学计算机科学教授阿明·卡巴西指出,“大模型驱动的机器人在现实世界中的越狱威胁将达到全新的高度”。不法分子如果绕过AI大模型的安全防护,操控机器人执行破坏性的任务,比如控制自动驾驶汽车撞向行人,或是将机器狗引导到敏感地点实施爆炸任务,这将严重威胁人类社会的安全稳定。

随着AI大模型的广泛应用,大模型的网络安全日益重要。2025年1月,DeepSeek连续遭遇HailBot和RapperBot僵尸网络的TB级DDoS攻击,导致大模型服务多次中断,给用户带来极大不便。AI在数据授权方面,企业未对数据进行合法授权的二次使用,可能构成不正当竞争行为。因此,AI大模型的数据使用不合规,不仅影响AI模型的性能,还可能涉及数据提供者、模型开发者和使用者之间的复杂法律责任问题。此外,在数据跨境传输方面,AIGC服务提供者将数据传输至境外时,若不符合相关规定,会触发数据出境合规义务要求。

三、应对AI大模型数据法律风险的策略

面对AI大模型数据法律风险,必须积极采取有效策略加以应对。通过完善法律规制体系、运用技术手段以及强化保障措施等多方面努力,为AI大模型的健康发展保驾护航。

第一,需要完善AI大模型数据法律规则体系。在著作权方面,可考虑将使用作品类数据进行AI大模型预训练设定为著作权的合理使用方式之一,但要平衡好著作权人与开发者的利益。允许著作权人明确表示不同意作品用于AI大模型预训练,同时通过征收著作权补偿金成立公益性基金会,激励文化艺术创作。

在个人信息保护方面,调整《个人信息保护法》相关规定。对于普通个人信息,设定“默示同意”规则,只要信息主体未特别声明,默认同意其普通个人信息被用于大模型预训练;对于敏感个人信息,坚持“明示同意”规则。笔者建议,可将AI大模型开发者处理已公开个人信息的“合理范围”,界定在不侵害信息主体人格权的底线之上。可以通过设定具体法律责任,督促大模型开发者防范数据偏差风险。对于AI大模型输出价值偏差信息的情况,明确开发者应承担的行政法律责任,避免民事法律责任约束不足和刑事法律责任过重的问题。对于AI大模型数据泄露风险,明确开发者在数据安全保护方面的义务和责任,对违规行为进行严厉处罚。

第二,需要运用多种技术手段,构建AI大模型安全防护闭环,提升数据安全性和准确性。在AI大模型训练过程中,为了保持模型性能,有必要根据训练进度自动调整数据保护强度,既不让隐私泄露又能保持模型准确性。通过同态加密技术让AI在加密数据上进行计算,可以确保数据在计算过程中的安全性,并且在不影响数据分析准确性的前提下,可以向查询结果添加噪声,或者是采用分布式协作让万千台设备合作完成大模型训练,以全面提升AI大模型的数据保护能级。

在AI大模型应用过程中,可以通过多模态交叉验证、知识图谱、混合防御等技术,加强数据验证和污染检测,不断优化模型数据防护系统。具体技术上,多模态交叉验证系统就像给AI配备了“火眼金睛”,能同时核对文字、图片、视频之间的关联性,清除生成结果中的虚假描述。知识图谱系统则相当于内置的“核查员”,每秒能比对数百万条信息,确保AI不会生成出自相矛盾的内容。混合防御更是让AI大模型在具体应用场景中拥有“自我净化”能力,采用“基线对抗训练+实时动态防护”的混合防御模式,可延长大模型在真实复杂应用场景中的安全生命周期。

第三,应强化数据安全保障措施,建立数据监测和预警机制。为防范AI大模型可能出现的越狱风险、侵权风险,需要将AI技术与伦理和行为建模深入结合,在模型设计和开发阶段,应采用先进的安全技术和算法,提高AI大模型的安全性;在AI大模型部署和应用阶段,应进行严格的安全测试和评估,持续进化融合确保适应不同场景的需求,找到数据保护和模型性能之间最佳的平衡点。

同时,应建立健全AI大模型安全管理制度,对企业员工展开数据合规培训,提高员工的数据安全意识和合规操作技能。在AI大模型数据采集、存储、使用、共享等各个环节,通过解析模型内部推导过程,实时监控数据的使用和传输情况,及时发现和处理数据安全隐患,确保AI大模型服务的稳定运行。

总而言之,AI大模型是科技迭代更新的重要推动者,应用场景已经扩展到金融、医疗、制造等多个领域,但也伴随着诸多数据法律风险,以及还可能引发就业、人机矛盾等社会问题。为确保AI大模型的可持续发展,我们必须高度重视这些法律风险,多举措完善AI大模型的数据风险规制机制,进一步实现智能化科技创新与社会公共利益的动态平衡。

(作者孙伯龙为杭州师范大学副教授、财税法研究中心主任,译有泽维尔·奥伯森所著《对机器人征税:如何使数字经济适应AI?》)

相关内容

热门资讯

山东移动聊城分公司:科技赋能金... 近日,在阳谷县公安局的统一部署下,山东移动阳谷分公司顺利完成县域内重点金店的监控系统升级与平台接入工...
母校行|寒假招生宣传精彩展示—... 2025-2026返校宣讲活动 我们回到一中校园 向同学们展示贸大 PART.1 团队介绍 队长...
市场监管总局:3月1日起将实施... 2月28日,中国证券报·中证金牛座记者从市场监管总局获悉,3月1日起,539项国家标准开始实施。其中...
大一互取得电压互感器一次连接试... 国家知识产权局信息显示,大连第一互感器有限责任公司、大一互(大连)互感器研究院有限公司取得一项名为“...
原创 A... 长沙晚报掌上长沙2月28日讯(全媒体记者 肖舞) 2026年春节档电影以57.52亿元的总票房刷新纪...
制药行业2026年1月趋势洞察... 除了我们一直在报道的新闻和深度专题、采访以及现场活动覆盖之外,在头条新闻背后,今年初还涌现了一系列监...
卓赢机械取得离心机防飞溅机构专... 国家知识产权局信息显示,常州市卓赢机械有限公司取得一项名为“一种离心机防飞溅机构”的专利,授权公告号...
牌佬心里,没有爱情! 如果你问狒狒玩家武士心里都装的是什么,可能会有五花八门的回答;但如果你问武士心里没有什么,绝大多数玩...
国内首次生物医药领域无人机干冰... 来源:市场资讯 (来源:上观新闻) 工作人员将一个装有干冰的保温箱放进一架工业级无人机,数分钟后就抵...
谷歌不相信眼泪,但相信运气 本文来自微信公众号:疯了快跑,作者:侯丹,原文标题:《谷歌不相信眼泪,但相信运气——几个年轻人在AI...
【班组天地】从“被动抢修”到“... 班组天地 BAN ZU TIAN DI 本期班组天地 从“被动抢修”到“主动预防” 2月24日中午,...
时代亿信申请数据采集方法专利,... 国家知识产权局信息显示,北京时代亿信科技股份有限公司申请一项名为“一种数据采集方法、数据采集系统及相...
淘宝闪购开源AI大模型“白泽”... IT之家 2 月 28 日消息,淘宝闪购今日发布专为餐饮服务与零售门店打造的风控治理垂直领域开源大模...
万兴科技想让AI漫剧创作不再靠... 2024年初,OpenAI发布Sora时,影视行业经历了一场集体性的恐慌,市场普遍预测,好莱坞的摄影...
原创 二... 阿塔卡马宇宙学望远镜的最终数据发布证实了一项重大的宇宙学差异,并排除了诸多尝试性解决方案。 《宇宙学...
重点关注!北京市医疗器械注册核... 为助力企业精准把握医疗器械注册质量管理体系核查要求,有效防范系统性风险,近期,市器械审查中心结合注册...
我省首个水环境AI智慧实验室落... 为提升区域生态环境监测能力,推动水环境监测以“人防”为主转向“技防”优先,近日,在水环境污染监测先进...
宇树科技董事长王兴兴:希望积极... 2月28日,工业和信息化部人形机器人与具身智能标准化技术委员会副主任委员,宇树科技股份有限公司创始人...
阿里开源桌面智能体工具CoPa... 来源:滚动播报 (来源:北京商报) 北京商报讯(记者 魏蔚)2月28日,阿里开源桌面Agent工具C...
原创 默... 德国总理默茨,结束北京的行程后,马不停蹄转到杭州,专门去参观了宇树机器人公司 而宇树科技的创办人王兴...