AI浪潮下的数据合规必答题

2023-08-23

近年来，人工智能在各个领域得到了快速发展，“未来10年什么会被改变”，人工智能将继续影响我们的生活和社会，至于“未来10年什么不会变？”数据合规将一直是必答题。

编者按：本文来自微信公众号“索骥合规”（ID:sjhg_66），索骥合规网授权发布。

众所周知，AI 大模型需要源源不断的数据来“喂养”，才会变得更聪明。

因此，各家大模型公司使尽浑身解术获取数据。前有OpenAI 被起诉数据侵权，后有谷歌要用网上所有的公开数据来训练AI 模型。

数据越来越成为核心资产，贯穿到 AI 大模型训练的始终。

如何判断数据收集行为以及留存的数据内容是否合规，已成为当前AI大模型发展亟待解决的问题。

一、无数据，不AI

随着ChatGPT带动生成式AI的爆火，关于AI大模型训练数据的纷争在海内外频频上演。

争议所涉及的数据可以大致分为两类：一类有着明确的知识产权，如原创的图片、音乐、视频、文章等；一类由用户在平台上的零散发言汇集而成，如百科、社区、贴吧等。

今年年初，Stability AI受到美国大型商业图库提供商Getty Images以及漫画家的分别起诉，原因是他们认为Stability AI用于训练AI图像生成模型Stable Diffusion的数据，“非法复制和处理了受版权保护的图像”。

大模型训练数据纷争的高潮是OpenAI事件。

今年6月，美国一家律师事务所在加州一家联邦法院向OpenAI提起集体诉讼。根据诉状，OpenAI大规模盗取互联网用户与该公司产品的互动信息，及集成ChatGPT的应用中的隐私数据，并将这些信息用于该公司产品的模型训练。受害者据称可能多达数百万人，潜在损失高达30亿美元。

随着问题的凸显，各国也把对于AI的监管提上日程。

斯坦福大学发布的《2023年人工智能指数报告》中提到，对127个国家的立法记录调研的结果显示，包含“人工智能”的法案被通过成为法律的数量，从2016年的仅1个增长到2022年的37个。报告对81个国家2016年以来的人工智能法律法规记录的分析也同样表明，全球立法程序中提及人工智能的次数增加了近6.5倍。

由于大模型的训练和部署需要借助分布式计算和云服务等技术来进行，这便增加了数据被窃取、篡改、滥用或泄露的风险。

在中国，数据合规和安全被列为大模型的监管重点。

8月15日，由国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》（以下简称《办法》）正式施行，这也是我国首个针对生成式人工智能产业的规范性政策。

《办法》明确提出，“生成式人工智能服务提供者应依法开展预训练、优化训练等训练数据处理活动，包括使用具有合法来源的数据和基础模型；涉及知识产权的，不得侵害他人依法享有的知识产权”等要求。

AI浪潮下，数据合规成为大模型产品的必答题。

二、大模型产品的数据合规难题

数字时代，爬虫和数据合规是监管的重点，得数据者并不意味着得天下。

1. 爬虫技术的合规风险

不问自取是为贼也，大模型多次面临“数据小偷”的指控。

爬虫技术自诞生起就带有法律合规风险，大模型训练的数据来源除了自己采集，就是爬虫爬取。而爬取的数据大部分并没有经过数据所有者允许，便会涉及非授权的盗用，存在潜在的知识产权风险。

此前，笔神作文指控合作伙伴学而思“盗取”作文库存数据，来训练即将上线的AI大模型产品，并列举一些“证据”，力图证明学而思在4月13日至17日，通过“爬虫”技术非法访问、缓存笔神作文App服务器数据258万次。

这场纠纷虽以和解收场，但由此折射出了大模型“隐秘的角落”：用于训练AI大模型的数据，来源是否合法合规？

2022年11月，OpenAI和GitHub一起推出的代码助手Copilot就曾被程序员们告上法庭。原告们认为，Copilot在未获得GitHub用户授权的情况下，使用了公共存储库进行训练。

为应对可能的合规争议，OpenAI在发布GPTBot时也为网站所有者提供了屏蔽爬虫的方法——只要在网站的robots.txt(爬虫协议)中添加对应代码，即可禁止或允许GPTBot访问爬取部分网站内容。但这种把球踢给网站所有者的做法也并不能完全避免合规风险。

但需要注意的是，大模型从训练到部署具体应用程序供应链有可能涉及多个国家主体，法域间的制度竞合很有可能引起企业合规标准的不同，进而影响合同履行。

2. 数据安全合规

大模型数据来源除了所有公开数据、合作数据、合成数据，用户在与大模型的交互过程中产生的数据也成为了模型训练的语料基础。这使得大模型成为了“数据中心”，在输出过程中必须确保数据安全。

此前，凭借低廉的价格和较好的生成效果，“妙鸭相机”一经推出便迅速出圈，然而一同出圈的还有当时近似“霸王条款”的用户协议，由此引发了人们对生成式AI 数据安全问题的关注。

事实上，一直以来互联网服务与数据安全难以两全。妙鸭相机用户协议授权问题，不过是数据安全问题的一个缩影。

ChatGPT在发布之后，出现过大量的用户隐私泄露事件。

今年3月，三星半导体部门连续出现三起ChatGPT数据泄露事件，源于员工将公司机密输入而导致。截至目前，为避免企业信息泄露，据不完全统计，数十家大公司已对其员工如何使用人工智能发出禁令或限制，包括苹果、亚马逊、三星、Spotify、Verizon、富国银行、德意志银行、摩根大通、花旗、美国银行、高盛、埃森哲等。

为避免用户数据泄露，ChatGPT采用了数据脱敏处理、加密存储、外部安全审计等方式，但效果有限。在经历数起用户隐私泄露事件后，ChatGPT上线了“关闭聊天记录”功能，开启后用户的隐私数据将不会被保存，这意味着ChatGPT将隐私安全的风险又交回给了用户手中。

亚马逊创始人贝佐斯曾在一次演讲中讲到：“人们经常问我：未来10年什么会被改变？我觉得这个问题很有意思，也很普通。从来没有人问我：未来10年，什么不会变？我认为第二个问题比第一个问题更重要。”

（本文仅代表作者观点，不代表索骥合规立场）

AI浪潮下的数据合规必答题

下一篇