首页>观点 > 正文

OpenAI 因使用「窃取」的个人数据训练 ChatGPT 而被集体诉讼-世界即时

2023-07-01 10:38:13 出处：站长之家

(相关资料图)

站长之家(ChinaZ.com) 6月30日消息:加利福尼亚一家律师事务所对 OpenAI 提起了一项集体诉讼，指控其「窃取」个人数据用于训练 ChatGPT。

Clarkson 律师事务所在周三向加利福尼亚北区法院提起诉讼，声称 ChatGPT 和 Dall-E「使用窃取的私人信息，包括可识别个人身份的信息，来自数亿互联网用户，包括各个年龄段的儿童，而这些用户并未给予知情同意。」

为了训练其庞大的语言模型，OpenAI 从互联网上抓取了 3000 亿个词，其中包括社交媒体网站如 Twitter 和 Reddit 上的个人信息和帖子。该律师事务所声称 OpenAI「秘密进行这样的操作，而且未按照适用法律的规定注册为数据经纪人。」

OpenAI 因其收集和使用数据的方式而引起争议。直到最近，用户没有明确的方式可以选择不让 OpenAI 使用他们的对话和个人信息来训练模型。ChatGPT 最初在意大利根据欧洲通用数据保护条例 (GDPR) 被禁止，原因是用户数据保护不充分，尤其是涉及未成年人的数据。

此次诉讼涉及 OpenAI 针对现有用户的不透明隐私政策，但主要关注从互联网上抓取的数据，这些数据本来从未明确意图与 ChatGPT 共享。通过微软的数十亿美元投资和 ChatGPT Plus 的订阅收入，OpenAI 从这些数据中获利，却没有对数据来源进行补偿。

诉讼中的 15 项指控包括侵犯隐私、疏忽未能保护个人数据和非法获取大量个人数据用于训练模型。像 Common Crawl、维基百科和 Reddit 这样的数据集包含个人信息，只要公司遵循购买和使用这些数据的协议，它们就是公开可用的。

但 OpenAI 据称在未经用户许可或同意的情况下在 ChatGPT 中使用了这些数据。尽管人们的个人信息在社交媒体网站、博客和文章上是公开的，但如果数据在预期平台之外使用，则可能被视为侵犯隐私。

在欧洲，公共领域和免费使用数据之间有法律区别，这得益于《通用数据保护条例》（GDPR），但在美国，这仍然在争议之中。Gartner 隐私研究副总裁 Nader Henein 认为，诉讼所表达的观点是有效的，他说：「人们应该对他们的数据如何使用拥有控制权，即使这些数据在公共领域中可获得。」但 Henein 不确定美国的法律体系是否会同意这一观点。

Clarkson 律师事务所的管理合伙人 Ryan Clarkson 在该公司的博客文章中表示，现在必须立即行动，利用现有法律，而不是等待行政和司法部门对人工智能做出反应并进行联邦监管。「我们无法承担像社交媒体或核技术一样的负面后果的代价，作为一个社会，我们所付出的代价太高了。」

关键词：