起诉OpenAI

来源: 虎嗅网　发布于：2023-07-11 22:23:35

本文来自微信公众号：经济观察报（ID：eeo-com-cn），作者：陈永伟，题图来自：视觉中国

最近，总部位于加州的克拉克森律师事务所（Clarkson Law Firm）向加州北部地区巡回法院提交了一份长达157页的起诉书，对风头正劲的人工智能公司OpenAI和它的合作伙伴微软提起了一项集体诉讼。

(相关资料图)

在起诉书中，原告指控OpenAI和微软在开发、营销和运营其AI产品时，对数以亿计的互联网用户的个人信息，包括儿童信息进行了非法收集、使用和分享。原告认为，被告的上述活动违反了多项法律。据此，原告要求法院对被告发布禁令，并对被告的损失进行赔偿。

由于这项诉讼是ChatGPT爆火以来面临的第一次较有影响力的诉讼，因此在很多新闻报道中将其称为“ChatGPT第一案”。不过，严格来说，这个“第一案”的名头可能未必恰当。一方面，几乎就在克拉克森律师事务所提起诉讼的同时，作家保罗·崔布雷（Paul Tremblay）和莫纳·阿瓦德（Mona Awad）也向旧金山联邦法院提起了一项针对OpenAI的著作权诉讼。只不过，克拉克森律师事务所提起的这项诉讼在媒体上披露得更多（或许这应该归功于律所的诉讼策略），因而其影响更大。另一方面，这次诉讼涉及的对象也不限于ChatGPT，而是包括了ChatGPT、Dall-E、Codex在内的众多OpenAI旗下产品。基于这一点，相比于将这次诉讼称为“ChatGPT第一案”，倒不如将其称作“OpenAI第一案”更为恰当。

一、AI：最好和最糟的发明

2016年10月，著名物理学家斯蒂芬·霍金（Stephen Hawking）曾在一次演讲中说道：“AI的成功创造可能是我们文明史上最大的事件。但它也可能是最后一次，除非我们学会如何避免风险。”在他看来，“强大的人工智能的崛起或许是人类有史以来最好的事情，但也可能是有史以来最糟糕的事情。”

在克拉克森律师事务所向法庭提交的起诉书的开头，就这次集体诉讼的基本情况撰写了一段引言，其中就引述了霍金的上述著名言论。在代理案件的律师看来，随着ChatGPT等产品的成功，一场激烈的AI军备竞赛正在大型科技企业之间展开。这在大幅推进AI技术进步的同时，也迫使人们不得不认真思考霍金的预言：人们应该选择一条更为安全、繁荣、可持续的AI发展道路，还是选择一条通向毁灭的AI发展道路。

起诉书指出，被告的产品及其技术无疑具有很多向善的潜力，但遗憾的是，它们在拥有了强大力量的同时，却没有意识到它所蕴含的破坏性力量。

原告律师引述了OpenAI安全部门负责人的一段公开发言。这段发言表明，OpenAI方面其实早就认识到，它们的AI产品是“一项相当不成熟的技术”，如果没有足够的安全防范，激进地部署AI模型将是非常鲁莽的。但显然，OpenAI的上述认识并没有让其放缓对AI的研发和部署。在原告律师看来，正是这种对风险的忽视和放纵，造成了对人们隐私权、财产权等多种权利的侵犯。

原告律师指出，被告这种为谋取经济利益而不惜牺牲他人和公众利益的行为是非法的。据此，他们呼吁法庭要求被告立即停止这些行为，并让被告确保他们今后的产品是透明（Transparency）、可问责（Accountability），以及可控（Control）的。

二、美国AI的发展回顾

在结束了“引言”之后，起诉书对美国AI的发展进行了一段回顾——不过，虽然题为“美国AI发展”，其实关注的焦点完全是在OpenAI和微软这两个被告上。具体来说，这段回顾强调了四个基本的事实：

（1）OpenAI从非营利组织向营利公司的转变

最初，OpenAI是以一个非营利研究机构的形式成立的，它声称要以安全和负责任地推动人类进步作为自己的使命。然而，从2019年起，OpenAI的战略就发生了180度的转变，从一个开放的非营利组织转向以盈利为目的的公司结构，并与外部投资者进行合作，其中最著名的合作者就是微软。

从商业上看，OpenAI的这个转型是非常成功的。短短几年时间，它就从一家默默无闻的AI研究机构摇身一变成了估值290亿美元的公司。但是，原告律师指出，这个转变也带来了很多问题。很多人担心OpenAI因此将短期财务利益置于人类利益之上，尤其是他们在已知存在风险的情况下突然将产品广泛商业化，可能引发道德、安全和伦理等多个方面的问题。

（2）ChatGPT的发展对秘密抓取网络数据的依赖

大型语言模型的开发和训练严重依赖于个人数据，尤其是人与人之间的对话数据。起诉书指出，为了能够以相对低廉的成本对ChatGPT等大语言模型进行训练，OpenAI坐视成熟的数据交易市场不用，而选用了“偷窃”（theft），也就是秘密在互联网上爬取数据的方式。在数年中，它爬取了大约3000亿字的网上文本资料，包括书籍、文章，以及网络帖子等。除此之外，它还秘密爬取了大量的个人数据，包括个人信息、聊天记录、在线客户服务互动、社交媒体对话和从互联网上抓取的图片等。

（3）ChatGPT在用户的应用程序上进行训练

起诉书指出，最初，ChatGPT曾在未经用户同意的情况下，利用用户来帮助其进行模型的训练。当用户和ChatGPT聊天时，他的所有行为和信息，包括点击、输入、问题、使用、移动、按键、搜索和地理位置等，都会被OpenAI秘密搜集，并用于模型的训练。

另外需要指出的是，OpenAI并没有对其搜集的用户信息的保存状况进行充分披露。由于这些数据当中可能包含用户的敏感信息，因此在缺乏妥善保护的情况下，它们存在着很大的泄露风险。

（4）微软推广OpenAI的经济依赖模式

起诉书指出，作为OpenAI的最重要合作者，微软在推广OpenAI产品的过程中起到了至关重要的作用，但与此同时，也大幅加速了潜在风险的扩散。尽管GPT的最新版本GPT-4不久之前才正式发布，但微软就已经积极将其集成到了从学术到医疗的各领域核心产品当中。这样的集成让OpenAI的产品触达的用户数量暴涨，同时也大幅扩大了风险。然而，微软不但没有对这种风险引起足够的重视，反而解雇了负责确保伦理AI原则的团队。而当其他的AI开发商目睹了OpenAI和微软的“成功”之后，也纷纷加以效仿。在这种情况下，相关风险达到了前所未有的高度。

三、AI的最主要风险

在对“美国的AI发展”进行了回顾之后，起诉书进一步列出了当前情况之下存在的最主要风险。这些风险包括：

（1）大规模侵犯隐私的行为

被告对用户个人信息的大规模收集和跟踪构成了对用户隐私和安全的巨大威胁。这些信息可能被用于身份盗窃、金融欺诈、敲诈勒索等恶意目的。

这里尤其值得指出的是，OpenAI没有尊重用户的“被遗忘权”（right to be forgotten），即用户删除自己个人数据的权利。虽然OpenAI表面上允许用户要求删除自己的相关数据，但事实上，这个删除选项可能是虚假的。一些公司禁止或限制ChatGPT的使用，也因为他们担心所有上传到像OpenAI的ChatGPT或谷歌的Bard这样的AI平台的内容将被存储在这些公司的服务器上，从而无法访问或删除这些信息。

（2）AI引发的虚假信息宣传、有针对性的攻击、性犯罪和偏见

起诉书指出，包括ChatGPT在内的被告产品存在着严重的产品缺陷，即会产生各种虚假的信息。一个典型的例子是ChatGPT编造的关于乔治·华盛顿大学法学教授乔纳森·特利（Jonathan Turley）性骚扰的谣言。不久前，加州大学洛杉矶分校的法学教授尤金·沃洛克（Eugene Volokh）为研究AI生成内容的法学问题而进行了一项测试：他要求ChatGPT生成一份“曾对他人进行过性骚扰的法律学者”的名单。为了确保生成的内容是真实的，他还专门要求ChatGPT对生成的内容标明信息出处。当沃洛克阅读这份名单时，他发现特利的名字赫然在列。根据ChatGPT的描述，特利曾在一次去阿拉斯加的班级旅行中发表了具有性暗示的言论，并尝试对一名学生进行猥亵。沃洛克对此大为震惊，毕竟作为著名教授，特利也是圈内响当当的人物，而作为同行，他竟完全没有听过这个圈内的“大瓜”。于是，他立即对该消息进行了确认。结果发现，此事根本是子虚乌有，特利根本没有去参加过什么班级旅行，也更没有进行过什么性骚扰的活动。在沃洛克向媒体公布了这个消息后，“人在家中坐，‘锅’从天上来”的特利才知道了自己竟然被ChatGPT描述为了一名性骚扰者。他对此非常不满，在接受采访时，他说道：“这真令人不寒而栗！这种莫须有的指控是非常有害的。”

起诉书还指出，除了传播错误信息外，被告的产品还可能被犯罪分子应用于骚扰、勒索、敲诈、胁迫、诈骗等犯罪活动。例如，现在出现了一种新型的“性骚扰”形式，通过社交媒体获得的私人照片和视频，以创建含有色情内容的深度伪造（deepfake）内容。这些照片在网上的公开传播，对受害人的情绪和心理造成了严重的伤害。

这里尤其需要重视的是，被告的产品还被用于儿童色情。例如，有一些恋童癖者使用Dall-E，以非常低的成本创造出了大量儿童性行为的图片和视频，并将它们在暗网上大肆传播。这些行为都造成了相当严重的后果。

此外，起诉书还指出，被告的产品，如ChatGPT等还促进了憎恨和偏见的传播。这是因为，语言模型是基于现实的语料训练而成的，其中就包含了大量涉及憎恨和偏见的内容。被告在训练模型时，并没有注意排除这些信息，因而就导致了模型本身存在着缺陷。

（3）帮助构建超强恶意软件

起诉书指出，被告的产品还为恶意软件的创建提供了强力支持。所谓恶意软件（Malware），指的是旨在破坏或渗透计算机系统的计算机程序。过去十年中，恶意软件变得越来越复杂，越来越难以检测。

被告的产品可以以很低的成本生成几乎不可检测的恶意软件，并且可以大规模使用，对全球的网络安全构成前所未有的风险。尽管OpenAI方面声称有禁止生成多态恶意软件的安全防护措施，但实际上恶意软件开发人员可以通过巧妙的输入绕过这些过滤器。据此，原告律师认为，将这种增强的破坏能力交给大众，但又缺乏必要的安全防护措施应当被视为是被告的严重过失行为。

（4）自主武器

所谓自主武器（Autonomous Weapons），也被称为“杀戮机器人”（Slaughterbots）、“致命自主武器系统”（lethal autonomous weapons systems），或“杀手机器人”（killer robots），它利用AI识别、选择，并在无需干预的情况下以杀死人类为目标，从而对国际安全和人权构成了严重的威胁。

起诉书指出，目前这种未受监管的AI风险已经不再遥不可及，而是正在成为一种现实的风险，例如它曾差一点就刺杀了一名外国元首（注：起诉书没有对这起事件进行说明。笔者猜测，它指的应该是委内瑞拉总统尼古拉斯·马杜罗在演讲时遭遇无人机攻击一事）。而要建造和使用这样的杀人武器，其成本和难度都非常低。

专家警告称，由于在不断提升人工智能能力的同时，缺乏足够的道德和伦理规范，因此类似技术的进展将加速自主武器的发展，而对这些产品的大规模商业化则会加速风险的传播和扩散。

四、被告对原告财产权和隐私权的侵犯

在列举了被告的产品可能造成的各种重大风险之后，起诉书着重对被告侵犯隐私权和财产权的问题进行了陈述。

（1）被告的爬取数据应当被视为盗窃

起诉书认为，被告在未经同意的前提下，秘密对互联网进行的大规模抓取本质上是一种盗窃和挪用行为。

为了对被告的行为性质进行说明，原告律师将其和2020年的Clearview AI事件进行了类比。Clearview AI是一家人脸识别公司，为了开发其产品，在未征得用户同意的情况下，从各种网站和社交媒体平台上抓取了数十亿张公开的照片。在其行为被《纽约时报》公开后，立即引发了公众的不安。2020年3月，伊利诺伊州的美国公民自由联盟，以及佛蒙特州的检察官几乎在同时对Clearview AI提起了诉讼。英国、意大利、澳大利亚等国的监管部门也陆续对Clearview AI展开了调查，并先后对其作出了数额不等的罚款。

原告律师认为，现在OpenAI的违规数据搜集行为在性质上是和Clearview AI十分类似的，因而也应该被视为非法。

（2）被告行为对原告财产权益的侵犯

起诉书指出，在过去的案例当中，法院已经确立了互联网用户对其个人信息和数据拥有财产权益的原则，因此，OpenAI的非法抓取数据行为首先就对原告的财产权益构成了侵犯。在数据市场上，一个互联网用户的信息价值在15美元到40美元之间，甚至更多。另外有调查表明，一个人的在线身份在暗网上可以以1200美元的价格出售。如果按照此估价，OpenAI非法侵犯的财产价值将是十分惊人的。

（3）被告行为对原告隐私权益的侵犯

除了财产权利之外，互联网用户对个人信息拥有隐私权利，即使这些信息已经发布在网络上。因此，被告的非法爬取行为也对原告的隐私权益构成了侵犯。

起诉书指出，通过对数据进行聚合和分析可以揭示个人不愿被公开的信息。比如，通过个人公开的推文，可以分析出他的心理健康状况。因此，即使只有少量的“公开”私人信息，也足以损害互联网用户的隐私权益。除此之外，起诉书还指出，用户在网上发表言论时通常会预期这些内容不会被太多人看到，并且随着时间的流逝其影响还会日渐消退。但被告的行为却打破了用户的这种预期，从而对他们的利益造成了侵犯。

（4）被告商业行为对理性人的冒犯及对监管机构警告的无视

起诉书指出，现在的公众对被告如何使用和可能滥用他们的个人信息感到恐惧和焦虑。人们担心自己的个人信息会被永远嵌入到被告的产品当中，从而被反复访问、共享和滥用。

此外，起诉书还指出，现在的监管机构已经对类似的非法行为进行了警告，例如联邦贸易委员会就曾在一起针对亚马逊的案件中提到：“机器学习不是违法的借口……用来改进算法的数据必须合法收集和保留。公司最好汲取这一教训。”然而，被告显然并没有对这个警告引起充分的重视。

（5）被告在超出合理同意的情况下窃取用户数据

除了直接在网络上抓取信息外，被告还对用户使用ChatGPT等产品的过程中产生的数据进行搜集。在起诉书中，将其称为第二类盗窃行为。具体来说，这有两种表现：一方面，对于那些使用ChatGPT插件或API的消费者来说，各个网站并没有提供任何知情同意信息，消费者的信息和个人数据在这种情况下被违规搜集并被用于了训练被告的大模型。另一方面，即使是那些注册了OpenAI账户，并与ChatGPT直接互动的人在其数据被搜集之前，也没有得到告知。

除此之外，被告还告知用户可以要求不使用他们的私人信息，但实际上，他们并无法从语言模型的知识库中删除已收集的数据。同时，被告也无法向用户提供数据使用的状况，因而其行为严重违反了透明度原则。

五、被告对儿童权益的侵犯

在陈述了被告对原告造成的财产权侵害和隐私权侵害之后，起诉书还着重强调了其对儿童的隐私和风险带来的危害。具体来说，这包含如下几个方面：

一是在未经同意的情况下对儿童进行欺骗性的追踪。起诉书指出，被告违规搜集了大量关于儿童的敏感信息，包括身份、位置、兴趣和关系等。

二是OpenAI在服务条款和隐私政策中明确指出ChatGPT的使用对象是十三岁及以上的个人，但在现实中，平台并没有设置验证机制，未成年用户可以很容易通过虚报年龄来获得使用资格。而被告的这个疏漏，会把这些未成年用户置于有害信息的曝露之下。

三是被告对儿童用户的经济价值进行了剥夺。起诉书指出，相比于成人，儿童更容易在诱导之下出卖自己和其他人的各种信息，这使得被告可以通过儿童获得更高价值的数据，并将其用于营利用途。

四是被告侵犯了合理的隐私预期，并具有冒犯性。起诉书指出，家长抚养和监护子女的权利是基本的自由权益。因此，被告在儿童隐私问题上存在的问题其实也是侵犯了家长对于隐私保护的合理预期，这不仅违法，也严重冲击社会规范和道德。

六、相关的指控和法律救济

基于以上的相关事实，原告律师认为，被告OpenAI和微软涉嫌违反了包括《电子通信隐私法》《计算机欺诈和滥用法》在内的多项法律，因而对其提起了十五项指控。

同时，原告向法院提出了自己的法律救济方案。该方案包括：请求法院发布禁止令，让被告临时冻结对产品的商业访问和商业开发，直到完成一系列整改，并符合法院要求为止。同时，起诉书中还要求被告对原告进行赔偿——包括由审判确定的实际赔偿，三倍的惩罚性损害赔偿，以及法律允许的示范性赔偿。尽管在起诉书中，并没有给出大致的赔偿金额，但如果相关指控得到了法院的支持，那么这个数额应该会是一个不小的数字。

七、诉讼的前景和意义

实事求是地说，虽然这份起诉书中提出的指控非常严重，但原告想要据此成功告倒OpenAI和微软并不是那么容易的。毕竟，作为被告的微软拥有强大的法律团队，还有雄厚的财力支持。即使真的能够成功，恐怕也要经历一场旷日持久的诉讼。事实上，根据惯例，这个案件最有可能的终结方式就是原被告双方达成和解，OpenAI和微软接受原告的部分诉求，并给予一笔数额不算太大的赔偿了事。也就是说，尽管案件的雷声很大，但最后的结果可能只是几点小雨而已。

不过，虽然乏味的结局大概率已经注定，但在此时此刻，这个案件本身依然是非常有意义的。从去年开始，生成式AI迎来了爆发。和过去的技术热潮不同，引领这场爆发的并不是谷歌、脸书这样的传统巨头，而是OpenAI这样一家规模并不算大的创业公司。强大的技术、励志的公司形象设定，很容易让人忘记它正在推广的产品背后所蕴含的风险。随着生成式AI模型的迅速普及，相关风险已经越来越难以忽视，因而在这个时间点上，通过一场这样的诉讼把问题挑明，让更多的人认识到AI发展背后的风险，就是非常有价值的。

应当承认，原告律师在起诉书当中提出的问题大部分是存在的，不过，对于其提出的法律救济方案，我个人认为存在可以商榷之处。

在现阶段，各类AI模型已经被广泛使用，如果要像原告要求的那样，立即停止使用这些模型，将会造成非常巨大的损失，这是不现实的。相比之下，一种更为稳妥的方式可能是在发展中逐步加强治理。

事实上，起诉书中给出的很多问题，都可以用技术的方式来解决的，例如在注册过程中加强验证，就可以解决未成年人伪造年龄的问题；通过联邦学习等方式，就可以有效缓解数据搜集带来的隐私泄露问题；借助于区块链等技术，就可以追踪数据的流向。我想，比起一禁了之来说，如果OpenAI和微软在通过AI获得了巨额收入之后，将营利的一部分投入技术，用来克服先前的各种问题，让其AI模型在发展和治理之间实现更好的平衡，可能是一个更好的解决方案。

本文来自微信公众号：经济观察报（ID：eeo-com-cn），作者：陈永伟

关键词：