首页>云计算 > 正文
环球今日讯!ChatGPT的兴起与版权制度的消亡
来源: 虎嗅网 发布于:2023-06-16 15:14:49

本文作者:司晓,头图来自:视觉中国


(资料图片)

写在文章伊始:

最近数个月,笔者经过了和ChatGPT多轮对话甚至说是辩论,深感“对于传统版权法而言,生成式人工智能正在颠覆其基本逻辑,瓦解其适用价值,加速其制度消亡”。

最初,对ChatGPT做“prompts”输入时,它不能够体系化地理解笔者的想法,仅能机械地解释提问中每一句话的含义,对于上下文之间的逻辑关系缺乏认知;

中间,它也会“一本正经地胡说八道”,比如“ChatGPT的拥有者已经通过提供付费API的方式获得了经济回报,因此他们不需要再向原始知识和表达的创作者支付版权费用”;

最后,也能够在笔者对于它每次的回答纠偏和追问后,提供启发性的知识素材。

至于本文不似通常文章在观点和论述上的含蓄委婉,直言“生成式人工智能的兴起将带来版权制度的消亡”,并非故意哗众取宠,而是确信于以ChatGPT为代表的新一轮生成式人工智能技术的迅猛发展,正在:

1)重塑版权领域内容创作的底层逻辑,虽然人类一定程度上仍可以垄断创作性的思想,但在思想的具体表达层面正逐渐被人工智能所赶超;

2)颠覆版权法“只保护自然人创作”的制度基石,在未来社会人工智能生成的内容或将占据全社会内容的主体,传统版权法的适用价值将无从谈起;

3)打破版权法“思想表达二分法”的前提假设,仅学习海量作品“思想”,便可生成全新的“表达”,虽不构成侵权但却产生了明显市场挤压和替代效应;

4)推翻版权法“授权许可模式”的可适用性,因为难以将人工智能模型训练涉及的作品利用行为纳入版权专有权利的规制范畴,“既无权利、何来授权”;

5)瓦解版权法“接触+实质性相似”的侵权判定规则,作品训练行为是模型内部的非外显性利用行为,版权人存在发现侵权和侵权判定等层面的现实困难;

6)否定版权法“避风港制度”的适用可能,生成式人工智能时代的平台治理聚焦于上游“内容生成环节”,而非传统平台责任规制的下游“内容传播环节”。

由此,如若说既有的版权制度从创作行为、规制主体、保护客体、权利范畴、侵权判定以及平台治理等层面都难以应对生成式人工智能带来的底层冲击,那么本文所论证的“版权制度的消亡”这一观点,应当说并非危言耸听,而恰恰是揭开了这一难掩趋势的帷幕。

同时想说的是,虽然本文聚焦版权法律的探讨,但笔者对于这个问题的关注源自一个更宏大的课题:生成式AI崛起背景下,“机器创作”对“人类创作”的颠覆,以及所引发的“利益分配格局”变革。ChatGPT类产品的出现似乎一定程度上实现了人类长久以来的希冀——由“发明辅助工具”到“培育得力助手”的升华:在“工具阶段”,我们老生常谈的还是辅助、赋能创作的故事;而在“助手时代”,我们则不得不面对“机器能否独立思考、独立创作”这类主体性问题的深层挑战。

以下为正文:

2023年4月13日,索尼世界摄影奖的颁奖礼上,凭借AI生成内容《#电工》获得“创意奖”的德国摄影家Boris Eldagsen,在没有受邀的情况下径直走向颁奖台,说道:“这是一个历史性的时刻,首张由AI(DALL-E2)生成的影像,赢得了国际知名摄影比赛。”“AI使得没有受过摄影训练的普通人,能够制作出此前永远无法拍摄出的图像,未来摄影比赛将不可避免充斥着AI作品。”

无独有偶,早在2022年8月,美国科罗拉多博览会中,一幅由Midjourney生成的巴洛克式幻境画“太空歌剧院”获得比赛的第一名。艺术家群体对此感到愤怒,但获奖者Jason Allen坦言:“我欢迎这类批判,画家群体此前一直得意于一种自信‘AI永远无法做我所做的事情’,现在无疑他们已经开始了反思。”

2023年2月21日,美国版权局撤销了颁发的“黎明的扎利亚”漫画作品证书,原因在于其并非是由申请人Kris Kashtanova创作,而是利用Midjourney自动生成的。有意思的是,在Kris通过Twitter向社会公开上述事实前,美国版权局并未发现漫画是由AI生成,并在2022年9月已经进行了版权登记。

基于上面的例子可以看出,从AI生成内容本身的艺术性来看,已经足以媲美甚至在一定程度上超过了人类的表达水平。当下,ChatGPT、Midjourney等生成式人工智能的兴起,一定程度上改变了内容领域创作的底层逻辑。AI已经能够以超乎想象的水平和效率完成过往只能由自然人实施的创作行为——对于思想的独创性表达。

传统的版权制度立足于“思想表达二分法”这一基本原则,即“只保护自然人思想的表达,而不保护自然人的思想本身”。而在渐行渐近的人工智能时代,版权制度如若无法对于“最为宝贵的人的创造性思想”,以及“最为普遍的AI模型的独创性表达”加以有效回应,那么其适用价值将不可避免的遭遇消亡。

一、理论探讨层面:技术迭变赋予AIGC版权探讨新的时代意义

核心探讨:在AIGC日益展现出“涌现能力”之际,需要理论层面审视思考变革和颠覆既有版权制度整套逻辑的“奇点时刻”是否已加速到来。

我国理论界对于人工智能生成内容版权问题的关注,大致源起于2018年海淀法院审理的“菲林诉百度”[1]和南山法院审理的“腾讯诉网贷之家”[2]两案判决之后。本文通过中国知网以“人工智能+版权”为关键词进行检索,限定来源为“CSSCI”,共得出289篇文章,其中有260篇文章均为2018年后出版,亦验证了这一基本判断。[3] 彼时,理论界的讨论重点聚焦于“人工智能生成内容的可版权性”这一基础问题。2022年11月30日,美国人工智能研究公司Open AI发布了ChatGPT,在短短2个月的时间,月度活跃用户已达1亿,成为全球互联网历史上增长最快的应用。自2023年3月16日,国内百度发布“文心一言”之后,随后阿里、科大讯飞、商汤等企业也相继发布对标ChatGPT的生成式人工智能产品。

值得注意的是,新一轮生成式人工智能的发展之所以备受关注,就在于其一定程度上已经具备系统科学领域所称的“涌现能力”。所谓涌现能力,就是当人工智能模型参数达到一定量级之后,会突然拥有包括常识推理、问答、翻译、摘要等一系列类似人类的“智慧能力”。[4]这朝着通用人工智能(Artificial general intelligence)迈进了一大步,生成式人工智能涌现能力的发现,也解释了“为什么ChatGPT类产品在内容表达能力上看起来已经和人类无异。”

对此,有观点表示,ChatGPT本质上是一个大型语言模型,是“智能搜索引擎+智能文本分析器+洗稿器”的结合,不属于法律意义上的“人”,生成的内容也不应受到版权法的保护。[5]也有观点表示,ChatGPT与此前传统人工智能的重要区别,在于存在基于人类反馈强化学习的训练,使得生成的内容融入了人类的主观偏好,以ChatGPT生成的作品就是人的智力成果。[6]另有观点表示,ChatGPT生成内容的可版权性认定应当分情形讨论,如果人类输入的指令足够具体,则生成内容蕴含着人类足够具体的表达,可受版权保护。[7]

由此来看,理论界目前对于新一轮人工智能生成内容版权问题的探讨,虽然在观点上仍存在明显差异,但依旧立足于既有版权制度下“主体规则——仅限于自然人创作”和“客体规则——仅保护独创性的外在表达”的基本框架。然而,在人工智能技术发展的“奇点时刻”(Singularity Moment)加速来临之际,ChatGPT类产品已经超越了既往的人工智能模型应用,一定程度上可以说具有了“通用人工智能”属性或者说“类人性”。我们需要审视思考:颠覆和变革既有版权制度整套逻辑的“奇点时刻”,是否也已经加速到来。

二、创作逻辑层面:点亮了版权创作表达的“阿拉丁神灯”

核心探讨:ChatGPT改变了版权领域的底层创作逻辑,虽然一定程度上人类仍然可以垄断独创性的思想[8],但在思想的具体表达层面正逐渐被人工智能所赶超。

目前,各类生成式人工智能利用海量数据进行模型训练、生成最终内容的方法大体相同。首先,自监督学习。机器自己学习大数据,包括购买的数据库,公开的网站文章、电子书,电子版的报纸、杂志,以及开源社区的计算机代码等。其次,监督学习。把人类写的问题和答案交给机器学习,让机器学会人类说话的方式和风格等。再次,人类反馈强化学习。在这个阶段会先训练一个奖励模型,它包括了对于多个答案优劣的评价,然后再用这个模型去训练和评价机器生成的结果,让机器的回答越来越接近人类认可的方式。以 ChatGPT 为例,其内容生成机制被形象的称为“文字接龙”,实际上是统计学“自回归”原理的具体展示:先通过模型预测下一个字,然后把预测出来的字带入模型,再去预测下一个字,不断迭代输出。

而在此前,人类传统的创作行为是建立在自身所独有的语言理解能力之上的。特定的语言与特定的文字对应以后,文字表达便通过内含的语义来传递人类的思想。当语义通过文字方式不断组合,便形成了不同的词汇、短语,进而持续扩张表达的丰富程度。久而久之,文字之间形成了特定的结构,使人们能够理解交流对象所要表达的意思,这就形成了人类的语法和语句。[9]由此可以看出,前述ChatGPT“自回归式”的单字内容生成机制,和人类传统意义上基于语言理解能力的外在表达存在本质差异。

目前,ChatGPT似乎还无法像人那样,理解其输出内容所表达的具体蕴含和意义。但要从为什么ChatGPT可以自己判断出“下一个最可能的字是什么”,并且把这些字组合成完整的内容后,看起来高度契合人类的“表达逻辑”和“语义语法”?便需要我们反思,是否应当从更宏大的视角去审视版权法上的创作行为。毕竟生成式人工智能凭借“涌现能力”重塑了内容领域的创作逻辑,走出了一条不同于自然人创作表达的新路径。

与此同时,需要意识到ChatGPT等生成式人工智能的表达能力近乎是无限的。经过海量数据训练的AI大模型可以在远超人类创作效率和艺术水平的基础上,全天候24小时根据用户的指令持续输出高质量的内容表达。此外,从目前ChatGPT的商业模式来看,公众几乎可以“零成本”的方式,让它随时随地帮你生成内容。由此,ChatGPT等生成式人工智能的发展应用,极大地改变了人们对于版权法上“创作”的认知:与“创作”一词直接对应的“独创性表达行为”不再是一个被专业群体垄断的高门槛领域,普通大众被艺术创作拒之于门外的境遇,也得以显著改变。由此,生成式人工智能帮助人类点亮了“表达的阿拉丁神灯”:在ChatGPT、Midjourney等大模型产品的辅助下,只要你具有足够的想法和观点,具体的表达完全可以交由机器来帮你完成。

三、权利主体层面:颠覆了版权法“只保护自然人创作”的制度基石

核心探讨:版权法仅对“源于自然人创作的内容”加以保护,但鉴于ChatGPT等模型生成内容的效率远高于人类创作,未来或将逐渐占据全社会知识内容的主体,由此版权法是否能继续发挥适用价值便直接受到质疑。

以ChatGPT为代表的生成式人工智能的兴起,打破了自版权制度诞生以来长久的共识——内容生产特别是作品创作,是自然人的专属和智慧的体现。当下,生成式人工智能的迅猛发展,正在使得“创作”与“人类的表达”快速解耦。内容创作从依赖“大脑构思+手工表达”转变为“人脑思考+机器表达”。由此,人们希冀的内容创作领域大规模工业化场景也将加速来临。

有研究发现,ChatGPT在2023年1月的内容输出能力为3.1亿单词每分钟。而同一时间Twitter全部用户每分钟可以发送35万条推文,平均每条8个单词,每分钟仅能输出280万单词。因此,目前ChatGPT每天输出的内容量至少是推特的110倍。谷歌公司此前统计,自1440年古登堡印刷机发明以来,全社会已经出版了约1.298亿本书。估算每本书平均含有5万个单词,总共便约有6.5万亿单词。按照ChatGPT目前的内容生产能力,几乎每14天便可以输出相当于人类全部印刷作品的内容量。[10]

虽然笔者没有找到上述研究之外类似的相关数据,但即便放大到14个月甚至更长的时间维度,这依旧是一个令人兴奋且可以预期的发展趋势。由此,我们可以预想,未来生成式人工智能输出的内容或将会成为全社会信息内容的主体。由此,我们似乎可以大胆预见,生成式人工智能输出的内容未来将会成为全社会信息内容的主体。但各国版权法长久以来均坚持“只保护自然人创作”的基本理念,即内容生成过程中只有存在自然人的创作性贡献,才会被认定为作品受版权保护。但从目前ChatGPT类产品的内容生成机制来看,因为难以证明存在自然人的创作贡献,所以存在纳入版权法保护和规制范畴的困境。

从版权法角度来看,保护的是自然人的独创性表达,也就是“对创作元素最终和具体的选择安排”。但从目前ChatGPT、Midjourney这类AIGC产品的内容生成机制来看,人们通过输入“prompts”进而直接输出内容的过程中,独创性的表达即“对创作元素最终和具体的选择安排”,恰恰是由人工智能“模型黑箱”而非使用人工智能的用户所实际完成。

2023年3月16日,美国版权局发布了专门的指南表示,“ChatGPT类产品生成的内容,因为难以证明存在自然人的创作性贡献,所以不构成作品,不受到版权法保护”。长期以来,完全由自然界、动物产生的内容素材都不会被认定为版权法上的作品。比如黑猩猩拍照,又如风力侵蚀形成的石像。[11]在我国,现行《著作权法》对于作品和作者规定,“作品是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”“创作作品的自然人是作者”。而“智力成果”是指人脑产生的成果,即创作是一种智力活动。自然人以外的动物以及作为机器模型的生成式人工智能均不能成为创作主体,生成内容也无法构成作品。[12]

可能有观点会质疑,ChatGPT生成的具体内容是人类向其输入“prompts”文本指令所对应输出的具体表达,因此生成内容是人类自身而非人工智能的创作性表达。实际不然,虽然用户输入的“prompts”可能和输出内容存在文字解码和模型参数调用上的对应关系,但这并不是版权法上的创作对应关系。在此我们可以思考一下委托创作的例子。假设你请一位漫画家帮你完成一幅人物肖像画,并向他提出了一系列具体的绘画要求,诸如人物的“肤色形象”“年龄性别”“举止动作”“周边环境”等等。

当漫画家按照你的上述要求完成画作后,相信从版权法角度来看毫无疑问是收到你的指示并决定如何具体表达这些绘画要求的漫画家,而非作为委托人的你创作了这幅图像,即使你提出的绘画要求特别详细和具体。而从目前ChatGPT类产品的内容生成机制来看,则恰恰是人工智能模型扮演了根据你“prompts”指示,完成具体内容表达的“漫画家”角色。

当下,虽然说在“人机协作模式”之下,创作者可以通过对人工智能自动生成的内容“改编”(增加包含人类独创性贡献的内容)或汇编(内容的选择或者编排上体现独创性),以版权法上的“改编作品”[13]或汇编作品等方式间接加以保护。伴随ChatGPT类产品内容生成能力的不断提升,未来社会绝大多数、有价值且被广泛利用的信息内容可能都将由人工智能所生成。囿于版权法“只保护自然人创作”的底层逻辑,上述内容却难以享有版权。但与此同时,受版权保护的人类作品却存在内容体量小、使用占比低、市场价值弱等现实问题。由此,不禁发人深思:在生成式人工智能时代,版权法的适用价值何在?

四、保护客体层面:打破了版权法“思想、表达二分法”的底层逻辑

核心探讨:ChatGPT类产品的内容生成机制在于通过对思想层面作品风格、感觉等的学习,进而输出海量、区别于原作品的新表达,依照“思想表达二分法”上述行为难以构成侵权,但却对在线创作者产生了实际的市场挤压和替代结果。

“思想表达二分法”作为版权制度的底层逻辑,强调版权法只保护自然人思想的独创性表达,而不保护自然人的思想本身。过去人们学习既有作品思想层面风格、感觉或灵感,进而创作出新作品表达的能力其实是十分有限的。有观点直言,即使一个人每天看一本书,穷其一生也顶多只能阅读3万本书,并且极大的可能是一生也写不出一本书。但人工智能模型却可能在短时间内“学完”人类社会以文字记载的所有内容,并像上文提到的那样,单个模型产品(例如ChatGPT)就可以在14天之内输出相当于人类全部印刷品的内容。

与此同时,即使一个自然人可以学习别人独创性的思想,但将学习后的思想付诸具体的作品创作仍存在很高的“准入门槛”,需要具备足够的专业能力才可以做出新的创造性的表达。加之个体学习和创作的效率和精力往往有限,因此不保护在线作品中的思想并不会导致不同主体之间利益的过分不均。但当下原本专属于人类的独创性表达,可以通过近乎零成本、无门槛的生成式人工智能来加以完成。目前,ChatGPT类产品已经可以在快速吸收人类社会海量思想、知识和风格的基础上,进行无限的、全新的内容生成。

以ChatGPT的内容生成机制为例,人工智能模型实际是在统计学“自回归原理”下,不断学习海量在线作品中不同文字之间排列组合的概率和规律,然后内化为自身的模型参数,为后续的内容生成做准备。ChatGPT对于训练数据库中作品内容的学习利用,可以形象的理解为“细化到分散的、海量的作品中的每一个字的引用”,而不会复现特定作品,甚至都不会复现特定作品中的段落和语句。所以,ChatGPT实际上不存在对在先训练作品实质性的引用,也即不会侵犯在线作品中受版权法保护的“外在表达”。

对于客体的保护,版权法遵循“思想表达二分法”的基本逻辑,即“不保护自然人的思想,只保护自然人对于思想的外在表达”。由此,ChatGPT等生成式人工智能模型的研发、应用主体,通过机器学习在线作品中的思想、风格、感觉、灵感等,然后输出不同于被训练作品的、新的内容表达,从版权法角度并不构成侵权。但是与在线作品风格和思想相似的人工智能生成内容,会对在先创作者既有授权市场产生现实的挤出效应。加之,生成式人工智能进行内容生产的效率和规模远非传统的自然人个体创作能力可比,由此便会进一步放大上述市场替代影响。

目前,已经发生的代表性事件,便是全球各地的艺术家起诉人工智能绘画平台利用在先的美术作品投喂机器、进行模型训练,大规模生成和特定艺术家风格相一致的画作在市场上抛售。2023年1月23日,美国加州法院已经受理了三位漫画家起诉生成式人工智能侵权利用美术作品的案件。该案中,原告指责Stable Diffusion、Midjourney等“文生图”模型工具“将无数受版权保护的图像存储和合并为训练图像后……生成基于训练图像的‘新’图像”,被告“从使用受版权保护的图像中获得商业利益和丰厚利润”,而数百万权利人则因生成的“新”图像内容对原作品交易市场的挤占而遭受损失。

版权制度的目标定位于,“对人类智力劳动合理回报机制的设计”。然而生成式人工智能模型的研发、应用主体,通过“利用既有作品风格思想,进而输出全新表达”的内容生成机制,借由提供商业服务和技术接口等方式盈利,但没有把这些利益分配给被训练作品的权利人。版权制度本应体现的合理回报机制在此出现了“缺位”,从而在事实上产生了内容上下游之间的利益失衡。由此,ChatGPT类产品的兴起,正在颠覆作为版权法底层逻辑的“思想表达二分法”的适用正当性。

五、权利范畴层面:推翻了版权法“先授权、再利用”的传统范式

核心探讨:ChatGPT等生成式人工智能对于他人作品训练利用的行为难以归入既有版权专有权利的规制范畴,“既无权利,何来授权?”这就直接导致了版权领域传统的“授权许可模式”在实操层面难以落地执行。

版权作为一种法定权利,不同于物权等自然权利,是在法律上人为创设的一项权利,是为了激励内容创作和知识传播,从社会公有领域中为创作者划出的一块保护区。为了合理的平衡权利人和社会公众的利益,版权法仅赋予创作者授权和规制落入法定权利范畴的作品利用行为,比如复制、发行、广播、信息网络传播等。但ChatGPT等生成式人工智能模型对于他人作品思想、风格层面的“学习训练行为”实际难以落入既有版权法的规制范畴。

“既无权利,何来授权?”表面来看,生成式人工智能模型的“学习训练行为”类似于自然人阅读文字作品、欣赏美术作品后“思考、吸收、再创作”的过程,和既有版权法定专有权利无法具体对应。若版权权利体系对于“生成式人工智能时代”最为普遍和重要的作品利用行为——“机器学习或者说模型训练”难以规制,那么未来“授权许可模式”在实操层面也便失去了现实意义。

深层思考,生成式人工智能模型的“学习训练行为”,作用的对象是在线作品中的“思想”而非版权保护的“表达”。因此,在“思想表达二分法”规则之下,人工智能模型的“学习训练行为”存在纳入版权权利框架的现实障碍。即使我们打破“思想表达二分法”等制度上的屏障,将生成式人工智能模型的作品训练利用行为纳入到版权法的专有权利之中。但这一权利仍会缺乏现实层面的价值,即实际中版权人难以对ChatGPT类产品未经授权的作品“学习训练行为”加以规制。原因在于版权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的判定困境,这在后文会具体阐释。由此来看,或许在生成式人工智能时代,我们不得不从根本上反思既有版权赋权和授权模式的正当性。

此外,对于模型训练阶段未经授权的作品“学习训练行为”而言,从现有版权法合理使用制度角度,进行责任豁免的探讨似乎也缺乏实际意义。合理使用的制度设计目的在于,对于本身构成版权侵权的行为,基于特定公共利益的考量,在符合一定要求后予以侵权责任豁免。但人工智能模型的作品“学习训练行为”是对于作品思想风格的学习利用,难以落入版权专有权规制的范畴。既然目前上述作品利用行为本身不受版权法规制、不构成版权侵权,合理使用便也无从谈起。

论及机器学习和数据挖掘的合理使用问题,则不得不提起“谷歌图书馆案”。谷歌公司早在2004年开始的“数字图书馆计划”中,便与各大图书馆合作扫描成千上万的图书并使其数字化。这些数字化的图书存放在谷歌公司的服务器上,供用户通过检索来发现所需要的相关图书,但用户只能看到有限的图书文字片段。美国第二巡回法院最终认定,谷歌上述作品利用行为构成合理使用。因为谷歌设置了限制,阻止了图书的可浏览片段成为购买完整图书的有效替代。

而对于当下以ChatGPT为代表的生成式人工智能而言,前文已经论述其对于作品数据的利用可以理解为——“学习在线作品中不同文字之间排列组合的概率,进而细化到分散的、海量的作品中每一个字的引用”。从这个角度看,ChatGPT类产品输出的内容基本不涉及特定作品片段复现的问题,由此与谷歌图书馆案相比,对于特定作品的“侵权传播”概率更低、“市场替代”影响更小、“转换使用”程度更高。

六、侵权治理层面:瓦解了版权法“接触+实质性相似”的判定规则

核心探讨:ChatGPT等生成式人工智能的作品训练行为,是一种机器内部的非外显性作品利用行为。对于上述过程中未经授权的作品利用,版权人将陷入事实上的维权举证和侵权判定困境。

在先创作者对于ChatGPT等生成式人工智能模型训练中未经授权的作品利用行为,存在现实层面的维权困境。在本轮生成式人工智能商业化应用之前,虽然版权人难以发现侵权行为这一现实问题已然存在,但带来的维权挑战尚未如此之大。例如,在移动互联网时代,伴随全民生产模式和算法推荐的大规模应用,版权人疲于应对海量的UGC侵权内容,存在维权上的“打地鼠”难题。但现实中,版权人至少可以从外在呈现层面发现自己的作品是否被他人所侵权利用。

但ChatGPT模型训练中的作品利用行为,客观上讲是一种模型内部的、非外显的作品利用行为。这就导致了即使自身作品被生成式人工智能模型未经授权的侵权利用,版权人实际上也无从发现。

既有的版权法遵循“接触+实质性相似”的侵权判定规则。在权利人主张ChatGPT等生成式人工智能模型训练阶段存在侵权利用自身作品的场景下,首先便需要举证研发平台在模型训练过程中存在对自身作品的“现实接触”。但基于人工智能模型训练非外显性的作品利用,版权人既然难以发现侵权行为,又何谈提供相应证据,主张模型研发平台实际“接触”到自身作品。如此一来,在先创作者对于生成式人工智能模型训练领域的维权行为,便难以为继。

当然,实践中也存在发现生成式人工智能模型,未经授权利用在线作品的一定可能。即在先创作者从ChatGPT类产品生成和传播的内容和自身作品存在实质性相似,进而倒推人工智能模型训练阶段存在未经授权的作品利用行为。尽到初步举证责任后,通过举证责任转移的方式,来要求模型训练平台“自证清白”。例如,2023年1月初,全球最大的商业图片库“Getty Images”在美国特拉华州地区法院起诉人工智能绘画模型Stable Diffusion的母公司Stability AI,因为其在模型训练中窃取利用了自身数百万张受版权保护的图片。Getty公司发现上述侵权行为的原因令人吃惊——Stable Diffusion输出的图像竟然重现了Getty图库的水印。

然而从版权侵权判定“实质性相似”构成要件角度看,权利人也会遭遇“侵权比对”的现实困难。因为生成式人工智能对于内容创作的颠覆性影响在于点亮了“独创性表达的阿拉丁神灯”:通过对在线作品思想、风格的吸收学习,以一种难以预判的方式,输出和既有作品相区分的新的内容表达。由此,版权人在“实质性相似”侵权比对过程中,会陷入ChatGPT类产品输出内容与自身作品“似曾相识”但又“似是而非”的困顿。

七、平台责任层面:否定了版权法“避风港制度”的适用基础

核心探讨:立基于“内容传播环节”网络服务提供者责任的传统“避风港制度”,面对“内容生成环节”的ChatGPT类产品的模型研发和商业应用平台,其适用价值便难以为继。

从域外实践与既有判决来看,基于“最密切原则”(和生成内容的关联度),“额头流汗原则”(投入回报机制),“著作权制度初衷”(促进内容传播)等角度考量,私法维度上更倾向于将ChatGPT等生成式人工智能输出内容的原始权利配置给最终使用者用户。[14]在“权利之所在,责任之所在”基本原则下,最终零散的海量个人用户将承担版权直接侵权责任。但从偿付能力和遏制侵权角度,需要思考ChatGPT等生成式人工智能的模型研发和商业应用平台需要承担何种程度的间接侵权责任。

“避风港制度”诞生于1998年美国颁布的《数字千年版权法》,并逐渐发展成为全球网络版权侵权责任判定的基础规则。“避风港制度”适用于目前互联网上绝大多数的版权侵权情形:侵权内容是由用户生成和上传的,所以应当由用户承担直接侵权责任;对于网络服务提供者而言,只有在知道用户利用其网络服务传播侵权内容,但未采取必要制止措施时,才需要就自身帮助用户侵权内容传播的行为承担间接侵权责任。[15]

实际上,“避风港制度”也仅仅为当时四类最普遍的互联网传播服务——接入、缓存、存储和搜索链接设立了平台侵权责任的豁免机制。此后,伴随“小程序”“云存储”“算法推荐”等内容传播技术和商业模式的创新发展,“避风港制度”也在不断的调试、完善甚至被突破,比如近年来备受各界热议的“算法推荐服务提供者的侵权过滤义务”。但在以ChatGPT为代表的本轮生成式人工智能技术出现之前,“避风港制度”的适用前提——规制“内容传播环节”网络服务提供者版权侵权责任的定位,并没有从底层被突破挑战。

相较于此前“避风港制度”下,网络服务提供者版权侵权责任的归责基础,在于是否促进了“用户侵权内容的传播”;生成式人工智能的模型研发平台和商业应用平台,作为新兴网络服务提供者,涉及的则是“用户侵权内容的生成”。在生成式人工智能技术的出现之前,平台侵权责任判定侧重于:“用户上传侵权内容(直接侵权责任规制的范畴)→‘传统的网络服务’扩大侵权内容传播(既有‘避风港制度’规制的范畴)”两个环节。在生成式人工智能技术的出现之后,平台侵权责任则需要关注:“用户利用‘生成式人工智能’产生侵权内容(新‘避风港制度’规制的范畴)→用户上传侵权内容→‘传统的网络服务’扩大侵权内容传播”三个环节。

生成式人工智能技术的发展,已经将平台责任规则推向了一个新的阶段,即从单纯关注“内容传播阶段的平台版权责任”向关注“内容生成和传播两个阶段的平台版权责任”转变。或许,我们已经重新站到了类似于上世纪90年代制定《数字千年版权法》时的十字路口,需要从技术发展、版权保护和内容传播等视角综合思考,如何从“可预见性”“可控制性”以及“侵权获利”等版权注意义务基础理论发出,再次创设属于生成式人工智能时代平台治理的新“避风港制度”。

八、写在最后的感悟

面对ChatGPT类产品的快速发展,我们不禁感叹生成式人工智能的“创作时代”,或许真的是“将至已至、未来已来”。人工智能领域技术的迭代速度惊人,从GPT3.5到GPT4只用了不到4个月,但各类性能都实现了质的提升:OpenAI官方数据显示,在美国律师执照模考中,GPT4得分为前10%而GPT3.5为倒数10%;在生物奥赛排名中,GPT4可达前1%而GPT3.5则是后31%。由此,出现全面超越既有ChatGPT类产品逻辑推理和内容生成能力的新一代AI技术应用,很可能并非仅是一种长期假想而是可预见的短期必然,并在既有版权制度无力回应时加速其消亡。

鉴于我国在生成式人工智能技术研发和应用领域尚处于起步阶段,且与域外相比仍存在较为明显的差距,本文在“破题”之后并不试图急于提出新的“立题”之道。因为过早提出规制建议,稍有不慎便可能束缚技术的进步和产业的发展,不如让“子弹多飞一会”。新一轮生成式人工智能方兴未艾,制度层面科学、可行的版权应对路径,仍有待理论和实践的进一步观察和论证,相信这将会是一个价值平衡、利益博弈以及最终立法回应的长期过程,难以也不宜一蹴而就。

(本文仅作为个人学术探讨,不代表供职单位立场)

[1] (2018)京0491民初239号;(2019)京73民终2030号。

[2] (2019)粤0305民初14010号。

[3] 检索时间2023年5月6日,检索网站“中国知网”, https://kns.cnki.net/kns/advsearch?dbcode=CJZK。输入检索条件:主题“人工智能”并含“版权”;来源类型“CSSCI”。

[4] 自从2020年OpenAI研发了1750亿参数规模的GPT-3之后,生成式人工智能的涌现能力便崭露初角,可以通过“prompts”问答的方式,出色完成内容生成、人机对话、文本图像改写等各种任务。

[5] 参见王迁:《ChatGPT生成物与“猕猴自拍”无异,不应受著作权法保护》,https://mp.weixin.qq.com/s/EIn1gMR5inmqy0v9Lg1B0A,2023年5月6日访问。

[6] 参见丛立先、李泳霖:《生成式 AI 的作品认定与版权归属——以 ChatGPT 的作品应用场景为例》,《山东大学学报(哲学社会科学版)》2023年第4期。

[7] 参见黄玉烨、刘云开:《ChatGPT版权争议何解?来听专家怎么说》,https://mp.weixin.qq.com/s/-Gvt_Oe2mfa-RIhNDLijHQ,2023年5月6日访问。

[8] 值得思考,对于ChatGPT类产品内容生成机制而言,本质上是参数调取和概率生成的一体问题,无法在内容生成环节将思想和思想的表达完全加以区分,因此也无法继续套用人类既有的“思想-表达”创作逻辑。就像是说飞机虽不似禽鸟般靠扇动翅膀飞翔,但依靠引擎推动依然可以飞得更高、更远。未来,或许人工智能“创作”仅需依靠机器逻辑而非人类思想即可输出内容表达。简言之,表达既可以是人类思考后的产物,亦可以是机器运算后的产物。

[9] 参见王雁翔:《从语言学的角度探讨著作权法的表达》,https://mp.weixin.qq.com/s/iu6Zcs-_rbNLI3DFeoZSZA。

[10] 参见「ChatGPT」GPT-3.5+ChatGPT:图解概述,https://baijiahao.baidu.com/s?id=1760590232477229325&wfr=spider&for=pc。

[11] 早在2019年9月18日,国际保护知识产权协会(AIPPI)在发布的《关于人工智能生成作品版权问题的决议》中表明了同样的态度,“只有在作品的创作过程中存在自然人的干预贡献,人工智能生成的内容才有资格受到版权保护。”

[12] 目前,我国在广义人工智能版权领域只有两个代表性案例,2018年“菲林诉百度案”和2019年“腾讯诉盈讯案”。审理两案的北京互联网法院和深圳南山法院均表示,只有证明存在自然人的创作贡献,人工智能生成内容才会被认定为作品。

[13] 能否构成我国版权法上的改编作品也存在一定疑问,因为改编作品是指改变既有作品,创作新的作品。而ChatGPT生成的内容本身存在构成作品的认定困境。

[14] 参见朱开鑫:《ChatGPT生成的内容,是否享有版权?》,https://mp.weixin.qq.com/s/3_IVPrfdrDqS8uZeC7YsuQ。

[15] 就版权的本质而言,乃是权利人对于作品的传播控制权,围绕版权侵权存在两种不同性质的行为: 一是直接上传和传播侵权内容的行为,构成直接侵权;二是为他人的内容传播提供帮助的行为,构成间接侵权。

关键词:

猜你喜欢