当下,以ChatGPT类产品为代表的生成式人工智能技术的兴起与应用,极大地改变了著作权领域的底层创作逻辑。人工智能已经能够以超乎想象的水平和效率完成过往只能由自然人实施的创作行为——对于思想的独创性表达。而传统的著作权制度立足于“思想表达二分法”这一底层逻辑之上,即“只保护自然人思想的外在表达,而不保护思想本身”。但在渐行渐近的生成式人工智能时代,现有著作权制度如若无法对“最为宝贵的人的创造性思想”,以及“最为普遍的人工智能的独创性表达”加以有效涵摄,那么其适用价值将不可避免地被消解,其颠覆性变革也就可以预见。
(资料图片仅供参考)
一、生成式人工智能兴起与著作权理论的新思考
1. AIGC著作权问题的争议
我国理论界对于人工智能生成内容著作权问题的关注,大致源起于2018年北京市海淀区法院审理的“菲林诉百度案”和深圳市南山区法院审理的“腾讯诉网贷之家”。笔者以“人工智能+版权/著作权”为关键词在中国知网进行检索,限定文献来源为“CSSCI”,共检索到289篇文章,其中有260篇文章均为2018年后出版,亦验证了这一基本判断。虽然上述两案判决对于“人工智能生成内容”是否构成作品做出了不同的认定。但不同的判决结果归因于两个案件涉及的人工智能模型(或者说机器模型)在运行机制方面的本质差异;而在法律层面,两个判决的落脚点存在高度共识,即只有证明存在自然人的创作贡献,人工智能生成内容才会被认定为著作权法上的作品。
彼时,理论界的讨论重点聚焦于“人工智能生成内容是否受著作权法保护”这一基础问题。一部分学者持肯定态度,主要有如下理由:第一,该阶段的人工智能技术自主化程度较低,仅仅是辅助和服务人类创作的工具。第二,人工智能本质上体现的是模型设计者或训练者的创作意志和行为,只要其生成内容满足“独创性”要求即可构成作品。第三,可以借鉴早已存在且运作成熟的法人作品制度,将人工智能的所有者视为著作权人。另一部分学者则持反对态度,主要理由在于:第一,人工智能生成内容是应用算法、规则和模板的结果,不能体现创作者独特的个性。第二,人工智能的创作机理并非著作权意义上的“创作”,生成的内容也不能被认定为作品。第三,在判定客体是否具有独创性时,不仅要在客观上满足表达的形式要件,还要通过整体的主观感受判断客体是否贡献了“智力上的创新”。
2. 技术迭变赋予AIGC著作权探讨新的时代意义
2022年11月30日,美国人工智能研究公司Open AI发布了ChatGPT,在短短2个月的时间,其月度活跃用户已达1亿,成为全球互联网历史上用户增长最快的应用。自2023年3月16日百度发布“文心一言”之后,阿里、科大讯飞、商汤等企业也相继发布对标ChatGPT的生成式人工智能产品。目前,国内用户和企业尚无法注册ChatGPT账号或接入其应用程序编程接口,国产ChatGPT类产品则基本处于内测和研发阶段。但鉴于生成式人工智能技术对于内容创作和著作权制度的重大影响,相关理论探讨也便被赋予了新的时代意义。
值得注意的是,新一代生成式人工智能的发展之所以备受关注,就在于其一定程度上已经具备系统科学领域所称的“涌现能力”。所谓“涌现能力”,就是当人工智能模型参数达到一定量级之后,会突然拥有包括常识推理、问答、翻译等一系列类似人类的“智慧能力”,这朝着通用人工智能(artificial general intelligence)迈进了一大步。生成式人工智能涌现能力的出现,也解释了为什么ChatGPT类产品在内容表达上看起来已经和人类无异。就此,有学者指出,ChatGPT本质上是一个大型语言模型,是“智能搜索引擎+智能文本分析器+洗稿器”的结合,不属于法律意义上的“人”,生成的内容也不应受到著作权法的保护。也有学者表示,ChatGPT与此前人工智能的重要区别,在于存在基于人类反馈强化学习的训练,使得生成的内容融入了人类的主观偏好。因此,ChatGPT生成的作品就是人的智力成果。另有学者表示,ChatGPT生成的内容应当分情形讨论,如果人类输入的指令足够具体,则生成的内容就蕴含着人类足够具体的意思表达,应受著作权法保护。
综上来看,理论界目前对于新一代人工智能生成内容著作权问题的探讨,虽然在观点上存在明显差异,但依旧立足于既有著作权制度下“主体规则—仅限于自然人创作”和“客体规则—仅保护独创性的外在表达”的基本框架。然而,在人工智能技术发展的“奇点时刻”(singularity moment)加速来临之际,ChatGPT类产品已经超越了既往的人工智能模型应用,一定程度上可以说具有了“通用人工智能”属性或者说“类人性”。对此,我们需要审视和思考:撼动和变革既有著作权制度整套逻辑的“奇点时刻”是否已经加速到来?
二、生成式人工智能打破了著作权法的底层逻辑
从著作权法的底层逻辑来看,一方面,以ChatGPT类产品为代表的新一代生成式人工智能改变了内容创作的基本逻辑,虽然人类目前仍然可以垄断独创性的思想,但在思想的具体表达层面正逐渐被人工智能所赶超。另一方面,新一代生成式人工智能推翻了“思想表达二分”创设时的合理性前提,ChatGPT类产品通过对作品风格、灵感等进行学习,便可以输出海量的、区别于原作品的新表达形式,虽不构成著作权侵权但对在先创作者产生了现实的市场替代效应。
1. 创作层面:人类对“独创性表达的垄断”被打破
第一,各类生成式人工智能利用海量数据进行模型训练、生成最终内容的方法大体相同。首先,自监督学习。机器自己学习大数据,包括购买的数据库,公开的网站文章、电子书,电子版的报纸、杂志,以及开源社区的计算机代码等。其次,监督学习。人类把自己写的问题和答案交给机器学习,让机器学会人类说话的方式和风格。最后,人类反馈强化学习。人类会先训练一个奖励模型,它包括了对于多个答案优劣的评价,然后再用这个模型去训练和评价机器生成的内容,让机器的回答越来越接近人类的叙述方式。
以 ChatGPT 为例,其内容生成机制被形象地称为“文字接龙”,实际上是统计学“自回归”原理的具体展示:先通过模型预测下一个字,然后把预测出来的字带入模型,再去预测下一个字,不断迭代输出。而此前,传统的自然人创作是建立在自身所独有的语言理解能力之上,特定的语言与特定的文字对应以后,文字表达便通过内含的语义来传递人类的思想。当语义通过文字方式不断组合,便形成了不同的词汇、短语,进而持续扩展表达的丰富程度。久而久之,文字之间形成了特定的结构,使人们能够理解交流对象所要表达的意思,这就形成了人类的语法和语句。语句的进一步叠加出现了语段、语篇,直至成为著作权法认可的作品。由此可见,ChatGPT“自回归式”的单字内容生成机制,和人类传统意义上基于语言理解能力的创作逻辑存在本质差异。
第二,自然人创作正日益被人工智能“创作”所赶超和替代。目前,虽然ChatGPT似乎仍无法像人一样理解其输出内容的真正意义。但为何ChatGPT可以判断出下一个最可能的字是什么,并且在将这些字组成完整的内容后,看起来高度契合人类的表达逻辑和语义语法?回答这个问题,便需要我们反思,是否应当从更宏大的视角去审视著作权法上的创作行为。毕竟生成式人工智能凭借“涌现能力”重塑了创作逻辑,开辟了一条不同于自然人创作的新路径。
此外,ChatGPT等生成式人工智能产品的表达能力近乎是无限的。经过海量数据训练的大模型可以用远超人类的创作效率和艺术水平,不间断地输出高质量的内容。从目前ChatGPT类产品的商业模式来看,用户几乎可以“零成本”的方式让其随时随地协助生成内容。由此,生成式人工智能的发展应用极大地改变了人们对于著作权法上“创作”的认知。与“创作”一词直接对应的“独创性表达行为”,不再是一个被专业群体垄断的高门槛领域,普通大众在生成式人工智能的辅助下,只要拥有有价值的想法和观点,具体的表达完全可以交由机器来完成。
2. 制度逻辑层面:“思想表达二分法”的适用价值被消解
第一,“思想表达二分法”存在的正当性基础被撼动。“思想表达二分法”作为著作权制度的底层逻辑,强调著作权法只保护自然人思想的“外在表达”,而不保护“思想本身”。“思想表达二分法”的创设前提,是过去人们学习既有作品的风格、灵感进而创作出新作品的能力十分有限。即便人们可以学习他人独创性的思想,但将其付诸具体内容创作时仍存在很高的准入门槛,需要具备足够的专业技能。加之,个体学习和创作的效率与精力往往有限。因此,在过去即使不保护在先作品中的思想,也并不会导致不同主体之间利益的显著失衡。于是有观点直言,即使一个人每天看一本书,穷其一生也顶多只能阅读三万本书,并且极大可能一生也写不出一本书。而生成式人工智能的发展,则使得原本专属于人类的独创性表达,可以通过近乎零成本、无门槛的机器生产方式完成。换言之,ChatGPT类产品可以在短时间内快速“学完”人类社会海量思想、知识和风格的基础上,进行无限的、全新的内容生成。
第二,著作权领域“智力劳动合理回报机制”的失效。从内容生成机制来看,人工智能模型并不会侵犯在先作品中受著作权法保护的“外在表达”。以ChatGPT为例,其实际是在“自回归原理”下,不断学习海量在先作品中不同文字之间排列组合的概率和规律,然后内化为自身模型参数的过程。ChatGPT对于训练数据库中作品内容的学习利用,可以理解为细化到分散、海量的作品中每一个字的引用,而不会复现特定作品,甚至不会复现特定作品中的段落和语句。所以,ChatGPT实际上不存在对在先训练作品的实质性引用,从而就不会侵犯在先作品中受著作权法保护的“外在表达”。但是与在先作品风格和思想相似的人工智能生成内容,会对著作权人既有授权市场产生现实的挤出效应。加之,生成式人工智能内容生产的效率和规模远非自然人可比,由此便会进一步放大上述的市场替代效应。目前发生的典型案例,是全球各地的艺术家起诉Midjourney等人工智能绘画平台利用在先美术作品投喂机器、进行模型训练,并大规模生成和特定艺术家风格相一致的画作在市场上抛售。
著作权制度的目标在于“对人类智力劳动合理回报机制的设计”。然而生成式人工智能的模型研发、商业应用主体,通过“利用既有作品风格思想,进而输出全新表达”的内容生成机制,借由提供商业服务和技术接口等方式盈利,但没有把这些利益分配给在先作品的权利人。著作权制度本应体现的合理回报机制在此出现了缺位,从而在事实上导致了内容上下游之间的利益失衡。
三、生成式人工智能挑战了著作权法的基础规则
从著作权制度的基础规则来看,鉴于ChatGPT类产品生成内容的效率远高于人类,未来其或将逐渐成为全社会知识内容的生产主体,而著作权法仅对“源于自然人创作的内容”加以保护,由此其适用价值便受到挑战。同时,生成式人工智能对于他人作品训练利用的行为难以归入现有著作权专有权利的范畴,著作权领域传统的“授权许可模式”因此也面临落地难的现实困境。
1. 权利主体层面:“只保护自然人创作”的制度基础受到挑战
第一,AI或将成为全社会信息内容的生产主体。以ChatGPT类产品为代表的新一代生成式人工智能的兴起,打破了自著作权制度诞生以来长久的共识——内容生产特别是作品创作,是自然人专属智慧的体现。当下,生成式人工智能的迅猛发展,正在使“创作”与“人类的表达”快速解耦。内容创作从“大脑构思+手工表达”转变为“人脑思考+机器表达”。由此,人们设想的内容创作领域大规模工业化的场景也将加速来临。有研究发现,ChatGPT在2023年1月的内容输出能力为3.1亿单词每分钟。而据谷歌公司此前统计,自1440年古登堡印刷机发明以来,全社会出版了约1.298亿本书。每本书估算有5万个单词,总共约有6.5万亿单词。由此,按照ChatGPT目前的内容生产能力,几乎每14天便可以输出相当于人类全部印刷作品的内容量。虽然笔者没有找到这一研究之外类似的数据,但即便延长到14个月甚至更长的时间维度,这依旧是一个令人兴奋的发展趋势。由此,我们可以预想,未来生成式人工智能输出的内容将会成为全社会信息内容的主体。
第二,难以规制AIGC将导致著作权法适用价值的消弭。长久以来,各国著作权法均坚持“只保护自然人创作”的基本理念,即内容生成过程中只有存在自然人的创作性贡献,才会被认定为作品并受著作权法保护。但从目前ChatGPT类产品的内容生成机制来看,存在难以证明具备自然人创作贡献的事实困境。著作权法保护的是自然人的独创性表达,也即对创作元素最终和具体的选择安排。但是在人们向生成式人工智能输入“prompts”进而直接输出内容的过程中,对于创作元素最终和具体的选择安排,恰恰是由人工智能“模型黑箱”而非使用人工智能的用户来实际完成的。2023年3月16日,美国版权局发布了专门的指南,表示“ChatGPT类产品生成的内容,因为难以证明存在自然人的创作性贡献,所以不构成作品,不受到版权法保护”。长期以来,完全由自然界、动物产生的内容素材都不会被认定为著作权法上的作品,如猕猴自拍、风力侵蚀形成的石像等。在我国,现行《著作权法》对作品和作者的规定是,“作品是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”“创作作品的自然人是作者”。自然人以外的动物以及作为机器模型的生成式人工智能均不能成为创作主体,生成内容也无法构成作品。
当下,虽然说在“人机协作模式”之下,创作者可以通过对人工智能自动生成的内容“改编”(增加包含人类独创性贡献的内容)或汇编(内容的选择或者编排上体现独创性)等方式间接获得保护。但是,伴随ChatGPT类产品内容生成能力的不断提升,未来社会绝大多数有价值且被广泛利用的信息内容可能都是由人工智能生成。囿于著作权法“只保护自然人创作”的底层逻辑,上述内容却难以享有著作权。与此同时,受著作权法保护的人类作品却存在内容体量小、使用占比低、市场价值弱等现实问题。
2. 客体权利层面:“先授权、再利用”的传统范式被颠覆
第一,“授权许可”难以实行。著作权作为一种法定权利,不同于物权等自然权利,是在法律上人为创设的一项权利,是为了激励内容创作和知识传播,从社会公有领域中为著作权人划出的一块保护区。为了平衡权利人和社会公众间的利益,著作权法仅赋予创作者授权和规制落入法定权利范畴的作品利用行为,比如复制、发行、信息网络传播等。但生成式人工智能模型对于他人作品思想、风格层面的“学习训练行为”实际难以落入既有著作权法专有权利的规制范畴。既无权利,何来授权?表面来看,生成式人工智能模型的“学习训练行为”类似于自然人阅读文字作品、欣赏美术作品后的思考、吸收及再创作行为,和既有的著作权专有权利无法对应。若著作权法对于生成式人工智能时代最为普遍和重要的作品利用行为——机器学习或者说模型训练难以规制,那么“授权许可模式”在实操层面也便失去了现实意义。深入思考可以发现,生成式人工智能模型的“学习训练行为”作用对象是在先作品中的“思想”而非著作权法所保护的“表达”。在“思想表达二分法”规则之下,模型“学习训练行为”在纳入著作权权利框架上存在障碍。
即便打破“思想表达二分法”的制度屏障,将模型“学习训练行为”纳入著作权专有权利范畴,亦仍将面临权利价值缺位的现实问题,即著作权人难以对ChatGPT类产品未经授权的“学习训练行为”加以有效规制。其原因在于,著作权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的困境,对此后文将具体阐释。由此来看,或许需要从根本上反思著作权法既有赋权和授权规则,以适应生成式人工智能时代的到来。
第二,“合理使用”亦无空间。对于人工智能模型训练阶段未经授权的作品“学习训练行为”而言,从现有著作权法“合理使用制度”角度考察,责任豁免的探讨似乎也缺乏实际意义。合理使用的制度设计在于,对本身构成著作权侵权的行为,基于特定公共利益的考量,在符合一定要求后予以侵权责任豁免。但生成式人工智能模型的作品“学习训练行为”是对于作品思想风格的学习利用,难以落入著作权专有权规制的范畴。既然目前上述作品利用行为本身不受著作权法规制、不构成著作权侵权,合理使用的责任豁免便无从谈起。论及机器学习领域合理使用问题,则不得不提及“谷歌图书馆案”。早在2004年,谷歌公司便将数字化后的图书存放于服务器中,供用户以“检索有限文字片段的方式”发现所需图书。谷歌上述提供作品片段的行为虽落入“复制权”范畴,但美国法院最终认定上述利用行为不构成对原有图书市场的替代。对于ChatGPT类产品而言,前文已述,其内容生成机制实际是“学习在先作品中不同文字之间排列组合的概率,并细化到分散、海量作品中单字的引用”。因此,生成式人工智能输出的内容基本不涉及作品(甚至作品片段)的复制利用,相较“谷歌图书馆”而言,“侵权传播”概率更低,“市场替代”影响更小,“转换使用”程度更高。
四、生成式人工智能否定了著作权法的救济机制
从著作权制度的救济机制来看,生成式人工智能模型训练阶段的作品利用行为,本质上是一种机器内部的非外显性利用,著作权人在实践中往往会遭遇举证不能和侵权判定难的问题。而平台责任领域立基于“内容传播环节”的“避风港制度”,面对“内容生成环节”的ChatGPT类产品的模型研发和商业应用平台,其适用价值也难以为继。
1. 侵权标准层面:“接触+实质性相似”的判定规则失效
第一,著作权人难以证明存在对自身作品的“实际接触”。在先创作者对于ChatGPT等生成式人工智能模型训练中未经授权的作品利用行为,存在现实层面的维权困境。虽然著作权人难以发现侵权行为这一现实问题已存在较长时间,但著作权人所遭遇的维权挑战从未如此之大。例如,伴随内容分发领域算法推荐技术的应用,著作权人疲于应对海量的UGC(User Generated Content,也就是用户生成内容)侵权,陷入维权保护“打地鼠”的泥淖。但现实中,著作权人至少可以从外在表现发现作品是否被他人所侵权利用。生成式人工智能模型训练中的作品利用,事实上是一种在模型内部进行的非外显的作品利用。这就导致了即使自身作品被人工智能模型未经授权用于训练,著作权人实际上也难以发现。
既有的著作权法遵循“接触+实质性相似”的侵权判定规则。在权利人主张生成式人工智能模型训练阶段存在侵权利用自身作品的场景下,首先便需要举证平台存在对自身作品的“现实接触”。但前述非外显的作品训练行为,导致著作权人难以提供相应的证据来主张模型训练平台“实际接触”到自身作品。如此一来,在先创作者的维权行为便难以为继。
第二, 著作权人难以进行“实质性相似”标准的侵权比对。理论上,在先创作者可以比对ChatGPT类产品生成和传播的内容和自身作品是否存在实质性相似,进而倒推人工智能模型训练阶段存在未经授权的作品利用行为。然而实践中,从侵权比对环节下的“实质性相似”标准来看,权利人也会遭遇现实困境。因为生成式人工智能对于内容创作的颠覆性影响在于,其通过对在先作品思想、风格的吸收学习,以一种难以预判的方式,输出和既有作品相区分的、全新的内容表达。由此,著作权人在“实质性相似”侵权的比对过程中,会陷入ChatGPT类产品输出内容与自身作品“似曾相识”但又“似是而非”的困境。
2. 平台责任层面:“避风港制度”的适用错位
第一,“避风港制度”立足“侵权传播环节”平台责任的规制。“避风港制度”诞生于1998年美国颁布的《数字千年版权法》,并逐渐发展成为全球平台责任的基础规则。“避风港制度”适用于目前互联网绝大多数的著作权侵权情形:侵权内容是由用户生成和上传的,由用户承担直接侵权责任。对于网络平台而言,只有在知道用户利用其网络服务传播侵权内容,但未采取必要制止措施时,才需要就自身帮助侵权内容传播的行为承担间接侵权责任。但是,伴随“小程序”“云存储”“算法推荐”等内容传播技术的普及应用,“避风港制度”也在不断遭受挑战,而“内容传播环节”平台责任的规则定位始终未被突破。
第二,AIGC领域则需要关注“内容生成环节”的平台责任。此前的“避风港制度”下,网络服务提供者著作权侵权责任的归责基础,在于是否帮助了“用户侵权内容的传播”;生成式人工智能的模型研发平台和商业应用平台,作为新兴网络服务提供者,涉及的则是“用户侵权内容的生成”。在生成式人工智能技术出现前,平台侵权责任判定侧重于:用户上传侵权内容(直接侵权责任规制的范畴)→传统的网络服务扩大侵权内容传播(既有“避风港制度”规制的范畴)两个环节。在生成式人工智能技术出现后,平台侵权责任则需关注:用户利用生成式人工智能产生侵权内容→(新“避风港制度”规制的范畴)用户上传侵权内容→传统的网络服务扩大侵权内容传播三个环节。而生成式人工智能技术的发展,已经将平台著作权侵权规则推向了新的发展阶段,即从单纯关注内容传播领域的平台责任向关注内容生成和内容传播两个并行领域的平台责任转变。或许,我们已再次站到了与《数字千年版权法》诞生时相似的制度十字路口,需要从技术发展、著作权保护和内容传播等视角综合思考,如何创设专属于生成式人工智能时代的新“避风港制度”。
五、结论与展望
面对ChatGPT类产品的快速发展,我们不禁感叹生成式人工智能的“创作时代”或许真的是“将至已至、未来已来”。其在改写内容领域创作逻辑的同时,也对著作权法的底层制度带来一系列颠覆性影响。如果说既有的著作权法从创作行为、规制主体、保护客体、权利范畴、侵权判定以及平台治理等层面都难以应对这一冲击和挑战,那么本文所论证的核心观点“生成式人工智能的兴起将引发著作权法的彻底变革”,应当说并非危言耸听,而是揭开了这一难掩趋势的帷幕。
人工智能领域技术的迭代速度惊人,从GPT-3.5到GPT-4只用了不到4个月,但各类性能都实现了质的提升。OpenAI官方数据显示,在美国律师执照模考中,GPT-4得分排在前10%,而GPT-3.5则为倒数10%;在生物奥赛排名中,GPT-4可达前1%,而GPT-3.5则在后31%。由此,出现全面超越既有ChatGPT类产品逻辑推理和内容生成能力的新一代AI技术应用,很可能并非仅是一种长期假想而是可预见的短期必然,并在既有著作权制度无力回应时加速其彻底变革。鉴于我国在生成式人工智能技术研发和应用领域尚处于起步阶段,且与域外相比仍存在一定差距,本文在“破题”之后并不急于提出新的“立题”。因为,新一代生成式人工智能方兴未艾,制度层面科学、可行的著作权应对路径,仍有待理论和实践层面进一步的观察和论证,相信这将会是一个价值平衡、利益博弈以及最终立法回应的长期过程。
本文来自微信公众号:探索与争鸣杂志 (ID:tansuoyuzhengming),作者:司晓(中南财经政法大学产业教授、知识产权研究中心兼职研究员)
关键词: