
随着生成式人工智能(Artificial Intelligence Generated Content, AIGC)技术的快速发展,AIGC服务提供商在数据训练过程中涉及的著作权侵权案件数量持续增长,引起了广泛关注。例如,据21财经报道,2024年8月2日,一位YouTube主播代表在美国加利福尼亚州北区地方法院正式递交了集体诉讼文件,指控OpenAI擅自转录了数百万个YouTube视频来训练其大模型,该诉讼涉及超过100名创作者,要求OpenAI赔偿超过500万美元。2023 年 3 月,多名艺术家指控Stability AI未经许可抓取受著作权保护图像训练大模型并生成衍生内容的行为构成侵权。
本文拟对AIGC数据训练过程中的著作权侵权行为判定以及AIGC服务提供商的责任认定等问题展开讨论。本文根据邦信阳律师事务所上官凯云律师于2024年5月29日主讲的“邦培第547期:鱼与熊掌——AIGC商业创新与版权保护之辩”部分内容整理而成。
-01-
AIGC训练素材
可能涉及的作品使用行为
在AIGC(生成式人工智能内容)模型的训练流程中,可以系统地划分为三个关键阶段:首先是数据输入阶段,此阶段涉及从数据库中提取作品并导入至AIGC模型中,旨在筛选出对模型训练具有潜在价值的内容元素;其次是分析学习阶段,该阶段聚焦于对输入作品进行深入的分析与机器学习,以捕捉其内在特征与规律;最后是结果生成阶段,即根据用户输入的特定指令,模型能够自主生成与之相匹配的学习成果。从著作权法的视角审视这一训练过程,数据训练环节不可避免地触及了作品的获取、存储与分析等行为。
(一)作品的获取行为
获取行为的合法性判定首先要关注的是数据获取的合规性问题,这在个人信息保护法和数据合规相关法规中都有明确规定
就著作权法而言,作品的获取行为需特别留意《著作权法》第四十九条与第五十条所规定的技术措施条款。具体而言,当作品权利人已依法采取合理有效的技术保护措施,以限制或禁止他人未经授权访问、复制其作品时,任何企图规避或破坏此类技术保护措施以获取数据的行为,均可能构成对著作权的直接侵犯。除此之外,在符合法律规定的例外情形(如合理使用、法定许可等)或经权利人明确授权的情况下,数据的获取行为则可能被视为合法,不构成对著作权的侵犯。因此,对于AIGC模型训练中的数据获取环节,应秉持严谨的法律态度,确保所有获取行为均能在尊重著作权人权益、遵守法律法规的前提下进行,以维护数据获取的合法性与合规性。
(二)作品的存储行为
在探讨作品的存储行为时,我们需将其置于著作权法特别是复制权理论的框架下进行深入分析。作品的存储,本质上构成了一种复制行为,这一点在学术界与实务界均无异议。然而,关于此复制行为是否构成对版权的侵犯,则涉及更为复杂的法律判断与价值权衡。
传统著作权法案例中,针对复制权的单独诉讼较为罕见,往往与广播权、信息网络传播权等权利侵犯并行考虑,原因在于复制行为常作为后续传播行为的预备阶段,在已经有传播行为规制的情形下就不再单独针对复制权提起诉讼。在AIGC模型训练语境下,作品的存储虽涉及复制,但其直接目的并非直接传播或利用作品本身,而是服务于AI模型的训练与优化。因此,该复制行为的法律性质及其侵权判定标准,需结合其特定使用目的与后续影响进行考量。
鉴于AIGC技术的创新性与发展潜力,对于此类复制行为的侵权判定,不宜简单套用传统复制权侵权的判定标准。一方面,权利人需证明因作品被复制至训练设备而遭受的具体损失,这在缺乏直接经济价值交换(如许可费)的情境下尤为困难;另一方面,AIGC技术的发展对于推动社会进步、促进产业升级具有重要意义,过度严格的版权保护可能抑制其创新活力。
基于此,学术界与实务界开始探讨为AIGC模型训练中的作品存储行为设立类似“临时复制豁免”的特殊规则。该规则旨在平衡版权保护与技术创新之间的关系,认为在特定条件下(如仅为训练AI模型而进行的非商业性复制),此类复制行为可免于承担侵权责任。此观点不仅体现了对技术发展需求的积极响应,也符合著作权法促进文化繁荣与科技进步的立法宗旨。因此,关于AIGC模型训练中作品存储行为的法律规制,有必要在充分论证的基础上,探索建立更为灵活、适应技术发展的版权保护机制。
(三) 作品的分析行为
目前AIGC大致可以分为两类:一类是“文生图”,例如Stable Diffusion,其通过对海量图像内容的学习,分析色彩、内容和风格等规律,转为自身的模型参数;一类是“文生文”,例如ChatGPT,其通过对海量在先作品的学习,分析其排列组合的规律,转化为自身的模型参数。在AIGC模型训练过程中,作品分析行为是涉及对大量已有作品(如文本、图像、音频等)的深入学习和理解,以便模型能够从中提取出有用的特征、规律和模式,进而生成新的、具有创意的内容。
一种观点认为,作品分析行为可能触及著作权法中的改编权范畴,尤其是在图像生成模型中,系统通过对原作品色彩、风格等元素的解析与重构,虽在形式上有所变化,但保留了原作品的某些核心特征。比如Stable Diffusion训练过程中,是对作品进行编码后,将其输入至“图像信息空间”改编。较之于对作品的直接下载与存储,对作品进行了噪声添加与编码(压缩),保留了作品内容中最关键、本质的特征,应当认定为版权法意义上的改编。然而,改编权的认定通常要求基于原作品创作出具有独创性的新作品,而AIGC模型中的分析行为更多体现为一种技术处理过程,其最终成果(即生成内容)的独创性往往由用户输入决定,而非直接由服务提供商实施。因此,将此类行为直接等同于改编行为存在争议。
另一种观点则主张,分析行为可能落入著作权法兜底条款的规制范围,即尽管不直接符合著作权法明确列举的特定权利行为,但实质上侵犯了著作权人的某种合法权益。然而,此观点亦面临挑战,因为著作权法保护的核心在于作品的表达形式,而非其背后的思想或技术逻辑。分析行为在去除具体表达、提炼思想层面的过程中,并未直接侵犯受著作权法保护的表达权。
更有学者提出,分析行为本质上不属于著作权法传统规制范畴,它遵循了著作权法中的“思想/表达二分法”原则,即仅对思想的表达形式进行保护,而不延及思想本身。在AIGC模型中,分析行为更多地是对作品思想、风格等抽象元素的提取与利用,而非对具体表达的复制或改编。
针对上述争议,我们需进一步审视合理使用制度在新技术背景下的适用性问题。合理使用作为知识产权法中的一项重要原则,旨在平衡著作权人利益与社会公共利益,确保信息的自由流通与技术的创新发展。在AIGC技术快速发展的背景下,合理使用的边界与标准需重新评估,以确保既能有效保护著作权人的合法权益,又能促进技术的持续进步与社会的整体福祉。
-02-
AIGC训练素材
是否构成“合理使用”
从著作权法的基本原理出发,“合理使用”作为一项重要的权利限制制度,旨在平衡版权人利益与社会公共利益,允许在一定条件下未经版权人许可而使用其作品。具体到AIGC训练素材的复制行为,若该行为满足复制权的构成要件,则是否可援引“合理使用”原则进行抗辩,成为关键问题。
(一)欧盟的有关规定
欧盟于2019年修订的《单一数字市场版权指令》对文本和数据挖掘的合理使用进行了明确规定。《指令》第三条与第四条确立了以科学研究为目的的文本挖掘作为合理使用的例外,同时指出对合法获取的作品内容进行复制和提取亦属于侵权的例外情形。尤为重要的是,第四条第三款进一步强调了若权利人未以适当方式明确保留禁止挖掘的权利,则复制和提取行为可被视为合法。这一规定为AIGC训练素材的合理使用提供了法律依据,前提在于素材的合法获取与权利人未明确禁止挖掘。
此外,2024年3月13日欧盟通过的《人工智能法案》其中提到要求人工智能模型开发者详细说明他们使用了哪些内容来训练自身研发的系统,并遵守欧盟版权法。该规定进一步确认了在符合特定条件下,训练素材的合理使用地位。
(二)美国的有关规定
相较于欧盟的具体规定,美国版权法第107条的四要素原则为合理使用提供了更为灵活的判断标准。
美国《版权法》第107条规定:“判断特定情形下对作品的使用是否构成合理使用,考虑因素包括以下“四要素”:(1) 使用的目的和特征,包括是否为商用或者非营利性教育用途;(2) 版权作品的性质;(3) 所使用部分的数量和实质与版权作品整体的关系;(4) 使用对于版权作品的潜在市场或价值的影响。”
该原则综合考虑了使用目的、作品的性质、使用的数量与实质性程度以及使用对作品潜在市场或价值的影响等因素,此外还提出了一个转换性使用的概念。转换性使用是指对作品的使用方式与它原本的表达和使用目的不同。如果新的使用被认为是转换性使用,即使复制了原作,也不会被视为侵权,而是被认为是合理使用。
我们(邦信阳律师事务所戎朝律师等)就曾作为被告代理人代理的电影海报背景中使用“葫芦娃”和“黑猫警长”被诉侵权案件中,转换性使用为理由进行了抗辩。我们认为被告在电影《80后的独立宣言》海报中,将“葫芦娃”和“黑猫警长”作为背景图案,与众多代表80后时代的元素一同呈现,以说明电影主角的年龄特征,被告对“葫芦娃”和“黑猫警长”的使用并非单纯再现原作品,而是赋予其新的时代特征意义,属于转换性使用,且不影响原作品的正常使用,未不合理损害著作权人利益,因此构成合理使用。最终法院判决采纳了我们的抗辩理由,认为在判断引用他人作品是否构成合理使用时,应当综合考查我国著作权法所规定的合理使用构成要件,在构成转换性使用的前提下,不影响该作品的正常使用、也没有不合理地损害著作权人的合法利益的,构成合理使用。本案中涉案作品在电影海报中的引用不是单纯地展现原作品的艺术美感和功能,而是反映“80后”一代曾经经历“葫芦娃”、“黑猫警长”动画片盛播的时代年龄特征,属于转换性使用,而且并不影响涉案作品的正常使用,也没有不合理地损害著作权人的合法利益,故构成合理使用。
在探讨AI数据训练所引发的版权争议背景下,一种观点应运而生,即人类对于数据训练及生成作品的应用应被视为一种形式的“转换性使用”。此论调根植于一个前提:原作品可能本属美术范畴,旨在展现其独特的艺术价值;而在AI数据训练的语境下,这些数据或作品的艺术属性并非主要利用对象,而是作为风格学习的素材。此现象是否构成版权法意义上的“转换性使用”,学术界与实务界也仍然存在分歧。
一派观点认为,此情形不构成合理使用。其主要论据在于,AI模型所生成内容的显著特征之一是其对原作品风格的保留,这表明新作品未能创造出与原作截然不同的新价值,与转换性使用所要求的创新性转化相悖。此外,这类生成内容可能显著冲击原版权人的市场地位,产生潜在的替代效应,从而违背合理使用中“不得不合理损害版权人合法权益”的原则。
另一派则持积极立场,主张其构成合理使用,理由在于其对技术进步的显著推动作用。具体而言,此类数据训练非传统意义上的作品使用方式,而是作为AI技术发展的催化剂,通过模型训练促进AI创新与进步。鉴于美国灵活的合理使用制度在鼓励技术创新方面的潜力,众多学者呼吁借此机遇,将AI数据训练纳入合理使用的范畴,以此作为推动AIGC技术蓬勃发展的法律基石。这一视角强调了技术发展与法律适应性之间的平衡,及在法律框架内促进科技进步的必要性。
目前,美国已有多起围绕此类问题的司法案件在审或待决,其判决结果不仅将对个案产生影响,更将在全球范围内塑造AIGC技术的法律规则与保护框架的未来走向。因此,这些案件的审判结果备受瞩目,成为探索技术革新与版权保护之间微妙平衡的关键所在。
(三)日本的有关规定
日本虽未直接制定针对数据训练的专项法律,但其在2022年对版权法的修订中,融入了多个与合理使用紧密相关的条款,尤其是涉及第30条的多项规定,为AI技术的法律边界探索提供了重要参考。
该修订法案明确指出,当作品的使用目的非为直接享受作品所传达的思想或情感时,使用者有权在必要范围内以任意方式利用该作品,前提是此类利用不得对著作权人造成不当损害。这一规定体现了版权法中合理使用的核心原则——平衡创作者权益与社会公共利益。尤为值得注意的是,该法特别列举了电子计算机信息处理过程中的特殊情况,即当作品表达在信息处理中不被人类直接感知或识别时,亦可视为合理使用的范畴。此条款虽未直接提及“数据训练”,但其表述所涵盖的“不被人类感知和识别的利用”显然与AI训练过程中对数据集的使用高度相关,且可能涵盖了更广泛的自动化信息处理场景。
从学术视角解读,这一条款蕴含了三层关键信息:首先,非以欣赏作品艺术价值为初衷的使用行为,在合理范围内被赋予了合法性;其次,法律未对使用方式设置严格限制,只要符合非欣赏性目的即可;最后,所有合理使用的情形均须遵循“不损害著作权人权益”的基本原则。基于这些条件,数据训练在日本现行法律框架下,有极大可能性被视为合理使用的范畴,前提是其使用方式不对原著作权人造成不当影响。
此外,2024年3月,日本文科文部大臣的声明进一步强化了这一立场,明确指出AI训练所使用的资料版权不受法律保护,只要满足非欣赏性、无限制方式及不对原作者造成影响的条件,即可自由使用。这一立场与我国著作权法的相关规定形成对比。
(四)AIGC能否继续适用“授权使用模式”?
相较于日本的灵活界定,我国《著作权法》通过列举方式规定了12种合理使用的具体情形,并辅以兜底条款,其中个人学习、适当引用及科学研究等条款或可间接关联至AI数据训练的实践。但是单从这个法条的规定来看,AIGC技术的商业化应用可能面临着显著的法律挑战,特别是在版权合理使用范畴内的适用性上显得尤为复杂。AIGC的核心价值在于其广泛的商业潜力,而此价值定位直接冲击了传统版权法中以个人学习、适当引用及科学研究为基点的合理使用框架。鉴于AIGC的学习机制与人类大相径庭,其依赖于海量作品进行训练的特性,使得其难以简单地归入既有合理使用类别之中。
具体而言,尽管在研发阶段,AIGC模型的训练可能符合合理使用的要求,即出于科学研究之目的且不直接损害著作权人利益,但一旦该模型被推向市场,其商业运作中的数据训练行为则可能因超越了合理使用的界限而陷入侵权风险。我国《著作权法》第13条中的兜底条款,虽看似为未列举情形提供了法律空间,实则其适用前提严格受限于“法律和行政法规规定的其他情况”,而当前并无明确规范将AIGC商业应用中的数据训练纳入合理使用范畴。
面对此法律困境,传统版权许可路径成为规避侵权风险的备选方案,但其操作难度与成本不容忽视。AIGC训练所需数据之庞大、多样及动态性,使得逐一甄别版权状态并联系版权人获取授权成为一项几乎不可能完成的任务。集体管理组织的现有模式,受限于作品类型与数据规模的局限性,亦难以有效应对AIGC训练的复杂需求。
进一步而言,依赖传统授权模式不仅会导致高昂的时间与经济成本,还可能引发“寒蝉效应”,即因版权授权门槛过高而抑制了创新主体的技术探索热情,最终可能使得AIGC技术成为少数大型企业的专属领地。这种技术垄断现象,无疑将阻碍AIGC技术的广泛传播与应用,限制其对社会经济发展的潜在贡献。
因此,从学术研究的视角出发,有必要深入探讨如何在保障著作权人权益的同时,为AIGC技术的健康发展构建合理的法律框架。这可能涉及对现行版权法的修订或解释,以更好地适应技术发展的实际需求;或者探索建立适应AIGC特点的版权许可新机制,如基于区块链技术的智能合约、动态授权系统等,以实现版权保护与技术创新之间的平衡。
我们(邦信阳律师事务所戎朝律师等)曾代理的一个案件(搜狗答题助手与字节跳动“头号英雄”直播答题活动之前产生的纠纷)可能可以提供讨论的视角。
该案中,搜狗作为被告,其推出的答题助手AI,通过实时语言识别与搜索引擎集成技术,为用户在直播答题过程中提供了高效的信息检索与答案提示服务。这一创新技术应用的合法性争议,不仅触及了版权、不正当竞争等法律领域的边界探索,更引发了关于技术进步与既有市场利益平衡、技术伦理与社会影响等深层次学术问题的讨论。
首先,从法律层面分析,该案的核心在于评估搜狗答题助手的行为是否构成对字节跳动直播答题活动规则的违反或是对用户公平竞争权的侵犯。搜狗方提出的抗辩,强调了答题活动本身未禁止使用搜索引擎寻求答案的行为,且答题助手仅作为信息检索效率提升的工具,未直接干预答题结果的真实性。这一立场体现了技术进步对既有法律规则适用性的挑战,要求法律解释与裁判需考虑技术发展的现实背景与潜在价值。
进一步,从技术发展的视角审视,搜狗答题助手作为AI技术应用的实例,其核心价值在于促进了信息获取与处理的高效化、智能化。本案中,搜狗方强调该技术的应用不仅提升了用户体验,还潜在地促进了活动参与度与奖金分配的广泛性,形成了技术与市场的双赢局面。这一观点触及了技术发展的正面外部性及其对社会整体福利的增进作用,为评估新技术法律地位提供了经济学与社会学的理论支撑。
此外,本案还引出了关于技术伦理与社会影响的深层次讨论。搜狗答题助手的应用,虽在技术上具有创新性与实用性,但其对原有市场秩序的冲击与潜在的不公平竞争问题,要求我们在推动技术进步的同时,必须关注其对社会伦理、法律秩序及市场竞争环境的综合影响。如何在鼓励技术创新与维护市场公平、保护消费者权益之间找到平衡点,成为了一个亟待解决的学术与实践课题。
-03-
AIGC服务提供商承担责任的边界
当前,AIGC的发展已经到了一个新的阶段,这可能是重新分配蛋糕的一个时期。我们倾向于认为将数据训练行为归类为符合合理使用的情况,因为只有这样,才能确保在一定范围内,AIGC技术能够得到发展,而毫无以为这项技术未来必将会对人类社会发展产生积极影响。那么,AIGC服务提供商承担责任的边界到底在哪里呢?
2024年3月,我国《人工智能法(学者建议稿》第24条中规定:“【数据合理使用】人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用。对于符合上述合理使用情形的数据使用行为,人工智能开发者可以不经数据权利人许可,不向其支付报酬,但是应当以显著的方式标注数据来源。”虽然该条款只是一个学者建议稿,但它规定了一种数据合理使用的情况。换句话说,如果使用行为与数据原本的使用目的不同,但不会影响数据的正常使用,也不会损害权利人的权益,那么这种使用行为应该被视为数据合理使用。
这基本上可以代表目前学者对于AI数据训练的态度。如果最终立法保留了这条规定,那么我们国家对于AI数据训练的数据使用行为,可能会通过合理使用来实现。
2024年2月,广州互联网法院就一起生成式AI服务侵犯他人著作权的案件作出判决,该案被认定为全球首例生成式AI服务侵犯著作权的生效判决。案件涉及原告(奥特曼形象版权持有人)与被告(某人工智能公司经营的Tab网站)之间的著作权纠纷。被告网站通过其AI技术生成了与原告权利作品实质性相似的奥特曼图像,原告据此提起诉讼,要求停止侵权并赔偿损失。
我们可以分析该案中法院判决时对平台责任的看法,这对我们很有参考意义。
首先,法院支持了原告关于复制权和改编权的主张,认为被告生成的AI图像虽有所变异,但仍保留了原作品的显著特征,构成对版权的侵犯。在信息网络传播权的评价上,法院认为其已被复制权和改编权所涵盖,故未单独评价。
其次,法院支持了原告的第一个诉请,即要求被告停止生成与权利作品相似的图片,确保用户无法通过输入相关关键词生成侵权内容。对于第二个诉请——删除相关数据,法院未予支持,主要基于被告仅为AI模型接入方,未直接参与数据训练,且删除数据在技术实现上存在难度。
再次,法院详细分析了被告的过错,包括缺乏投诉举报机制、未提示风险及显著标识缺失等,认定被告未履行合理注意义务。在赔偿方面,法院考虑了被告的积极应对措施及影响范围有限等因素,最终确定了相对较低的赔偿金额。
综合来看,该案明确了生成式AI服务平台在提供服务过程中需承担的版权保护义务。平台应确保其技术不侵犯他人版权,并采取有效措施防止侵权内容的生成和传播。
并且在判决中区分了技术提供者与内容生成者的责任边界。对于仅提供技术接入服务的平台,其责任主要集中在合理注意义务的履行上,而非直接承担内容侵权的法律责任。同时,法院特别强调了当前人工智能产业仍处于发展初期,不宜过度加重服务提供者的义务。这一立场体现了法律对技术创新的支持与包容,同时也为平台设定了合理的责任范围。本案判决引用了生成式人工智能管理办法等法律法规,对平台提出了建立健全投诉机制、尊重知识产权等合规要求。这些要求为AIGC服务提供商设定了明确的法律框架,也为未来类似案件的审理提供了参考。
此外,2024年4月发布的《人工智能示范法2.0(学者建议稿)》 第70条 (民事侵权责任) 规定:“研发、提供的人工智能侵害个人权益造成损害,应当承担损害赔偿等侵权责任,但研发者和提供者能证明自己没有过错的除外。……提供者知道或者应当知道使用者利用其提供的产品或服务侵害他人知识产权,道未采取必要措施的,与使用者承担连带责任。……”该规定对AIGC网站也提出了要求,即要按照网站服务提供商的流程加以规范,规定了过错原则与证明责任。并且规定如果知道或应当知道有人利用网站实施侵权行为,但没有采取必要措施,就要承担连带责任,这是一个间接侵权的规则标准。
但是,如何改进和完善服务提供商机制需要进一步研究。目前,Stability AI公司表示将修改《用户协议》中“数据库不得加入或退出”的规定,允许权利人从后续发布的Stable Diffusion 3.0的训练数据集中找到并决定是否删除自己的作品。还提出了建议的做法,包括:
1. 提前公告,在AIGC模型训练前,要及时通过各类渠道发布其训练数据库的搭建信息,若版权人在规定期限内提出反对意见,则应当尊重其意愿,删除相关作品;若版权人未提出反对意见,则默认允许作品用于数据训练;
2. 标注与说明。在AIGC生成内容中对作品的使用情况作出标注和说明,并在技术上为版权人提供便利的作品查询与检索机制;
3. 保障当事人选择权。在AIGC模型成熟并投入应用后,如果版权人主张AIGC侵犯其版权,有权要求AIGC删除自己的作品。

邦信阳律师事务所 专职律师 📍上海
shangguankaiyun@boss-young.com
上官凯云律师毕业于华东政法大学,获法学学士和法学硕士学位。上官律师专注于知识产权、反不正当竞争领域法律事务,有着扎实的法学理论功底、良好的逻辑思维能力和团队合作精神,曾参与多项文化、体育、影视、娱乐等行业相关的诉讼维权项目以及非诉项目,熟悉相关业务领域的法律及流程,在企业知识产权保护,尤其是商标、著作权和不正当竞争领域具有丰富的实务经验。
Boss & Young Since 1995
法治兴邦·知行于信·大道向阳
使 命:让律师成为法治社会的重要助推
愿 景:法治天下·诗意栖居
价值观:可靠、高效、富有创造力,守正、相与、永葆进取心

来源:邦信阳律师事务所
编辑:鱼仔
责任编辑:高兴、陈默
声明:本文仅代表作者本人观点,不得视为邦信阳律师事务所及律师出具的正式法律意见或建议。转载请注明来自“邦信阳律师事务所”公众号。如您有意就相关议题进一步交流或探讨,欢迎与我们联系,电话:+8621 23169090,邮箱:shanghai@boss-young.com

点击“阅读原文”,登录邦信阳律师事务所官网了解更多资讯。