
同济大学法学院与上海邦信阳律师事务所(以下简称“邦信阳”)协同打造的“同济·邦信阳数据法DAO”第四期活动如期举行。本期活动选取了媒体所称的“数据知产登记效力第一案”【数据堂(北京)科技股份有限公司与隐木(上海)科技有限公司不正当竞争纠纷案,北京知识产权法院,(2024)京73民终546号】,从数据与现行知识产权、财产权法律体系的关系、数据权益保护边界的划定、数据相关不正当竞争行为规制、CC4.0开源协议的商业目的等热点问题展开研讨。
该案中审理法院目光受限于反不正当竞争法第二条,忽视了不正当竞争行为与侵权责任的体系联动,脱离要件事实进行论证继而得出了错误结论。本期活动聚焦不正当竞争行为的侵权属性,回归侵权责任的体系框架,结合具体的构成要件对案件进行抽丝剥茧的分析,厘清数据“权”的内涵,以期为日后司法实践提供有效的解决思路。
目录
一、案情简介
二、侵权损害赔偿请求权的分析框架
(一)数据堂公司的权利未受侵害,仅系(纯粹财产)利益受侵害
法院在“权利受侵害”与“利益受侵害”之间摇摆不定
数据堂公司并非“权利受侵害”而是“利益受侵害”
反不正当竞争法中的“合法权益”
(二)交往义务(Verkehrspflicht)的划定:隐木公司的行为是否具有过错与违法性?
法院未能界定交往义务的范围,倒果为因,使论证流于空泛
数据堂公司的单方声明或CC开源协议是否可以成为交往义务的边界?
(三)小结:隐木公司的行为不具有过错与违法性,侵权损害赔偿请求权不成立
三、总结
一、案情简介
数据堂(北京)科技股份有限公司(下称“数据堂公司”)是一家专业从事人工智能领域数据服务的科技创新企业。2021年9月15日,数据堂公司网站发布“AI数据开源计划1505小时中文普通话语音数据”。该数据介绍内容为“【1505小时中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句标注准确率的最高标准(仅支持学术研究,未经允许禁止商用)”。同时,数据堂公司就案涉数据集在北京知识产权保护中心登记并取得《数据知识产权登记证》(京知数登字第2023000007),载明:数据名称为普通话手机采集语音数据库,登记主体为数据堂公司,数据登记编号为 BJSZD202300000008,登记有效期至2026年7月6日。该数据集在北京市方圆公证处有电子证据存证,名称为“1505小时普通话手机采集语音数据”。
隐木(上海)科技有限公司(下称“隐木公司”)成立于2019年4月,同样从事人工智能领域数据服务。2021年,数据堂公司发现隐木公司非法获取涉案200小时数据集(即涉案1505数据集的子集)并在其官方网站向公众传播该数据,并以提供下载服务为方式诱导用户注册会员。数据堂公司认为隐木公司的上述行为侵害数据堂公司的数据财产权、著作权和商业秘密,同时构成《中华人民共和国反不正当竞争法(2019修正)》(下称“2019年反不正当竞争法”)第二条规定的不正当竞争行为,遂诉至法院。
本案经北京互联网法院一审、北京知识产权法院二审。北京知识产权法院二审作出的(2024)京73民终546号《民事判决书》,对数据堂公司是否有权基于民法典第127条主张涉案数据财产权益、数据堂公司的涉案数据是否构成汇编作品、商业秘密,被诉行为是否违反2019年反不正当竞争法第二条等争议焦点,分别进行了分析评价。
其中,就本案中被诉行为是否违反2019年反不正当竞争法第二条之规定,北京知识产权法院经审理后认为,根据2019年反不正当竞争法第二条、反不正当竞争法司法解释第一条规定,能够纳入2019年反不正当竞争法第二条规制的不正当竞争行为应包括以下要件:一是原被告具有竞争关系;二是原告享有应受反不正当竞争法保护的合法权益;三是被诉行为违反法律和公认的商业道德;四是被诉行为扰乱市场竞争秩序,损害其他经营者或者消费者合法权益;五是被诉行为属于违反2019年反不正当竞争法第二章及专利法、商标法、著作权法等规定之外的情形。本案中,数据堂公司和隐木公司同属数据服务领域的经营者,具有竞争关系,且被诉行为不属于知识产权专门法和反不正当竞争法第二章规定的情形。在此前提下,隐木公司在未经数据堂公司许可的情况下实施被诉行为,违背了数据服务领域的商业道德,损害了数据堂公司的合法权益及消费者利益,扰乱了数据服务市场竞争秩序,构成了2019年反不正当竞争法第二条规定的不正当竞争行为。
二、侵权损害赔偿请求权的分析框架
二审法院根据2019年反不正当竞争法第二条总结的五项要件中,包括“合法权益”“公认的商业道德”等概念。但何谓“合法权益”,何谓“公认的商业道德”均未见清晰的论证过程,使得构成要件具有极大的不确定性。二审法院一边认为隐木公司实施了侵权行为,一边却脱离侵权责任的一般构成要件,受困于2019年反不正当竞争法第二条,其论证过程以及结论均难谓妥适。因此,本期DAO活动聚焦本案展开分析和研讨。
上海交通大学凯原法学院知识产权教研部主任、知识产权与竞争法研究院副院长刘维副教授指出,本判决采取“三元利益叠加”的法律分析框架,这是当前我国司法实践中比较主流的做法,但其带来的不确定仍然较高。从实证研究看,数据抓取行为是否构成不正当竞争行为,根据2019年反不正当竞争法第2条、第12条的规定,目前主要通过三个方面的因素去判断:1)数据集合是否值得保护;2)抓取行为是否绕开技术措施或者违反Robots协议等;3)抓取数据是用于替代性使用,还是做研究使用等。将来,法院可以在此基础上进一步类型化,提炼出更明确的构成要件。以数据集合的可保护性和数据制作加工市场的失灵为逻辑起点,可以确立以“数据集合的权益”“数据集合的技术措施”“获取使用行为的实质替代效果”为行为保护模式的规范构成。用户同意、公开数据、数据安全、服务器负担等因素均不能作为数据获取型不正当竞争条款的构成。
有鉴于此,我们认为本案仍应回归侵权损害赔偿请求权的一般要件,在既有框架体系内作出分析。
(一)数据堂公司的权利未受侵害,仅系(纯粹财产)利益受侵害
1. 法院在“权利受侵害”与“利益受侵害”之间摇摆不定
一审法院并未对此问题进行论证,二审法院认为,根据“财产权法定原则”,民法典第一百二十七条的规定属引致规范和宣示条款,尚未将“数据”作为一种类型化的民事权利(即绝对财产权)而规定其权利内容,在缺乏法律明确赋权的情况下,数据堂公司无权依据民法典第一百二十七条之规定要求将涉案数据集类推绝对财产权请求保护。
华东政法大学法律学院杨代雄教授认为,如果将数据利益上升为数据权利,该权利从其性质来看不属于相对权、应是绝对权。绝对权采法定主义,现行法下如需对数据施予绝对权保护,是对绝对权法定的突破,需考虑必要性和可公示性两方面。必要性方面,首先考虑排他保护的必要。赋予绝对权意味着权利人对客体的支配关系、具有不同程度的排他性,这种排他性保护是否必要。其次考虑如果不作为绝对权保护,保护效果是否不够理想,和人们的合理预期有相当差距。可公示性,是指权利及其客体可以清晰地被描述、被特定化,可被人们的感官和认知所识别。同时,考虑公示信息能否被比较便利地传播和分享。因此杨代雄教授指出,从必要性和可公示性两方面考虑,数据似乎达不到前述要求,不宜突破绝对权法定来对其施予保护。
按二审法院逻辑,区分绝对权与非权利性质的纯粹财产利益似乎至关重要,既然如此,区分权利与利益在救济路径与法律效果上究竟有何种不同?若最终并无不同(二审法院的论证与结论丝毫未体现区分实益),此种区分岂不是多此一举?二审法院在随后的论证中笼统地以“权益受侵害”含混过去,可见其立场不定。
2. 数据堂公司并非“权利受侵害”而是“利益受侵害”
首先,数据是一种纯粹财产利益。杨代雄教授指出,首先,从投入来看,数据的加工者、数据集的制作者有所投入(人力、物力等);从产出来看,数据可用于大模型训练等用途,具有使用价值。所以,数据是有利益的。其次与数据相关的利益是否为合法利益。可以从是否违反法律、行政法规的强制性规定,是否违背公序良俗来判断是否属于合法利益。如果经查证,当事人对数据的利益不违反强行法、不违背公序良俗,则该利益属于合法利益。
其次,数据利益不能等同于知识产权,保护路径未必一致。同济大学法学院袁秀挺教授就数据与知识产权的关系进行了较为详细地论述:“知识产权”是英文intellectual property的翻译,但这个翻译其实不够准确。原因在于,该权利所保护的并不是“知识”,而是非物质性的智力成果,即保护脑力劳动、智慧的产物,从这个角度来看,我国台湾地区的翻译比较好,叫智慧财产权。数据与知识产权的关系,可以用信息经济学里的DIKW模型来理解:该模型的最底层是D(即data,数据);上一层是I(即information,信息);再往上是K(即knowledge,知识);再往上则是W(即wisdom,智慧)。在该模型下,知识产权所保护的仅包括“智慧”和部分的“知识”,但并不保护“信息”和“数据”。但随着数据时代的来临,数据本身的价值是难以否认的。这种价值应当如何去保护?从权属的角度来看,《民法典》第一百二十三条明确规定知识产权的八种客体,且第八项兜底条款规定的是“法律规定的其他客体”,这里的“法律”应该不包括行政法规。因此,从立法层面来看,目前知识产权的客体既不包括信息或者数据,亦没有确立所谓“信息权”或者“数据权”。
上海数据交易所许天熙研究员认为,本案之所以产生该争议,是因为数据难以确权。数据确权需要协调好数据使用的非排他性和数据收益的排他性。虽然知识产权确权也面临这个问题,但是数据和作品的区别在于,作品对外展现的形式相对显著,可以通过控制印刷、复制来保障权利人对知识产权或收益的独占性。而数据的复制、加工,则难以追踪认定。此外,本案争议的具体对象是数据库,而数据库是否属于汇编作品、对数据库的保护是否属于对汇编作品的保护,存在争议:汇编作品强调内容的选择和汇编的独创性,但是很多数据库无法满足汇编作品的独创性。因此,对数据库是赋予汇编作品权,还是创设作为邻接权的数据库权,值得理论和实务界继续研究。
3. 反不正当竞争法中的“合法权益”
袁秀挺教授指出,如前所述,立法层面尚未针对数据确立绝对权,且其也难以在知识产权法范围内得到保护。但数据有价值,值得法律给予保护,须考虑能否在反不正当竞争法中得到保护,对此需要结合反不正当竞争法自身的分析框架与逻辑来判断。袁秀挺教授赞同法院将之认定为反不正当竞争法所保护的“合法权益”。
二审法院认为,涉案200小时数据集虽然因处于公开状态不符合商业秘密的构成要件,同时因数据内容的选择、编排上不具有独创性而不构成作品,但由于数据堂公司对此付出了技术、资金、人力、物力等的实质性投入合法收集形成了具有实质量的声音数据条目,在原始数据上添附了更多的商业价值,能够满足人工智能模型研发主体对声音数据的需求,可为数据堂公司吸引流量、带来交易机会与竞争优势等商业利益。该种商业利益本质上是一种竞争性权益,应属反不正当竞争法所保护的合法权益。
杨代雄教授也提出,即便不将数据作为一种绝对权利来保护,也不影响通过侵权法进行救济。合法利益受到侵害的,如果侵害行为违反了某条法律规定、而该规定恰恰是为了保护相关主体的利益的,也可能构成侵权;或者,虽没有保护性的法律规定,但加害行为违背公序良俗的,即以违背公序良俗的加害行为侵害他人合法权益的,也可以认定为侵权。
综上,在特定情形下,可将数据利益纳入反不正当竞争法所保护的“合法权益”。
(二)交往义务(Verkehrspflicht)的划定:隐木公司的行为是否具有过错与违法性?
即使上述数据利益属于值得保护的利益,仍须进一步判定隐木公司的行为是否具有过错与违法性,而认定过错与违法性的核心前提在于:隐木公司的行为是否违反了商业领域中的一般交往义务。所谓交往义务,即行为人之行为影响他人时,行为人须尽到何种程度的注意,避免侵害他人的权利与利益。商主体之间,尤其有竞争关系的商主体之间,交往义务的划定尤为重要,否则商主体动辄得咎,反而不利于营造创新环境。维护正当竞争关系(即保护行为自由或私益)、保证市场秩序稳定(即保护公共利益)与惩处侵权行为之间的界限或逻辑起点,即判断交往义务之范围。
1. 法院未能界定交往义务的范围,倒果为因,使论证流于空泛
二审法院认定隐木公司的行为违反“诚信原则与商业道德”,并认为当数据集合持有者对数据集合开源时,数据需求方的获取、使用行为是否遵循开源协议是衡量该行为是否违反数据服务领域商业道德的重要考量因素。二审法院的核心论证逻辑在于:隐木公司的行为违反了涉案CC开源协议的非商业目的使用规则。
但二审法院显然脱离了侵权责任的构成要件,既未界定CC开源协议在侵权法与反不正当竞争法框架内的性质(例如,属于何种构成要件),亦未详细分析CC开源协议的内容,更未说明为何CC开源协议可以成为“诚信原则与商业道德”的衡量标准。法院笼统地称:“隐木公司未自行进行资源积累、亦未支付对价或获得许可的‘不劳而获’行为,实为利用共享数据之名,行不正当竞争之实,有违相关行业的诚信原则和商业道德。”侵权法并未禁止“不劳而获”的行为,并非所有“不劳而获”行为均具有过错或违法性,例如,OpenAI、Deep Seek等通过搜集、蒸馏大量数据进行训练并输出内容,某种程度上同样“未自行进行资源积累、亦未支付对价或获得许可”,难道此类行为均构成侵权,违反“诚信原则与商业道德”?答案显非如此。
2. 数据堂公司的单方声明或CC开源协议是否可以成为交往义务的边界?
1)数据堂公司的单方声明是否界定了他人与自己的交往义务?
浙江大学光华法学院李宇教授认为,本案核心问题在于:数据权益的边界如何划定。此种“权利”并无法律规定,若其有资格成为“权利”,或至少是值得保护的“法益”的话,实际上意味着,在一定范围内,享有数据的主体可以禁止其他主体行使越界行为。
因此,本案第一个关键问题在于权利边界如何确定。尤其“数据权”的边界未曾由法律划定。如此一来,似乎只能由法外的规范来确定“数据权”的边界。
问题继而转化为:法外的规范是什么?本案并无合同,合同无法起到划定权利边界的作用。双方也未在同一个交易平台,因此无平台规则约束,就本案来看,似乎只有所谓的“利益主体”——数据堂公司——的单方行为(注:并非单方法律行为,仅指数据堂单方发布的声明)自行划定的权利或利益边界。
因此,李宇教授认为必须先对此份声明作出解释。数据堂发布的声明的具体内容虽未在判决中得到完整描述,但仍可大概看到核心内容:首先,200小时的文件放在网站上供大家自由下载。此种自由下载是否有其他含义?比如是否只能在非商业目的/非营利目的下下载使用?判决就此问题并未表态。其次,声明中还指出,“供使用者和其他经营者免费下载”,其他经营者即包含了本案中的被告。若判决准确引用了声明内容,则数据堂公司不仅公开,而且愿意由其他经营者(包含了潜在竞争对手)免费下载。若无进一步的证据证明原告数据堂公司对数据的使用用途作出额外限制,则可以作出如下解释:其他经营者对其享有的数据可以自由下载且不限制数据用途。按单方声明解释出来的数据堂公司的意思,其允许他人自由下载且不干涉数据的用途,则本案被告不会构成侵权。无论数据堂是否为这批数据付出劳动,这批数据是否有经济价值,均非认定构成侵权的前提,真正的前提在于:数据堂公司究竟是否允许他人自由使用?这里存在两种可能性:其一,允许自由下载且允许自由使用;其二,允许自由下载,但限制使用范围。从本案现有材料看,只能解释出第一种可能性,否则原告数据堂公司就应当对数据的下载主体作出进一步限定。若其对下载主体、下载目的均无限定,加之允许免费下载,则从客观的或者规范的解释出发(类推适用意思表示解释规则),看到此份声明的受众具有一定的“合理期待”,认为自己可以免费下载并随意使用。
2)开源协议的作用
李宇教授指出,判决中提到了CC开源协议中有“限制非商业使用”的内容。遗憾的是,判决并未说明CC开源协议究竟在本案中起到什么作用,准确地说,判决并未说明数据堂公司是否在CC开源协议中表明其他经营者也应当适用本协议。换言之,CC开源协议究竟跟上述数据堂公司的声明处于什么关系(例如,CC开源协议是上述声明的补充?抑或完全替代了上述声明?),并未得到阐明。CC开源协议的具体条款到底在何种程度上禁止“非商业使用”,所谓的“商业使用”又包含哪些行为,判决中也未作讨论。而前述内容恰恰是划定权利边界的关键。
上海交通大学智慧司法研究院院长助理赵帅博士指出,首先需要说明的是应如何理解“开源许可协议”的概念。任何研究都不可能从零开始,开展研究的第一步,就是检索之前是否存在与我们的研究相类似的成果,我们经常使用的GitHub网站就是这样一个检索渠道,这个网站上的内容主要包括三个部分:1)模型代码架构;2)数据输入标准,即训练模型的样例数据;3)训练模型的评价指标。这种检索的前提,是存在一个公开研究成果的平台,而这个平台的重要技术基础,就是许可协议。许可协议分为两种:1)强制许可,它要求公开项目的使用人必须严格按照公开人的要求去使用;2)宽松许可,它允许使用人将公开项目用于盈利,仅需标注公开人即可。基于此而产生的引申问题是:本案中是否存在违背许可协议的行为?又应当如何评价此种违背许可协议的行为?本案中,CC4.0协议要求有二:一是要有署名;二是不允许对公布的内容进行再加工和修改。而根据现有材料,隐木公司标注了数据的署名等信息,并未对数据堂的内容进行编辑,亦不构成直接营利的行为。故从开源协议的角度来说,隐木公司没有违反CC4.0开源协议的要求。对于违反开源协议的行为,可以从三个角度进行评价:知识产权、合同、反不正当竞争。我们理解更多应从合同的角度评价该等行为,换言之,从“能否追究其违约责任”的角度去评价该等行为,具体评价过程中,则需结合具体协议的约定进行判断。从合同的角度来看,本案并没有违反CC4.0开源协议的要求。
同样地,上海市君悦律师事务所胡峰博士亦认为本案针对CC4.0开源协议的认识存在偏差。CC4.0许可协议禁止的是对数据内容上的演绎,禁止通过算法、加工后进行商业化的运作。类似于本案中,如果企业将数据下载下来后挂在网站上,只是提供了一种渠道(信息服务),难谓之属于商业目的使用而违背开源协议。
3)鉴于“数据权益”仅系一种利益,即使认为侵害了此种利益,主观要件亦应达到“恶意”的程度
李宇教授认为,根据绝对权法定原则(物权法定),原告显然无权自行创设“数据权”。但其无权创设绝对权,跟此种“数据利益”是否值得法律保护系两个问题,比如,侵权规范不仅保护绝对权,也保护一般的利益(甚至包括相对权,即债权)。数据堂公司虽无法创设绝对权,但可以创设一种受法律保护的“法益”。
李宇教授进而指出,若此种“数据权”属于一种最低限度的法益,则对此类法益的保护就需要符合侵权责任的构成要件:侵权人须恶意侵害权利人的法益(或者说,达到违反公序良俗的程度),比较法上,可以参照德国第823条、第826条以下的规定。此类法益没有公开性或公示性,侵害此种法益须达到较严重的程度方能构成侵权责任。本案中的被告主观上究竟是否达到“恶意”的程度,很难有定论,至多构成“过失”。
此外,被告搬运原告的数据是否标明了出处?这里可以类比著作权法上的“合理使用制度”。即使是绝对权,法律上仍可能划出一部分允许大众使用。合理使用必须遵循“三步法”:行使依法本属于著作权人有权行使的权利,可以不经著作权人的许可不向其支付报酬,但应指明作者的姓名、作品名称,并且不得侵犯著作权人的其他权利。本案中的“数据财产权”其实可以类比著作权合理使用制度的“三步法”来界定使用边界。假设被告完全隐匿出处,包装成自己的数据,倒有可能认为其过错程度严重,反之则另当别论。上述重要事实在判决中均未得到体现,更何况也无法排除数据堂公司允许200小时数据的免费下载其实有“引流”的意思,判决对数据堂公司的真实意思探究不足,起不到划分“数据权”边界的作用,更谈不上能指引将来同类案件的裁判。
(三)小结:隐木公司的行为不具有过错与违法性,侵权损害赔偿请求权不成立
综上所述,数据堂公司通过单方声明以及开源协议不仅划分了针对案涉数据库的利益范围,亦界定了交往义务的范围。通过李宇教授、赵帅博士及胡峰博士对上述单方声明以及开源协议的分析,我们不难得出结论,隐木公司之行为不构成恶意,亦不具备违法性,因此侵权损害赔偿请求权不成立。
三、总结
本案围绕数据堂公司指控隐木公司非法使用其开源语音数据集展开,核心争议在于数据权益的法律性质及反不正当竞争法适用。法院认定隐木构成不正当竞争,其论证与结论均有不足,存在以下问题:
对数据权益的界定模糊:数据未被法律明确列为绝对权,其保护应基于合法利益(非权利)且需符合侵权责任要件,法院未清晰界定数据权益的边界。
对数据堂的真实意思以及开源协议的作用分析不足:法院未充分分析数据堂公司的单方声明以及CC开源协议的法律性质,难以认定隐木行为具有恶意或违法性。
交往义务认定缺失:未明确数据控制方与使用者间的义务范围,笼统以“不劳而获”否定隐木行为,忽略可能存在的商业创新空间。
数据权益保护应回归侵权法框架,受害人需证明加害人主观恶意及行为违法性,而本案证据不足以支撑前述结论。我们最终认为:隐木公司行为不构成侵权,2019年反不正当竞争法第二条的扩张适用可能抑制数据流通与技术创新。
【以上文字稿内容由蔡增慧博士整理,陈云开、沈越审校】
Boss & Young Since 1995
法治兴邦·知行于信·大道向阳
使 命:让律师成为法治社会的重要助推
愿 景:法治天下·诗意栖居
价值观:可靠、高效、富有创造力,守正、相与、永葆进取心

来源:邦信阳律师事务所
编辑:鱼仔
责任编辑:高兴、陈默
声明:本文仅代表作者本人观点,不得视为邦信阳律师事务所及律师出具的正式法律意见或建议。转载请注明来自“邦信阳律师事务所”公众号。如您有意就相关议题进一步交流或探讨,欢迎与我们联系,电话:+8621 23169090,邮箱:shanghai@boss-young.com

点击“阅读原文”,登录邦信阳律师事务所官网了解更多资讯。