数据爬取行为的正当性边界及合规要点

2024-03-08

  文/北京市集佳律师事务所 周丹丹 崔梦嘉 曹阳

 

  随着人工智能时代的到来,高质量训练数据已成为大模型发展的基础,如何合法合规获取并构建高质量数据集成为业界越来越关注的问题。训练数据一般来源于网络爬取、企业直接收集、开源数据集、商业途径购买等渠道,网络爬取数据系其中最重要的组成部分。数据爬取行为的正当性及其边界问题,在近年来数据作为重要生产要素的背景下,一直广为讨论。但由于目前数据保护专门立法仍在探索中,在民事法律层面,我国主要通过《反不正当竞争法》对数据爬取行为予以规制。本文将结合现有数据爬取司法案例,从数据爬取的内容、行为手段、爬取后果等角度,结合利益平衡原则,分析当前司法实务所划定的数据爬取行为正当性边界,梳理总结企业数据爬取行为的合规要点。

  

  一、网络爬虫技术的广泛应用

  在涉数据爬取案件中,均会提到一个名词即“爬虫”。此“爬虫”是一种程序脚本,是互联网上爬取各网站、平台数据信息内容的程序脚本的统称,因其英文名称“Crawler”“Spider”等而获中文名称“爬虫”。

  行为模式上,爬虫按照其使用者编写好的规则,自动为使用者爬取互联网上的数据信息内容。它们通常使用自动化数据抓取技术来自动访问网站,并收集、解析和存储网站上的信息。这些信息可以是结构化或非结构化数据。在过去20多年,爬虫技术已广泛应用于多个领域,如搜索引擎、内容聚合、电子商务比价或市场研究、社交媒体舆情监测、竞争情报分析等等。

  

  二、数据爬取行为的正当性边界判断

  在涉数据爬取类不正当竞争纠纷案件中,法院通常从以下四个方面对数据爬取行为的正当性进行判断:一是判断数据持有者和数据获取者之间是否具有竞争关系;二是判断数据持有者是否享有受法律保护的竞争性数据权益;三是判断数据获取或使用行为是否具有不正当性;四是判断数据获取或使用行为是否损害经营者权益、消费者权益和市场竞争秩序。本文主要从数据获取及使用行为的行为要件和结果要件上,总结目前司法实践中行为正当性判断考量因素及裁判要旨。

  (一)数据爬取行为不得破坏或绕开技术措施

  常见的破坏、绕开技术措施行为包括:破坏数据持有者加密系统;破坏数据持有者设置的身份认证系统、用户登录系统;伪装成用户登录或模拟用户行为,欺骗数据持有者的身份认证系统;破坏、绕开反爬虫技术措施,如破坏、绕开封禁措施、IP访问限制等。

  在谷米公司诉元光公司“车来了”案【1】中,就元光公司使用爬虫通过更换IP地址、破解加密算法等技术方式爬取谷米公司的公交实时数据,日均300万至400万条的行为,法院认定元光公司未经谷米公司许可,利用网络爬虫技术进入谷米公司服务器后台的方式非法获取数据的行为,具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争。

  在新浪微博诉超级星饭团案【2】中,法院认定云智联公司抓取新浪微博非公开数据的行为涉及利用技术手段破坏或绕开微梦公司设定的访问权限,具有不正当性。

  (二)数据爬取行为应遵守Robots协议

  Robots协议系通过在网站域名根目录下以文本文档robots.txt之形式,向爬虫指引网站所有者对于其网站内的内容允许抑或禁止爬取的意思表示。该规范于90年代由网络工程师们发起,迅速形成了搜索引擎领域内普遍认可、普遍遵守的技术规范。中国互联网协会于2012年11月发布的《互联网搜索引擎自律公约》第七条中即明确约定了“遵循国际通行的行业惯例与商业规则,遵守机器人协议(Robots协议)”,第八条规定“互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”

  在我国现有的多个涉数据爬取案件中,对于爬虫使用者违反Robots协议的行为是否构成不正当竞争,法院总体上都需要结合利益平衡原则进行综合判断。主要的司法观点如下:

  1.Robots协议是搜索引擎行业普遍遵守的技术规范,可以作为公认商业道德的参考

  2.违反Robots协议的爬取行为,通常会认为具有不正当性

  在百度诉奇虎“360搜索引擎”案【3】中,北京市第一中级人民法院认定360搜索引擎推出时违反Robots协议爬取百度平台数据内容的行为构成不正当竞争。

  在新浪微博诉超级星饭团案中,法院认定“根据微梦公司提交的新浪微博Robots协议,以及双方均认可Robots协议可以约束包括网络爬虫在内的机器人之事实,云智联公司在明知微梦公司限制除白名单以外的机器人抓取涉案数据的情况下仍然实施抓取涉案数据中的公开数据,显然亦具有明显的主观恶意”,并结合其他因素,最终认定云智联公司抓取新浪微博公开数据的行为具有不正当性。

  3.设置Robots协议本身具有不正当性,也可能影响违反Robots协议爬取数据行为的正当性判断

  从Robots协议设置的原理而言,Robots协议设置是否具有正当、合理理由,不宜作为数据爬取者是否遵循该Robots协议的前提条件,也不应成为数据爬取者违反Robots协议爬取数据行为正当性判断需要考量的因素。但在司法实践中,法院通常也会对网站经营者所设置之Robots协议是否正当、合理进行判断。

  百度诉奇虎“360搜索引擎”案中,法院认为,百度在奇虎发出修改百度Robots协议的要求后应在合理期限内书面告知拒绝修改的合理理由,在百度未明确提出合理理由的情况下,奇虎在《自律公约》签订后实施的爬取行为不构成不正当竞争。

  虽然在奇虎诉百度设置Robots协议禁止360搜索引擎爬取案【4】中,法院认为百度于《自律公约》签订后仍在Robots协议中专门针对360爬虫进行限制的行为属于歧视性措施,不具有合理、正当的理由,最终认定百度在Robots协议中针对360爬虫进行歧视性设置的行为构成不正当竞争,但Robots协议中的针对性设置并非当然具有不正当性。在字节跳动诉新浪微博案【5】中,法院认定“Robots协议在某种意义上已经成为维系企业核心竞争力,维系市场有序竞争的一种手段。尽管Robots协议客观上可能造成对某个或某些经营者的‘歧视’,但在不损害消费者利益、不损害公共利益、不损害竞争秩序的情况下,应当允许网站经营者通过Robots协议对其他网络机器人的抓取进行限制,这是网站经营者经营自主权的一种体现。”

  (三)从数据爬取的后果上,不得妨碍、破坏系统的正常运行,不得产生实质性替代

  即使数据爬取行为不具有任何不正当性,也并不意味着数据爬取者可以对所爬取的数据任意使用。若从爬取后果的角度,存在妨碍、破坏被爬取的系统的正常运行,或后续的数据使用行为对于数据持有者的产品产生实质性替代,或损害公共利益、市场竞争秩序,也可能被法院认定为具有不正当性。

  关于数据使用行为的正当性,有两个层次:若数据来源本身不正当,则后续的数据使用行为也难谓正当;若数据来源本身不存在不正当性,也不意味着可以任意使用所爬取的数据,而仍应合理控制数据使用范围和方式,不得对数据持有者产品产生实质性替代效果。

  在大众点评诉百度案【6】中,法院认定百度公司通过搜索技术抓取并大量全文展示来自大众点评网的信息已经超过必要的限度,构成对大众点评网的实质性替代,具有不正当性。

  从现有司法案例可以看出,数据使用应当遵循“最少、必要”的原则,即采取对数据持有者损害最小的措施,如超出必要限度使用数据,造成对数据持有者的实质性替代,则构成不正当竞争。而在对是否超出必要限度进行考量时,可能被法院考虑的因素包括:

  1.使用方式:对数据是否直接搬运使用、基本没有创新性使用;

  2.替代程度:是否导致消费者无需使用数据持有者产品,而产生了“替代”;

  3.最小损害:是否存在明显损害方式更小的数据使用方式而未采取;

  4.市场效果:是否具有提升消费者福利、促进市场竞争的正向作用。

  (四)利益平衡原则在行为正当性司法判断上的运用

  就数据爬取行为的规制,法院主要适用《反不正当竞争法》互联网专条兜底条款或第二条一般性条款予以规制。而无论适用哪一条,均会涉及到利益平衡原则的运用。根据《反不正当竞争法司法解释》第三条第二款,“人民法院应当结合案件具体情况,综合考虑行业规则或者商业惯例、经营者的主观状态、交易相对人的选择意愿、对消费者权益、市场竞争秩序、社会公共利益的影响等因素,依法判断经营者是否违反商业道德。”

  有论者提供了数据爬取中权益权衡的分析框架,【7】对于精细化衡量数据爬取各方权益具有参考作用。目前虽尚未发现法院采用如此精细量化之方式,但法院利益平衡原则一直以来都是数据爬取行为正当性评述的重点。

  在笔者所代理的某搜索引擎违反Robots协议爬取数据案中,法院即综合考虑了被诉搜索引擎违反Robots协议爬取数据作为搜索引擎服务内容予以提供,对搜索结果设置聚合产品予以主动推荐,同时考虑了被诉行为对其他经营者合法权益的损害,对消费者利益的损害,及对市场竞争秩序的影响进行判断。

  在新浪微博诉超级星饭团案中,法院认定,网络平台对他人抓取其公开数据应负有一定程度上的容忍义务,即对于平台中的公开数据,基于网络环境中数据的可集成、可交互之特点,平台经营者应当在一定程度上容忍他人合法收集或利用其平台中已公开的数据,否则将可能阻碍以公益研究或其他有益用途为目的的数据运用,有违互联网互联互通之精神。

  

  三.企业数据爬取的合规要点

  根据如上对现有司法案例的分析,本文总结提炼企业数据爬取行为的如下合规要点:

  1.不可突破、绕开技术措施爬取数据,包括模拟用户身份或行为进行系统登录;

  2.遵守Robots协议;

  3.避免爬取个人信息、他人享有著作权的作品、商业秘密等;

  4.避免大量、高频地爬取数据,防止破坏网站正常经营;

  5.使用数据遵循“最小必要原则”,避免产生对数据持有者的实质性替代;

  6.爬取并使用开源数据集,需要遵守开源许可证。

  

  注释:

  【1】(2017)粤03民初822号民事判决书。

  【2】(2017)京0108民初24512号民事判决书。

  【3】(2013)一中民初字第2668号民事判决书。

  【4】(2017)京民终487号民事判决书。

  【5】(2021)京民终281号民事判决书。

  【6】(2016)沪73民终242号民事判决书。

  【7】许可,《数据爬取的正当性及其边界》,载《中国法学》2021年第2期。

  

  

此篇文章由北京集佳知识产权代理有限公司版权所有,未经授权请勿转载     

 

相关关键词