淘宝采集软件合法吗(使用爬虫技术合法吗?)


淘宝采集软件




网络爬虫,又称“网络蜘蛛”(Spider)。它是一个自动执行的程序:在被提示统一资源位置(URL)后,能自动从相应的网页(或网页上超链接指向的网页)下载信息[1]。许多企业在数据收集阶段或多或少需要使用“爬虫”技术。“爬虫技术”合法吗,是大数据行业的宠儿还是麻烦制造者?本文将从“爬虫技术”的应用场景出发,结合国内外“爬虫技术”的司法实践,探讨“爬虫技术”的法律边界。
一、爬虫技术及其商业应用
从爬虫的技术历史来看,它几乎伴随着互联网行业的共同发展。网络爬虫的信息检索功能大大提高了在浩瀚的万维网上搜索和收集信息的效率,因此在工业界得到了广泛的应用。
现实中,传统企业、互联网巨头、政府机构都在收集和维护大量的数据,但他们的数据利用效率往往不高,或者说数据开发仍然没有达到最佳效率。知名咨询公司Forrester在其报告中指出:“大多数公司估计他们只分析了12%的可用数据,剩下的88%没有被充分利用[2]。大量孤立的数据孤岛和缺乏分析能力是造成这种情况的主要原因。”对于“大数据”公司来说,使用爬虫技术和类似的自动搜索访问工具,可以打破“数据孤岛”,使“数据”资源自由流通,从而充分利用这些无效数据,可以带来巨大的经济价值和社会效益。
但是,爬虫技术的使用也是有争议的。对于已经拥有大量数据的公司来说,即使他们可能没有充分利用这些数据,他们也倾向于将这些数据视为自己的私有财产,然后拒绝第三方通过爬虫技术获取他们收集的信息。他们指出爬虫技术可能造成以下危害[3]:
(1)爬虫技术与Ddos攻击直接相关,对网络安全构成巨大威胁;
(2)“被爬取的网站”采取的反爬措施降低了消费者的体验,从而减少了消费者的福利剩余;
(3)爬虫技术使得数据/信息的流通不受控制,使得“搭便车”更加方便,侵害了潜在权利人的合法利益;
(4)爬虫技术对用户的个人信息和隐私造成了极大的威胁。
科技公司也采取了一系列旨在“反爬取”的技术措施来保护其拥有数据的安全。常见的“反爬行”措施包括公开robots协议、采用IP限制措施、采用用户代理认证机制、采取其他措施限制访问,如验证码、数据伪装、参数签名、隐藏验证、防止调试等[4]。当然,就像我们无法阻止人们用肉眼识别公共网站上的信息一样,只要信息存储在公众可以访问的页面上,我们就无法阻止爬虫绕过技术上的各种对策直接获取信息。
所以,除了技术手段,互联网巨头们频频游说政府和立法部门,寻求超越技术门槛的司法保护。从整个司法过程来看,现有的司法判决主要关注两个方面:一方面是规范爬虫技术的使用规则,另一方面是确认“爬虫”获取数据的权益。对此,虽然在立法层面尚无定论,但在具体案件中,中美法院早已做出了初步回应。





二。美国法律下的爬虫法规
美国法院长期以来一直在审理与爬虫获取数据相关的案件。早期的法院判决通常围绕着普通法“非法侵入”和1986年计算机欺诈和滥用法案(“CFAA”)的应用。特别是美国法院基于普通法原则,在不影响他人正常使用的情况下,探索利用爬虫技术访问他人计算机系统获取数据的合法性。
例如,在易贝公司诉投标人Edge公司一案[5]中,法院授予易贝公司一项禁令,禁止投标人Edge公司通过技术手段获取其数据。法院认为,投标人Edge Inc .访问易贝公司的数据在现实中并没有损害易贝公司的权利,但如果未经易贝公司的许可而允许其访问易贝公司的数据,肯定会引起其他公司的效仿,因此这种行为可能会给易贝公司带来损害。在oyster software Inc .诉forms processing Inc. [6]一案中,法院甚至进一步指出:在没有损害证明的情况下,一旦第三方未经许可进入他人的计算机空,就属于侵权行为。然而,在随后的Ticketmaster诉Ticketmaster.com案[7]中,法院有不同的观点。本案中,即使TicketMaster表明其花费了大量精力收集和整理购票信息,但由于这些信息具有价值,法院仍认为Ticket.com通过技术手段获取了这些信息,并未损害TicketMaster的利益,因此不构成侵权。
2017年,hiQ Labs,Inc .诉LinkedIn Corp一案
三。爬虫技术在我国司法实践中的合理使用及侵权风险
从政策角度看:一方面,为了鼓励大数据产业发展,打破数据孤岛,我国鼓励数据流通,因此爬虫技术的使用具有积极价值;另一方面,纵容爬虫技术的滥用,确实更容易滋生不当的“搭便车”现象。因此,我国法院在司法判决中往往以技术中立为原则,不否认爬虫技术的合法性,但严格限制其具体使用的界限和条件。
中国法院倾向于认为爬虫技术本身并不违法,旨在规范爬虫规则的Robots协议并不具有强制性。在百度、奇虎360“奇虎违反robots协议抓取数据”系列案件
中,北京市一中院和北京市高院均认为,设立robots协议并不意味着第三方不能使用“爬虫技术”抓取其数据,尤其是考虑到robots协议是在90年代网络资源匮乏的背景下订立的,目前的技术条件与当时已有所不同。因此,法院认为,除非有非常有限的例外情况,否则违反双方设定的robots协议,使用爬虫技术抓取数据并不违法。
然而,在另一系列案件中,法院认为,如果使用爬虫技术获取数据的结果是:复制、传播、展示他人享有著作权的作品,或者构成不正当竞争,那么尽管爬虫技术本身并不违法,但爬虫的使用将构成侵权。大众点评诉爱帮系列案
。com最全面地解释了这一观点。在这一系列案件中,大众点评分别以“版权”和“不正当竞争”为由起诉Aibang.com未经授权获取数据,得到了法院的认可。其中,特别值得注意的是大众点评网起诉“反正是竞争”一案。本案中,法院认为,大众点评虽不拥有点评及介绍信息的著作权,但Aibang.com获取该信息进行公开展示,并利用大众点评网的劳动成果,对大众点评网构成不正当竞争。本案的判决具有里程碑式的意义。在随后的微博诉脉脉[11]、车来诉酷派米乐[12]、淘宝诉美景[13]、腾讯诉今日头条[14]等案件中,数据所有人均以“不正当竞争”为由,起诉被告非法使用或抢夺“大数据资源”,得到了法院的支持。
在这些案例中,法院虽然没有正面肯定“大数据资源”的财产属性,但却用无形财产权、集体民事权利、竞争优势、竞争性财产权等模糊不清的术语描述了竞争法意义上的大数据的法律地位。这个裁判规则背后的监管逻辑是,商业主体利用爬虫技术获取第三方数据,与原始数据采集者形成竞争关系。这种使用爬虫技术的行为可能构成不正当竞争。
四。在我国司法实践中使用爬虫技术的刑事风险
法院也在一系列刑事案件中提示:如果爬虫在抓取数据的过程中存在其他违法行为,或者造成法律禁止的严重后果,则很有可能导致此类使用爬虫的行为被追究刑事责任。目前使用爬虫技术导致刑事责任,主要有以下几种情况:
(1)使用爬虫技术使“被爬取”的网站长时间无法访问。粤0305初一(2019)193号案中,被告人开发的爬虫软件于2018年5月2日10时至2018年5月2日12时两小时内,以每秒183次的频率访问“深圳市居住证系统”,致使“深圳市居住证系统”停止运行2小时以上,使用这些爬虫的行为被认定违反了《刑法》第二百八十六条的规定。
(2)绕过技术限制,然后利用爬虫技术下载网站后台数据。(2019)鲁0213刑144号案中,被告人先利用“SQL注入漏洞”获取网站后台管理权限,再利用其编写的爬虫脚本程序入侵计算机信息系统,获取大量存储在计算机系统中的数据,未在公共页面显示,故认定其违反刑法第二百八十五条之规定,已构成非法获取计算机信息系统数据罪。
(3)除了授权目的,使用爬虫技术获取大量数据。(2019)浙0602刑初636号案中,被告北京锐智华盛科技有限公司及其员工通过签订合作协议的方式获得运营商服务器的登录权限,但北京锐智华盛科技有限公司通过部署恶意程序将用户登录数据保存在服务器中,并利用自行开发的爬虫程序调用保存在数据库中的数据和信息,可利用这些信息登录淘宝、JD.COM等网络平台。法院认为,在这种情况下,超出授权范围使用爬虫非法采集保存数据的行为,违反了《刑法》第二百八十五条第二款、第四款的规定,已构成非法获取计算机信息系统数据罪。【/br/】五、“爬虫技术”使用规则的前景【br/】我国在立法上尚未明确界定使用爬虫技术的法律边界,但现有的司法判决力求平衡保护原始数据收集者和使用者的利益以及使用效率。这种平衡在于:坚持“技术中立”原则,不否认爬虫技术的合法性,允许在不影响网络安全或不公平侵犯商业秘密和个人信息的情况下使用,不与原始数据收集者直接竞争,从而提升数据使用效率,促进社会福利。也就是说,我国司法以“帕累托”优化为主导思想,允许在不损害任何第三方现有利益的前提下,利用爬虫技术收集数据,从而发掘数据的更大价值。
然而,我国法律对“爬虫技术”的规制仍存在一些模糊之处。在立法方面,需要在规则层面明确数据、爬虫技术、数据共享的法律地位。在目前生效的法律渊源中,无论是国家立法还是司法解释,都没有涉及到“数据抓取”或者“爬虫技术”,而之前的判决一般都是法院在具体案件中的被动判决。对于像中国这样成文法是唯一正式法律来源的国家,缺乏正式的书面法规无疑给“爬虫技术”的使用蒙上了不确定性。此外,一些地方政府(如深圳)基于地方产业需求出台的地方性法规,有意无意地创造了“数据权”的概念,这种立法活动本身也可能缺乏合法性。没有上位法的支持,地方政府贸然创设“数据权”,也给“抓取”数据的合法性带来了更大的不确定性。
从司法的角度来看,虽然我国目前的司法判决已经对使用爬虫技术的法律边界形成了初步的规则,但是仍然有很多问题没有得到完全的解决。比如,就“不正当竞争”而言,如何使用抓取的数据,不认为构成竞争关系。这种竞争关系是否一定是直接的,或者在功能上存在潜在的替代关系,或者是否也构成了压缩原始数据采集器的开发之间的“竞争”空?目前,在涉及爬虫技术的案件中,法院往往对竞争关系的认定给予宽泛的解释,体现了法院对规范爬虫技术使用的政策思考。比如对于“入侵计算机系统”,如何界定入侵计算机系统,绕过密码和技术措施,或者违反网站公布的网站使用声明,都可以认定为“入侵”行为?这些具体问题关系到“爬虫技术”能否合法使用,仍需在今后的司法实践中进一步明确。对抓取数据的边界做了比较完整的探讨。本案中,加州北区法院在讨论hiQ的抓取行为是“未授权”还是“越权”时,将判决的核心重新调整为信息的公开性。法院认为,爬虫所披露的信息不构成CFA意义上的“未经授权”或“未经授权”行为,因为所披露的信息不同于CFA法律中所说的“来自任何受保护计算机的信息”,且缺乏相应的保护措施,故不属于CFA禁止的范围。
与此同时,加州北区法院将其在职场社交领域的竞争优势“传导”到了职场分析数据领域,其依据是(1)LinkedIn的反抓取行为,(2)网站上的“使用条款”赋予了网站所有者过多的权力,这可能涉及违反加州当地宪法关于言论自由的相关规定,因此支持了hiQ的临时禁令请求。2019年9月,美国第九巡回上诉法院也维持了加州北区法院的裁决。
这一里程碑式的判决指出了爬虫技术使用的边界,即(1)如果爬虫抓取公共信息,是为了保证特定数字服务市场的竞争力,最终是为了消费者福利的整体增长,(2)考虑到言论自由问题,美国司法机构更愿意接受使用“爬虫”技术的合法性。相反,如果爬取的信息具有私有属性,爬虫技术的使用就可能存在法律障碍。

[8]

[9]


[10]

您可以还会对下面的文章感兴趣

使用微信扫描二维码后

点击右上角发送给好友