你的位置：| 澳门旅游资讯 > 澳门资讯 > 一步之遥即深渊爬虫刍议

一步之遥即深渊爬虫刍议

发布日期：2022-04-19 05:41 点击次数：206

一步之遥即深渊爬虫刍议

随着互联网技术的日益发展，新型法律纠纷也层出不穷。其中，“爬虫”的法律边界一直是互联网争议的热点，尤其是在大数据时代，随着内容数据价值的日益凸显，爬虫所引发的个人隐私和商业数据侵权案件也越来越多。自今年9月6日开始，多家互联网金融大数据公司迎来风波。据媒体报导，多家大数据公司被调查，相关爬虫业务也已停止。一时间，整个行业风声鹤唳。而且，据媒体报道，央行近日已将《个人金融信息（数据）保护试行办法》的初稿下发到各家银行征求意见，进一步强调保护个人信息。究竟什么是爬虫？它面临着什么法律风险？国内外对此的司法处理原则是什么？本文将简要讨论这几个问题。

爬虫的概念、类别和风险

最初的爬虫就像是一个搜索探测器，按照指定规则，通过遍历网络内容的方式，搜集、提取所需的网页数据，被技术人员储存或重新加工。我们每天使用的各大搜索引擎，其实就是利用了爬虫技术。它扒取互联网上的所有网站信息，整理好信息索引，提供给其他用户进行快速搜索和访问。发展至今天，爬虫所获得的信息多种多样，不仅扒取互联网网站上的信息，在不同场景下还扒取公民身份、电信、出行、社交、电商、银行记录等多个维度的数据。

从数据来源渠道分，爬虫可分为网页爬虫和接口爬虫。网页爬虫是根据网页上的超链接进行遍历，扒取网页的数据信息，最常用于搜索引擎。这是早期的一类爬虫。在大数据时代，新型的接口爬虫则是通过精准构造特定API接口的请求，来获得所需数据信息[1]。

从数据访问权限分，爬虫行为可以分为4种逐渐演变的类型。最早的爬虫属于前两类，现在争议最为热门的则是第三、四类[2]。

第1类：完全公开信息爬虫。网站面向公众开放，无需登录身份验证即可访问。爬虫通过浏览网站，能够获取完全公开的信息。

第2类：附加协议的完全公开信息爬虫。网站虽然面向全体公众开放，无需登录验证即可访问，但网站设置了协议，明确禁止爬虫行为。

第3类：需登录一般账号访问公开信息的爬虫。网站面向不特定的公众开放注册，用户注册账号登录后可访问自己账号的信息和网站披露信息。爬虫公司就通过批量注册账号或得到用户授权委托，进入网站或特定设备扒取数据。

第4类：需登录特定账号访问公开信息的爬虫。网站面向需验证身份的特定人群开放注册，用户注册账号登录后可访问自己账号的信息和网站披露信息。爬虫公司借用授权账号登录，进入网站或特定设备扒取数据。

目前引起问题的爬虫公司往往是后两类。它们在网站或App上获得用户在注册协议、隐私协议中自觉或无意的授权后，就利用授权信息登录网站或接入API，获取用户个人数据以及网站数据。有些爬虫甚至具备突破网站本身设置的控制能力，获取被保护的数据。这些非完全公开、涉及用户隐私和网站商业信息的数据正是爬虫的危害来源。

非法爬虫会威胁到保存在网站服务器上的用户个人和互联网服务提供商数据，从而侵犯用户隐私和服务提供商的商业信息，会带来法律风险。在实际商业世界中，大量的案件都围绕爬虫者侵犯商业数据、形成不当竞争有关。

爬虫管制的美国司法原则演变

各国法院对于爬虫的态度相差不大，其基本原则可以归纳为：首先要获得爬虫协议授权，无授权则违法；其次，协议未禁止的行为，就不受法律保护；再次，协议本身也必须满足正当竞争要求，不能设置不合理协议。这些原则在多年的立法和司法实践中得以发展，不论是对协议还是对所谓“正当竞争”的定义和理解都经历了变迁。美国在这个方面的司法实践一直走在前头。

为了维护网站的正常运营，免遭爬虫攻击瘫痪，并避免爬虫抓取敏感信息，早期的爬虫法律界线以网站爬虫协议为准绳。1994年，大部分互联网公司以及互联网爱好者们就达成了共识，撰写了一份Robots协议（Robots Exclusion Protocol，又称“爬虫协议”），以文本文件（.txt）的形式放在网站的根目录下。网站通过Robots协议告诉搜爬虫，哪些页面可以抓取，哪些页面不能抓取。每当爬虫访问一个站点时，它会检查该站点根目录下是否有爬虫协议。站点通过协议对爬虫软件进行约束，告诉使用者哪些数据可以抓取。即便如此，爬虫协议仅仅只是一个协议，是保护网站数据和敏感信息的互联网道德规范，却不是强制性法律或程序设置，所以并非所有爬虫均会遵守该标准。在真正发生纠纷诉讼时，还需要考虑在数据获取过程中，是否侵犯及多大程度侵犯了数据属主及其代理人的利益。

爬虫协议面世25年后，今年7月，Google发布了最新的互联网公约，其中就包括了新的爬虫协议，提交给了国际互联网工程任务组（Internet Research Task Force,IETF）。新的协议没有改变原本协议的实质原则，但进一步修正规范了爬虫行为，比如新协议适用于除了Http协议外的其他网络协议，规定了协议的解析和匹配场景，且如果网站因为服务器故障而无法读取爬虫协议时，任何读取行为都是不被允许的。Google新的协议规范了现代互联网中的爬虫行为，一旦被IETF认可，将会变成最新的国际准则并被法律所认可。

但协议不是万能的，即使网站设置了协议，这个单方面协议也有可能对爬虫者没有法律效果。美国一直以《1986年计算机欺诈与滥用法》（Computer Fraud and Abuse Act of 1986，CFAA）为主要法理依据，规定若“未经授权故意访问或超过授权访问权限，从任何受保护的计算机获取信息”，那么法官就有可能根据CFAA判决爬虫侵权违法，关键词在于“未经授权”、“超过授权访问权限”和“受保护的计算机”[3]。“授权”就包括明示的爬虫协议、用户协议、告知条款等和暗示的用户登录密码等。早些年的若干个案例中，“未经授权”或“超过授权访问权限”一度是爬虫判决的准绳，爬虫公司很难胜诉。

案例1 EarthCam,Inc.vs.OxBlueCorp[4]

EC和OxBlue都是经营影像器材和解决方案的公司。EC的一个用户将自己账户密码给了OxBlue公司，希望经营类似业务的OxBlue能帮忙解决一些技术问题。后者登录了该账户密码，并抓取EC社群论坛上的大量图片等其他信息。EC控诉至法院。

法官最后还是支持了EC，判决意见是虽然CFAA并没有明确规定用户不得与他人共享账户信息，但是EC网站上明确声明出借账户信息违反了其”使用条款“。这属于CFAA认定的”超出权限“——网站只授权给当事人使用，其他人用当然超出了权限。但是，2017年hiQ公司与LinkedIn公司之间的诉讼案判决以爬虫公司的胜诉对此类案件产生了标志性的影响。

案例2 hiQ Labvs.LinkedIn[5]

hiQ Lab公司的主营业务就是利用爬虫从LinkedIn网站上获取公开的求职者数据，帮助企业分析和管理人力资源，招致LinkedIn的不满并采取技术反制，于是hiQ将LinkedIn告上法庭。法院令人意外地裁决了爬虫公司胜诉，原因有3条：第一，法庭认为在网站上公开的信息不是CFAA法条中阐明的“受保护的计算机”，所以没有违反CFAA，将对CFAA的解释重心从传统的“未经授权”延伸至“未经允许访问受保护的计算机”。换句话说，法院认为hiQ是上文所述的前两类爬虫，扒取的是社交媒体的公开信息。第二，根据加州反不正当竞争法（California’sUnfair Competition Law），LinkedIn将它在在职场社交领域的竞争优势转移到职场数据分析领域，是不正当的竞争行为，从而支持了hiQ公司。第三，美国最高法院最新裁定社交媒体类似于一个“现代公共广场”，用户在LinkedIn上的信息相当于公共场所言论，由此根据加州宪法对言论自由权的保护，hiQ声称LinkedIn不能限制别的公司去获取这些相当于“言论”的信息[6]。

尽管这个案件仍然有很大争议，在互联网界引起关于数据权的震动[7]，该案件表明美国司法界对爬虫侵权违法问题有了更深入的认识，不再一味保护数据被扒取的一方，而从数据信息的本质上思考。数据是否公开、独占性和价值有多大等，关系到各方的合法权益，都成为法庭要慎重考虑的问题。

我国的经典爬虫判例及法律演变

我国一贯重视爬虫可能触及到的个人隐私安全和商业竞争问题。早年虽然没有与爬虫等互联网问题紧密的法律法规，但法院通过判定爬虫行为的实际后果是否违反了爬虫协议以及《刑法》、《著作权法》、《反不当竞争法》等法律来裁决。

案例3百度v.s.奇虎公司，百度v.s.大众点评：爬虫与反不当竞争[8]

2012年8月，奇虎公司推出新的搜索引擎，随后百度公司认为奇虎公司违反了百度网站上设定的爬虫协议，非法爬取了隐私内容，抄袭了百度百科词条，以及恶意拦截篡改百度旗下运营的网站。百度还指责奇虎公司将用户的自主搜索引擎替换成另一家搜索，成为网址导航的默认搜索引擎。这就引发了奇虎公司和百度的系列纠纷。在中国互联网协会的组织下，2012年11月1日，多家互联网企业在北京发起签署了《互联网搜索引擎服务自律公约》，强调互联网服务提供者需遵守爬虫协定。签订当日，百度向奇虎公司发送了法律通知函，要求奇虎公司停止抓取，复制百度网站的页面和数据内容。因为法律层面没有具体的条例，这场涉及版权侵权、不正当竞争、滥用市场支配地位等多个层面的搜索大战，诉讼结果难以预料。法院在审理此案中讨论了涉及的相关内容，其中包括爬虫协议。

法院认为奇虎公司推出新搜索引擎时，未遵守商业道德，应该承担责任。北京一中院提出，若搜索引擎服务的提供者认为网站设置的爬虫协议不合理，可以提出书面申请请求修改，然后网站可以根据请求做出合理的修改或不修改，但需要在规定时间内给出结果，双方均可在有关机构调节下进行调解或裁决。被告奇虎公司表示，希望百度修改爬虫协议以便继续抓取百度网站的内容，而百度并未能给出合理的拒绝抓取理由，因此法院拒绝了原告百度提出的“禁止被告奇虎公司抓取其网站内容”的请求及其他赔偿要求，不过肯定了百度设置的爬虫协议作为商业道德和行业惯例应受到奇虎公司的尊重，奇虎应承担适当的民事责任。

这个案件结束4年后，百度又与大众点评有一场爬虫遭遇战，更将爬虫与不正当竞争直接联系起来。2016年，百度使用技术手段在大众点评App上抓取商户的基本信息及点评信息，用户使用百度地图查询位置时，无需跳转至大众点评界面，就可直接在百度地图界面获取商户信息。因此，大众点评起诉以百度公司构成不正当竞争。

在审理过程中，法院将《反不正当竞争法》第2条作为主要裁判依据，认为二者首先存在竞争关系，百度通过爬虫直接获取大众点评的核心数据资产，违反了公认的商业道德和诚实信用原则，具有不正当性。由此，法院最终认定百度公司构成不正当竞争。

案例4字节跳动v.s.上海晟品：爬虫与非法侵入计算机系统[9]

2016年至2017年间，上海晟品网络科技有限公司采用技术手段抓取字节跳动服务器中存储的视频数据，并破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为。

法院认为，上海晟品的行为人在没有获得字节跳动授权的情况下，通过破解App的加密算法和API交互规则，使用伪造的设备ID、IP等绕过服务器的身份校验、访问频率限制等系统技术保护措施，突破权限许可获取数据。被告由此触犯了《刑法》第258条对“非法侵入计算系系统”的规定，构成非法获取计算机信息系统数据罪。

案例5知数公司v.s.彭某：爬虫与侵犯公民个人信息[10]

知数公司主要通过大数据信息为客户提供数据分析并收取费用。2018年，彭某在知数公司从事技术工作，负责数据处理、清洗、入库、算法。他通过工作账号远程登录公司的服务器数据库，从服务器上窃取数据到电脑并发送至手机，并结合在网页上公开扒取的数据，将二者加工、组合，运用算法推算出个人信息。彭某后将非法获取的个人信息用于出售。

法院认为，彭某的行为既未经公司同意，也未经数据属主的用户同意，属于非法获取数据行为，触犯了《刑法》第253条关于非法获取公民个人信息的规定，达到了最高院、最高检的《侵犯公民个人信息罪解释》量刑标准。

近年来，我国从法律法规层面开始专门规范爬虫相关行为，明确爬虫与公民隐私、不正当竞争等问题的关系。2017年6月施行的《网络安全法》第41条和44条规定，网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，要经被收集者同意，不得非法获取和出售个人信息。今年4月刚生效的新修《反不正当竞争法》也包含了新修订的互联网不正当竞争关系的相关内容，对解决未来互联网问题将带来巨大的帮助。若网站设置的爬虫协议符合传统标准、合理标准和自律公约，那么此网站的爬虫协议就应当被遵守。今年5月28日，国家互联网信息办公室发布《数据安全管理办法（征求意见稿）》，第16条就确立了利用自动化手段（网络爬虫）收集数据不得妨碍他人网站正常运行的原则，并明确了严重影响网站运行的具体判断标准。

最近正在征求意见的《个人金融信息（数据）保护试行办法》第十二条规定：“（金融机构）不得非法从从事个人征信业务活动的第三方获取个人金融信息”，第十八条规定：“金融机构不得以“概括授权”的方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意”。这份文件既强调了爬虫所得个人数据只能以合法合规的途径被金融机构应用，也明确了金融机构在保护客户数据上要承担责任，应认真审查已获得客户授权的第三方公司的数据请求。

从以上这些案例和法律看出，不管爬虫采取什么样的形式，发生在什么样的场合，我国法院对于爬虫案例的判决思路基本遵循如下几条原则：首先，判断爬虫是否经过授权，是否违反了正常的爬虫协议、非法侵入计算机系统；其次，判断数据是否涉及到公民隐私、商业信息和竞争，是否影响骚扰到网站正常运行；接着，根据数据使用场景，判断爬虫者处置数据是否侵犯了公民因素、形成了不正当竞争；最后，判断行为情节是否严重，影响是否恶劣。遵循这几条原则依次判断，成为裁决的一般思路。

近期互联网金融数据的爬虫案可能涉嫌违法的关键就在于第二和第三点，即所扒取的数据涉及到公民隐私，并在处置数据过程中侵犯了公民隐私。这些接口爬虫的数据来源渠道往往不合规，涉嫌违法获取和利用。有些借贷平台并没有独立的风控能力，借助专门的爬虫服务，以很低的成本从同业金融机构直接扒取客户的隐私数据，如身份验证、社交信息、银行账户等等，甚至直接套用同业机构的风控结果。而且，这些客户隐私数据也被不少现金贷平台用于风控之外的非法途径，如暴力催收、数据倒卖等，给社会造成了不稳定隐患。我国《刑法》第253条以及2017年5月8日最高法院、最高检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》都对此做出了严格入罪规定，这是目前爬虫行业人人自危的根源。

爬虫法律问题的未来展望

在互联网时代，爬虫的法律问题是一个混杂着数据产权和使用权、个人隐私、商业竞争、言论自由等议题的复杂争议点，涉及到民事责任和刑事责任。从上文可见，爬虫的种类和形式在变化，各国立法和司法界对爬虫的认知和规范也在不断的演化过程中。未来爬虫问题至少会在下面三点继续深化。

第一，以爬虫协议、网站使用条款等形式为主要代表的授权行为将是诉讼争辩的一个重点。爬虫协议、网站使用条款等可视为网站运营者对爬虫和用户的授权。授权是美国CFAA判断的主要标尺，也是我国司法实践中的第一个考量点，非常重要。在判断爬虫是否构成“未经授权”时，需认真分析所扒取的数据信息内容，包括数据信息是否公开可得、是否需要登录账户、数据归属、数据量大小等。hiQ v.s LinkedIn一案表明，信息的独占性和价值越弱，网站运营者所主张的合法权益被保护的必要性就越小。单方面通过技术和协议表达出来的授权规则，仅能作为法院支持侵权保护主张的参考要素之一。

第二，被扒取的数据公共性、归属权和处置权等产权问题将是诉讼争辩的一个焦点。美国司法的经典判例中，法官判词很少对数据性质和产权问题予以讨论。网站数据在多大程度上可被视为归属于运营者或用户，用户的信息和言论究竟被视为虚拟公共空间的自由言论，还是被网站运营者辛苦整理后成为了网站核心资产？如果是前者，经用户授权的爬虫者就有可能堂而皇之地获取信息，网站运营者的阻拦反而可能被冠以“阻拦信息传播权”、“违反言论自由权”的帽子，这会打击网站运营者的积极性。数据归属于谁，目前尚未成为我国司法判断的一个重要考量点，但今后也许会进入法官视野。当然，即使数据信息公开，如果爬虫者未妥善处理数据信息，侵犯了用户个人隐私，仍然会面临法律制裁。

第三，除了爬虫者本身需要考虑了法律合规问题，被扒取数据的数据控制方同样需要注意潜在的责任。首先，数据控制方必须得到数据属主即个人用户的授权，若在无授权的情况下与爬虫公司合作，则要负连带责任。其次，在得到用户授权的情况下，控制方也有管理责任，因为用户可能并不清楚他给第三方应用的爬虫授权会带来什么麻烦，理想情况下控制方应负有把关检查的责任，提醒用户，为用户把好关。《数据安全管理办法（征求意见稿）》第30条就规定，网络运营者对接入其平台的第三方应用须明确数据安全要求和责任，若对用户造成损失，则平台也要承担责任。

除了以上三点，爬虫的法律责任在什么情况下从民事上升到刑事责任等问题也在争议中。使用爬虫技术必须谨慎判断行为所处的法律边界，以免一步踏空，坠入违法犯罪的深渊。随着一系列法律法规的不断完善，在正当爬虫协议基础上开发的各种应用、遵守规则的爬虫行为和妥善的数据处置方法，将会让互联网生活变得更加便捷和美好，让公民隐私和正当的商业竞争得到保护。

（本文仅代表作者个人观点，不代表所在机构观点。）

[1]腾讯云鼎实验室《互联网恶意爬虫分析》

[2]参考资料：

https://mp.weixin.qq.com/s/w2TkUQZvhCs_xytSD7bOig

[3]参见

https://mp.weixin.qq.com/s/udRYPMwD6nKx5L0HSn888g

[4]同上

[5]参见

http://www.360doc.com/content/18/0106/14/35582399_719553427.shtml

[6]参见

https://finance.yahoo.com/news/linkedin-lawsuit-determine-whether-bots-right-free-speech-192631359.html，

https://www.infoq.com/news/2017/08/linkedin-ruling-scraping/

[7]参见

https://www.programmableweb.com/news/why-forcing-linkedin-to-allow-scrapers-sets-dangerous-precedent-api-economy/analysis/2017/08/15

[8]奇虎公司案例来自

https://www.chinacourt.org/article/detail/2014/08/id/1362043.shtml，

http://blog.sina.com.cn/s/blog_67743c3b0102v1y2.html等网站，

大众点评案例来自观韬中茂律所文章《网络爬虫行为典型法律风险及案例全解析》，

http://www.sohu.com/a/332685073_658347

[9]资料来源：游涛,计莉卉.2019.使用网络爬虫获取数据行为的刑事责任认定——以“晟品公司”非法获取计算机信息系统数据罪为视角.《法律适用·司法案例》。

周浩.利用网络爬虫获取数据的刑事责任分析.http://lawyeredu.pkulaw.cn/index.php?m=content&c=index&a=show&catid=10&id=823

[10]参见观韬中茂律所文章《网络爬虫行为典型法律风险及案例全解析》，

http://www.sohu.com/a/332685073_658347

上一篇：个人金融信息（数据）保护试行办法下数据合规“三大法宝”
下一篇：中信银行开放银行“开薪易”产品发布薪资发放支持他行卡

点击进入!

一步之遥即深渊爬虫刍议