留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

爬取公开数据行为的刑法规制误区与匡正

石经海,苏桑妮

downloadPDF
石经海, 苏桑妮. 爬取公开数据行为的刑法规制误区与匡正[J]. bob手机在线登陆学报(社会科学版), 2021, 23(4): 154-164, 172. doi: 10.15918/j.jbitss1009-3370.2021.4524
引用本文: 石经海, 苏桑妮. 爬取公开数据行为的刑法规制误区与匡正[J]. bob手机在线登陆学报(社会科学版), 2021, 23(4): 154-164, 172.doi:10.15918/j.jbitss1009-3370.2021.4524
SHI Jinghai, SU Sangni. Misunderstandings of Criminal Regulations of Crawling Public Data and the Corresponding Correction[J]. Journal of Beijing Institute of Technology (Social Sciences Edition), 2021, 23(4): 154-164, 172. doi: 10.15918/j.jbitss1009-3370.2021.4524
Citation: SHI Jinghai, SU Sangni. Misunderstandings of Criminal Regulations of Crawling Public Data and the Corresponding Correction[J].Journal of Beijing Institute of Technology (Social Sciences Edition), 2021, 23(4): 154-164, 172.doi:10.15918/j.jbitss1009-3370.2021.4524

爬取公开数据行为的刑法规制误区与匡正

——从全国首例“爬虫”入刑案切入

doi:10.15918/j.jbitss1009-3370.2021.4524
基金项目:2020年国家社科基金重点项目“认罪认罚从宽制度的刑法应对研究”(20AFX012);2020年重庆市教委科研创新项目“行政行为的出罪机能研究”(CYB20127);2021年重庆市新型犯罪研究中心项目“数据爬取行为的刑法规制误区与匡正”(21XXZF26)
详细信息
    作者简介:

    石经海(1970-),男,博士,教授,博士生导师,E-mail:1543379586@qq.com

    苏桑妮(1992-),女,博士研究生,E-mail:469043631@qq.com

  • 中图分类号:DF626

Misunderstandings of Criminal Regulations of Crawling Public Data and the Corresponding Correction

——Cut from the Country’s First “Crawler” Sentencing Case

  • 摘要:全国首例“爬虫”入刑案表现出司法实践过度规制爬取公开数据行为的现象。司法实践以技术判断为主导,扩张适用非法获取计算机信息系统数据罪。在立法规定以数据控制者的技术授权为依据认定爬取行为形式违法性的情况下,以数据的技术属性取代法律属性判断行为的法益侵害性,从而扩大本罪的适用范围。从法秩序统一原理和安全与发展并重的数据安全观来看,技术判断主导下的罪名扩张适用,不应成为刑法规制数据爬取行为的立场。相反,规制数据爬取行为应当坚守刑法谦抑性精神,将刑法规制手段的行使,限定在保护刑法已类型化规定的重要数据和维护计算机系统正常运行的范围内。其中,对于爬取刑法已类型化保护的公开作品数据行为,基于个案全部事实应受刑罚处罚的,应认定为侵犯著作权罪;对于爬取刑法未类型化规定的其他公开数据行为,不能适用非法获取计算机信息系统数据罪,但在爬取公开数据行为扰乱计算机系统正常运行且应受刑罚处罚时,可认定为破坏计算机信息系统罪。
  • 图 1微信公众号的爬虫协议

    图 2微博的爬虫协议

    图 3百度的爬虫协议

    图 4淘宝的爬虫协议

  • [1] 贺思聪. 爬虫实战: 从数据到产品[M]. 北京: 电子工业出版社, 2019: 1.
    [2] 陈丽英. 2019年度人民法院十大刑事案件[N]. 人民法院报, 2020-01-12(04).
    [3] 游涛, 计莉卉. 使用网络爬虫获取数据行为的刑事责任认定: 以“晟品公司”非法获取计算机信息系统数据罪为视角[J]. 法律适用, 2019(10): 3-10.
    [4] 刘艳红. 网络爬虫行为的刑事规制研究: 以侵犯公民个人信息犯罪为视角[J]. 政治与法律, 2019(11): 16-29.
    [5] 游涛. 利用网络爬虫技术获取网络“公开信息”的刑法规制: 上海晟品网络科技有限公司、张某某等非法获取计算机信息系统数据案[M]//李玉萍. 网络司法典型案例(刑事卷·2019). 北京: 人民法院出版社, 2020: 27–40.
    [6] 梅夏英. 在分享和控制之间 数据保护的私法局限与公共秩序构建[J]. 中外法学, 2019(4): 859-870.
    [7] 中国法制出版社. 中华人民共和国网络安全法: 实用版[M]. 北京: 中国法制出版社, 2018: 15.
    [8] 杨志琼. 数据时代网络爬虫的刑法规制[J]. 比较法研究, 2020(4): 185-200.
    [9] 丁晓东. 数据到底属于谁?: 从网络爬虫看平台数据权属与数据保护[J]. 华东政法大学学报, 2019(5): 69-83.doi:10.3969/j.issn.1008-4622.2019.05.006
    [10] 高铭暄, 赵秉志. 新中国刑法立法文献资料总览[M]. 北京: 中国人民公安大学出版社, 2015: 821.
    [11] 黄良永, 徐雨明. 大学计算机基础教程[M]. 成都: 电子科技大学, 2008: 5.
    [12] 任颖. 数据立法转向: 从数据权利入法到数据法益保护[J]. 政治与法律, 2020(6): 135-147.
    [13] 高铭暄, 马克昌. 刑法学[M]. 北京: 北京大学出版社, 2011: 536.
    [14] 王骏. 不同法域之间违法性判断的关系[J]. 法学论坛, 2019(5): 64-77.
    [15] 曹阳. 我国对违法“爬虫协议”行为的法律规制研究[J]. 江苏社会科学, 2019(3): 159-167.
    [16] 刘笑岑. 爬虫无罪?: “HiQ诉LinkedIn案裁决”节译[J]. 网络信息法学研究, 2018(2): 227-281.
    [17] 何渊. 大数据战争: 人工智能时代不能不说的事[M]. 北京: 北京大学出版社, 2019: 149.
    [18] 周光权. “刑民交叉”案件的判断逻辑[J]. 中国刑事法杂志, 2020(3): 3-20.
    [19] 彭波, 张璁, 倪弋. 迈出建设网络强国的坚实步伐: 习近平关于网络安全和信息化工作重要论述综述[N]. 人民日报, 2019-10-19(01).
    [20] 高富平. 数据流通理论 数据资源权利配置的基础[J]. 中外法学, 2019, 31(6): 1405-1424.doi:10.3969/j.issn.1002-4875.2019.06.002
    [21] 戴昕. 数据隐私问题的维度扩展与议题转换: 法律经济学视角[J]. 交大法学, 2019(1): 35-50.
    [22] 杨志琼. 非法获取计算机信息系统数据罪“口袋化”的实证分析及其处理路径[J]. 法学评论, 2018(6): 163-174.
    [23] 高能. 信息安全技术[M]. 北京: 中国人民公安大学出版社, 2018: 99.
  • [1] 齐志远.从数据到大数据技术:实践对传统主客二分的超越. bob手机在线登陆学报(社会科学版), 2022, 24(1): 181-186.doi:10.15918/j.jbitss1009-3370.2022.1746
    [2] 何叶华.论数据保护法的域外效力. bob手机在线登陆学报(社会科学版), 2021, 23(5): 161-168.doi:10.15918/j.jbitss1009-3370.2021.9938
    [3] 张红春, 邓剑伟, 邱艳萍.大数据驱动的透明政府建设——媒介选择与政民互动重构. bob手机在线登陆学报(社会科学版), 2020, 22(4): 60-69.doi:10.15918/j.jbitss1009-3370.2020.4826
    [4] 甘莅豪.大数据时代专家在舆论场中的公信力分析. bob手机在线登陆学报(社会科学版), 2019, (4): 181-188.doi:10.15918/j.jbitss1009-3370.2019.1459
    [5] 戚学祥.区块链技术在政府数据治理中的应用:优势、挑战与对策. bob手机在线登陆学报(社会科学版), 2018, (5): 105-111.doi:10.15918/j.jbitss1009-3370.2018.5150
    [6] 刘志坚, 丁国民.大数据视野下环境侵权诉讼证据制度的优化. bob手机在线登陆学报(社会科学版), 2018, (6): 138-146.doi:10.15918/j.jbitss1009-3370.2018.2979
    [7] 肖淑芳, 胥春悦, 刘珊珊.员工持股计划公告的市场反应——基于中国上市公司的经验数据. bob手机在线登陆学报(社会科学版), 2018, (4): 72-80.doi:10.15918/j.jbitss1009-3370.2018.1088
    [8] 孔昭君, 史文强, 韩秋露.大数据时代国防动员潜力调查之路. bob手机在线登陆学报(社会科学版), 2018, (1): 110-117.doi:10.15918/j.jbitss1009-3370.2018.2843
    [9] 李苏秀, 刘颖琦, ARI Kokko.新能源汽车产业公众意识培育策略——北京数据与国际经验. bob手机在线登陆学报(社会科学版), 2017, (3): 57-66.doi:10.15918/j.jbitss1009-3370.2017.1995
    [10] 鄢哲明, 邓晓兰, 杨志明.异质性技术创新对碳强度的影响——基于全球专利数据. bob手机在线登陆学报(社会科学版), 2017, (1): 20-27.doi:10.15918/j.jbitss1009-3370.2017.0103
    [11] 夏燕.“被遗忘权”之争——基于欧盟个人数据保护立法改革的考察. bob手机在线登陆学报(社会科学版), 2015, (2): 129-135.doi:10.15918/j.jbitss1009-3370.2015.0219
    [12] 陈亚芸.卫星遥感数据法庭可证据性法律问题研究. bob手机在线登陆学报(社会科学版), 2014, (3): 114-119.
    [13] 尹为, 张成虎, 甘凯.基于数据流多维分析的可疑金融交易动态识别. bob手机在线登陆学报(社会科学版), 2013, (5): 52-59.
    [14] 陈邦达.DNA数据库:实践、困惑与进路. bob手机在线登陆学报(社会科学版), 2013, (1): 114-122.
    [15] 王艳丽, 李强.对外开放度与中国工业能源要素利用效率——基于工业行业面板数据. bob手机在线登陆学报(社会科学版), 2012, (2): 27-33.
    [16] 罗剑朝, 王磊玲.农户融资绩效区域差异分析——基于1995—2009年面板数据的实证研究. bob手机在线登陆学报(社会科学版), 2012, (2): 15-21.
    [17] 石娟, 齐二石.数据挖掘技术在证券业营销策略分析系统中的应用. bob手机在线登陆学报(社会科学版), 2008, (5): 59-62.
    [18] 吴三忙, 李树民.经济增长与城乡收入差距演化——基于各省面板数据的实证分析. bob手机在线登陆学报(社会科学版), 2007, (3): 68-73.
    [19] 邢德海, 齐二石, 董旭源.基于SOA的国有银行数据集中管理系统分析与设计. bob手机在线登陆学报(社会科学版), 2007, (5): 86-89.
    [20] 陈洋, 李金林, 盖振华.数据库设计的新思路. bob手机在线登陆学报(社会科学版), 2001, (2): 33-36.
  • 加载中
图(4)
计量
  • 文章访问数:1173
  • HTML全文浏览量:735
  • PDF下载量:57
  • 被引次数:0
出版历程
  • 收稿日期:2020-09-27
  • 录用日期:2020-12-04
  • 网络出版日期:2020-12-15
  • 刊出日期:2021-07-15

爬取公开数据行为的刑法规制误区与匡正

——从全国首例“爬虫”入刑案切入

doi:10.15918/j.jbitss1009-3370.2021.4524
    基金项目:2020年国家社科基金重点项目“认罪认罚从宽制度的刑法应对研究”(20AFX012);2020年重庆市教委科研创新项目“行政行为的出罪机能研究”(CYB20127);2021年重庆市新型犯罪研究中心项目“数据爬取行为的刑法规制误区与匡正”(21XXZF26)
    作者简介:

    石经海(1970-),男,博士,教授,博士生导师,E-mail:1543379586@qq.com

    苏桑妮(1992-),女,博士研究生,E-mail:469043631@qq.com

  • 《2019年度人民法院十大刑事案件》一文称本案为“全国首例‘爬虫’技术侵入计算机系统犯罪案”,但事实上本案并非首例,此前已有“爬虫”入刑案,即武汉元光科技有限公司非法获取计算机信息系统数据案,无论是作案时间还是宣判时间均早于本案。此处的“首例”仅针对爬取公开数据而言,本案实则是爬取公开数据入刑第一案。广东省深圳市南山区人民法院〔2017〕粤0305刑初153号刑事判决书。
  • 2016年至2017年间,被告人张某某、宋某、侯某某作为被告单位上海晟品网络科技有限公司主管人员,在上海市共谋采用网络爬虫技术抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯某某指使被告人郭某破解北京字节跳动网络技术有限公司的反爬虫措施、实施视频数据抓取行为,造成被害单位损失技术服务费人民币2万元。2017年11月,北京市海淀区人民法院判决本案被告单位上海晟品网络科技有限公司、被告人张某某、宋某、侯某某、郭某构成非法获取计算机信息系统数据罪。北京市海淀区人民法院〔2017〕京0108刑初2384号刑事判决书。
  • IP,即 Internet Protocol,是指网络互连协议。判决原文为“IP”,考虑到爬虫技术的运用原理,此处“IP”应指 “IP地址”。
  • 北京市海淀区人民法院〔2017〕京0108刑初2384号刑事判决书。
  • 《网络安全法》第10条:“建设、运营网络或者通过网络提供服务,应当依照法律、行政法规的规定和国家标准的强制性要求,采取技术措施和其他必要措施,保障网络安全、稳定运行,有效应对网络安全事件,防范网络违法犯罪活动,维护网络数据的完整性、保密性和可用性。”
  • 北京百度网讯科技有限公司、百度在线网络技术有限公司起诉北京奇虎科技有限公司360搜索违反爬虫协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,复制网站并且生成快照向用户提供,构成不正当竞争,索赔人民币1亿元。北京市第一中级人民法院2014年8月判决被告北京奇虎科技有限公司侵权,赔偿原告经济损失及合理支出共计70万元。北京市第一中级人民法院〔2013〕一中民初字第2668号民事判决书。
  • 2015年北京微梦创科网络技术有限公司(新浪微博)起诉北京淘友天下技术有限公司、北京淘友天下科技发展有限公司(脉脉)非法抓取、使用新浪微博用户信息等不正当竞争行为。2015年北京市海淀区人民法院一审判决淘友公司构成不正当竞争,判令其停止涉案不正当竞争行为、消除影响,赔偿微梦公司经济损失200万元及合理费用208 998元。2016年12月30日,北京知识产权法院二审终审判决驳回上诉维持原判。北京知识产权法院民事判决书〔2016〕京73民终588号。
  • 乐视网信息技术(北京)股份有限公司起诉上海千杉网络技术发展有限公司经营的电视猫视频(MoreTV)软件,故意避开并破坏乐视公司的技术措施,以网络爬虫“盗链”的形式侵犯乐视公司著作权,构成不正当竞争行为,索赔人民币200万元。2016年6月22日北京市朝阳区人民法院判决上海千杉网络技术发展有限公司侵害乐视公司的信息网络传播权,并构成不正当竞争,判令其立即停止涉案著作权侵权行为及不正当竞争行为,并赔偿乐视公司经济损失及合理支出共计人民币522 040元。北京市朝阳区人民法院〔2015〕朝民(知)初字44290号民事判决书。
  • 如已经被刑法类型化保护的国家秘密、商业秘密、个人信息等。
  • 原文如此,应为“晟品”。
  • 根据2011年《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第11条的规定,“计算机信息系统”和“计算机系统”是指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等。因此,本罪中“计算机信息系统”的内涵具有宽泛性。
  • 《网络安全法》第27条中的“窃取网络数据”,是指未经他人允许,采用技术手段,获取网络中存储、传输、处理的数据的行为。
  • 爬虫协议,用以告知爬虫者哪些页面可以爬取,哪些页面不能爬取,是数据控制者对爬虫行为是否授权及授权范围的代表。
  • 限于篇幅,图2、图3、图4的爬虫协议排版有微调。
  • HiQ是一家为雇主提供分析服务的公司,其分析来源主要依托于职业社交网站LinkedIn(领英)上的公开信息。2017年5月,LinkedIn向HiQ发函要求其停止未经授权的访问和数据爬取行为,并针对HiQ设置了相应的技术手段防止其爬取相关数据。HiQ向法院提出了诉讼认为LinkedIn违法了加州宪法有关言论自由的规定以及加州的《反不正当竞争法》等;而LinkedIn则借此指控HiQ违反了美国联邦法律《计算机欺诈和滥用法》(CFAA)的规定,构成“未经授权或超越授权进入计算机系统并获取数据”的行为,构成犯罪。
  • 北京市第一中级人民法院〔2013〕一中民初字第2668号民事判决书。
  • 北京知识产权法院民事判决书〔2016〕京73民终588号。
  • DoS攻击,即拒绝服务(Denial of Service)攻击,是指攻击网络协议缺陷或直接消耗被攻击对象资源,让目标计算机或网络无法提供正常的服务或资源访问,使目标服务系统停止响应甚至崩溃。
  • 维基百科, https://en.wikipedia.org/wiki/Robots_exclusion_standard#History ,最后访问日期:2020年1月19日。
  • Then in September 1993 my Web server mailed me a report indicating someone had been retrieving an unusually large number of documents from my Web server. Further investigation indicated that at three points in time the same sequence of documents was retrieved at an enourmeous rate, in the order of 1 document per second. https://www.greenhills.co.uk/posts/robotstxt-25/ ,最后访问日期:2020年4月19日。
  • I found an email exchange with Wayne Allen at MCC dated 23 Sept 1993 where I complained about his frequent repeated automated downloads; so perhaps that was what motiviated me to try and do something about it. https://www.greenhills.co.uk/posts/robotstxt-25/ ,最后访问日期:2020年4月19日。
  • 中图分类号:DF626

摘要:全国首例“爬虫”入刑案表现出司法实践过度规制爬取公开数据行为的现象。司法实践以技术判断为主导,扩张适用非法获取计算机信息系统数据罪。在立法规定以数据控制者的技术授权为依据认定爬取行为形式违法性的情况下,以数据的技术属性取代法律属性判断行为的法益侵害性,从而扩大本罪的适用范围。从法秩序统一原理和安全与发展并重的数据安全观来看,技术判断主导下的罪名扩张适用,不应成为刑法规制数据爬取行为的立场。相反,规制数据爬取行为应当坚守刑法谦抑性精神,将刑法规制手段的行使,限定在保护刑法已类型化规定的重要数据和维护计算机系统正常运行的范围内。其中,对于爬取刑法已类型化保护的公开作品数据行为,基于个案全部事实应受刑罚处罚的,应认定为侵犯著作权罪;对于爬取刑法未类型化规定的其他公开数据行为,不能适用非法获取计算机信息系统数据罪,但在爬取公开数据行为扰乱计算机系统正常运行且应受刑罚处罚时,可认定为破坏计算机信息系统罪。

注释:
1) 《2019年度人民法院十大刑事案件》一文称本案为“全国首例‘爬虫’技术侵入计算机系统犯罪案”,但事实上本案并非首例,此前已有“爬虫”入刑案,即武汉元光科技有限公司非法获取计算机信息系统数据案,无论是作案时间还是宣判时间均早于本案。此处的“首例”仅针对爬取公开数据而言,本案实则是爬取公开数据入刑第一案。广东省深圳市南山区人民法院〔2017〕粤0305刑初153号刑事判决书。
2) 2016年至2017年间,被告人张某某、宋某、侯某某作为被告单位上海晟品网络科技有限公司主管人员,在上海市共谋采用网络爬虫技术抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯某某指使被告人郭某破解北京字节跳动网络技术有限公司的反爬虫措施、实施视频数据抓取行为,造成被害单位损失技术服务费人民币2万元。2017年11月,北京市海淀区人民法院判决本案被告单位上海晟品网络科技有限公司、被告人张某某、宋某、侯某某、郭某构成非法获取计算机信息系统数据罪。北京市海淀区人民法院〔2017〕京0108刑初2384号刑事判决书。
3) IP,即 Internet Protocol,是指网络互连协议。判决原文为“IP”,考虑到爬虫技术的运用原理,此处“IP”应指 “IP地址”。
4) 北京市海淀区人民法院〔2017〕京0108刑初2384号刑事判决书。
5) 《网络安全法》第10条:“建设、运营网络或者通过网络提供服务,应当依照法律、行政法规的规定和国家标准的强制性要求,采取技术措施和其他必要措施,保障网络安全、稳定运行,有效应对网络安全事件,防范网络违法犯罪活动,维护网络数据的完整性、保密性和可用性。”
6) 北京百度网讯科技有限公司、百度在线网络技术有限公司起诉北京奇虎科技有限公司360搜索违反爬虫协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,复制网站并且生成快照向用户提供,构成不正当竞争,索赔人民币1亿元。北京市第一中级人民法院2014年8月判决被告北京奇虎科技有限公司侵权,赔偿原告经济损失及合理支出共计70万元。北京市第一中级人民法院〔2013〕一中民初字第2668号民事判决书。
7) 2015年北京微梦创科网络技术有限公司(新浪微博)起诉北京淘友天下技术有限公司、北京淘友天下科技发展有限公司(脉脉)非法抓取、使用新浪微博用户信息等不正当竞争行为。2015年北京市海淀区人民法院一审判决淘友公司构成不正当竞争,判令其停止涉案不正当竞争行为、消除影响,赔偿微梦公司经济损失200万元及合理费用208 998元。2016年12月30日,北京知识产权法院二审终审判决驳回上诉维持原判。北京知识产权法院民事判决书〔2016〕京73民终588号。
8) 乐视网信息技术(北京)股份有限公司起诉上海千杉网络技术发展有限公司经营的电视猫视频(MoreTV)软件,故意避开并破坏乐视公司的技术措施,以网络爬虫“盗链”的形式侵犯乐视公司著作权,构成不正当竞争行为,索赔人民币200万元。2016年6月22日北京市朝阳区人民法院判决上海千杉网络技术发展有限公司侵害乐视公司的信息网络传播权,并构成不正当竞争,判令其立即停止涉案著作权侵权行为及不正当竞争行为,并赔偿乐视公司经济损失及合理支出共计人民币522 040元。北京市朝阳区人民法院〔2015〕朝民(知)初字44290号民事判决书。
9) 如已经被刑法类型化保护的国家秘密、商业秘密、个人信息等。
10) 原文如此,应为“晟品”。
11) 根据2011年《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第11条的规定,“计算机信息系统”和“计算机系统”是指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等。因此,本罪中“计算机信息系统”的内涵具有宽泛性。
12) 《网络安全法》第27条中的“窃取网络数据”,是指未经他人允许,采用技术手段,获取网络中存储、传输、处理的数据的行为。
13) 爬虫协议,用以告知爬虫者哪些页面可以爬取,哪些页面不能爬取,是数据控制者对爬虫行为是否授权及授权范围的代表。
14) 限于篇幅,图2、图3、图4的爬虫协议排版有微调。
15) HiQ是一家为雇主提供分析服务的公司,其分析来源主要依托于职业社交网站LinkedIn(领英)上的公开信息。2017年5月,LinkedIn向HiQ发函要求其停止未经授权的访问和数据爬取行为,并针对HiQ设置了相应的技术手段防止其爬取相关数据。HiQ向法院提出了诉讼认为LinkedIn违法了加州宪法有关言论自由的规定以及加州的《反不正当竞争法》等;而LinkedIn则借此指控HiQ违反了美国联邦法律《计算机欺诈和滥用法》(CFAA)的规定,构成“未经授权或超越授权进入计算机系统并获取数据”的行为,构成犯罪。
16) 北京市第一中级人民法院〔2013〕一中民初字第2668号民事判决书。
17) 北京知识产权法院民事判决书〔2016〕京73民终588号。
18) DoS攻击,即拒绝服务(Denial of Service)攻击,是指攻击网络协议缺陷或直接消耗被攻击对象资源,让目标计算机或网络无法提供正常的服务或资源访问,使目标服务系统停止响应甚至崩溃。
19) 维基百科, https://en.wikipedia.org/wiki/Robots_exclusion_standard#History ,最后访问日期:2020年1月19日。
20) Then in September 1993 my Web server mailed me a report indicating someone had been retrieving an unusually large number of documents from my Web server. Further investigation indicated that at three points in time the same sequence of documents was retrieved at an enourmeous rate, in the order of 1 document per second. https://www.greenhills.co.uk/posts/robotstxt-25/ ,最后访问日期:2020年4月19日。
21) I found an email exchange with Wayne Allen at MCC dated 23 Sept 1993 where I complained about his frequent repeated automated downloads; so perhaps that was what motiviated me to try and do something about it. https://www.greenhills.co.uk/posts/robotstxt-25/ ,最后访问日期:2020年4月19日。

English Abstract

石经海, 苏桑妮. 爬取公开数据行为的刑法规制误区与匡正[J]. bob手机在线登陆学报(社会科学版), 2021, 23(4): 154-164, 172. doi: 10.15918/j.jbitss1009-3370.2021.4524
引用本文: 石经海, 苏桑妮. 爬取公开数据行为的刑法规制误区与匡正[J]. bob手机在线登陆学报(社会科学版), 2021, 23(4): 154-164, 172.doi:10.15918/j.jbitss1009-3370.2021.4524
SHI Jinghai, SU Sangni. Misunderstandings of Criminal Regulations of Crawling Public Data and the Corresponding Correction[J]. Journal of Beijing Institute of Technology (Social Sciences Edition), 2021, 23(4): 154-164, 172. doi: 10.15918/j.jbitss1009-3370.2021.4524
Citation: SHI Jinghai, SU Sangni. Misunderstandings of Criminal Regulations of Crawling Public Data and the Corresponding Correction[J].Journal of Beijing Institute of Technology (Social Sciences Edition), 2021, 23(4): 154-164, 172.doi:10.15918/j.jbitss1009-3370.2021.4524
  • “爬虫”,即自动从互联网上抓取对于人们有价值的信息的技术[1]。运用“爬虫”,按照一定规则自动获取数据的行为,被称之为“爬取行为”。如此行为,作为运用现代化信息技术的典型代表,同样是一把可用之推动经济社会发展与实施违法犯罪的“双刃剑”。被称为“全国首例‘爬虫’入刑案”并入选了2019年度人民法院十大刑事案件[2]的上海晟品网络科技有限公司非法获取计算机信息系统数据案,就是因为其“爬虫”行为被认定为侵害了“数据安全”而被追究刑事责任。然而,本案基于技术层面数据载体的保密性,将爬取信息内容公开且处于公众可访问状态数据的行为,认定为非法获取计算机信息系统数据罪,存在以技术判断主导定罪的刑法扩大化适用嫌疑,这不仅有违法秩序统一原理,而且还会阻碍数据资源的最大化利用,不宜作为“现代信息技术的国家治理体系和治理能力现代化”的刑事司法导向。

    • 在首例“爬虫”入刑案中,法院认为被告单位及被告人违反国家规定,采用网络爬虫技术破解了被害公司的反爬虫技术措施,使用“tt_spider”文件实施了对公开视频数据的爬取行为。细言之,行为人在数据爬取过程中使用伪造设备身份(device_id)绕过服务器的身份校验,使用伪造用户代理(User-Agent)及网际协议地址(IP)绕过服务器的访问频率限制,造成被害单位损失技术服务费人民币2万元,情节严重,构成非法获取计算机信息系统数据罪

      令人费解的是,本案中被爬取的视频数据属于公开数据,即视频数据的信息内容已经公开且处于可访问状态,尽管被害平台没有提供视频数据的下载服务,而行为人借由网络爬虫技术获取了一般用户只能线上浏览的数据,在此意义上确为未经授权之举,但是,对此类爬取公开数据的行为,是否值得动用刑罚手段予以制裁?进言之,对于信息内容公开的视频数据,采用网络爬虫技术获取视频与采用录屏的方式获取视频,在行为危害性上有何不同?如果仅仅是因为前者获取了后者不能获取的0或1的数据代码,那么不得不回答的问题是,若视频数据代码的价值就在于视频内容的呈现,还是否有必要动用刑法保护视频内容已经公开的数据代码?实际上,获取公开数据的目的通常在于对数据的再次利用,如获取本案的视频数据后可再次用于播放牟利,这属于不正当竞争中典型的“搭便车”行为,可能构成民事侵权。那么,如果公开数据的再次利用行为尚且只是民事侵权行为,何以对公开数据的获取行为却要动用刑法予以规制呢?其实,深入本案细节,确有这样两个问题值得进一步思考。

      首先,本案爬取公开数据的行为是否存在形式层面的刑事违法性,即是否符合刑法分则的罪状规定?本案中,行为人违反爬虫协议、突破反爬措施获取公开数据的行为属于无权访问,被认定为“违反国家规定”,符合《刑法》第285条第2款非法获取计算机信息系统数据罪的构成要件,具有形式违法性。详言之,从本罪罪状来看,“侵入前款规定以外的计算机信息系统或者采用其他技术手段”的规定已经将网络爬虫技术包含在内,认定爬取行为是否构成本罪的关键,在于爬取行为是否“违反国家规定”,对此又往往依据是否获得数据控制者授权来认定。继而,通过是否违反爬虫协议或是否破解反爬措施,来判断爬取行为是否具备数据控制者授权,并以此作为形式违法性的判断标准,是司法实践中的常态[3]3-10。此观点不乏学者支持,如有学者认为,形式上违反爬虫协议以及绕开反爬程序或实质上突破权限许可范围的网络爬虫行为,满足“非法获取”之“非法”[4]16-29“需要结合爬虫技术的Robots协议,将遵循该协议的爬虫行为定性为善意爬取,将违反此协议的诸如破解反爬措施的行为定性为恶意爬取。”[4]24然而,数据控制者授权是否能够等同于规范授权?换言之,未经数据控制者授权的爬取行为是否就违反了民法或行政法上的规定,甚至不能被刑法所容忍?并且,用数据控制者授权与否来决定爬取行为是否具有形式层面的刑事违法性,若规定如此,是否具有合理性?

      其次,本案中爬取公开数据的行为是否具有实质层面的刑事违法性,即是否侵害了刑法保护的法益?本案主审法官认为:“被告单位的行为已经侵犯了被害单位计算机信息系统和数据的安全性中的‘保密性’这一法益。”[3]5此观点以《网络安全法》第10条的规定作为法律依据,该条规定了维护网络安全的总体要求,包括“维护数据的完整性、保密性和可用性”。然而,本案被爬取的数据是公开数据,即信息内容公开且处于公众可访问状态的数据,如何理解公开数据的“保密性”?对此,本案主审法官进一步认为,尽管本案中的视频内容处于公开状态,但是加工视频内容过程中冗余的各类计算机语言、文字、代码却是保密的,因此视频内容公开并不意味着视频数据公开,本案爬取行为侵害了视频数据的保密性[5]37。但是,在视频内容已经公开的情况下,计算机科学意义上代码层面的视频数据又是否值得动用刑法来保护?刑法保护数据安全的核心究竟在于对字符代码的保护还是在于对数据信息的保护?非法获取计算机信息系统数据罪中的“数据”是否就当然是指技术层面的字符代码?

      事实上,此前不当使用网络爬虫技术获取数据的行为,多被法院认定为不正当竞争纠纷或其他民事侵权案件,如百度诉奇虎360搜索引擎违反爬虫协议案、新浪微博诉脉脉抓取新浪用户信息不正当竞争案、乐视网诉电视猫非法盗链侵权及不正当竞争纠纷案等。那么回到本案,在爬取对象并非刑法已类型化保护的重要数据并处于公开状态,且爬取行为没有侵害被害单位计算机信息系统稳定运行状态的情况下,基于数据安全保护而对该行为处以刑罚是否用力过猛?正如学者所言:“现有司法实践存在用力过猛的现象。如上海晟名网络科技有限公司、侯某某等非法获取计算机信息系统数据罪一案中……行为人抓取的是可由被授权用户正当访问的开放数据,亦即这些信息可由一般用户合法获得,从行为不法和结果不法的后果看是否构成犯罪,尚有斟酌余地。”[6]

    • 通过分析 “爬虫”入刑案可知,以往多作为不正当竞争纠纷或民事侵权案件处理的爬取公开数据行为之所以被判处刑罚,是因为本案以技术判断为主导扩张了非法获取计算机信息系统数据罪的适用范围。具体而言,刑事立法上以数据控制者授权与否决定爬取行为形式违法性的规定,未必具有合理性,毕竟技术授权只是单方面的意思表示,缺少规范授权对各方利益的衡平。而在进一步对爬取行为实质违法性的审查上,司法者又以被爬取数据的技术属性取代法律属性来判断爬取行为的法益侵害性,但是技术属性是数据在计算机科学意义上的物理本质,不当然等同于数据的法律属性。技术判断主导下的立法规定与司法认定,共同导致了刑法对公开数据爬取行为的扩张规制。

    • 分析全国首例“爬虫”入刑案的定罪逻辑可以发现,本案对行为形式违法性的判断以是否违反数据控制者的技术授权为依据。详言之,本案认定爬取行为符合非法获取计算机信息系统数据罪规定的关键,在于确认爬取公开数据的行为违反了数据控制者的授权,这一逻辑来源于本罪及相关法律法规的规定。

      《刑法》第285条第2款非法获取计算机信息系统数据罪规定,“违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,……情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金。”基于“计算机信息系统”内涵的宽泛性,几乎所有获取计算机数据的行为均满足“侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”的规定,更不必说网络爬虫技术当然属于“技术手段”。同时,本罪的“情节严重”具有低门槛性,2011年最高人民法院、最高人民检察院《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(简称《计算机安全解释》)第1条规定,“违法所得5 000元以上或者造成经济损失1万元以上的”,即可被认定为“情节严重”,在当下社会经济条件下极易满足。这便使得认定爬取行为符合本罪罪状规定的重点,在于判断行为是否具有“违反国家规定”的违法性条件。而此处的“国家规定”通常对接《网络安全法》第27条,该条规定任何个人和组织不得从事窃取网络数据等危害网络安全的活动。同时,本条中的“窃取”,主要具有未经他人授权而获取的意涵[7]15。基于此,司法实践形成了以是否违背数据控制者授权来判断是否“违反国家规定”的常态。正如有学者所言,“在以往的刑事案件中,司法人员通过分析用户身份认证信息机制明确访问者的授权状态和范围,并在此基础之上对行为人是否具备授权或超越授权进行论证,形成了刑法 285 条第 2 款司法适用的常态。”[2]

      进言之,数据控制者的技术授权主要表现为设置技术措施和设置非技术措施两种,也有学者将表明数据控制者技术授权的措施称为“技术措施”与“合约授权”[8]。前者是指防止他人任意获取数据的技术性手段,如身份验证、访问次数限制等;后者是指允许或禁止他人获取数据的意思表示,如网站设置的爬虫协议、权责声明、使用条款等。其中,绕过数据控制者设置的技术措施的行为,通常会因为威胁到计算机信息系统安全而被禁止,如《网络安全法》第27条同样规定了禁止非法侵入他人网络。故绕过数据控制者设置的技术措施而获取数据的行为,通常违反了国家规定,符合《刑法》第 285 条第 2 款的罪状描述,而具有形式违法性,全国首例“爬虫”入刑案正是如此。具体而言,本案主审法官通过分析爬取行为破解了被害单位的反爬虫措施,而认定行为“属于没有取得被害单位的授权非法获取网页信息和数据”[5]31-33。同时,本案主审法官也认可司法实务根据爬取协议判断“爬取行为是否获得合法授权”[5]33。因为,仅仅违反数据控制者“合约授权”获取数据的行为,也会因符合《网络安全法》第27条以“未经授权”为核心的“窃取网络数据”的规定,而被认为是“违反国家规定”的行为,符合《刑法》第285条第2款的罪状规定,具有形式违法性。可见,《刑法》和其他网络安全相关法律法规的规定决定了,爬取公开数据的行为是否具有形式违法性取决于该行为是否违反了数据控制者的技术授权。

      然而,数据控制者授权是否当然等同于规范授权?换句话说,以数据控制者的授权与否决定爬取公开数据行为形式违法性的规定,是否具有合理性?实际上,数据控制者的授权仅仅是技术授权而非规范授权,规范授权通常需要经过复杂的个人利益、社会利益乃至国家利益的衡量,而技术授权只不过是数据控制者单方面的意思表示,这背后承载的是数据控制者的私利,未必具有合理性。以充分体现数据控制者是否授权及授权范围的爬虫协议[9]71为例,当前实务界均认可通过爬虫协议来确认网络爬虫行为是否获得了数据控制者的授权,并以此作为判断网络爬虫行为是否“非法”的标准[3]6。但是,分析典型数据平台的爬虫协议可以发现,这些爬虫协议极具不平等性,其背后隐藏着大型互联网企业垄断数据资源的目的。分析分别代表网络通讯、搜索引擎、社区博客、网络购物领域的大型门户网站——微信公众号、百度、新浪微博、淘宝的爬虫协议可知:如图1所示,在微信公众号的爬虫协议中,“User-Agent:*”显示出微信公众号并未区分不同爬虫来源,而用“Disallow:/”禁止所有爬虫访问除“Allow”所允许目录之外的其他任何数据;如图2所示,与微信公众号不同的是,新浪微博的爬虫协议区分了具体的爬虫来源,允许“Baiduspider”(百度爬虫)“360Spider”(360爬虫)“Googlebot”(谷歌爬虫)等8个爬虫来源访问其一切数据,禁止其他用户爬取除“/ads”目录以外的任何数据;如图3所示,百度的爬虫协议同样区分了具体的爬虫来源,对于其列举的“Googlebot”(谷歌爬虫)“Sogou web spider”(搜狗网页爬虫)等15个特定企业爬虫,百度允许其访问一定类型的数据,但对于其他爬虫则以“Disallow:/”一律禁止访问任何数据;最后,如图4所示,淘宝的爬虫协议仅对“Baiduspider”(百度爬虫)“Googlebot”(谷歌爬虫)等7个特定爬虫开放特定类型的数据,而禁止其他普通用户爬取数据。

      图 1微信公众号的爬虫协议

      图 2微博的爬虫协议

      从上述爬虫协议可以看出,作为海量数据实际控制者的数据平台仅允许个别大型互联网企业抓取极其有限的数据,而禁止其他普通用户获取其数据。这种爬虫协议所代表的授权背后,一方面,反映出数据控制者垄断数据资源的思想,毕竟数据控制者开放的数据资源极其有限,若严格按照爬虫协议执行,几乎没有任何有价值的数据可以获取或流动;另一方面,则反映出信息时代的不平等问题,同样是使用网络爬虫技术,大型互联网企业尚可以爬取一部分数据,普通网络用户则被拒之门外,而信息不平等结果往往是实质的不平等,当前已经显现的“大数据杀熟”则是例证。

      图 3百度的爬虫协议

      图 4淘宝的爬虫协议

      其实,尽管爬虫协议被称作“协议”,但并非一般私法意义上的合同,而仅代表网站等数据控制者的单方意思表示,不构成技术上有效的保护措施。且相对于规范授权而言,其形成由于缺乏不同利益主体的广泛参与,作为评价依据的正当性就需要经受公平正义的审查。同理,数据控制者的授权就更是如此,当前数据权属尚不明晰,数据控制者只是数据的实际控制人,远远谈不上“所有权”人,故将数据控制人的技术授权作为形式违法性判断依据的做法,必须要接受法益侵害性判断的实质违法性审查。

    • 基于刑法以及保护网络安全相关法律法规的规定,未经授权爬取公开数据的行为在形式上符合《刑法》285条第2款,具有形式违法性。但是,技术授权不当然等同于规范授权,爬取公开数据的行为是否构成犯罪还需要经过实质违法性的审查。在进一步认定爬取公开数据行为是否具有法益侵害性的实质违法性审查上,司法实践存在以数据的技术属性取代法律属性的误区。

      全国首例“爬虫”入刑案的主审法官认为,本案爬取公开数据的行为侵犯了数据安全性中的“保密性”这一法益,因为视频内容公开仅仅是信息公开,视频数据还处于保密状态[3]5。具体是,认为数据是信息与数据冗余之和,视频数据包括“数字化的视频信息以及处理、加工视频信息过程中冗余的计算机语言、文字、代码、字符等;而视频信息,则指的是可视化内容”,因此信息内容公开不等于数据公开。此外,“信息公开,只是数据中原本数据化了的信息经过处理后内容公开了,数据依然存储在数据的硬件载体之中,在信息内容被展现的过程中,数据在被传输、处理但没有公开。”[5]37总结来说,在全国首例“爬虫”入刑案中,法院认为公开视频数据的“保密性”体现为如下两点:其一,视频数据中不展现视频信息内容的其他冗余数据处于保密状态;其二,展现视频内容的数据代码在视频被展现的过程中只是在被传输、处理,其依然存储在数据硬件载体之中,同样处于保密状态。可以看出,本案中公开视频之数据保密性的认定,以严格区分载体层面上的数据和内容层面上的信息为前提,并回归于数据的技术属性层面,认为非法获取计算机信息系统数据罪规制的是侵害数据载体保密性的行为。

      然而,数据的技术属性并不当然等同于其法律属性,并非对技术层面的数据载体赋予“保密性”的要求后,数据保密性便当然成为了刑法保护之法益。实际上,无论是从刑法罪名体系的设置、司法解释的具体规定还是从数据的价值原理来看,数据的法律属性恰恰体现在其所承载的信息内容上,对于信息内容已经公开之数据的爬取行为反而以保护数据载体保密性为由予以刑法规制,会扩大爬取公开数据行为的入罪范围。

      首先,根据刑法的罪名体系来看,数据安全的核心正是在于对数据信息内容的保护,因此数据的法律属性体现在数据所承载的信息内容上,通过保护技术层面上数据载体的保密性来用刑法保护信息内容已经公开的数据载体,扩大了爬取公开数据行为的入罪范围。从刑法罪名体系来看,中国刑法规定有“非法获取国家秘密、情报罪”“非法获取军事秘密罪”“侵犯商业秘密罪”“侵犯公民个人信息罪”等罪名,分别对非法获取国家秘密、国家情报、军事秘密、商业秘密、个人信息等重要数据的行为进行规制。可见,通过对数据的不同内容予以充分价值评价,中国刑法形成了一套以信息为本位的保护体系,对承载着包括国家安全、国防利益、市场经济秩序、公民个人权利等信息内容的重要数据予以不同程度的类型化保护,数据的法律属性恰是体现在其所承载的信息内容上。因此,回归数据的技术属性以保护信息内容已经公开的数据载体,在一定程度上扩大了刑法规制爬取公开数据行为的范围。

      其次,尽管《刑法》第285条第2款规定了非法获取计算机信息系统数据罪的行为对象是“计算机信息系统数据”,但是从2011年最高人民法院、最高人民检察院《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第1条认定“情节严重”的规定来看,本罪仍是以“身份认证信息”等信息为重点规制对象,如规定“获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息10组以上的”或获取上述以外的身份认证信息500组以上的,属于本罪规定的“情节严重”。此外,《刑法修正案(七)》增设本罪的动因本就在于规制“不法分子利用技术手段非法侵入计算机系统,窃取他人账号、密码等信息”的行为[10]。可见,不能简单地将非法获取计算机信息系统数据罪中的“数据”理解为技术属性层面上的数据载体,而应当以信息内容为核心限缩本罪的规制对象。对于信息内容已经公开之数据的爬取行为,若以保护数据载体保密性为由动用本罪予以规制,则扩张了刑法规制爬取公开数据行为的范围。

      最后,从数据的价值原理来看,数据的价值也正是体现在其信息内容上,以数据载体保密性为刑法法益保护不能展现信息内容的其他冗余数据,无疑扩大了刑法规制爬取公开数据行为的范围。在计算机科学层面上,数据是指输入到计算机信息系统并能被计算机信息系统处理的数字、文字、符号、声音和图像等[11]。但是,“数据的价值不是这一计算机二进制存在本身,而是数据所承载的身份信息、消费倾向等利益内容”[12],正是因为数据从财产价值延伸到人身安全、隐私、名誉、公共秩序、国家安全等非财产层面的信息价值层面,甚至数据本身的财产价值通常也来源于其所承载的消费倾向等信息价值,才使得数据具有保护的必要性。因此,法律上关注的数据并非是在计算机科学等技术意义上仅以0和1二进制单位表示的字符,而是数据所承载的信息内容。纵使在大数据技术迅猛发展的今天,法律上关注的数据至少也应当具有信息价值可能性。正因如此,刑法学者将刑法中的“计算机信息系统数据”定义为,在计算机信息系统中实际处理的一切文字、符号、声音、图像等“内容有意义的组合”[13]

      可见,数据的技术属性并非其法律属性,数据的法律属性表现在其所承载的信息内容之上,将不具有信息价值可能性的数据纳入刑法的规制范围,是将数据的技术属性等同于数据的法律属性来判断行为的法益侵害性的做法,扩大了爬取公开数据行为的刑法规制范围。

    • 当前对于爬取公开数据行为的刑法规制,在立法上以数据控制者的技术授权为依据判断行为的形式违法性,并在实质违法性的审查上,以数据的技术属性取代法律属性判断法益侵害性,总体上以技术判断为主导扩张了刑法对爬取公开数据行为的规制范围。这种刑法扩张是否合理且必要?或者说,为了保护数据安全,刑法能否以数据控制者的授权为依据扩张刑法罪名的适用范围以保护数据载体的保密性?答案是否定的。因为无论是根据法律体系层面上的法秩序统一原理,还是根据数据治理层面上的数据安全观来看,对于爬取公开数据行为的刑法规制应当坚持刑法谦抑的立场。

    • 法秩序统一原理是处理不同部门法之间矛盾时应遵循的基本原理,是指由宪法、民法、刑法等多个法领域构成的法秩序之间不应存在相互冲突的解释[14]。在爬取公开数据行为的规制上,遵循法秩序统一原理意味着,不能将在民法上被认为合法的爬取行为认定为犯罪。然而,在技术判断主导下扩张刑法规制爬取公开数据行为的范围,并具体在立法上以行为是否违反数据控制者授权来判断行为形式违法性的结果是,刑法先民法一步对未经授权爬取公开数据的行为进行了刑事制裁。但违反技术授权爬取公开数据的行为是否具有民事违法性,还犹未可知,这可能致使民法上不认为违法的行为却在刑事上违法,严重违背了法秩序统一原理。事实上,无论是从以爬虫协议还是爬取行为的性质来看,未经授权爬取公开数据行为在民法上未必具有违法性。

      一方面,从爬虫协议的性质来看,爬虫协议本身属于“君子协议”并非一般私法意义上的合同,仅代表网站等网络内容服务商的单方意思表示,不构成技术上有效的保护措施,如同“一扇虚掩的门”[15]。因此,违反爬虫协议的行为并不是民法上的违约行为。尽管有观点认为“最好在爬虫协议中放入自然语言以及相关的法律条文,并将爬虫协议与其网站的使用协议进行关联,从而将原本由计算机语言表达的含义通过法律语言及法律协议的形式进行表达,让爬虫协议通过合同的形式具有法律涵义”[5]34,但这种情况下的爬虫协议类似于格式条款,极有可能因为违反公平原则而无效,毕竟爬虫协议诚如前文所言具有严重的不平等性。因此,违反爬虫协议爬取公开数据的行为未必具有民事违法性。

      另一方面,从爬取行为的性质来看,未经授权爬取公开数据的行为未必构成民事侵权。事实上,确有案例认为未经授权爬取公开数据的行为合法,而认定对爬取公开数据行为实施技术阻碍的行为不正当。如在美国HiQ诉LinkedIn(领英)案[16]228-240中,HiQ利用爬虫技术获取LinkedIn网站上的公开简历信息,而被后者指控是“未经授权或超越授权进入计算机系统并获取数据”的犯罪行为,违反美国联邦法律《计算机欺诈和滥用法》(CFAA)的规定。然而,法院最终认定LinkedIn采取技术手段阻止HiQ爬取公开数据的行为属于垄断行为,认为LinkedIn滥用了其在职业社交网络市场中的优势地位,以达到抑制竞争的目的[16]228-240。当然,本案发生在美国,并不当然能为中国案件提供指导,但其中所呈现出的法律原理却可以为中国解决类似案件提供参考。实际上,考虑到互联网的锁定效应和巨头互联网企业在相关市场中的领先地位,要想获得相关信息作为原始数据进行进一步挖掘分析,几乎不可能绕开这些巨头数据平台。然而,这些巨头数据平台为了维护企业利益往往具有天然的垄断与抑制竞争倾向。并且,从公共利益的角度来看,选择公开信息的用户可能已经预期到他们公开的信息将被搜索、挖掘、整合及分析,那么未经数据控制者授权爬取公开数据的行为,并不违反数据主体的意愿。此外,如果赋予企业等私主体以任意理由阻止他人获取其网站上公开可见信息的权利,不仅会侵蚀互联网的公共属性,更会对数据资源的最大化利用造成威胁[17]。因此,出于对推动数据资源发展与利用的考量,未经数据控制者授权爬取公开数据的行为未必具有不正当性,相反,数据控制者阻碍其他个体获取公开数据反而有可能因为滥用市场优势地位而属于垄断行为。

      那么,基于法秩序统一原理,由宪法、刑法、民法等多个法领域构成的法秩序之间不能相互矛盾,“如果某一个行为的选择在民商法上有争议,甚至该行为被民商法所允许或容忍,就可能成为‘出罪’的理由。”[18]在爬取公开数据行为于民法、经济法等前置法而言尚且谈不上违法或至少存在争议的情况下,刑法更应该坚守其谦抑性而否定行为的刑事违法性,此乃法秩序统一原理的应然要求。实际上,即便爬取公开数据行为具有民事违法性,也不过是为定罪提供了底线支撑,当民事违法不存在时,则应该断然否定行为的刑事违法性。因此,在刑事立法以数据控制者授权为核心判断爬取行为形式违法性的已有规定下,司法者应当坚守刑法谦抑性精神,先行考虑未经授权爬取公开数据的行为在民法、经济法等前置法上的违法性,而不应径行认定行为符合《刑法》第285条第2款的罪状规定,否则可能将民法上不违法的行为处以刑事处罚而违反法秩序统一原理。

    • 根据维护数据安全与促进数据开发利用并重的数据安全观的要求,刑法规制公开数据爬取行为应当坚持刑法谦抑性精神,不能将数据载体保密性作为刑法保护法益以扩张刑法规制爬取公开数据行为的范围,否则会抑制数据资源的利用和数字经济的发展。

      在数据安全保护方面,中国坚持维护数据安全与促进数据开发利用并重的数据安全观。2018年4月在全国网络安全和信息化工作会议上,习近平总书记深入阐述了网络安全与信息化发展并重的国家网络安全观:“做好网络安全和信息化工作,要处理好安全和发展的关系,做到协调一致、齐头并进,以安全保发展、以发展促安全。”[19]因此,合理维护网络安全要坚持促进发展和依法管理相统一,既要大力培育人工智能、物联网、下一代通信网络等新技术新应用,又要积极利用法律法规和标准规范引导新技术应用。在网络安全与信息化发展并重的网络安全观指导下,维护数据安全与促进数据开发利用并重的数据安全观应运而生,2020年《数据安全法(草案)》第12条规定:“国家坚持维护数据安全和促进数据开发利用并重,以数据开发利用和产业发展促进数据安全,以数据安全保障数据开发利用和产业发展。”

      可见,维护数据安全与促进数据开发利用并重的数据安全观要求,对于数据安全的保护不能阻碍数据要素市场的发展和数据资源的利用,保护数据安全的目的说到底在于为数据开发利用保驾护航。对此,《数据安全法(草案)》第5条规定:“国家保护公民、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展,增进人民福祉。”此外,2020年3月中共中央国务院《关于构建更加完善的要素市场化配置体制机制的意见》提到,要加快培育数据要素市场,促进要素自主有序流动,提高要素配置效率,提升社会数据资源价值。正如《数据安全法(草案)》的规定所表明的,数据开发利用的关键正是在于数据流动,因为与物质商品不同,数据流动不会减损其价值,数据价值的呈现反而依赖于数据的流通和汇集。通俗来说,数据越多、越分享、越不同,价值就越大。一方面,大数据具有低密度性,这表明分散、孤立存在的单个数据价值较低甚至可以忽略不计,而单个价值较小的数据汇集在一起则可以呈现多维度的信息价值,发挥“一加一大于二”的效果。另一方面,数据也并非只要量大就具有价值,同一对象的数据可以被若干不同主体从多个不同维度采集,唯有通过不同维度的采集才能发现数据的相互联系,数据正是在这不断地流动匹配中同时对多个利用主体形成不同价值,实现数据资源的最大化利用[20]。同时,数据和数据价值的非消耗性也决定了数据流动之后并不会妨碍原数据控制者对相同数据的利用。

      以数据载体保密性为刑法法益规制爬取公开数据的行为,不仅不能促进数据资源发展,反而可以预见地会抑制数据流动。基于互联网的锁定相应,在互联网巨头已经控制了海量数据的基础上,其他年轻公司意图越过互联网巨头获取数据几乎不可能实现。绝大部分互联网小微企业既没有大型互联网企业的影响力以实现数据自动汇集,又没有向专业数据产品平台购买数据的资产。况且在大型互联网企业决定了流程设计、交易执行的情况下,年轻公司也根本没有与互联网巨头就产品和服务议价的能力,利用网络爬虫技术自主采集数据往往是其发展的唯一选择。如以企业征信为核心业务的小微企业需要运用网络爬虫技术,爬取大众点评等点评类网站的社会舆论评价数据、新浪微博等社交媒体网站的企业影响力关联数据、58同城等招娉网站的公司人员类型及薪资等数据,以维持其运营。但是,正如百度、淘宝等大型数据平台的爬虫协议所显示的,绝大部分已有数据资源积累的企业甚至部门,出于利益、观念等多重因素的考虑,他们有动力去构建数字围栏,却未必有动力去推动数据共享。在他们已经在搜索引擎、社交媒体、电子商务等方面圈起各自势力范围的情况下,确实为消费者提供过更便宜更优质的服务,但面向未来却可能抑制创新。那么可想而知,如果扩张刑法基于保护数据载体保密性来规制爬取公开数据的行为,则控制海量数据的平台将会以刑罚为武器抑制公开数据的流动,阻碍数据资源的最大化利用。毕竟,“为了支持自身对其在用户个人信息之上处理获得的数据资源享有独占权益,互联网企业在技术、市场(合同)和规范(创造权利话语)这几个角度都已有所着力,就差法律对‘企业数据权’的概念加以确认这一锤定音了”[21]

      可见,若以数据载体保密性为刑法法益不加区别地规制爬取公开数据的行为,容易造成大型数据平台出于私利割据数据资源,加重普通群众与互联网巨头之间的数据鸿沟,阻碍数据开发利用。因此,基于维护数据安全与促进数据开发利用并重的数据安全观,刑法在出于保护数据安全而规制爬取公开数据的行为时,必须兼顾促进数据产业发展的要求,坚守刑法谦抑性精神。可以说,以数据载体保密性为刑法保护法益扩张刑法规制爬取公开数据行为的范围,既不合理也无必要。

    • 基于规制数据爬取行为应当坚持的刑法谦抑立场,不应扩张适用非法获取计算机信息系统数据罪来规制爬取公开数据的行为。在刑事立法以数据控制者授权为依据决定爬取行为形式违法性的现有规定下,对于爬取公开数据行为的刑法规制,只能限于保护刑法已经类型化规定的重要数据和保护计算机信息系统正常功能。具体而言,对于爬取刑法类型化保护之公开数据的行为,应受刑罚处罚的,适用侵犯著作权罪等相应罪名;当爬取公开数据的行为扰乱计算机信息系统且应受刑罚处罚时,适用破坏计算机信息系统罪。

    • 基于刑法规制爬取公开数据行为应坚持的刑法谦抑立场,在数据的信息内容已经公开的情况下,不宜以保护数据载体保密性为由广泛适用非法获取计算机信息系统数据罪规制爬取公开数据的行为,而只能在爬取的数据属于刑法已经类型化保护的重要数据时,适用相应罪名进行规制爬取行为。

      虽然司法实践形成了用非法获取计算机信息系统数据罪规制网络爬虫技术的常态,全国首例“爬虫”入刑案正是如此,但本罪实际上具有“口袋化”趋势。从立法规定上看,一方面,“计算机信息系统”和“数据”的内涵极其宽泛,爬取行为极易满足本罪的规定。《计算机安全解释》第11条规定,“计算机信息系统”是指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等,可见“计算机信息系统”的范围极其宽泛。同时,“数据”一词也使得司法实务对犯罪对象的认定倾向于回归数字技术层面,致使“数据”无所不包。从司法实践上看,本罪规制对象几乎涵盖了一切可在计算机系统中存储、显示、获取的权利客体,包括身份信息、网络虚拟财产、网络知识产权、公司日常经营数据等[22]164。另一方面,本罪的入罪门槛极低。根据《计算机安全解释》第1条的规定,“违法所得5 000元以上或者造成经济损失1万元以上的”即应当认定为本罪之“情节严重”。而在众多由网络爬虫技术引起的不正当竞争案件中,满足本罪“情节严重”标准的案件比比皆是,人民法院判决应赔偿的经济损失远远超过1万元,如在百度诉奇虎违反爬虫协议案中,法院判决被告赔偿原告经济损失50万元,在新浪微博诉脉脉不正当竞争案中原告的经济损失高达200万元,可见本罪的入罪门槛之低。可见,本罪已经成为当前网络犯罪的新“口袋罪”[22]163。那么,有必要合理限缩非法获取计算机信息系统罪的适用范围。诚如前文所述,数据安全保护的核心应当定位于数据信息内容保护而非数据载体保护。唯有在非法获取信息内容未公开且具有保护价值的其他数据时,方可适用非法获取计算机信息系统数据罪,保护未经授权不得获取他人未公开信息的社会公共秩序,这也符合本罪在刑法体系中的定位。因此,就全国首例“爬虫”入刑案而言,本案行为人爬取的视频信息已经公开,本案爬取公开视频的行为不宜用非法获取计算机信息系统数据罪进行刑法规制,可考虑认定为民事侵权行为,否则会不当抑制数据流动和数据资源的最大化利用。

      但是,并非只要信息内容公开,爬取该公开数据的行为便不值得刑法保护。当前,中国刑法明确了对具有著作权的作品、个人信息等重要数据的保护。对于公开的作品数据,未经著作权人许可而复制其文字作品、音乐、计算机软件及其他作品,应受刑罚处罚的,可认定为侵犯著作权罪。因为著作权保护的不是作品数据的保密状态,而是未经著作权人授权不得随意复制作品的权利,爬取公开作品数据的行为侵害了著作权人的复制权,有必要通过刑法规制爬取公开作品数据的行为。至于刑法没有类型化保护的其他公开数据,则不宜广泛运用非法获取计算机信息系统数据罪进行规制。

      需要注意的是,爬取公开的公民个人信息的行为,不能用侵犯公民个人信息罪予以规制。因为《民法典》第1036条规定:“处理个人信息,有下列情形之一的,行为人不承担民事责任:……(二)合理处理该自然人自行公开的或者其他依据合法公开的信息,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外。”而按照《民法典》第1035条第2款的规定:“个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开等。”此外,2014年最高人民法院《关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》第12条第1款还规定:“网络用户或者网络服务提供者利用网络公开自然人基因信息、病例资料、健康检查资料、犯罪记录、家庭住址、私人活动等个人隐私或其他个人信息,造成他人损害,被侵权人请求其承担侵权责任的,人民法院应予支持。但下列情形除外:……(四)自然人自行在网络上公开的信息或者其他已合法公开的个人信息。”可见,爬取公开个人信息的行为不承担民事责任。基于此,按照法秩序统一原理,未经授权获取公开个人信息的行为,也不能承担刑事责任。

    • 爬取公开数据的行为不止对数据安全造成了威胁,实际上从爬虫协议的诞生和网络爬虫技术的原理来看,网络爬虫技术的危害性主要在于扰乱网络正常运行,因此爬取公开数据行为扰乱计算机信息系统安全且应受刑罚处罚时,应适用破坏计算机信息系统罪予以规制。

      从爬虫协议的诞生和网络爬虫技术的原理来看,网络爬虫技术的危害性主要在于扰乱网络正常运行。爬虫协议诞生于1994年2月,由荷兰软件工程师马丁·科斯特(Martijn Koster)创建。科斯特创建爬虫协议的缘由,是因为他人编写的网络爬虫无意中导致了对科斯特服务器的DoS攻击[23]99,使得科斯特的计算机系统拒绝服务。从网络爬虫技术原理来看,这是因为,一方面,网络爬虫作为自动化的抓取程序,效率太高,而抓取太快或太频繁本就会导致大量的连接请求冲击计算机,致使计算机无法及时处理其他正常请求,造成服务器拥堵甚至瘫痪;另一方面,网络爬虫很可能会重复抓取相同的文件,因而反复高频地对服务器发出重复服务请求,导致服务器资源被消耗殆尽,致使计算机无法再处理其他正常请求[15]159-167。同时,科斯特在其主页的回忆录中也写到:网络服务器向我发送了一份报告,指示有人以每秒1个文档的速率检索了相同的文档序列。“我在1993年9月23日在网络社区上与韦恩·艾伦(Wayne Allen)进行了电子邮件往来,抱怨他经常重复自动下载。所以也许这就是激发我去尝试做点什么的动力。”可见,斯科特创建爬虫协议并非想要阻止他人爬取其数据,而是因为“爬虫”“经常重复自动下载”影响其计算机系统正常运行,故需要对其做出一定规则限制。因此,规范网络爬虫技术的爬虫协议严格来说并非基于保障数据安全而诞生,也并不意味着拒绝他人获取数据,而是旨在维护计算机系统的正常运行以保障数据有序流动。实际上,网络爬虫作为自动化抓取数据的代码程序,其原理在于用程序模仿人类访问网站。一些常见的反爬虫障碍,如设置验证码、要求登录等,不过只是为了验证当前访问数据的究竟是人还是“机器”。这意味着大部分由网络爬虫获取的数据都是人工可访问的数据,而不是涉密数据。但不当运用网络爬虫技术的高频率反复抓取,容易扰乱网络正常运行功能,阻碍数据有序流动,这才是网络爬虫的危害性所在,也是规制网络爬虫的出发点。

      爬取公开数据的行为没有侵害数据安全,但却可能扰乱计算机信息系统的正常运行,可以考虑用破坏计算机信息系统罪规制该行为。因网络爬虫抓取过于频繁,导致服务器拥堵甚至瘫痪或服务器资源被消耗殆尽,造成计算机难以正常运行的情况,完全符合《刑法》第286条破坏计算机信息系统罪的构成要件,即违反国家规定,干扰计算机信息系统功能,造成计算机信息系统不能正常运行。因此,对于爬取公开数据行为的刑法规制,破坏计算机信息系统罪不应被忽略。必须强调的是,本罪的相关司法解释确实已经落后于时代,违法所得5 000元以上或造成经济损失1万元以上即可入罪的规定,使得本罪的适用范围极大,有违刑法谦抑性原则。有必要根据当下社会经济条件,出台相关司法解释提高危害计算机信息系统安全相关犯罪的入罪门槛,逐渐改变规制数据犯罪“刑先民后”的现状,恪守刑法在依法治网体系中的最后手段地位。

参考文献 (23)

目录

    /

      返回文章
      返回
        Baidu
        map