引言
网络爬虫技术的合法性边界是当前互联网法律领域的热点问题。结合我国行政处罚案例和司法判决案例,本文将分析爬虫技术运用的合法性问题并提出合规建议。
一、什么是爬虫技术 爬虫(Web Crawler、Spider),也被称为网络爬虫或网络蜘蛛,是一种自动化程序,用于在互联网上浏览和提取信息。爬虫通过模拟人类用户访问网页的行为,从网页中提取数据并将其存储或进行进一步处理。 爬虫可以自动遍历互联网上的各个网页,并根据预设的规则和算法来解析和收集感兴趣的信息。这些信息可以包括网页的文本内容、图片、链接、视频等等。爬虫可以用于很多领域,例如搜索引擎的网页索引、数据挖掘、自动化测试、价格比较、舆情监测等等。 爬虫基本工作原理是,发送HTTP请求,向目标网站发送请求获取网页内容。解析响应,提取HTML中的有用数据(链接、文本、图片等)。存储数据,将提取的数据保存到数据库或文件。跟踪链接,发现新链接并重复上述过程。 二、涉及的法律条款 (一)网络安全与数据安全类 1.《网络安全法》 第27条:禁止非法侵入他人网络、干扰网络正常功能、窃取网络数据 第41条:网络运营者收集个人信息应遵循合法、正当、必要原则 第44条:不得窃取或以其他非法方式获取个人信息 2.《数据安全法》 第21条:数据处理活动应符合社会公德和伦理 第32条:任何组织个人收集数据应采取合法正当方式 第51条:境外执法机构调取境内数据需经主管机关批准 (二)个人信息保护类 1.《个人信息保护法》 第10条:禁止非法处理个人信息 第13条:处理个人信息需取得个人同意(法律另有规定除外) 第23条:向第三方提供个人信息需单独同意 第51条:自动化决策(如爬虫分析)需保障透明度 2.《刑法》第253条之一 侵犯公民个人信息罪(非法获取/出售个人信息50条以上即可入刑) (三)计算机系统安全类 1.《刑法》第285条 非法获取计算机信息系统数据罪:突破技术防护爬取数据可能构成 非法控制计算机信息系统罪:爬虫导致目标系统瘫痪可能适用 提供侵入计算机信息系统程序工具罪:开发专用破解工具可能触犯 2.《计算机信息网络国际联网安全保护管理办法》 第6条:未经允许不得对计算机信息网络功能进行删除、修改或增加 (四)反不正当竞争类 1.《反不正当竞争法》 第12条(互联网专条):禁止利用技术手段破坏其他经营者合法提供的网络产品或服务 第17条:商业数据爬取可能构成不正当竞争(如大众点评诉百度案) 2.《最高人民法院关于适用〈反不正当竞争法〉若干问题的解释》 明确将"未经许可爬取实质性替代原平台内容"认定为不正当竞争 (五)知识产权类 1.《著作权法》 第10条:网页内容可能构成汇编作品,大规模复制可能侵权 第50条:技术措施保护(破解反爬技术可能违法) 2.《反不正当竞争法》第2条 商业数据可作为商业秘密保护(如微博诉脉脉案) (六)合同违约风险 1.《民法典》合同编 违反网站用户协议可能构成违约 2.《电子商务法》 第69条:电子商务经营者数据使用需遵守约定 (七)其他相关法规 1.《关键信息基础设施安全保护条例》 爬取关键信息基础设施数据需特别审批 2.《数据出境安全评估办法》 向境外提供爬取数据需通过安全评估
三、爬虫相关案例及分析 (一)行政处罚案例
1. 广州后山网络科技有限公司不正当竞争行为案
处罚机关:广州市黄埔区市场监督管理局 主要违法事实:当事人研发、运营青虎浏览器(主域名:iqinghu.com,ICP备案号:粤ICP备19078229号-9),主要用于为会员提供商品采集、整店采集、搬家上货、云存储等功能。青虎浏览器会员可以使用青虎浏览器内商品采集、整店采集功能,通过复制天猫、淘宝、抖店、京东等各大电商平台商品链接,爬取上述平台内相关店铺及其销售的商品主图、详情图、尺码、标题、类目、属性、SKU库存等详细数据,并通过搬家上货功能,按拟上货电商平台的数据格式要求重新整合,在对应平台的网店上架销售。该过程中青虎浏览器未设置天猫、淘宝、抖店、京东等平台经营者或平台内经营者授权同意的环节,实际操作中也未取得天猫、淘宝等平台经营者或平台内经营者的授权同意。经查,青虎浏览器通过商品采集功能搬取淘宝、天猫、京东等各大电商平台数据67314137条。发展会员并收取会员费,还有按照客户需求制作的定制版。青虎浏览器导致淘宝、天猫以及平台内经营者被同业竞争平台、同业经营者实质性替代,淘宝、天猫与消费者的粘性被割裂,导致其流量的巨大流失,并且存在妨碍破坏、绕过其技术措施的行为:存储淘宝Cookie文件(Cookie是网站颁发给用户的身份认证,用于核验该用户身份),破坏淘宝天猫平台登陆安保机制;批量爬取数据,访问频率高,会造成服务器压力大,妨碍了平台的安全稳定运行。综上,当事人利用网络爬虫程序等技术手段,未经允许通过爬取其他平台及店铺经营者数据,为他人复制运营店铺提供技术支持,造成对其他经营者店铺及平台服务的实质性替代,实施了妨碍和破坏了其他经营者合法提供的网络产品或服务正常运行行为,扰乱了互联网市场秩序。 行政处罚:当事人利用网络爬虫程序等技术手段,未经允许通过爬取其他平台及店铺经营者数据,为他人复制运营店铺提供技术支持,造成对其他经营者店铺及平台服务的实质性替代,实施了妨碍和破坏了其他经营者合法提供的网络产品或服务正常运行行为,扰乱了互联网市场秩序,其行为违反了《中华人民共和国反不正当竞争法》第十二条第二款第四项“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。”的规定。依据《中华人民共和国反不正当竞争法》第二十四条“经营者违反本法第十二条规定妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的,由监督检查部门责令停止违法行为,处十万元以上五十万元以下的罚款;情节严重的,处五十万元以上三百万元以下的罚款。”及第二十五条“经营者违反本法规定从事不正当竞争,有主动消除或者减轻违法行为危害后果等法定情形的,依法从轻或者减轻行政处罚;违法行为轻微并及时纠正,没有造成危害后果的,不予行政处罚”的规定,对当事人作出罚款100000元的从轻处罚。 2. 许xx提供侵入、非法控制计算机信息系统程序、工具案 处罚机关:泰州市公安局姜堰分局 主要违法事实:2020年4月份以来,违法行为人许xx在网站“greasufork.org”和“Github.com”网站上发布“秒传链接提取”及“推特媒体爬虫”插件,并提供“爱发电”APP链接供他人进行打赏获利,共计非法获利13421.59元。 行政处罚:许xx的行为已构成提供专门用于从事危害网络安全活动的程序、工具,该行为未构成侵入计算机信息系统,尚不构成犯罪,根据《中华人民共和国网络安全法》第二十七条、第六十三条第一款之规定,现决定对许xx没收违法所得13421.59元,并处行政拘留三日 3. 潘xx非法获取计算机信息系统数据、非法控制计算机信息系统案 处罚机关:常州市公安局 主要违法事实:2020年6月至2021年12月期间,潘xx在常州积奇网络科技有限公司担任销售人员,潘xx在明知公司在未获得行吟信息科技(上海)有限公司授权的情况下,潘xx公司私自采用公司自主研发的AI智能互动平台,通过爬虫软件爬取行吟信息科技(上海)有限公司下的小红书APP信息系统数据,潘xx仍通过网络推广的方式销售该AI智能互动平台相关小红书获客功能并从中获利,后被公安机关查获。以上事实有潘xx本人的陈述、电子数据等证据证实。 行政处罚:根据《中华人民共和国网络安全法》第二十七条、第六十三条第一款之规定,现决定对潘xx行政拘留三日并处罚款伍万元。 (二)刑事案例
1. 上海二中院典型案例:李某等侵犯公民个人信息案——利用“爬虫”软件窃取客户快递数据触犯法律红线 李某利用爬虫软件,通过非法手段,从某速递公司网点管家客户端及网站上窃取公司客户快递丢失件和催收件等问题件信息,再卖给他人,违法所得数额达到情节特别严重标准。法院经审理认为,李某非法获取并出售公民个人信息,其行为已构成侵犯公民个人信息罪,且情节特别严重,李某具有坦白情节,依法可从轻处罚,判处有期徒刑五年,并处罚金一百万元。 2. 最高检发布第三批涉案企业合规典型案例之一:上海Z公司、陈某某等人非法获取计算机信息系统数据案 2019年至2020年,在未经上海E信息科技有限公司(以下简称“E公司”,系国内特大型美食外卖平台企业)授权许可的情况下,Z公司为了以提供超范围数据服务吸引更多的客户,由公司首席技术官陈某某指使汤某某等多名公司技术人员,通过“外爬”“内爬”等爬虫程序(按照一定的规则,在网上自动抓取数据的程序),非法获取E公司运营的外卖平台(以下简称“E平台”)数据。其中,汤某某技术团队实施“外爬”,以非法技术手段,或利用E平台网页漏洞,突破、绕开E公司设置的IP限制、验证码验证等网络安全措施,通过爬虫程序大量获取E公司存储的店铺信息等数据。王某某技术团队实施“内爬”,利用掌握的登录E平台商户端的账号、密码及自行设计的浏览器插件,违反E平台商户端协议,通过爬虫程序大量获取E公司存储的订单信息等数据。上述行为造成E公司存储的具有巨大商业价值的海量商户信息被非法获取,同时造成E公司流量成本增加,直接经济损失人民币4万余元。 合规整改: 第一,数据来源合规。Z公司与E公司达成合规数据交互约定,彻底销毁相关爬虫程序及源代码,对非法获取的涉案数据进行无害化处理,并与E平台API数据接口直连,实现数据来源合法化。 第二,数据安全合规。Z公司设立数据安全官,专项负责数据安全及个人信息安全保护工作;构建数据安全管理体系,制定、落实《数据分类分级管理制度》《员工安全管理等级》;加入区级态势感知平台,提升安全威胁的识别、响应处置能力,分拆服务,提高云访问权限,数据及时脱敏、加密,增强网络攻击防护能力。 第三,数据管理制度合规。Z公司建立数据合规委员会,制定常态化合规管理制度,开展合规年度报告。 3. (2024)苏0923刑初294号广西某某网络科技有限公司、刘**提供侵入、非法控制计算机信息系统程序、工具罪、提供侵入、非法控制计算机信息系统程序、工具罪案 广西某某公司运营的“易拓客”是一款供经营者搜集潜在客户信息,并进行联络、营销、管理的付费软件。被告人刘**在运营“易拓客”软件过程中发现有客户需要收集“抖音”的数据。刘**使用支付宝向李某支付6000元购得“抖音”算法源代码。广西某某公司依据购得的“抖音”算法源代码,在“易拓客”中增加了“易抖销”功能,该功能可突破“抖音”的防护机制,非法获取“抖音”用户的昵称、抖音号、uid(用户id)、cid(评论id)等数据,其中uid、cid是非公开数据。 经上海弘连电子数据司法鉴定所对“易拓客”APP鉴定,“易拓客”APP具有通过“关键词”匹配“抖音”视频,并按照“触发词”匹配上述视频评论,通过获取的用户uid跳转到评论用户“抖音”主页的功能;具有通过抖音号获取该抖音号发布视频,并按照“触发词”匹配上述视频评论,通过获取的用户uid跳转到评论用户“抖音”主页的功能。 经上海弘连电子数据司法鉴定所对“易拓客”存储于阿里云服务器的数据代码进行鉴定,代码文件“/****/***/******.py”具有获取与关键词相关的“抖音”视频评论、用户uid等数据的功能;函数getVideo()具备构造“X-*****”、“X-*****”参数值并使用代理IP请求域名“***.****.com”获取“抖音”视频数据的功能;函数process_url()具备构造“X-*****”、“X-******”、“X-********”、“X-*******”参数值并请求“***26-****-1f.*****.com”等域名,获取“抖音”视频评论数据的功能。 北京微播视界科技有限公司出具的《关于“易拓客”突破我司反爬虫保护机制非法获取用户信息的说明》 判决被告广西某某网络科技有限公司、刘**犯提供侵入、非法控制计算机信息系统程序、工具罪,违法所的予以没收。 (三)民事案例 1. 浙江省杭州市中级人民法院(2020)浙01民终4847号浙江某金融服务集团股份有限公司、重庆某小微小额贷款有限公司与苏州某网络科技有限公司商业诋毁及不正当竞争纠纷案 苏州某科技公司运营的“企某”网站向公众提供全国企业工商信息、法院判决信息、关联企业信息、法律诉讼、失信信息、被执行人信息等查询服务。“企某”网站数据来源为全国企业信用信息公示系统、中国裁判文书网、中国执行信息公开网等。“企某”网站获取数据方式为通过爬虫技术从相关政府机构官方网站,以及互联网公开数据中爬取,并由此形成商业信息报告。 “企某”网站在发布浙江某金融服务集团股份有限公司、重庆某小微小额贷款有限公司清算信息时发生错误。 争议焦点为,苏州某科技公司的案涉行为是否构成商业诋毁及不正当竞争行为。 从数据来源上看,苏州某科技公司获取的数据来源于公共数据,公共数据是政府机关依照法律规定在履行职能过程中采集、制作、生产或者获取,并通过一定形式记录、保存的数据。苏州某科技公司通过国家企业信用信息公示系统抓取重庆某微贷公司的企业信息,虽然数据本身来源于公共数据,但是信息的发布和推送行为应当保持与重庆某微贷公司企业信息的一致性,不得损害国家利益、社会利益和其他主体合法权益,特别是不能损害数据原始主体的合法权益。然而,苏州某科技公司采取容易引人误解的方式推送涉及重庆某微贷公司清算信息等行为,造成了浙江某金融集团、重庆某微贷公司商誉上的损失,根据反不正当竞争法第二条规定,构成不正当竞争行为。具体理由如下。 《征信业管理条例》(国务院令第631号)第二十三条规定“征信机构应当采取合理措施,保障其提供信息的准确性”。国家标准化管理委员会先后于2017年和2018 年出台了《信息技术大数据术语》(标准号:GB/T35295-2017)、《信息技术数据质量评价指标》(标准号:GB/T36344-2018)两部国家标准,均明确数据产品和服务提供中对于数据准确性和一致性的要求。互联网征信企业在从事企业信用信息的收集和发布活动中负有基本的注意义务,应当秉持数据来源合法、注重信息时效、保障信息质量、敏感信息校验等数据利用原则。应当认定苏州某科技公司在涉及重庆某微贷公司的误导性清算信息的发布、推送上存在主观过错。 法院判决苏州某网络科技有限公司在 “企某”网站首页、苏州某网络科技有限公司新浪官方微博连续十日,及《法制日报》显著位置连续三日刊登声明以消除影响,赔偿经济损失人民币60万元(包括为制止侵权行为所支付的合理开支)。 2. 北京知识产权法院竞争垄断十大典型案例之八:(2019)京73民终3789号擅自抓取微博后台数据不正当竞争案 某网络技术公司系新浪微博的运营方,为消费者提供基于用户关系的社交媒体平台。某软件公司通过运营的网页版鹰击系统和安卓手机端鹰击应用为其用户提供微博数据服务,具体包括获取、存储、展示和分析微博平台数据,并形成数据分析报告。 法院经审理认为,微博平台数据可以分为公开和非公开数据,对于公开数据,可以通过网络爬虫等自动化程序获取并进行二次利用,对于非公开数据,只有在采取合法正当手段的情况下方可获取。本案中,在双方当事人不存在合作关系,且不能证明采用的技术手段具备合法正当性的情况下,能够合理推定上诉人利用了技术手段破坏或绕开了被上诉人所设定的访问权限,从而获取微博平台非公开数据。上诉人获取、存储、展示和使用微博平台数据的行为,干扰了微博平台的正常运行,给被上诉人增加了经营成本,并影响被上诉人对外授权并获得相关收益,构成《反不正当竞争法》第十二条规定的不正当竞争行为。据此,法院判决上诉人承担停止不正当竞争行为、消除影响并赔偿被上诉人经济损失及合理费用共计528万元。 数据抓取行为是否违反《反不正当竞争法》,关键在于抓取数据的性质和抓取数据的方法是否正当。平台的数据可分为公开数据和设置访问权限的非公开数据。对于平台的公开数据,基于互联互通的精神平台经营者应当允许其他经营者搜集、利用此类数据。但是对于已经设置访问权限的非公开数据,经营者在没有获得许可的情况下,通过技术手段抓取和存储的行为本质上利用了技术手段破坏或者绕开平台所设置的访问权限,此种行为不具有正当性。 3. 上海市浦东新区人民法院不正当竞争典型案例之六:(2015)浦民三(知)初字第528号大众点评网数据信息不正当竞争纠纷案 汉涛公司是大众点评网的经营者。大众点评网收集了大量商户信息,并吸引大量消费者通过体验发布点评信息。百度公司是百度地图和百度知道的经营者,杰图公司是城市吧街景地图的经营者。百度地图除了提供商户地理信息,还向网络用户提供该商户的点评信息,餐饮类商户的大部分点评信息主要来源于大众点评网。网络用户在百度知道搜索餐饮商户名称时,百度公司会直接向网络用户提供来自大众点评网的点评信息。杰图公司运营的城市吧街景地图向网络用户提供实景地图,该网站调用了百度地图或腾讯地图。汉涛公司主张,百度公司大量使用大众点评网的点评信息,构成不正当竞争,杰图公司构成共同侵权。汉涛公司诉请判令百度公司、杰图公司停止不正当竞争行为、赔偿经济损失及合理费用,并消除影响。百度公司辩称,其与汉涛公司不存在竞争关系,其行为没有给汉涛公司造成损害。杰图公司辩称,其没有使用大众点评信息,不构成侵权。 浦东法院经审理认为,在互联网领域,即使双方的经营模式存在不同,只要是在争夺相同的网络用户群体,即可认定为存在竞争关系。大众点评网的用户点评信息是汉涛公司的核心竞争资源之一,能给汉涛公司带来竞争优势,具有商业价值。百度公司的搜索引擎抓取大众点评网上的涉案信息虽未违反robots协议,但这并不意味着百度公司可以任意使用搜索引擎抓取的信息。robots协议只涉及抓取网站信息行为是否符合公认的行业准则的评价判断,不能解决抓取网站信息后的使用行为是否合法的问题。经营者抓取其他网站信息即使不违反网站爬虫协议(robots协议),仍应当本着诚实信用的原则和公认的商业道德,合理控制来源于其他网站信息的使用范围和方式。对信息使用市场竞争行为是否具有不正当性的判断应当综合考虑涉案信息是否具有商业价值,能否给经营者带来竞争优势,请求救济方获取信息的正当性、难易程度和成本付出,竞争对手使用信息的范围和方式等因素加以评判。本案中,百度公司大量、全文使用涉案点评信息,实质替代大众点评网向用户提供信息,对汉涛公司造成损害,其行为违反了公认的商业道德和诚实信用原则,构成不正当竞争。但是,早期版本的百度地图只提供三条来自大众点评网的点评信息,每条点评信息均未全文显示,且每条点评信息均设置了指向信息源网站的链接,百度地图中的此类使用方式,不足以替代大众点评网向公众提供点评信息,不会对汉涛公司造成实质损害,该类行为不违背公认的商业道德和诚实信用原则,不构成不正当竞争。侵权的信息仅存在于百度地图中,杰图公司的网站通过调用应用程序编程接口(API)调用百度地图,其行为符合行业通行做法,并无不当。故判决百度公司停止不正当竞争行为,赔偿汉涛公司经济损失300万元及为制止不正当竞争行为所支付的合理费用23万元。
四、爬虫合法使用的边界及合规建议 首先,遵守Robots协议,需要解析目标网站的robots.txt文件,明确禁止爬取的目录(如Disallow: /private/)或用户代理(如User-agent: *),不得获取非公开数据。若网站内容属于公共数据(如政府公开信息),且无技术限制,可能不强制要求遵守Robots协议(需结合当地法律)。 对于Robots协议效力问题,各国也存在差异。美国部分判例(如HiQ Labs v. LinkedIn)认为Robots协议无强制法律约束力,违反协议不直接构成违法。欧盟认为GDPR下,Robots协议可能被视为“技术性同意声明”,绕过协议可能被认定为非法数据处理。我国虽无直接法律明文规定,但通过本文引述的案例可见,违反Robots协议可能成为认定“破坏计算机信息系统罪”的辅助证据(如爬取禁止目录导致服务器瘫痪),也可能作为判断是否构成侵权的依据。 其次,遵从技术防护的边界,禁止绕过动态令牌(如CSRF token)、伪造请求头(如伪装成浏览器)等规避技术。不得使用自动化工具破解验证码(如OCR识别、第三方打码平台)。关于轮换IP是否合法取决于目的,若目的是规避反爬则可能违法,若正常负载均衡则可能合法。 再次,数据使用合规性,避免爬取后实施未获得授权的数据转售、用于不正当竞争(如爬取竞品价格数据后恶意降价,不得对数据来源主体构成实质性替代)、违反GDPR、CCPA等数据跨境传输规定等行为。同时,我国企业向境外提供数据需遵守《数据出境安全评估办法》,即使境外数据合规要求更宽松,仍需以境内法规为底线。 最后,访问频率的合理性,判断标准包括是否导致目标服务器响应变慢(如超过网站平均QPS(每秒请求数)的10倍),是否占用带宽资源(如持续高速下载视频),可以考虑参照人类访问能力设定访问频率。 结语 爬虫技术本身是中立的,其合法性取决于具体使用方式和目的。随着《数据安全法》《个人信息保护法》的实施,我国对数据爬取的监管日趋严格。建议企业在使用爬虫技术时,遵循"最小必要""知情同意"等原则,建立完善的合规体系。