抢车票 “爬”隐私:“爬虫”滥用成害虫

近5年，互联网行业中用户生产内容平台(UGC)中数据造假情况长期存在，尤其是网络“爬虫”技术的非法操作不仅侵犯相关平台知识产权和消费者合法权益，还可导致平台上的用户敏感信息泄露

新华社北京11月2日电近日，有自媒体披露在线旅游网站马蜂窝旅游网涉及产品点评抄袭甚至作假行为。马蜂窝回应表示，将针对审查漏洞采取积极改进措施，但对于歪曲事实的言论和已被查证的有组织攻击行为将采取法律手段维护自身权益。民事诉讼事件有待司法机关调查，但业内人士表示，这一事件折射出技术伦理和法律问题。

记者调查发现，近5年，互联网行业中用户生产内容平台(UGC)中数据造假情况长期存在，尤其是网络“爬虫”技术的非法操作不仅侵犯相关平台知识产权和消费者合法权益，还可导致平台上的用户敏感信息泄露。

捅“马蜂窝”之后：UGC数据造假受关注

日前，微信公号“小声比比”发布题为《估值175亿的旅游独角兽，是一座僵尸和水军构成的鬼城?》的文章，援用乎睿数据团队所供数据称，作为马蜂窝核心资产之一的2100万“真实点评”中，有1800万条是通过机器人从携程等竞争对手那里抄袭过来的。其中，超过7000个抄袭账号，合计抄袭572万条餐饮点评，1221万条酒店点评，占总点评数的85%。

随着事件日益发酵，UGC平台数据造假这一行业问题引发关注。业内人士认为，从其他平台抓数据的目的，就是为了制造流量很大的假象，既给用户看、商家看，更要给投资人看，获取不同轮次的投资以便上市。而从其他网站抓取页面商家内容和用户点评数据非常简单，使用“爬虫”技术和人工编辑就能做到。

一位App研发者李滨介绍，爬虫最早应用在搜索引擎领域，爬取网站页面提供给其他用户进行快速搜索和访问，当前爬虫技术已是“大数据”概念的重要组成部分，爬取对象也从一些种子扩充至整个网络数据。为此，行业还达成了Robots协议，形成互联网行业就抓取数据普遍遵守的规则。

然而，近年来，一些公司开始利用“爬虫”技术从其他平台恶意抓取数据。例如今年7月，生活分享平台“小红书”官微发布声明指责大众点评大量抄袭小红书用户的内容，随后，大众点评道歉；今年2月，视频弹幕网站哔哩哔哩大量用户的视频、昵称、头像及用户评论，出现在某新成立的视频网站上；而航空公司的官网上的机票、订座等信息，长期被代理公司将机票信息爬取、占座，然后在其他网站上加价销售。

“爬虫”被滥用，数据造假已成网络“灰产”

网宿科技发布的《2018上半年中国互联网安全报告》显示，今年上半年，Web应用攻击总数环比增长了97.82%，恶意“爬虫”攻击数量环比增长了55.79%。

另有数据显示，交通出行类恶意“爬虫”流量占比居首位，其次是电商、社交、点评、运营商、公共行政等，网络爬虫的非法使用给互联网竞争环境带来诸多负面影响。

“目前，市面上大的互联网公司都会推出自己的刷票软件，目的是为了分享12306网站的‘流量红利’。”中国铁科院电子所相关负责人说，“这些刷票软件用‘爬虫’等技术刷新12306网站页面，截取官网车次、票量等数据制作成自己的网站页面，再使用程序进行抢票，收取不合法的差价。

其中，大约一半的12306订票网站流量来自‘爬虫’技术支撑的刷票软件，不仅给网站服务器造成巨大压力，也扰乱了正常的订票秩序，由此带来的购票难是铁路部门一直头疼的问题。”

山东日中律师事务所律师陈冠汶说，公司未经许可或授权的情况下利用“爬虫”技术获得可能带来商业利益的信息可以被判定构成不正当竞争。记者梳理相关案件发现，法院往往认为，技术作为一种工具手段在价值上具有中立性，但这并不意味着技术本身可以作为豁免当事人法律责任的依据。

——2017年，广东省深圳市中级人民法院审理的一起案件中，武汉元光科技有限公司为提高其开发的智能公交“车来了”App在中国市场的用户量及信息查询的准确度，未经深圳市谷米科技有限公司许可，指使公司员工利用网络“爬虫”软件获取谷米公司服务器中的实时数据，谋取该软件在实时公交信息查询软件中的竞争优势，违反了诚实信用原则和公认的商业道德，构成不正当竞争。

——2016年，上海知识产权法院二审民事判决书认为，百度公司大量使用大众点评网的点评信息的行为，通过百度地图和百度知道与大众点评网争夺网络用户，会导致大众点评网的流量减少，同时，又推介自己的团购等业务，攫取了大众点评网的部分交易机会。百度公司的行为损害了汉涛公司(大众点评网所属公司)的利益，且其行为违反公认的商业道德，构成不正当竞争。

搜狐视频高级主管闵博认为，滥用网络“爬虫”还有可能对网络安全造成影响，引发网站服务器宕机。“一些‘爬虫’工具的使用者在采取‘全站爬取’的模式时，相当于模拟了大量用户在短时间内对源站服务器发起访问请求，一旦访问量在瞬间达到承载极值，就会引起服务器宕机，从而威胁网络空间的安全。”

还有业内人士指出，被网络“爬虫”抓取的信息不仅可以用于同类型平台制作，还可能被转售或者可能用于钓鱼网站制作等其他违法行为，不但会给平台带来重大损失，更可能导致平台上的用户敏感信息泄露，进而使用户遭遇各类网络和电信诈骗。

记者在社交网站和购物网站检索时发现，一些卖家堂而皇之地售卖“爬虫”自动评价软件或进行个人隐私信息爬取的接派单任务。在QQ群搜索中输入关键词“网络爬虫”，也会出现多个涉及外包网络“爬虫”技术的群组。

业内人士透露，这些群组中进行的网络“爬虫”任务大部分都属于未获授权而进行的违规爬取操作，由于该项技术具有一定的隐秘性，在爬取普通用户隐私数据时较难被识别。

技术加法律遏制造假，勿让“爬虫”成害虫

“一个技术如何使用，责任主体都应扪心自问，这是否侵犯个人隐私，是否破坏言论自由，是否损害公共利益，是否损害其他数据财产拥有者的财产所有权，是否涉及不正当竞争。许多大的互联网公司，会同时有‘爬虫’部门和‘反爬虫’部门。‘爬虫’技术在互联网行业早已被广泛使用，但‘爬虫’绝不能成为害虫。”中国人民大学法学院教授刘俊海表示。

记者了解到，目前的“反爬”技术有两种：一种是限制同一IP、同一电脑在一定时间内访问网站的次数，另一种是设置复杂的验证码机制，让“爬虫”不好识别。但对一些网站来说，封IP的做法可能误伤真实用户，而设置一个非常复杂的验证码，又可能损失用户。因此，除了加大技术防范力度之外，要运用好法律手段，克服取证难的盲点，明确使用红线。

业内人士表示，虽然网络安全法对非法获取个人信息等相关行为进行了规定，但对于爬取公开信息行为并未予以规定。相关部门应进一步查漏补缺，尽快缩小新技术应用的法律模糊地带。

据中国传媒大学教授、大数据挖掘与社会计算实验室主任沈浩介绍，欧洲已出台GDPR《通用数据保护条例》，想要采集欧盟境内企业和个人的信息，即使你不在欧盟边界内，采集活动也要受到相应的管制和控制。但目前国内还没有全面的规定，要从根源上解决这类问题，还是要从立法层面入手。

此外，以前国内对网站数据造假的惩罚案例很少，惩罚并不算严格，也是数据或者内容造假的重要原因之一。搜狐视频高级主管闵博认为，有关部门应加强对网络“爬虫”工具使用者的监管，对于恶意阻塞网络访问等滥用行为要严格查处，充分保障中小型互联网企业的网络空间安全使用权。

专家认为，未经对方允许从其他平台抓取数据并谋取商业利益的一般属于不正当竞争行为，由工商部门负责监管。但是因为这类行为通常比较隐蔽，工商部门一般需要有人举报并提供相应证据或线索后启动调查，因此需要借助技术手段更有效地进行打击。

诚信经营，遵法守法，互联网绝不是例外。正如北京知识产权法院在一起涉及爬虫技术的案件审判中所言，网络运营者应当遵循合法、正当、必要的原则，尽到网络运营者的管理义务。第三方应用开发者在收集、使用个人数据信息时，应当遵循诚实信用的原则及公认的商业道德。

来源 | 新华每日电讯
责编 | 卢永城

相关文章