推荐 | 数据造假成“套路” 最终受伤的是谁

推荐 | 数据造假成“套路” 最终受伤的是谁

中国青年报

一篇自媒体文章不仅引起了公众对旅游社区平台马蜂窝点评内容抄袭的质疑,也捅开了互联网行业数据造假的“马蜂窝”。


在对“是否存在内容抄袭或数据造假”的质疑讳莫如深数天后,马蜂窝联合创始人兼CEO陈罡承认,其“在餐饮等点评数据方面存在部分问题,但远没有外界所表述的那么夸大”。然而,业内人士指出,互联网领域的数据造假远比想象的更严重,而且造假套路也呈现“道高一尺魔高一丈”的趋势。


从最早的电商刷单、刷好评,到之后的微信公众号买粉、刷阅读量,再到网络直播平台买流量、App机器人用户充数据,各类数据造假的手段不断翻新,而真实数据成为难以获知的“高度机密”。


难道没有机制可以识别、约束这些“套路”吗?事实上,一些平台企业和投资机构早已尝试通过反爬虫 、第三方数据调查等技术手段预防和应对数据造假,但是效果并不好。另外,部分投资机构出于种种考虑,默认一些互联网企业的数据造假行为,甚至与之合谋。技术难题也随之成为更加复杂的人性谜题。



进步最快的是造假的方式


在“马蜂窝事件”中,备受质疑的一个数据造假“套路”是,不少用户在其他平台的旅行攻略、点评内容,被搬运到马蜂窝上。实际上,此类做法并不新鲜。


今年7月,生活社区小红书通过官方微博指责大众点评大量抄袭其用户的内容。具体做法是批量建立虚假账号,抄袭及搬运用户在小红书发布的原创内容。据小红书估计,抄袭的数量在百万条量级。


一些用户专门为小红书平台创作的内容被“copy”后,依然留着原本内容的影子。小红书用户“詹小猪Coco”曾于6月6日发视频庆祝小红书创立纪念日,“copy”后,文案竟变成了“祝点评生日快乐”,但视频中用户说的仍然是“小红书”,而且6月6日也不是大众点评的“生日”。


当时,大众点评方面对此回应称,这是因为新上线试运营的推荐栏目在未经授权的情况下对相关内容进行了违规转载,已第一时间完成所有内容排查与全部清理下线,并通过技术手段确保该类问题不再出现。


段民(化名)从2002年开始从事数据挖掘工作,是国内最早一批大数据行业应用的开拓者。他告诉中国青年报·中青在线记者,这类搬运其他平台内容为己所用的行为,属于常见的“伪创作”造假套路,即通过网络爬虫软件,将其他平台的数据和内容复制过来,稍加修改后变成自己的内容。与其他造假手法相比,这类做法更隐蔽,需要专业人士持续跟踪 、分析 、比对才能发现。


段民表示,除“伪创作”以外,互联网内容平台常见的数据造假“套路”还包括虚报数据、“僵尸用户”、虚假行为等。前两种“套路”因用户了解有限,平台与用户之间存在一定门槛,往往难以得知;而通过机器人冒充真实用户,访问网站或App从而增加流量或点击量的虚假行为,是离普通用户最近的一种造假“套路”。


微博、微信等平台的“刷量”“买粉”,是其中的典型代表。2016年9月末,因微信官方的后台调整行为,屏蔽了公众号刷量工具的操作,许多自媒体大V的真实用户和阅读数量显现出来。此前一周平均阅读量上万的公众号,在当天最少的阅读量只有200;此前阅读量在10万以上的公众号,当天的阅读量只有2万左右。


此外,一些音视频节目的播放量也出现造假。此前,在国内首起因视频网站“刷量”而引发的不正当竞争案件中,被告杭州飞益信息科技有限公司针对爱奇艺 、优酷土豆、腾讯视频等主流视频网站上的视频内容“刷量”,对某个视频节目“刷量”1万次,仅收费15元。


上海市徐汇区人民法院公布的信息显示,飞益公司多名员工通过多个域名、不断更换访问IP地址等方式,连续访问爱奇艺网站视频,在短时间内迅速提高视频访问量,仅2017年2月1日至6月1日,飞益公司在爱奇艺网站制造了不少于9.5亿余次的虚假访问,按照该公司每万次15元的刷量收费标准,共非法获利上百万元。


技术的发展让造假成本更低


与“刷量”“买粉”“伪创作”等内容平台的造假手法相比,夸大用户和产品交易数据,则是互联网平台上更直接,也更难被发现的数据造假方式。


2015年,有业内技术人员在知名社区“知乎”上爆料,通过反向编译蜻蜓FM安卓版本软件,他发现蜻蜓FM软件中隐藏有名为“普罗米修斯”和“宙斯”的强行自启代码。前者可以在用户不知情的情况下,在手机后台启动无窗口透明界面;后者则可以自主触发广告商的广告,并回传给第三方数据公司,从而完成“用户自主点击广告”的操作。


因为普通用户很难发现这种技术方法,而且可以提高日活跃用户数(DAU)等数据指标,所以该爆料甫一出现,便立即引发关注。对此,蜻蜓FM曾回应称,相关代码是用于新功能上线时进行AB对照测试、统计相关用户指标。


不过,这类说法未能解释该平台的日活用户数量和广告点击量为何突然增加。此前,蜻蜓FM在宣布用户数量达到1.5亿的两个月之后,就宣布用户数突破2亿,许多业内人士怀疑该数据的真实性。


除这类由专业人士爆料的案例之外,也有一些平台可能因一些“长相奇怪”的数据而引起质疑。同样在2015年,互联网农业公司一亩田因出现“9小时前李老板采购了1073741.8235吨洋葱”“6小时前刘老板采购了999.999吨毛桃”等数额怪异的交易信息而陷入数据造假疑云中。


彼时,一亩田展示了其过去一年的交易后台数据,并称一亩田网站确实还有一些产品和数据不够完善,仍处于数据测试阶段。


中国首席数据官联盟专家成员鲍忠铁表示,许多面向用户端的互联网企业都希望讲述一个快速增长的“独角兽”的故事,而市场份额、客户数量、日活用户等数据就成了体现企业估值快速提高的重要指标。


鲍忠铁在移动互联网界工作多年,他对一些App宣称的用户数量嗤之以鼻。据他的观察,很多App的下载量和用户量都可以通过技术手段造假:


因为安卓系统的开放性,破解系统权限后,一台平板电脑设备上甚至可以装十多个同样的App,配合不需实名制的虚拟运营商电话卡,可以形成十多个看似真实 、独立,实则批量化虚假的用户。而且,由于虚拟运营商的手机号可以包月使用,这样的造假手法成本得以进一步降低。


当数据造假变成一场合谋


数据造假的“套路”如此大行其道,甚至已经形成特定的产业链条,为何会出现如此局面?


前海梧桐合伙人王蔚分析,互联网企业比较常见的是在运营数据上造假,包括用户数据 、产品数据 、财务数据等,因为这类数据可以帮助企业获得激烈竞争中的优势地位,提升业务合作报价。


此外,早期互联网企业的投融资估值一般采用流量法或市销率法,夸大的运营数据一般会对应更高的估值。王蔚表示,在运营数据造假以外,还有不少互联网企业在融资经历 、融资金额等方面也会造假。“我们都习惯了,官宣融资额除以510有可能更接近真实数据。”


王蔚认为,除互联网企业自身竞争需求和融资需求驱动外,投资人作为另一重要的参与方,在数据造假问题上也不是没有责任的。由于财务投资者需要在投资互联网公司时“低买高卖”,有时候为了推高企业估值以便实现股权退出,也会成为数据造假的协同者。


值得注意的是,投资机构在企业数据造假中扮演的角色非常微妙。在成为某些企业的投资者之前,也会通过一些技术手段发现或破解刷量、刷粉等数据造假的手法。


远瞻资本合伙人秦岗表示,由于许多公司数据“注水”,大多数投资机构不再将企业自己公布的数据作为评判一个创业公司或产品的主要指标,可能会聘请第三方数据机构来开展尽职调查,以验证各项数据指标的真实性。


不过,秦岗也指出,这类做法一般出现在投资项目比较成熟的中晚期,或投资金额较大的情况下。对于早期创业项目,或投资金额不够大的项目,很多投资机构往往没有相应的预算。


鲍忠铁表示,对于网站、App的真实运营数据,网络运营商一清二楚。“App什么时间打开,什么时间关闭,装在哪些设备上,通过运营商的DPI数据是可以解析出来的。”但令人遗憾的是,这类真实数据往往得不到重视,一些VC投资机构、第三方数据公司也不会充分利用这些数据。“没人做这个事情,因为对别人只有害、没有利。”


鲍忠铁也注意到,有些第三方监测软件或第三方数据咨询公司有时也会充当数据造假的“帮凶”。一些在业内颇有名气的第三方数据咨询公司所公布的特定App的下载量、月活用户等数据,也经常被质疑。


例如,国内知名数据研究机构艾瑞咨询曾发布的数据产品,就被今日头条、“大姨妈”等平台质疑可能弄虚作假。2017年年底,艾瑞咨询联合美柚App发布的《2017年中国女性生活形态研究报告》显示,美柚的月度总有效使用时长占据所有经期管理类App的95%,这也意味着,“大姨妈”等其他经期管理App的阅读有效使用时长加起来还不到5%,这被“大姨妈”指责为“收钱说瞎话”。


“造假是‘多赢’的”,这已经成为数据产业链病态发展的一个奇怪结论。重庆大学网络与大数据法治战略研究院院长齐爱民分析,企业运营数据和融资数据“好看”了,既方便部分投资机构退出,也能让“刷量”的水军商家从中牟利;内容方可以通过大量刷取点击量,炮制市场火爆的假象,进而吸引真实用户的目光;平台方也需要通过这种假象来营造优质平台的形象,从而进一步吸引广告投放。


鲍忠铁认为,刷单等数据造假行为的根本原因,还是“to VC”的创业模式泛滥,无论创业团队还是投资机构,都希望快速将企业估值做大,针对这类作假行为,相应的监督还缺乏执行力。


王蔚表示,数据造假属于不正当获益的商业手段,最终仍需要社会埋单,但很难用道德约束或行业自律的方法去治理,或许还是“底线管理”原则更加适用:从立法上界定清楚“数据造假”和“商业欺诈”违法犯罪行为之间的联系,抬升“数据造假”的获益成本。


中国青年报·中青在线记者 王林 张均斌

来源:中国青年报(2018年11月06日 09版)


中国青年报·中青在线出品