2019年04期

数据是靠不住的

计算机技术和设备的迅猛发展,让人类进入了大数据时代。进而,依靠数据来分析和解决问题,成了这个时代的“科学”特征。不过,在我们打造数字化生活的同时,切不可过度依赖数据,因为有时候,它们是靠不住的。

首先,数据统计也许是不准确的。数据统计是一门专业的学问,但即使是专业部门统计出来的数据,也有可能是不准确的。比如国内每年交通事故致死的人数,公安部门与卫生部门公布出来的数字就不时有所出入。2011年就有学者在文章中指出,2002-2007年中国卫生部公布的道路交通事故人员的死亡率是公安交通管理部门公开数据中道路交通事故人员死亡率的2倍。卫生部门的数据从何而来?中国的卫生部门并非道路安全主管部门,也不专门统计道路安全死亡人数,更不是交通事故数据的官方发布者,但是卫生部门要统计居民病伤死亡原因,在死亡类别的“损伤”这一项下面,就有“机动车辆交通事故”的小项。关于公安部门的数据,原中国汽车技术研究中心主任赵航曾公开质疑,说是公安部某部长在任期间,要求每年交通事故都要下降15%。于是,根据公安部每年公布的数据统计,2003-2007年每年的道路交通安全事故下降率分别是13.7%、22.4%、13.1%、15.9%、13.6%、基本符合每年下降15%。中国的交通事故就奇迹般地按这个比例下降了。这不由让人联想起,马克·吐温曾经写道:“世界上有三种谎言,分别是谎言、该死的谎言和统计数据”。感兴趣的读者,不妨去查查这两个部门公布的每年火灾亡人数有几倍的差异吧。

其次,数据分析可能是不完善的。大数据的价值不在于它的大小,而在于它可以为你的研究提供新的信息,提供过去从未有人搜集到的信息。从数据中得到新的信息,必然需要分析。有这样一个故事,二战期间,美军统计了参战回归的轰炸机的中弹情况,发现机翼中弹的数量很多,而机身中弹的却很少。有人就据此分析,得出应该加固机翼的改进意见。然而,这样的数据分析,实际上却是大谬不然。因为这项数据分析完全忽视了那些没有飞回来的轰炸机,陷入了“幸存者偏差”的逻辑谬误。这令我想起我们在做消防宣传时,总不免要请一些经历火灾的幸存者来传授他们的成功逃生经验,那么我们偶尔是不是也会犯一点“幸存者偏差”的错误呢?

再次,数据有时候甚至会是被故意放大。人工智能的发展,让我们知道有一种技术叫“算法”。智能手机上常用的那些新闻客户端,表现得尤为突出。当你不经意点开一条火灾的新闻,随之而来“算法”就会给你不断推送类似的内容。传统媒体不愿迎合受众而降低其品味和价值观,而现在“算法”则大大加剧了用户导向,内容怎么写,具体写什么,热点是什么,全部都是由用户说了算。在经济、利益和目的至上的原则下,商业化驱动着这种数据技术的发展,进而加剧信息茧房现象,让用户永远生活在自己思维模式里,并且还自以为有客观数据的支持而充满着“我的想法永远得到最广泛认同”的虚假自信。上一次的美国总统大选中,很多美国人就尝到了信息茧房的苦果。“南都观察家”特约作者冷哲的一篇文章提到,一位名叫穆斯塔法的软件公司市场总监,是希拉里的忠实支持者,他的Facebook上充满了各种各样的支持希拉里的文章,他从来没有见过任何一篇支持特朗普的文章。可实际上就在Facebook上,特朗普的支持者也远超他的想象。有一篇名为《我为什么要投票给特朗普》的文章,在 Facebook上被分享了150万次。穆斯塔法在特朗普当选后反思道:“我们的网络社交已经变成了一个巨大的回音室。在这里我们基本上适合有着类似观点的同伴讨论几乎一致的观点……完全未能深入理解其他社交圈子里面的观点。”人类可能因为“算法”丧失某些正确的价值取向而变为偏执狂,人与人之间的包容和理解也会变得更加困难。

数据是靠不住的,那么什么才是靠得住的呢?聪明的读者能教教我吗?