毕自力
 
想说这事,源于越来越热的“大数据”潮流,试图提供给读者理性认识这个问题的角度。所以,不想费笔墨再描述大数据的意义和价值,而是泼点“冷水”,警醒对大数据的盲目。
 
大数据是新技术带来的方法革命
 
信息技术和电脑软硬件的发展,使得获取数据渠道丰富,处理海量数据成为可能,如数据仓储和挖掘技术的迅速发展,形成越来越强大的“寻找逻辑”的能力,所以大数据给我们带来的意义主要有,人们在“无知觉”中被认识;多渠道与交流信息汇总,人的行为可以“跟踪”。这些信息很客观,但却无系统的。是很好的探索工具,其数量大也带来革命性的变化和极大的想象力,成为探索研究最有效的工具,可以说是软件有技术支持的“观察法”,所以大数据价值毋庸置疑。但,它是万能的吗?
 
大数据的价值和局限
 
价值:即时可获得,信息是在后台存在的,还是很丰富的,也消除了收集者主观因素,还有可跟踪,相对于问卷、访谈较易获取,而且很客观真实。
局限:海量数据对技术和标准的依赖非常大,这些技术和标准成熟需要时间,而在某一阶段成熟后,很快又有变化。美国近年有6个机构专门研究算法,最主要目标都在钻研算法和技术基础设施;还有就是海量数据,规律丧失和失真,如同稻草中找针,我们发现当数据足够大的时候,任何数据都是有联系的;全数据代替不了抽样数据,何为“全”,只知关系、不知因果并非放之四海而皆准。
 
几个大数据犯错误的案例告诉我们的
 
1936年美国总统选举,文学文摘杂志对200多万读者进行了调查,在当时算是海量数据了,但却没能预测出罗斯福取胜,做选举调查的盖洛普严谨抽样的50000样本,却预测了正确的结果。2012年美国大选,Facebook和Twitter的海量数据,虽然预测到奥巴马当选,但其结果显示的奥巴马巨大优势,却离题万里---他们告诉奥巴马的是,不用做什么,赢定了!做选举抽样调查Nate Silver,用其“小数据”(抽样样本),则再次做出了接近真实结果的预测。原因是,非系统规范抽样技术获得的样本,对总体的代表性有极大偏差,文学周刊仅是读者群,不读的肯定找不到;两个社交网战找到的是注册用户,而非注册用户(显然也会投票)缺失。
 
所以,大数据可以帮你做一些事,但不是所有的事。
 
美国1936年总统选举 
 
文学文摘的大数据错了,盖洛普抽样的“小数据”做出了与实际一致的结果

2012年美国总统选举
 
Facebook和Titter的大数据虽然正确预测到了奥巴马(蓝色)胜出,但其乐观程度令人跌破眼镜;Nate Silver抽样调查的数据则做出了与实际比较一致的结果