新年伊始,很多企业都在制定新一年的战略和计划,这其中当然离不开对数据的运用。
对此,有很多决策者会说:我们要尽量掌握更大量级和更多维度的数据资源,来更准确地定义消费者和受众。
这背后其实暗含着这样的理解:大规模地运用数据,可以提升结论的可靠性。
换言之,如果数据的量级足够大,覆盖的范围足够广,通过分析它们所得出的结论就会更趋近于事实。
那么,这是不是一种准确的认知呢?我们在这里先打上一个问号。
1
“冷启动偏差”
很多人在应用数据的时候,会忽略一个事实:大数据分析是典型的单纯从数据出发的分析。
也就是说,我们往往是通过不带有目的性地掌握了某些数据事实(注意,是否带有目的性地搜集数据是一个重要的区分点),再据此去进行一系列相关的分析,这个过程被形象地称为数据的“冷启动”。但是这样的做法却很容易出现问题。
有一个典型的案例:Google曾经基于其所掌握的几十亿条检索记录,利用尚未公开的某些算法模型,构造出一个“流感预测指数”。
他们的前提假设是,通过用户搜索流感关键词得到的大数据必定包含流感疾病的全数据。
工程师们认为,这些数据可以完全取代传统数据抽样统计,并把“采集到的用户搜索”数据与 “某流感疫情涉及的人群”这个总体对等。
但遗憾的是,其对美国流感趋势开展的预测远远高于美国CDC(美国疾病控制与预防中心)公布的结果。
很多人不明白,流感搜索大数据必定包含流感全数据的设定究竟出了什么问题?
从统计学的角度来看,这种基于搜索关键词预测流感发病率的方法,只满足了数据的相关性,而缺少了重要的一环——对数据之间因果性的考察,或者说,缺乏对样本背景先验分布的掌握。
什么是先验分布呢?
可以这样做一个简单的理解:在进行一项调查之前,研究人员需要对研究本身所涉及的样本属性进行基本的设定,并在此基础上进行抽样。
举个例子,如果我们想预测一个新品未来可能形成的销售情况,按照统计学的方法,我们应该先根据产品的属性等基本要素设计这次研究所应该覆盖的人群,然后再进行相关的抽样调查和数据分析。而不是采取相反的路径——先找到已有的数据,再按照需求进行筛选。
统计学中的贝叶斯学派认为,在任何统计推断问题中,必须对调查总体规定一个先验分布,它是在进行推断时不可或缺的一个要素。
缺少对数据先验分布的认知,很容易导致预测分析偏离实际情况,并且有很多案例已经证明,这种偏离会真实地反应在调查结果上。
这是再庞大的数据量也无力解决的问题,而且,通过优化算法也没办法真正解决整体性的系统误差。
2
看不见的“总体”
——海量数据就是总体吗?
上面的例子告诉我们,存在一个比海量数据更宏观、更根本的概念,那就是——“总体”。
在统计学中,总体是指所要研究对象的全体。它是根据一定研究目的而规定的所要调查对象的全体所组成的集合。技术的进步创造了海量数据,这很容易给人造成一种海量数据即可以代表总体的假象。
如果说大数据是树木,那么总体就是它背后的森林。
为了避免“只见树木,不见森林”的困境,就需要在研究启动前就有效解决什么才是研究总体的问题。
统计学告诉我们,在某个专项领域的研究中,我们无法在不进行研究预设的情况下,将任何单一渠道获得的已知数据等同于包含了丰富先验分布的那个复杂的“总体”本身。不管这个数据的量级有多庞大,即便是互联网巨头们覆盖十亿级用户的超级应用生态也是如此。
所以,如何构建一个科学可靠的“总体”,并基于这个总体池进行抽样设计以及相关的调查和推断,挖掘消费者潜在的行为特征和未知的行为模式,从而给企业提供市场决策支持就非常有意义。
在大数据环境中,电信运营商、大型平台和调研公司自有的在线样组等都各自掌握了巨量的用户资源。这样的状况之下,该如何去科学地融合这些数据,更有效地覆盖到我们所希望达到的“总体”呢?
3
打造科学的总体
——数据融合可能实现吗?
现在,市场研究行业中对数据融合的讨论很多,CTR的做法是:通过构建一个企业自有的大数据抽样框的方式,来解决每个企业不同的问题,而绝不是在某一个特定的数据集合中寻求所有问题的答案。
所谓大数据抽样框是指,以网民总体结构(CNNIC中国互联网发展情况公报)为参照系,同时融合多渠道数据,自主构建起来一个科学的目标总体。
这样的做法可以有效提高对目标总体的覆盖程度,准确反映目标总体的特征属性。由此得到的数据也会具有更高的样本代表性和统计推断的准确性。
4
总结
——好”数据