大数据的陷阱为什么小数据更重要
文章来源:吴江文学网 | 2020-06-17
大数据管理通过大量数据采矿,找出潜在的变量和它们之间的因果联系,这样企业可以有针对性地生产和营销。相比之下,小数据泛指零星的弱信号。它们往往被当作没有规范、似乎随机的偏差或噪音感慨万千。。
被过滤和忽视是小数据的命运,原因是人们没有现成的概念去定义和解释它们。可是,没有小数据,大数据管理会充满陷阱。
小数据为主,大数据为仆,这是数据管理的正道。
大数据的陷阱
春节就要到了。假如你是一位出车千次无事故的好司机,恰好在朋友家喝了点酒,警察也过年下班了,于是你坚持自己开车回家,盘算着出问题的概率也不过千分之一吧。如果这样算,你就犯了一个取样错误,因为那一千次出车,你没喝酒,它们不能和这次混在一起计算。这也是大数据 采矿 常犯的错。
从1967年第一届美国超级碗杯橄榄球赛到1997年第三十一届,只要NFL联赛出线队赢,当年的股票就大涨14%以上,AFL联赛出线队赢,则至少大跌10%。如果你按照这个指标来买卖股票,就要小心了!1998年,丹佛野马队(AFL)赢,当年股市大涨28%;2008年纽约巨人(11.08都很冷清, -0.02, -0.18%)队(NFL)赢,股市不仅大跌 5%,还引发次贷金融危机。
只要有超大样本和超多变量,我们都可能找到无厘头式的相关性。它完全符合统计方法的严格要求,但二者之间并没有因果关系。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响,你可以罗列10亿个假设。我自己的研究经验也显示,只要你反复尝试不同的模型,上千次后,你一定可以找到统计学意义上成立的相关性。把相关性当作因果关系,这是大数据采矿的另一个陷阱。
我们说,三尺深的水池能淹死人,因为三尺只是平均值。忽略极值,采用平均值,它是大数据采矿第三个常见的陷阱。
博弈论创始人之一,诺伊曼(John von Neumann)曾经戏言:有四个参数,我能画头大象,再加一个,我让大象的鼻子竖起来!大数据 采矿 可能给出新颖的相关性。
但是,脱离了问题的情境,它不但不能保证因果关系,还可能误导决策。
扬州治疗白癜风哪家医院好南充治疗白斑的医院男性健康勃起功能障碍是身体衰老吗