大数据时代的迷思

现在信息时代最热门的一个题目是采集数据,寻找关联,比如气候变暖和二氧化碳排放,股票指数和就业率,犯罪和种族。但是记不记得爸爸以前和你们讲过的归纳推理,使用归纳推理的时候需要小心谨慎和多方印证才能提高结论的可靠性。我们来看看这里的几个例子。

大概是二三十年前,纽约市的犯罪率很高。朱利安尼当选纽约市长以后制定了一个叫做”Broken Window”的政策,把街上的流浪汉安置到别的地方去。因为收容安置政策和人权的冲突,这个决定很有争议。但是几年以后,纽约市游客多了,治安也大大好转,赞扬这个政策的人也多了。但是喜欢较真的科学家就研究了更多的数据,发现

1.纽约市的治安好转实际上在朱利安尼上台前就开始了。

2.同一时期其它大城市比如芝加哥,虽然没有这个政策,治安也是在大大好转。

我们再来看一个例子,闪电总是发生在打雷的前面,于是有了各种各样把它们关联起来的传说。其中有一个是这样的:古代有人犯了不孝或浪费的罪行以后上天会进行惩罚,用雷打死。但是有一次上天错误地用雷劈死了一个人,后来上天就把这个人封为闪电,每次行刑的时候先拿闪电照亮,这样雷就不会劈错人了。哥哥和阿妹都觉得很好笑,但是觉得古代的人这么理解也有道理。

再讲了几个例子以后,问他们想不想得出生活中这样似是而非的关联的例子。

哥哥说,他们都说因为亚裔聪明,所以亚裔孩子学习成绩好。但是真正的原因是亚裔孩子花更多时间在学习上的结果。

阿妹一时想不出,不过她想到哪里就说到哪里。她看到墙上挂的画,说一个画家画好油画以后发现晴天干得快,雨天干得慢,于是得出结论,空气的湿度高的话油画不容易变干。但是其实可能是其它原因引起的。我鼓励她继续想,其它可能的原因会有什么?她最后说,对了,是温度,雨天温度低,油画挥发慢,晴天温度高,油画挥发快。

我也不知道他们的结论对不对,但是我们得到一个结论之前,应该学会多问一个为什么。