科技进步的悖论：帮助预测更准确，也成为预测的最大变数-师北宸的财新博客-财新网

「信息越多，越靠近真相」——真是这样吗？

纳特•西尔弗（Nate Silver）在《信号与噪声》一书对这句话提出了疑问。人们普遍认同的逻辑一般是，信息越多，信息流动速度越快，人们对未来的预测越准确，从而越能做出更合理的决策。但是且慢，你怎么知道你 Google 到的「信息」是有用的「信号」（有用的信息），还是干扰你的「噪声」（无关/无用的信息）呢？我的意思是，如果你在时间充裕，方法/模型适当的条件下，你可以辨别出信号，做出合理决策。但现实往往是，你基本上总是不会拥有充裕的时间，甚至使用的方法/模型也不合适。在信息增长越来越快的现在，我们面临这样的困境会越来越多。

《自然》杂志曾刊登过一项研究，研究发现，美国几大政党对全球变暖的问题了解越多，他们之间达成共识的可能性就越小。我们现在（这里的「现在」得比《信号与噪声》出版时间的 2012 年 9 月更早）每天产生 250 兆亿字节，如果信息每天以这个速度增长，其中有用的信息肯定接近于零。其中大部分信息都只是噪声而已，而且噪声的增长速度要比信号快得多。其中有太多假设需要验证，有太多数据需要发掘，但客观事实的数量却是个相对恒量。人脑能力非凡，但根据 IBM 的分析，人脑的存储量不过是全球每天所产生信息量的百万分之一而已。我们对自己记忆的信息一定需要精心挑选才行。

以美国经济预测为例。美国政府每年公布的数据，与经济指标直接相关的有 4.5 万个，而私人数据提供者要追踪高达 400 万个统计数据。一些经济学家忍不住想要把所有数据都混合在一起，并给一般的数据穿上优质的「外衣」。第二次世界大战之后只出现了 11 次经济衰退的情况，如果一个统计模型试图解释这 11 次衰退带来的后果，就必须从 400 万个数据中选择数据，由此得出的许多相关性都将会带有欺骗性。大数据专家热爱相关性，但如果我们不能分析出因果，我们永远无法确定该采用哪些指标去判断下一次经济衰退的迹象。

人们将噪声误认为信号的行为，在统计学上被称为「过度拟合」（overfit）。人类大脑的工作方式是捕捉规律，并且预测。一般来讲，智商高的人的神经网络学习能力更强，这意味着 ta 捕捉规律的能力也越强。捕捉规律能力强意味着对于很少的样本中隐含的不明显的「规律」他们也能捕捉出来。但从很少的样本或噪声过多的样本中总结出「规律」来是极为危险的事——自然界的运行很多时候并没有确定的规律，我们带着一双为了发现规律的眼睛去挖掘总结出了规律，结果却聪明反被聪明误了。关于过度拟合的解释，冯·诺伊曼曾有一个形象的描述：给我 4 个参数，我就能拟合出一头大象，如果再加 1 个参数，我就可以让这头大象甩动它的鼻子。除了人类大脑，现在的机器学习也容易发生这样过度拟合的现象。

过度拟合在现实中往往是被鼓励的。无论汶川地震还是雅安地震出来之后，地震云或猪乱跳、羊乱叫之类的怪现象总会在微博、贴吧或论坛上流行。比如百度贴吧还有人整理了一份地震前兆大全，如果仅靠这些所谓前兆就能预测地震，那每年也不至于死伤那么多人、损失无数财产了。这是最为糟糕和最为浅显的过度拟合的例子——把毫无关系的噪声当成了信号从而认为噪声与事实相关。过度拟合现象在学术上也经常发生，逻辑非常好理解：提炼出模型总是引人关注，引人关注则更容易在学术期刊得到推介，也更容易被人引用，从而将其它可靠但可能没有模型化的理论排挤出市场。

预测失败，除了与我们将噪声当成信号以外，还跟我们对科技的发展无法预判有关。比如在 19 世纪末，一位《伦敦时报》的作家在研究伦敦街道上的马粪问题时说到：大约到 20 世纪 40 年代，伦敦每条街道会被厚达 2.7 米的马粪覆盖。但他所没预料到的是，大约十年后，亨利·福特开始生产 T 型汽车。伦敦不仅避免了马粪危机，与马和汽车周边的产业都发生了变革——铁匠工人失业，马场关门，油田工人、制造工人与装配工人却是市场稀缺资源。举个更近的例子吧，在 iPhone 发布之前的 2006 年，谁又能知道诺基亚会在仅仅七年后以只 72 亿美元的价格出售？

科技进步最大的悖论在于，科技进步既让我们迈入能更准确预测未来的大数据时代，但科技的进步也成为我们预测未来的最大变数。

（首发于腾讯大家）

话题：