什么样的事一定会发生?从统计学角度多数事情是可能而非一定发生的,例如频率学派会认为在大样本下才能去评估一件事发生的可能性。概率观其实是统计学里最反直觉的一点,很多事的发生是只能基于概率来描述的。《女士品茶》的作者就认为20世纪最重要的发现之一就是概率论在量子力学中的应用,这使得牛顿力学里机械决定论的哲学得到了挑战。具体而言,电子云其实就只能用波函数来描述,你无法在固定的时间固定的地点找到一个电子而仅仅能给出它出现在这里的概率分布(当然爱因斯坦是不认为上帝掷骰子的)。从实验结果看这种描述也是合理的,但是20世纪后半叶出现了研究复杂系统的一伙人,他们借助混沌这个概念复活了决定论。在混沌体系中,系统对初始条件非常敏感,基于确定的模式会涌现出必然的结果。但这对于统计世界观而言是不合理的,所有结果都是有概率赋值的,例如费曼的路径积分,光是可能不走直线的,只不过那个路径发生概率实在是不高罢了。回到最初的问题,什么样的事一定会发生?在统计世界观下没有一定会发生的事,有的只是概率。
经济学里有句话叫做家庭不是国家,你不能用你身边的圈子去演绎更大的体系。《大学》里讲“修身齐家治国安天下”,认为个人的事做好了治理天下的事也就做好了。然而,这套理论可能更适合小农经济的熟人社会,大家在利益的交流与联系不那么密切,这样诉诸人与人的个体交流方式就可以解决生活中出现的矛盾。但即便小农经济里家国也不能等同处理,《墨子》里就很直白的点明这个矛盾:
杀一人,谓之不义,必有一死罪矣。若以此说往,杀十人,十重不义,必有十死罪矣;杀百人,百重不义,必有百死罪矣。当此天下之君子,皆知而非之,谓之不义。今至大为不义,攻国,则弗知非,从而誉之,谓之义。情不知其不义也,故书其言以遗后世;若知其不义也,夫奚说书其不义以遗后世哉?
但一般人在判断是非的出发点大都还是自己或者使用熟人小团体的情感模式,这必然会导致更大尺度上的矛盾或者价值观的对立。杀一个人身心震撼,但战场上杀很多人就不会有负担,个人的震撼会逐渐被稀释。这个现象落脚到经济学里就是边际效应,边际效应总是递减的,所以想了解更大尺度上的群体,更直接的方法就是概率下的统计观。不用关心个人,把每个个体想成随机变量,整体上自然就会有分布形成。随机变量要求个体独立,人与人的关系在社会尺度下其实也是陌生且独立的,原来你的接触面是有血缘关系的家人,社会上面对的是基于一定交流规则的陌生人。这个意义上认识社会的关键就是把握交流规则,那么最基本的陌生人交流规则就是《史记》中所说的:“天下熙熙,皆为利来;天下攘攘,皆为利往“。掌握这个规则,你会显得更理性,但个人生活依旧可能乱七八糟。
何故?陌生社会的交流法则不是个人所可以快速适应的。回顾人类的进化历程,对于周围人的情感需求从来都不是可以忽视的。喜怒哀乐皆是生活,相比四平八稳考虑周到的决策者,人们更能从搅局者的行为中受到启发与认同感,甚至是发泄。最近美国大选,你去看布什跟希拉里都是理性决策者,但民众支持度高的确实川普。没办法,用全局思考追求稳定的人更像是科学家而喜欢调动情感与使用极端描述的更像是律师。科学家要基于事实说服整个科学共同体,而律师只要肯为顾客打赢官司就够了,事实本源不如输赢重要。人都是媚俗、取悦自己且不擅长理性思考的,所谓历史洪流常常为他们所为或被导向,各种不确定性早就超脱了个人理性思维的极限。保守的对策就是去了解这些现象,然后避免受其影响。如果你足够有把握,可以去善意引导,这完全取决于你自己的道德水平了。举个例子,书呆子科学家不会是top级的,科学界大佬们用的政治手段与政客差异并不大,小圈子熟人认同加上高影响力的政策/技术引导圈外的个体工具化,仅此而已。
有些信息只在小范围流通,这是新时代下最大的不平等。旧时老师傅带徒弟,很长时间都是做些服务性质的东西,核心技术只让你看一次,悟不悟得出来看命。现在的情况是核心技术其实广泛分布在网上,但有些人就是搜不到。用谷歌跟百度面对的就是两个完全不同的信息,很多人所需要的东西谷歌一搜就有但就是在百度下什么也看不到。而且,一旦形成了固定的网络搜索习惯,很多东西基本就从概率上决定了,有些东西你可能就是看不到且认为没有。例如运行在tor上的暗网,很多人一辈子也不可能接触到,但很多事就是在发生。你去听新闻不太可能每件事都感同身受且感觉像是别人的事,但其实每件事都不过是人这种生物本能的一个侧面展示,角度看多了很多事就会有自己的体会而不会人云亦云。在这个境界下热爱生活的都是敢于斗恶龙的勇者,那个恶龙跟勇者如影随形。基于有限信息,你可能永远搞不出最优解,但基于自己的道总会有一个解。
统计视角下还有个问题就是误差的永恒存在,这样你基于观察就没法给出一个必然的答案,但其实有一个分支来解决这个问题,那就是因果推断。统计推断给出的是决策参考信息,因果推断给出的更像是逻辑信息。很多人反复强调相关不代表因果,没错,那么我们基于什么能得到因果关系?一般人会回答基于专业知识等等。这其实是在甩包,专业知识乃至学科的建立大都基于先前的观察实验,而那些东西又是通过统计推断得到的。那么,似乎这是循环论证,里外里就没有因果全是相关。其实这跟上面那个反直觉的东西一样,本来就是这样,但这些知识都经得起考验或者可以被推翻的。科学方法本来就不是能告诉你绝对真假的,但它会告诉你那些声称自己知道真假的都不靠谱,这个态度比知识本身更有指导意义。
说回因果推断,丁鹏在统计之都的一系列文章讲的比较清楚了,高度有偏总结下就是因果推断要考虑因果变量之外东西的存在的,要设计统计量去假设检验他们的影响来进行决策,这个决策是另一个层次的,例如用Cornfield不等式。此外,因果推断大都对数据收集有要求,不同实验设计或假设面对同一组数据可能得到南辕北辙但在其适用范围都对的结论。其实,科学在面对悖论是更像是艺术。我个人觉得日常面对的问题尽量给出信心高的结论,可有可无的结论有时科学意义也不会大到哪去。