假设检验的乌云 - Miao Yu

19世纪的最后一天，开尔文男爵在展望20世纪物理学前景时提出了两朵乌云，后来这两朵乌云分别催生了相对论与量子力学。时至今日，物理学家还在为了统一相对论与量子力学而不懈努力，而由此衍生的圈量子场论跟弦论已经不是几句话说得清楚的了。然而，21世纪的科研天空可就不仅仅是两朵乌云了，简直可以说乌云密布，这其中最大的一块大概就是空假设显著性检验（NHST），以此为基引发了无数次的关于科研成果可重复性、发表歧视、多重检验与p值、因果推断、科学决策等的争论，这些争论有些出现在学术期刊，有些则在科研社交网络蔓延。作为一名科研人员，身处这样一个窘境而不自知是可怕的，这意味着很多在做的工作根基上就有问题，盲从与职业化的科研正在蚕食科研成果的威信。我并无能力提出完美解决方案，但有必要把问题先提出来，疑惑对科研总是有益的。

空假设显著性检验（NHST）

NHST更常见的形式是p值，也就是在空假设成立的条件下某事件发生的概率。p值有多流行呢？根据 Jeff Leek 的估计，如果把p值当成一篇文献，那么其被引次数已经超过300万次了，当之无愧的史上被引次数之王，甩第二名一个数量级。原因其实很简单，p值已经渗透到几乎所有学科的研究中了，特别是实验学科。可想而知，如果产生p值的 NHST 出了问题其影响力有多大。

院士身份悖论

要了解NHST的问题，我们首先要看下一个基于NHST的悖论。张三研究员是一名中科院非外籍院士，我们对其有两个假设检验，第一个假设检验的空假设是张三是中国人，备择假设就是张三不是中国人，因为我国不承认双重国籍，所以张三身份不存在薛定谔的猫态，要么是，要么不是。第二个假设是张三是中科院非外籍院士，备择假设就是不是，也是互斥的。那么两院院士不到两千人，中国人口14亿，概率大概百万分之二，备择假设的概率是0，这个情况比较特殊，也就是备择假设永远不成立。现在我们不知道张三的国籍，但知道他是中科院非外籍院士，但根据NHST，张三不太可能是中国人因为绝大多数中国人都不是院士，那么拒绝第一个检验的空假设后我们就会发现，张三成了不是中国人的中科院非外籍院士，额，那张三究竟是哪国人？

也就是说，如果一个假设对另一个假设来说很稀少，NHST会在很低的条件概率下拒绝掉，然后那些稀少的事情在NHST里就成了无法被检验的事情。这个例子最早是 Cohen 提出用来说明人们在使用NHST时的问题。本质上是多数人在使用p值时搞混了条件概率，拿上面院士身份来说，我们的假设 H0 在面对张三这个数据 D 时给出了拒绝 p(H0|D) = 0，这个决定是构建在假设 H0 成立时出现 D 的概率太低（即p(D|H0)）之上，也就是说NHST下，我们默认下面的概率是成立的：

\[ p(D|H_0) = p(H_0|D) \]

如果你修过任何基础的统计学课程都会知道这两个概率之间差了一个贝叶斯大爷。通过使用贝叶斯定理，在新数据出现后原有概率是要被更新而不是直接拒绝掉的。通俗点说就是 NHST 属于革命派，不认可就打倒你；贝叶斯属于改良派，用新的证据更新原有理论。好了，这里我们回顾一下科学史，革命派跟改良派确实都出现过，但当学科基础相对稳定后，更多的科学知识是改良派搞出来的，除了物理学两朵乌云，多数科学研究都是N+1模式，你现在在科学领域搞从零到一基本等同于对好几代科研人员同时开群嘲，结果一般会被认为民科或伪科。这个悖论的本质就是把假设下的事实与事实下的假设搞混导致的，这是NHST的一个致命问题。然而致命问题可不止这一个。

方法学悖论

过去的100年，测量方法的精度是在不断提高的，而精度其实又会影响研究结果，很不幸，也是通过 NHST 来进行的。其实 NHST 在实验物理学里用的还是好好的，例如我去检测一个物理量，只有数据出现在其理论预测下数值四五个标准差以外才会对理论产生实质作用。此时，测量精度越高，由于测量误差导致的对原有理论的冲击就会越少，因为物理学的预测性要比化学生物等学科要好不少且此时 NHST 检测的原有理论是比较真实的。但在其他学科，特别是心理学跟医学的控制实验里，在实验开始前你几乎就可以确定空假设是不成立的，要不然你也没必要分组，此时你去搞 NHST ，几乎一定可以找到差异，此时测量精度如果不断上升，那么你会识别到一系列差异，但这些差异的效果是无法体现在p值里的，p值可能非常小，但效应却属于明显但很微弱，这样的结果也许可以发表，但对实际问题的解决几乎没有贡献。更极端的情况是如果你加大了样本量来提高统计功效，你总是能发现差异的，也就是你的空假设里原有学科理论为真也是会被方法学进步给推翻的。总结下就是 Meehl 在60年代就提出的悖论：方法学的进步与增大样本数对于相对硬（理论根基深厚）的学科证伪是正面的，但对相对软（理论比较模糊）的学科则是弱化。方法学悖论的根基其实是应用学科与基础学科的矛盾，基础学科用 NHST 检验观察事实中的理论，但应用学科用 NHST 来检验的是实验设计预测下的事实，此时实验设计的那个假设与 NHST 的空假设并不对应，而 NHST 先天弱化空假设的问题就凸显了。

事实上，p值正在成为测量投资与努力而不是事实的标准，给定差异，我们总能找到足够的样本来发现这个差异（这也就是常说的功效分析）。也就是说，NHST 有时候功效不足测不到差异，有时候又一定会能测出差异，但科学事实并不会因为你使用了 NHST 而发生变化，特别是有意义的变化。而作为标准的p值其实在被样本数决定同时又综合了测定效果强度与不确定性，这样的一个标准其实有点多余，你完全可以用描述性统计与置信区间来分别表示效果强度与不确定性。p值也并不能增加新知识，考虑一个多元线性模型，我们只能在多元模型里得到参数，也就是有限检验，不能发现未知参数，但科学就是寻找未知；变量间的关系在数值改变后如何考察，正负关系如何预测，预测性也就无法实现。那么此时，还有必要使用 NHST 吗？

低垂的果实

20世纪的技术有了意义深远的进步，但更现实的问题是，科研里低垂果实已经没有了，学科从分立走向交叉，开始不断服务社会，所有的科研都像是应用科研。服务社会职能的出现要求科学家回答的不再是科学问题而是现实问题，或者说，科学地回答现实问题。但现实问题非常复杂，科学家要想排除影响，大都采用控制实验来验证观察研究中的事实。注意，这里的事实不再是理论假设，而是一个现象，如果本来就观察到了差异，用 NHST 根本就不会让我们知道更多的事实，我们可以用无数独立手段证明这个事实的存在然后整合进学科知识体系，但并不能产生更多的思考，理论的预测效能在 NHST 里实际是体现不出来的。

抛开这个问题，另一个更现实的问题是很多一线科研人员甚至还没搞懂 NHST ，说不好听一点，就是只会模仿别人论文，这样连错的都一块模仿了。这里面深层次的原因是科研人员的教育仅仅停留在了知识与逻辑层面，没有系统的科学思想训练与科学史背景。后面那两个对发文章不但没用，反而会让你怀疑科生，但没有后面这两个，你只会看到一个各干各的一团和气的研究氛围，没有评论与争执的岁月静好只会让整体科研水平永远停留在二流追随的状态。你去看各学科顶级期刊里的评论与回复，你会体会到哪里在发生的事，举个不恰当的例子，你到 Github 上去看，那些常用的软件都会在不断的更新与协作，而学术论文的更新与协作却少得多，一个重要的因素就是很多所谓科研成果永远都不会有人重复与验证，最大的作用就是放在简历里谋求职业生存，很多人自以为掌握了高端的果实但其实那些果子对学科发展并无意义，如同 NHST 一样，用之无味，弃之生存空间都没了。如果你把科研当职业，起码也要有点 Github 的分享与协作的职业素养。

路在何方

关于 NHST 其实还有很多问题例如多重比较跟p值发表歧视，但系统去看，p值也有着自己的生命力，我想更多人关心的是如果我不用 NHST ，拿什么证明我的结果可靠？如果没得选，这剂毒药还是得吃啊。答案其实上面都大概提到了，你如果坚持使用p值，那么就也请同时报告参数估计与置信区间，虽然这个方法也被人喷过。如果你打算完全开一条新路，那就去学贝叶斯统计，贝叶斯统计有自己成套的处理体系，简单说就是先假设参数分布，然后用数据更新分布，后验分布计算出来就同时有点估计跟方差估计，同时多重比较问题也不存在，但随机错误无法避免，此时参数估计方差大也能体现，后续研究可以使用这次的后验数据作为下次先验数据，这样你可以实现完全的 N + 1 模式科研，其验证与预测性也很大程度依赖采样与模拟技术，之前贝叶斯方法不能流行很重要的一个原因就在于计算比较贵，现在就便宜很多了。但我想说的是，这类知识因为提出时间不长除了几个数的过来的名校开设了课程外几乎完全需要自学，不过你要是真对科研感兴趣，这都不算什么。

有人说我写过的几篇文章是在劝退，我还真没那个意思，看清现状后的理性选择对人对己都是负责的，如果你根本不适应这个现状还又觉得没了退路，那你肯定是被什么毒鸡汤绑架了，这世界上本来就没路。