2017 字

回归、安慰剂与流行

回归

在科研数据分析中,回归分析的使用频率可能仅次于假设检验。我们现在提回归分析更多是说数据回归到我们预设的自变量因变量模型的分析,例如线性回归就是说假设了自变量与因变量之间的关系是线性的,那么通过拟合这个模型得到一堆自变量系数,然后通过一堆关于系数(t检验)或模型本身(F检验)的假设检验来说明模型对数据的解释能力。但其实回到100多年前其诞生的维多利亚时代,回归这个说法更多的是特指“回归到均值”,而这背后的故事其实也很有启发性。

回归这个说法诞生于高尔顿关于种子的研究,但真正出名却是在1886年关于父母与子女身高的遗传学研究之中。高尔顿发现子女的身高要比父母的身高更趋向于平均身高,反之也成立。那个时候多数人已经知道的是父母的身高会影响子女的身高,但“回归到均值”的思想说的却是除了遗传因素,冥冥中还存在一种向均值回归的力量。两个都很高的父母的孩子身高会高,但总没有父母那么高;同样两个都很矮的父母的孩子身高也许会矮,但总没有父母那么矮。前面这句话里父母跟子女互相替代也成立,总之就是所有人的身高都趋向于整体的均值。

这个思想其实跟科研中常说的相关性研究是互补的,科研关心的是有关系的变量,但回归到均值的思想说的却是如果没有关系,两组变量都会收缩到均值。也就是说,也有一个客观的变化趋势。这是基于观察的规律,但其实很有指导价值。

安慰剂

在医药研究中经常会使用安慰剂来观察某种药是否真的有效,但如果你考虑回归到均值的思想就会发现一个事实:安慰剂效应可能是天然存在的,也就是不论你试验什么新药,那个没啥效果的安慰剂总会显示出效果。

下面我用一组1000人的模拟数据来说明这个问题。首先我们不去管新药,就去考虑那一组吃安慰剂的。假设我们监测了人群中某项指标例如血糖并认为其是均值100,方差10的正态分布,那么吃过糖丸之后其血糖应该跟之前差不多。这个就类似父母身高与子女身高。我们默认前后变化大概符合

$$y = 0.9x+error$$

这个error我们假定为均值10,方差10的正态分布噪音,也就是说对于一个人群,吃安慰剂前后血糖变化应该是长这样:

同时我们认为高于110的人是高血糖,也就是新药与安慰剂实际只会在存在高血糖的人中使用,也就是这一部分:

这样我们会看到无论是否治疗,总有下图的部分患者自然恢复了。

那么这部分算不算安慰剂效应呢?自然是不应该算,因为安慰剂效应是要基于病人的期望的,而真实的情况却是因为存在“回归到均值”的现象,哪怕病人不想康复或不相信治疗,他还是有可能好转的。由于药物试验一般都会去选择人群中的病人进行双盲对照试验,那么可以预期的是安慰剂效应被天然高估了。同理,药物治疗过程中的药效也会因为存在向均值回归的现象而被天然高估。用一个更常见的中西医争论来说就是不论中西医是否真的有效,对于有些疾病,本来就会自然而然痊愈,如果这个比例本来就很高,那么很多治疗手段根本就是多余。

没错,确实有个领域是这样的,那就是营养学。各种保健品跟所谓“养生”手段其实就在长期系统性玩弄这个手段,有时候会有人争论哪怕安慰剂效应也是有用的,但很不幸的是这个所谓的“有效”可能根本就是“向均值回归”的一个外在表现,跟心理作用也没啥关系。所谓买个心安理得其实也是交智商税了,起码有一定数理统计基础的人不应该去凑这个热闹,倒不是怕花钱,实在丢不起那个人。

这个思想可以类推到所谓“生活方式”的领域,兜售各种“健康”、“流行”还有“品位”概念并觊觎你钱包的人,离得越远越好。

流行

说到流行,其实是很有意思的自发现象,可以理解成系统性的均值偏离。人总是倾向于新鲜的事物,一成不变的东西总会视而不见而认为恒常。其实都在变,你重复去看一段笑话,看多了也就不那么可乐了,你会说我笑点变高了,其实是你均值偏移了,不断偏移你就很难乐起来了,大家都吃肉,肉就不好吃了。这种均值偏移有时是瞬时的,举个例子,在音乐厅听完一段演奏,大家鼓掌致敬,这时有人觉得特别好就站起来鼓掌,如果大家都互不干扰可能就完了,但如果又有人站起来呢?如果在音乐厅里的人群能让他们起立的人数分布为

1,1,2,3,4,5,5,5,5,5,5,5,5,5,5,5

那么没人会起立,因为没有人可以达到自己起立的阈值,但如果此时有一个人恰巧站起来打算上厕所而不是鼓掌,最后几乎所有人都会站起来鼓掌,因为虽然有的人需要另外5个人起立才能站起来,但由于存在不间断的上升阶梯,一个随机扰动就可以让所有人起立鼓掌。如此反复,其实你的品味会不断去贴合整体观众的品味,进而形成一种圈内氛围,大家的喜好变得相对一致,你也就实现了均值回归。有意思的是,你如果需要更多人认可的数目越少,越有可能成为整体同化的关键因素。换句话讲,如果你打算说服一群人,最好找个摇摆不定或者总持怀疑观点的人下手,他们都搞定了,其余的随大流就不难了。同样的,如果你去看亲戚朋友表演的晚会并想捧场,尽量坐前排,这样当你站起来鼓掌时几乎所有人都看得到,也就更容易动摇到摇摆的人。