2250 字

工具变量

最近审了一篇代谢组学文章,作者使用了 Mendelian randomisation 分析并将其作为文章亮点。尴尬的是我没听说过孟德尔随机分析,不过一看描述就知道这是工具变量加壳,再次不得不感慨于学术界造词的能力。

其实工具变量这个思想更多是搞社会科学特别是经济学的人在用。打个比方我观察到了巧克力消费量与诺贝尔奖获得数的相关关系,很明显应该是存在一个混杂因素同时导致了巧克力消费量与诺贝尔奖获得数,例如社会经济发展水平等。那么一个思路就是找一个单纯指示巧克力消费量例如人群中某个喜爱巧克力的保守基因却不被社会经济发展水平影响的变量,这样因果关系就成了:

爱吃巧克力基因 -> 巧克力消费量 -> 诺贝尔奖获得数

此时,即使存在未知混杂因素,我们只要去计算基因与巧克力消费量的相关性、基因与诺贝尔奖获得数相关性两个数值,然后用后者除前者就可以得到巧克力消费量影响诺奖获得数的真实影响了。具体来说,如果基因影响消费量的回归系数是0.8而基因影响诺奖获得数的回归系数是0.1,那么巧克力消费量影响诺奖获得数的系数就是0.1/0.8 = 0.125。但如果你直接测巧克力消费量跟诺奖获得数,你得到的系数可能是0.6且显著,而通过工具变量就可以把这种混杂因素存在影响的相关性直接找出来。当基因影响诺奖获得数的回归系数根本就不显著时,其实就已经暗示了后面那个相关性是存在混杂变量的了。

如果你去读使用工具变量的经济学论文,会发现整个论文的绝大部分篇章都在讨论工具变量选择的合理性。一旦这个合理性论述充分,后面的计算其实非常简单,并且可以给出效应大小的估计。不过这倒反映了经济学研究的一个难点,那就是工具变量在混杂因素不明确的时候非常不好找。

流行病学也面临同样的问题,当我们打算将某种生活方式跟疾病联系起来的时候,经常是找不到合适的混杂因素来进行控制,很多同时影响生活方式跟疾病的因素可能根本就不出现在调查量表上。但好在现在基因测序很方便了,我们可以直接找到一些保守基因来对应一些行为,基因虽然也会受环境影响的调控但更多时候还是受遗传影响的,具备人群尺度上的稳定性。如果我们找到相关指示基因,就可以用其作为工具变量来排除掉未知混杂因素的影响。在我看来,这是基因组学跟社会科学能产生1+1»2效应的一个非常好的应用前景。只不过你很难跟社会科学家解释清楚啥叫snp,对于搞基因组的,跟他们解释工具变量也不太容易(但应该是比反方向容易些)。

因此,搞流行病的人就提出了所谓的孟德尔随机分析,其实就是找一个跟流行病中的暴露直接因果相关的基因作为工具变量来计算暴露的真实效应。不过这经念到代谢组学就变味了,因为代谢物的水平变化是同时受暴露跟基因影响的,你直接说拿代谢物当工具变量因果逻辑就不通。想拿代谢物做流行病学的工具变量,首先要做的是证明这个代谢物直接影响某种暴露,这个需要的是实验室随机对照实验证据。但我在查阅资料时发现,伟大的科学共同体在创造孟德尔随机分析时竟然顺道给它提供了因果发现的功能,实现了1+1<1的效果。

这事大概是这样的:某天一个做工具变量研究的人给做流行病的人做了一场报告,然后做流行病的人就凑上去问是不是只要有分子层面的证据就可以拿来做工具变量,然后大概这个做工具变量研究的人只具备统计背景而没有科学背景就满口答应下来了,之后他们之间就开始了合作。流行病学专家找人测了一大堆分子指标也就是各类组学塞给了工具变量专家,工具变量专家拿来一看也懵逼了,咋这么多存在因果关系,那我就当成一个多重比较的假设检验来做吧。之后,工具变量专家就把那些存在显著性相关的分子指标作为工具变量返给了流行病学专家。流行病学专家一看,淦,不愧是统计学大师,果然给我们找到了因果推断视角下的工具变量,快些投文章发表。期刊审稿人拿来也懵了,啥是工具变量?合作者有个统计学家,听专家的不会错,过!然后其他流行病学专家一看,不行,这么先进的技术我们也得有,找人合作!然后一个兼具因果发现与因果推断功能的孟德尔随机分析就成了学术热点,大家依样画葫芦都这么做。

可问题是,验证分子指标与暴露因果关系的实验从头到尾都没做,这因果关系竟然在一片互相信任的氛围里给搞成言之凿凿的证据了。你别觉得我在这开玩笑,我审的稿子就是讲如何用代谢组学数据进行孟德尔随机分析来找因果关系的,你哪怕对同一批样本的基因组跟代谢组先来个关联分析证明下因果关系的存在或证明下代谢物的保守性我都能说你用心了,现在啥都不干直接说这是文章亮点,这过分了啊。被他们跳过的因果关系证明却成了他们的结论,怕不是 Sir Humphrey 的远房亲戚。而且,要知道工具变量是解决混杂因素的问题的,通篇竟然没提到自己研究中是否有混杂因素,这好比你拿了个锤子去拧螺丝,解决了个寂寞。

科研里面不担心你去搞排列组合,但起码这是科学研究不是数学研究,很多排列组合科学上的合理性是必须要先说清楚的。你啥都不管就调包分析肯定是能给出数据,但毫无意义。我们已经培养了太多搞排列组合投机取巧的研究人员,他们打着跨学科的旗号已经输出了无数的学术垃圾,如果还搞这种类型的跨学科合作,那么只可能形成一些自娱自乐的小圈子互捧臭脚,真正的科学问题还是得不到解决。这里我还得例行黑一下一些搞统计的人,你们在做方法迁移时一定要搞清楚背后的科学原理,不要认为自己手握开所有学科的后门的钥匙,科学研究是直面科学问题的,这个问题因为有很高的复杂度需要大量的背景知识来降噪,而搞实验跟临床的研究人员经常把新统计方法当成神奇魔盒,这两者之间交流存在很多想当然的设定,一定要把问题掰开揉碎了讲清楚再说。