1683 字

自行车头盔的糊涂账

昨天刚介绍了可复算性研究,今天看到谢益辉在Github上star了一个荟萃分析的可复算性研究案例。作者应该是一线科研人员,但没有使用 Github Pages 将报告直接生成网页是个遗憾,好在 Github 对 Markdown 的支持还是很不错的,对英文不抗拒的话直接读,我这里会省略掉一些技术细节,讲个故事。

自行车头盔在很多国家是被法律强制使用的,其依据是很多研究人员的论文。2001年 Attewell 等人对前人的研究工作进行荟萃分析(meta-analyses,也有译作元分析的)后认为,自行车头盔还是有保护作用的。这里简单说下荟萃分析,这是一种起源于心理学统计学手段,常见于各种综述。举例来说,我想知道某种治疗手段究竟有没有用,一查文献,有的说有用,有的说没用,好,我们把文献中具有可比性的数据汇到一起,再进行统计学分析,这样就可以得到一个更全面而简单的答案——有用或者没用,也就是说,荟萃分析是在更高层次上总结前人研究成果的一种方法。听起来很美好吧,但科学研究存在抽屉现象,也就是说,我们只看得到打开的抽屉中的问题,可能忽略了其他角度的思考。Duval 与 Tweedie 据此提出了一种新的荟萃分析方法,该方法的细节不说了,感觉有贝叶斯的影子,简单说就是一种计算风险比的新算法。

故事主角 Rune Elvik 曾任 Accident Analysis & Prevention 主编,期间他在2011年发表了一篇基于 Duval 与 Tweedie 荟萃分析方法的文章,使用的正是2001年 Attewell 的数据。同样的数据,不同的算法,但结论却变了,变成自行车头盔其实对个人保护没啥作用了。这一研究成果迅速被媒体关注,以“人咬狗”的形式报导了出来。也就是说,发表了一篇有社会影响力的论文。

这时故事的另一个主角 Tim Churches 出现了,他仔细读了下 Elvik 的论文,发现数据展示的图有点问题,于是他写信给 Elvik 说想要原始数据,Elvik 教授就把数据发过去了。这一过程中 Churches 并不是重新去统计新数据,而是打算进行一次可复算性研究,其实 Elvik 对 Attewell 的数据重分析也可以算一个可复算性研究,只不过算法换掉了。Churches 算了半天,发现即便换了算法,得到的数据跟 Elvik 给出的也不一样,据此他把计算代码打包发给 Elvik ,说撤稿吧,主编。Elvik 思考了很久,在2012年年底对那篇文章发了一篇勘误,在勘误中 Elvik 补充了几个新数据,结果发现,不影响结论,自行车头盔还是没用,甚至比之前更没用了。那么作为一个无关紧要的修正,故事应该差不多结束了。

Churches 觉得也该结束了,但他添加了数据后重新算了下,发现一个杯具:勘误也算错了。而且,这次错的恰恰是对结论很关键的几个风险比数据,他算了半天发现,结论应该是安全头盔是有用的。然后他又写信给 Elvik 与出版方,说撤稿吧,结果时至今日,出版方还是说调查中。

不合

这个故事其实还在进行,Churches 也承认自己其实发表过自行车头盔有用的文章,那么作为读者的你怎么看?学术丑闻?打击报复?作为科研人员,经历这个过程太正常了,我们都在不断地试错与犯错,哪怕夹带一定情绪,也总会有与你意见相左的人来反对,这个过程总是存在并保障研究成果的有效性。也许你会说,如果双方都坚持自己正确,那么数据就是评判的唯一标准,你也看到了,同一批数据有可能给出不一样的结论,而且谁又能保证自己做荟萃分析时用的数据是最全面的呢?很有可能整体学科都忽视了一些重要的证据。即便是科学家,也无法做到对自己都不知道自己不知道的东西做研究的,但新的东西出来总是振奋人心的。

值得称道的是,Churches 在Github上公开了他视角下故事发展的流程,原始数据与动态报告,我们可以清晰的看到他是如何得到结论的。他的这份报告并不是经过同行评议的,但我们可以看到这种自我公开发表本身就是可以让公众进行评议的,当然,你最好能看懂。那么,当数据公开后,我们其实可以自行去验证,不,由于动态报告的特性,同样的脚本执行结果不会出现两个的,命令行在这个意义上杜绝了鼠标点击时可能出现的错误。另一个值得称道的就是 Elvik 公开了他的原始数据,这也会伴随互联网云存储的广泛使用而越来越简单。

在可复算性研究可以很方便执行的今天,这种故事可能越来越多,也许,你也可以参与到故事中。那么自行车头盔究竟有没有用呢?题目说的很明白了,科研人员都是算糊涂账的。


其实我写这个是为了纪念dropbox