4360 字

开放科学实践

21世纪开始这二十年科研最大的变化就是开放科学的流行,开放科学并不是面向大众的科普,而是面向科学家团体的全流程开放,最大程度保证研究的透明度。之所以会产生开放科学的需求,一方面是因为最近十年可重复性危机的蔓延让科研经费的提供方与公众越来越担心科研资助的质量,科学家自身会有自证清白的制度设计需求;另一方面则要归功于技术进步或出版方商业模式转换使得全流程透明可以落地,也就是经济技术环境允许。

其实科学家一直就是一个带有乌托邦色彩的全球化大社团,为了让学术资源更好共享,科学家会从政府、私人基金或企业那边募(hu)资(you),然后培养年轻科学家或同同行合作来产生新知识并通过学术出版公之于众。这个团体内部其实非常开放,例如很多大科学装置是开放给所有人申请使用的,并不限制国籍,只是会事先审核申请人资质且自理食宿,收费很多时候相比成本只能说象征性的。同时大量的培养资金或研究经费也是开放给所有人来申请的,当然潜在的门槛是知识水平或认证过的学位,否则必然民科泛滥。不论哪个国家或地区,科研系统的交流术语都相对通用。你写个H2O,就算母语完全不同但也知道这是水,科学家从很早就致力于构建通用科研交流标准与语言来降低交流障碍,目前来说英语是主要载体。现在很多交流方式例如电子邮件传入国内就是中科院高能所为了研究拉的线,跨国研究科学问题在很多学科例如高能物理、气候变化、生物信息里是不言而喻的很正常的事,反倒是政治经常阻碍科研交流。

现在一个典型的开放科学项目的资助来源可能很复杂,但成果的展示基本要求去商业化与透明化,例如尽量使用开源软件而非商业软件,成果中后来人可以用到的例如病毒序列这种要按照标准格式提交到学科内常见的数据库里,论文要求可以开放获取或锁定一段时间后可开放获取,论文中图表要使用cc授权方式且生成图表的过程要具备可重现性,论文初稿要在预印本服务器上发布且接受开放审稿,而论文发表过程中也要接受审稿信息的公开,方便读者回溯流程,论文发表后相关文件、数据、处理脚本要打包上传到公开数据库里方便查阅……

总之,现阶段要想完全符合这个标准还是很有难度的,最难的莫过于开放审稿与提供图表再现细节。开放审稿的难度在于很多审稿人质疑的问题可能没有完全解决,公开后被二次质疑概率高。而提供图表再现细节的难度则是技术性的,很多科研作图软件是图形界面点点点的,连图片生成人都不一定记得住自己做了哪些操作,可重复性高的命令行式脚本对于非统计或计算机相关专业的研究人员而言门槛过高,且公开原始数据对于很多课题组而言是非常谨慎的,他们会在论文里写如有需要可以联系通讯作者拿数据的话。

就我个人而言,这种程度的公开是完全没问题的,从博士阶段开始我就想做出一个完全符合开放科学标准的案例或实践。但那个时候要么是有些图的代码生成我实现不了(因为是跟仪器绑定的),要么是论文的合作者处于各种原因否定了数据公开仅接受邮件索要,要么则是太过超前的概念期刊不接受,例如开放审稿与预印本。但到了神奇的2020年,我想方设法完成了一个案例。

为了把案例做到典型化并督促我自己,我采用了先吹牛后补票的方式,从2019年我就利用开会到处宣传我要做基于质谱的“reactomics”,甚至这个词都是开会为了凑摘要现编出来的。不过我也承认确实在我之前这个词有人用了,但没用到质谱上。这样其实19年很多人就知道我要做一个新东西,原理也都公开了,这样其实就是拼写文章快慢了。而那个时候,我对文章咋写一点概念都没有,原因很简单,传统论文的套路我是很熟的,但介绍概念的论文我确实读的不多,所有概念都是教科书里学的而教科书显然不会写成论文的格式。19年回国休假结束后,我就一直在想怎么写,这样在19年底我才好不容易完成了初稿。但我的老板也没见过这种没有实验数据的数据挖掘向文章,一直说这就不是论文,需要拆分重写成传统格式。但我比较清楚的是如果用传统格式,那么根本不会产生影响力,所以就硬顶着不改,还软磨硬泡获得同意后送到了预印本服务器上。然后就写了篇博客,用中文说了一遍。这篇文章在预印本服务器biorxiv上的前三个月一直是生物信息学这个分类浏览量前十的文章,但其实这是一篇属于分析化学的文章。

较高的浏览量给了我一些信心,但投稿就头疼了,因为这次我怎么说都不让尝试顶级期刊,说是浪费时间。最后折腾到了PNAS,那边换了两个编辑后给了个评论,想法很好但文章技术性太强,受众太窄,建议投化学类期刊。最先尝试肯定是JACS,结果那边又说了同样的话,建议转AC,真转到AC上后来了个啥都不懂的审稿人,说没实验没意义。当时我已经气的够呛了,就推说要转格式把稿件扔到一边了。但此时biorxiv上却来了开放审稿意见了,芝加哥那边有个课题组组会上讲了我这篇文章,他们老板把意见汇总了下发了过来,大意是评都评了,你看着改吧。这份审稿意见是我收到的第一份有实质内容的意见,之前的意见都没给出问题在哪,这对我而言就是浪费时间。

其实我自己给别人审稿,定位从来都是帮着那边完善内容,因为所有投出来的稿子最后都会发表,审稿人的角色是帮助提升文章的而不是发表个人观点的,哪怕拒稿我也会给出修改方向。但我自己的稿子经常遭遇极端化审稿,要么完全提不出问题,要么就是找茬,我之前有篇稿子改了五六轮换了十几个审稿人,但每次都有个审稿人来找茬,没有具体问题就说不行,最后还是拒了,后来我才知道这里面有些个人恩怨(不是关于我的)。不过但凡吃这碗饭,就少不了这种事。

在公开回复了开放审稿意见后,我再一次打算投稿,这次想投的期刊在我投的前一天爆出了歧视中国人的新闻。然后我就连夜又把格式改了投《自然·通讯》,然后那边过了半个多月回来说想法很好,但太技术,让我转到他们一个新期刊里(其实比我更技术的文章他们也发,但对于从未发表过且没有大牛背书的人而言,初次审核都格外严格)。另外,我当时如果不转,这边老板一定让我重写成传统格式,所以就转了过去。不过这次一周就给意见了,当时我觉得完蛋了,又是拒稿,结果却是返修的审稿意见。提的问题并不难,不过当时我在同时处理好几篇稿件,在我这里耽误了几天,修回去就接收了,审稿返修一共用了一个月时间。当然在期刊那边改格式做技术审查耽误了很久,然后10月2号接收拖了一个多月后才上线,不过这时我注意到了他们可以公开审稿信息的选项,所以顺道就把审稿信息也都公开了。

其实开放审稿在开源软件开发是更是家常便饭,这里顺带说下统计之都也是开放审稿的,虽然还不是学术期刊,但这种低成本运营的方式应该更符合科研乌托邦式的要求。如果我们能直接在互联网上利用GitHub或Gitee这类平台打造低成本开放获取开放审稿的期刊,那么科研交流会更透明,也更回归科学讨论,现在开放获取已经被很多掠夺性期刊与高收费搞臭了。不过据我了解很多依赖协会建立的期刊其实自己运营都不太好,最后或者被出版集团收购,或者月刊改季刊,季刊改半年刊这样消亡。我想统计之都目前也算是一种尝试,如果能走通且推广,那么应该可以让现有出版方式接纳开放审稿与发表后审稿的模式,毕竟发表只是一个起点,科研进展都是在已有工作上做的改进,如果能公开追踪并更新版本,要比每个人各写各的重新造轮子要好很多。这样可以把科学问题当软件,科研人员把相关研究都更新到一个主题下面,有人跟进就不断更新版本号,没人跟进就停滞自生自灭,这样期刊只要定好主题大家就像是协作维基百科一样去发展就可以了。当然制度设计要有激励与惩罚,这点可以交给所有参与者自行评判,问答网站上有很多可以借鉴的经验来让审稿者作者都得到恰当的透明的可追溯的认可。不过,去商业化运行的后果就是低效,但老实说如果把灌水文章去除,绝大多数期刊的学术交流效率也不高,反倒是养活了出版行业。

这次为了做这样一个案例,我把代码与数据也都公开了,里面甚至包括了实时从kegg抓数据洗数据的方法。论文中出现过所有的图与表都有重现的代码,为此我把随机数的seeds都写死了。做完这些后出版方那边又发过来一个邀请写篇博客介绍下,当然可以了,毕竟我提前一年就写了中文博客了。这样这个开放科学的案例就比较完美了……才怪。

我其实更近了一步,这个反应组学的概念从头到尾都是我造出来的,所以我又做了一个大胆尝试,那就是把日常科研进展更新到在线幻灯片里,这个幻灯片我可以反复用且经常更新。这一步是很危险的,因为我只敢把反应组学这个项目的进展幻灯片完全公开,这个项目没有用到任何我现在实验室的数据,全都是展示的开放数据的证据。这恰是我觉得最难的地方,因为我提出的概念自己验证经常是可以通过控制实验很好完成的,但要是用别人的数据验证,那就必须保证概念的通用性或鲁棒性非常强,可以在不是为自己设计的实验里依然被验证,这次我是用一组肺癌患者的尿样来验证的。其实这也是我自信的地方,因为如果一组概念或想法真的经得起检验,那么其预测性就必须足够强大。

我把项目进展完全实时公开这个做法(现在里面也有不少没发表的内容),就像是写了一本本格推理小说,挑战读者能不能跟我一起找出答案,这种本格科研形式应该是开放科学里最激进的玩法。同时解谜的科研过程非常刺激,我其实知道很多课题组在用我做的东西,有些跟我打招呼,有些是不打招呼的,不过我即不防君子也不防小人,你要看就给你看,咱们打明牌,反正我不缺想法,就怕好的想法没有人去跟进。同时,我在会议上做的报告录像也是公开的,我并不担心有人跳出来说你错了,因为错误使我进步,更好利用技术手段把成果传播出去才是我的目的。这次我动用了公众号跟知乎专栏,加上在出版方那边的英文博客,就是为了证明开放科学这条路我是能走通的。当然如果你仔细看会发现这篇文章只有两个作者,因为人多了估计是无法接受如此激进的投稿策略的,且确实也就我跟老板在沟通这篇文章,且老板更多时候是劝我放弃的那一个,两人合作都有一个负战斗力,人多了协调起来跟灾难差不多,不过也可能是我水平不到家。

当然了,这篇文章也确实没有发在特别值得说的期刊上,但对我而言更多是一次完整开放科学的体验,以后讨论开放科学也不至于纸上谈兵了。但预印本上700多全文阅读与论文发表一周后近500的阅读量我还是满意的,毕竟我大部分其他论文下载量连这篇的零头都不到,就让子弹飞吧。显然,我会在以后的研究中更多使用这种开放科学的思路,做研究就不应该怕被检验。特别我属于做基础研究的,做出的东西距离应用与盈利是有距离的,这时候要不能把成果很好传播出去,守着自己一亩三分地也没意思。

下面是相关资料:

最后,欢迎大家踊跃投稿统计之都!