2629 字

暴露组学中的数据挑战

最近做了次闭门分享,是关于暴露组学中存在的数据挑战,也借机整理了下暴露组学的资料,这里也留个底。

暴露组学认为生物表型或疾病是环境与基因在时间尺度上交互作用的结果,也就是:

$$P(t) = G(t) * E(t)$$

而暴露组学更多关注环境影响及其与基因的交互作用,毕竟单纯的基因影响已经被基因组那边搞得差不多了。

暴露组学(exposome)最早是2005年C. P. Wild 在期刊 Cancer Epidemiol Biomarkers Prev 的社论上提出的。2010年,Rappaport 与 Smith 在 Science 上发表了题为 Environment and Disease Risks 的展望文章,认为暴露不应限制在直接接触到的化学物质,也要考虑更广义的暴露,例如微生物暴露与生活压力等。

2015年,美国环保署举办了 Non-Targeted Analysis Workshop 来讨论环境与生物介质中外源化合物的标准筛选方法、标准品制备与谱数据库的开发,后来演变成了涉及来自学术界、政府、公司近30家实验室的 ENTACT(EPA’s non-targeted analysis collaborative trial) 项目。ENTACT 项目的参与单位包括八家政府机构 (California Dept. of Public Health, California Dept. of Toxic Substances Control, Eawag, EPA, NIST, Pacific Northwest National Laboratory, Research Centre for Toxic Compounds in the Environment, US Geological Survey),五家公司(AB Sciex, Agilent, Leco, Thermo, Waters)与十五家学术机构(Colorado School of Mines, Cornell Univ., Duke Univ., Emory Univ., Florida International Univ., Icahn School of Medicine at Mt. Sinai, North Carolina State Univ., San Diego State Univ., Scripps Research Institute, Univ. of Alberta, Univ. of Birmingham, Univ. of California at Davis, Univ. of Florida, Univ. of Washington, WI State Laboratory of Hygiene)。在环境领域要想做 NTA 最好去这些地方,因为参与 ENTACT 项目的机构定期会测盲样进行方法比对,基本可以接触到 NTA 最顶尖的技术,相信以后相关环境标准也会脱胎于这个项目。欧洲也有个类似的项目叫做 Horizon 2020,国内目前还是野生游击队状态,不论学术界还是业界大都在炒概念,落地案例有限。

除了化学污染物,暴露组学也会涉及到社会科学的研究方法。2016年,Global Burden of Disease (GBD) 项目估计全球59.9%的死亡来自各类外部风险,16%的全球死亡来自于水、大气、土壤污染,其造成的健康相关开支每年约4.6万亿美金(16%的全球经济产出)。基于双胞胎的也发现遗传因素大概能解释49%的人类特质,剩下的部分就可能来自各类广义上的暴露。

基于化学污染物的暴露组学在方法学方面主要借鉴全基因组关联分析研究(GWAS)发展为全暴露组关联分析研究(EWAS)。但广义的暴露组学涉及的学科非常广,不同学科背景的研究人员可能会使用完全不同的研究思路,整合这些跨学科知识是非常困难的,学科术语墙造成的交流障碍及精细化专业分工导致的研究人员的视野狭隘经常让合作举步维艰。最简单的例子就是当你真的系统性发现某种暴露的意义是远大于另一种暴露时,这对研究重要性比较弱的那部分科研人员的事业发展是毁灭性的,经济或者利益集团在某种程度上已经阻碍了综合性科学问题的探索。

暴露组学核心科学问题有两个:窗口期与组学。因为健康相关的暴露问题大都是慢性且长期的暴露,需要根据时间尺度变化来推导影响,遗传因素当然也会有时序表达问题但更为保守些,环境因素变化影响可能更大,很多暴露的影响存在窗口期,例如人们孕前或幼儿时期的暴露可能敏感度更高。目前在数据分析方法上,时间序列分析可用来研究被观察者时间尺度上的变化,显著性差异分析可以在实验设计中研究被观察者在单暴露因素下的变化,所谓窗口期,就是找出时间序列分析中被观察者在单暴露因素下的变化时间段。分布滞后模型 Distributed Lag Models (DLM)常被用来讨论时序数据中相关系数与回归因子在时间尺度上的变化。

而组学涉及更多的是多暴露问题,也就是暴露组学研究并不只关注一种暴露而是系统性关注多种暴露及其相互影响,这点提高了研究的复杂度。现在多暴露数据来源大体可以分为三类:问卷、生物样品及环境样品。问卷数据可以是流行病学调查报告、基于行为的人群画像、基于邮编的社会经济地位或医院的电子病例还有心理学量表;生物样品可以是人的血样、尿样、粪便、头发、牙齿、指甲、汗液等;环境样品则可以是室内灰尘饮用水这类比较个人化的样品分析,也可以是遥感数据、环境监测或被动采样技术下拿到的区域数据流,还可以是更大尺度上的气候变化模型的预测值。这里单人单样本单时间点的暴露组维度可以上万,毕竟就算描述一个小分子,我们能给出的分子描述符也可以成千上万,暴露组涉及成千上万的小分子与各类其他指标,这里降维是必须要做的,不然单是描述暴露组都成问题。不过暴露组并不像遗传信息那样比较稳定,暴露组的动态变化是一定存在的,不同疾病的相关暴露组是不一样的,提高动态数据中信噪比的难度不小。当前的数据分析思路就是通过构建整体影响指标来指代不同污染物的综合加权影响,但又要保证可以回溯出单一污染物的影响。用统计学语言来说就是构建潜在变量,计算不同暴露在该变量上的投影。说到这里可能你会认为不就是因子分析,但我们能拿到的真实数据并不总是连续的,有些还存在严重的缺失问题,对此加权分位数加和回归 Weighted Quantile Sum (WQS) regression 提供了一种思路。

从数据挑战上看,除了关键的术语壁垒问题,另一个挑战就是高质量的数据采集与管理,这看上去像是技术问题但所有洗过数据的人都知道其中存在多少莫名其妙的问题,这里行业内一定要同一标准,否则大量资源会被浪费在高噪音数据中。高维数据处理其实可以借鉴机器学习的一些思路与方法,但一定要先理解实际问题,因为现在仪器能采集的信号实在太多,最好的降维就是利用专业知识排除掉噪音。缺失值与宏模型训练也是一个挑战,一个人的暴露组数据几乎一定是不全的,你可能只有A的血样与环境样品而有B的尿样与调查问卷,这里很有可能A跟B的数据都包含了足够预测某种疾病的信息,这里就需要训练一个模型的模型来处理暴露组不全的预测问题。此外,暴露组与基因组给出的结论可能在传统的病理学研究看来是离经叛道甚至不合逻辑的,如何跟传统学科对接也是要处理的问题。当然,前面的讨论还都是建立在有数据的前提之下,暴露组还面临个人隐私泄露相关的医学伦理问题,恐怕只能依赖密码学的发展提供工具。

在当前的阶段,讨论暴露组学更多还是在厘清科学问题并搭建方法与模型的阶段,虽然研究目标很明确但涉及问题过于复杂。我现在其实在为回国找工作,问了一圈高校的环境学院,能单独配高分辨质谱做相关研究的地方一只手就能数过来,现在已经基本放弃去环境学院打算找医学院或交叉学科研究机构了。不过这个方向我还是很看好的,越是复杂的问题,解决起来才有挑战性,如果以后继续科研这条路,我会设计一个上万人的队列研究,追踪一批人至少十年收集一组可重复进行各类研究的样品与数据,希望能得出些许靠谱点的结论。只希望技术发展再快一点,把追踪的成本降到合理范围,用高质量数据回答科学问题而不是像现在这样天天证(chao)明(zuo)概念。