统计模型中,统计量通常是构建在群体属性上的,一群人平均体重60kg是一个群体描述而不是个体描述,平均人数据不是现实意义上的人而更多是我们认识世界的一个视角。当我们使用群体描述时默认群体的某个描述是均质的或不确定性是可以估计的,这只能说是一种简化的世界观。真实世界里均质群体不太好找,你得用随机采样来获取,但受限于真实采样手段,完全无偏的采样非常难获取。究其原因,人类作为整体的某些特性可能是趋同的,但具体到个人不确定性就极高了,在叫做小数定律,也就是极端的情况更容易出现在小样本里。
对于个体而言,整体统计量的描述经常很苍白,是根据语境决定效用的,很多现象个体上你无法描述,好比不能用温度描述一个运动中的分子一样。例如,群体里某种疾病65岁以上老年人死亡率1%,具体到某一个老年人就没法等同于说他的死亡率1%。这里有两方面原因,一来65岁以上老年人死亡率1%是一个观察结论且很粗,打比方这1%的人几乎都是吸烟的但你不知道因为没收集这个数据,当吸烟对这种疾病起了决定性作用时,你用1%这个数相当于拿无关人的数据做分母稀释了群体内部分均质性很强的小团体,统计量对于异质数据的描述不存在微观价值而宏观描述也不准,最常见的例子就是收入长尾分布里平均值与实际感受差异很大或被平均,有些时候这个过程也会是主动生成的,例如不同的社会经济地位的消费行为模式很大程度上是被不同的社会经济地位内在的亚文化或圈子通过互相认可来确定的,这就涉及个体间互相反馈同化或割裂的过程,一个群体看似铁板一块,其实内部结构与沟通效率差异很大;另一方面,这个某一个老年人也是有其自身属性的,例如吸烟史或长期吃素营养不良。同时,很多指标也没有个体独立性,我们在使用统计量时,经常是先抽象后具象,这一缩一放里细节默认互相抵消,然而如果我们的目的就是要知道具体某个人的情况,所有细节都应该考察。现在群体中聚类找到跟某一种现象相关的指标或机理,然后具体去看某个人这个指标如何,这就是所谓表型-机理-预测的建模过程。
现有医学体系与流行病学本质上是构建在平均人模型上的进行循证的,这是一种符合现代化的公平与标准化模型。基于平均人模型,我们可以提出致病机理,针对机理可以开发通用药物。但临床上病历的作用可能更大,正常人出现咳血可能就得住院,但病历上标注结核病的可能就给点多喝水规律作息的建议,医生要是严格遵循循证医学要求会造成医学只能集中在常见病上发展,因为那些人数太少的罕见病可能不会被识别或聚类诊断。最简单的例子就是测体温,很多人自己的平均体温跟人群的平均体温是两个数,要是一刀切,可能他的数值正常对他自己而言已经相当不正常了,而这在诊断上就会出现漏诊。
然而,这个过程本质上还是先整体聚类然后认为他们是相对均质的,真实世界,打比方有一种疾病,你把所有患病的人凑一起但找不到这个群体共性的特异性指标,那么只能说我们当前技术找不到新的视角。不过,在个体水平上却可能会有非常显而易见的问题,例如这个病非常邪门,触发条件是某年某月某日你看了我的博客,那么显然常规分析根本就想不到收集这个数据。然而,如果个人对自己行为进行记录,可能会发现这个行为模式但却毫无统计意义。也就是说,如果我们想发现这种不知道自己不知道的东西,能做的就是尽可能多的收集数据然后进行穷举式尝试。另一种可能就是个体基线数据的异常分析,这里没有平行世界让你采样,就得用不同时间点的你作为基线。
这就是所谓精准医疗技术研发的两个核心思想,第一个就是尽可能多测量指标,例如各种组学技术与传感器;第二个就是对个体的各类指标进行历史追踪。实际应用中,这两个核心思想都要用,但技术复杂度极高,你能测准一个数构建个时间序列都不容易,测成千上万个互相相关且存在交互作用与级联反应的指标再去考察时间序列变化,原理上很清晰但实测全是坑,数据可比性,可重复性在个体层面没法依赖大样本而只能依赖历史数据作为参考,而数据解读在原理不清晰的状况下更是困难重重,虽然预测会变得简单。没错,如果依赖个人历史数据,预测几乎等同于异常值分析,前提是你的历史数据有可识别的模式,要是没有,那么意义可能也不大。
本质上,这是在寻找个性化的机理解释,而其复杂性是疾病本身引起的,一种表面上看起来很显然的疾病其分子机理可能极为复杂,在不同生理结构和尺度上互相矛盾,例如基因层有变化,蛋白层没有,但表型又有了。或者基因蛋白水平都很明显指示了疾病,但就是没症状,其原因可能是另外的基因或蛋白被激活抑制了我们所谓指示疾病的信号但我们分析手段漏了这个指标。这种情况下我们收集历史数据是看不到基线异常的,因为数据不全。这时候组学技术可以起作用,也就是不分青红皂白能测全测,即使这个指标没有被现有知识标注过也要收集到信号来构建历史基线,但问题是我们看到了异常也很懵圈,因为不知道啥意思,分子水平上一个人一天的起伏与异常值可能多的离谱,但其最终结果可能过很久才出现,久到我们根本就意识不到这两件事有关系。也就是说,按现有思路与知识去构建个性化模型,我们不一定输在模型上,而是输在对构建模型的机理想象力上。其实个性跟模型其实本来就对立,个性强调独一无二而模型强调共性抽象,个性化模型只有在个体历史数据可被模式识别的条件下才成立。
有没有框架或思路可能先于我们的知识来构建个性化模型?这几乎一定要涉及一个可以自己演绎,回溯与学习的模型框架。我不想用人工智能这个词,因为人工智能到顶也就是人的智能水平,人的智能水平要是够用也不至于现在一线科研人员都在挣扎着从噪声里提取信号了。这个系统要有极强的异常侦查能力且可以集成现有生理知识对历史数据进行长距离逻辑分析,但比较麻烦的是他可能无法从错误中学习,因为其监测的主体如果死了或得病了,其预测能力会增强但这个人可能用不上了。而能学习的方式就是有个数据后台对某指标类似的人进行实时聚类,如果同类人有一定数量出了问题就对另一类还没出问题但有趋势的进行预警,但这个预警可能也没啥用,没有机理支持最多就是让这个人出事前知道自己会出事而已,当然这个个性化模型也可以用来研究机理,用现在人的数据预测未来人的风险,也许这代人用不上成果但下一代可能受益。在药物开发上,个体分子水平的变化可以用在研制针对个人的药物或用药指南,但也是构建在机理或数据的支持之上,如果只有个体数据,机理演绎功能就必须也得个性化,类似现在的个性化推荐,不过熟悉推荐系统设计的同学可能马上意识到其背后也是聚类与语义分析,真正的未知个性化都得是构建在机理上,但机理自身也可能是个性化的,只有底层生物物理化学规律是跑不了的,所以个性化模型一定要有这部分知识的实时更新知识库。同时,这种数据一旦产生就会有隐私问题,能预测疾病的数据也可能预测其他事,但不同于通过数据杂交来获取统计意义的规律,个性化模型的基线差异规律正是构建在个体多指标的交互作用上,你把部分指标换成别人的就没了规律。能解决的思路可能就是捆绑销售,如果你想让个性化模型有更强大的预警功能,就得出让你数据本身整体的研究价值而禁止掉其他用途。
最后的讨论是:个性化模型是否真的必要?究竟有多少病我们还没发现?有多少指标异常有生理学意义?现在越来越多可穿戴设备在炒精准医疗的概念但收集一堆步行心率数据除了收几个赞外可能还不如一个跌倒报警来的实在,而跌倒报警也是基于异常分析。现在流行量化人生,但在我看来只是消费主义的另一个变体罢了,你量化了但没有科学支撑就是行为艺术,也不用跟我扯公司层面宣传出的科学支撑,我过手经过实验设计与质量控制的人体样本也有四位数了,都不用说规律,单是消除分析阶段引入的误差就各种麻烦,让我信商业公司收集数据结论的信度与效度,我得查查他们的论文,我可能不质疑技术但会质疑里面的科学。其实虽然存在大量未知,但人身上这些零件保质期七八十年就差不多了,个性化模型本来就是对边缘人士设计的,对于普通人身上贴一堆传感器意义有多大其实很玄学,也许就是谈资或装腔,临床大夫诊断肯定优先看病历而不是电子产品给的监测,后者可能警察会更感兴趣。我所在的私立医院确实存在很多富有的家族投资某种家族病研究的事,顺带可能也救了类似家族病的人,但直面完全未知疾病的预防研究在很多人看来就是没事找事。不过,这也是预防的悖论,你不会因为阻止了某些事收到表扬,但一定会因为没有阻止某些事被骂成狗,这种费力不讨好的研究在现代化体系里其实可有可无。
其实个性化模型在非医疗的商业推广中已经广泛应用了,作为科研主题非常有意思,可以挑战一些极端环境,但其背后的精准医疗目前概念意义更多些,真要是搞清楚了应用场景,潮水一退多少人穿着皇帝新衣,一目了然,当然他们一定会把概念术语搞得无比复杂让你只会乖乖掏钱买单,现代社会恰饭才是硬道理。