7282 字

加州游记(下)

11

我住的旅馆非常美式,是那种两层长排的汽车旅馆,就像电影里一样。能看到皮卡后驮着个大哈雷,四角用绳子固定,很西部。旅馆还附带一个游泳池,不过这边其实距离海滩非常近,通常玩的都是些小孩。房间方方正正,后部隔出卫生间与洗手间,似乎单层或双层的旅馆都是这种格局。曾有报道说美国有些人没有住宅只能住汽车旅馆,当天工作赚的钱刚刚够房租与吃喝,有人说为什么不去租房,原因很复杂,一般来说租房需要押金,对于很多底层人员根本拿不出且他们的信用记录也不佳,被社会抛弃且不会发声。不过我住的这个地方挂牌价近100刀,如果做日结,按时薪15算每天8小时也就刚刚够房价与吃喝,周末还没地方去,底层人应该不会选这里住。

类似国内三和大神的人在国外一直存在,国内这个阶层也在迅速形成,而且伴随工业智能化,人力资本将逐渐成为人力负担,对于发展中国家,最好在技术大进步前实现基本社会保障与经济发展,否则社会一定出现恶劣的贫富分化与群体间矛盾,全世界富人是相似的,国籍限制不了他们财富转移,最后可能留下国家级的烂摊子。

每天早上8点我会坐旅馆的车去学校然后下午6点回旅馆,一般我会早到些去看看大厅里当天的报纸。报纸、广播与电视其实是了解一个地方最直接的方法,年轻人大都喜欢网上交流而执着于传统媒体的人往往最有当地特色。有意思的是,如果你住的是青年旅舍,前台给的报纸经常是国际化的纽约时报,而这种汽车旅馆,报纸则是关于本州或者本郡的。

美式报纸一般会偏左,当地小报这一周主要关注了麦凯恩的葬礼与贸易战对加州的影响,当然一般也会有一页全是漫画而另一页有填字游戏及天气,比较当地特色的就是本地新闻与讣告,后者一般是家人登的,估计只有很正统的家庭才会登报缅怀逝者。按说结婚也要登报,不过现在年轻人恐怕不吃这一套了。

12

这周交流重点转到了数据分析的建模部分,对于一组数据,无论怎么换模型,验证集准确率都徘徊在50%左右,基本相当于瞎猜。然而,现实条件也不允许去收集更多数据,此时情况就很尴尬了。即使使用了线性混合模型来估计固定效应,相比较大的随机效应,估计出的结论往往也很难解释。我觉得这会是一个通用问题,核心就是个性与共性。

现代医学是构建在共性基础上的,医生根据症状诊断疾病,然后对症下药,这个过程是构建在疾病是独立于个性的存在上的。病理学的发展就是对病因的探索,当我们确认病因是某种病毒或病菌后,干扰素与抗生素就可以针对性起作用。然而,如果病因对某个人是特定的,那么从共同病因的角度就可以造成误诊。遗传病就属于非共性病,如果不进行测序或谱系研究,诊断就会出问题。

用代谢组学手段去研究流行病学问题,最大的问题就在于收集的数据灵敏度对每个人都是不一样的,有些人A物质可反映是否患病而对另一些人这个物质就成了B,而还有些人A或B都不敏感只能用C。统计模型在基线不统一的状况下可以发现强规律,但每个人针对性的规律就很难提炼出来了。更麻烦的在于,针对个人的规律其实没啥科学价值,学术界关心的是共性而不是个性,虽然个性可能对具体每个人更有价值。

上面模型的低预测性最后还是部分解决了,我发现病人在追踪期无法实现聚类但在发病与治疗期样本聚类效果变强。也就是说指望找到灵敏的早期诊断是比较困难的,但中后期病人与康复病人共性变多了就可以用代谢物来指示。前者可能是因为病因类似,后者可能是因为治疗手段类似。不过这对于解决实际问题帮助不大,因为就算不进行代谢物检测的常规诊断也能做出来。我觉得个体差异将会是早期诊断最大的难点,个体的长期追踪虽然技术上可行但就个体而言他不得病用构建在其他人数据基础上的模型预测其实还是会误诊。我能想到的解决方案就是抛弃疾病的概念而采用异常的概念来对个体进行检测。同一指标的异常对不同人的含义虽然不一样但机理层应该有办法解释,此时需要基础医学与异常检测模型进行耦合,怎么看都是个复杂系统工程,我怀疑最后需要人工智能来协助完成。

13

说到模型,这周我花了些时间重新研究了下caret包,这个包属于平台型包,提供大量机器学习算法的通用接口。其实现在很多人都把注意力放到了深度学习里,毕竟效果在那摆着,但科研建模往往想通过模型了解机理。而且我看到很多自称大数据的论文充其量也就几个G的体量,不过是为了炫技,但能有个通用工具是非常有必要的。

在科研数据模型里,数据结构比较简单,但我发现很多课题组用来用去就那一个模型,后来才知道问题不是不想用其他模型,而是每个模型都需要现学。参数一大堆不说,各家对数据结构也有独特要求,这个萝卜包最大的贡献在于它将换方法的学习成本降得很低。举例来说,所有模型都可以抽象成$y = f(x)$,所以可以把方法变成流程。流程对于高手而言是累赘但对于使用者而言是福音,因为一个设计良好的流程可以规避掉很多坑。

萝卜包的流程是这样的:首先对数据进行预处理,例如归一化等等;然后对数据集进行训练集与验证集的切割;对于训练集数据,可以通过在训练中引入交叉检验等过程来防止过拟合,也可以调整训练的目标;对于特定模型,可以单独指定参数训练的范围;训练后的模型输出最优参数,然后在验证集上检验;重复这个过程尝试不同算法;不同模型进行比对;考察特定模型里各变量的影响大小。

我觉得如果一个新手遵循了上面的流程,哪怕他对算法了解不多也可以很简单地去探索很多新模型而不是花大量时间去读那些算法文档。有时候需要有点工程师思路,先运行了再说,等找到合适的模型了反过来比对模型假设与现实问题可能会有意外发现。我很反感那些看到个新算法就拿过来跑一遍然后写论文的人,在我看来这是机器人或脚本该干的事,甚至应该写个自动脚本,一旦有人发表了新算法,就在已有数据集上自动跑一遍数据然后生成个论文,我觉得如果有这个机器人,那按论文发表数大概也是个教授了。如果是使用外学科知识,尽量了解背景原理但不要花太多时间在这上面,能跑就先跑,不要搞完美主义。

对于模型,每个学科要有自己的模型矩阵,尽量包括原理差异比较大的基础模型,不超过5个,然后根据预测情况对模型进行预测的加权组合,生成宏模型,这样应该可以应对80%的场景。但实话说,水平的差异都在另外那20%上,但如果连处理80%场景的流程都没有,那起码不是个一流课题组。我觉得原理上差异比较大的多元模型如下:

  • 多元线性回归
  • 广义加性模型
  • Boosting
  • 支持向量机
  • 神经网络
  • 含正则化过程的上述模型变种

如果上面模型预测率都不高但预测结果相对独立,用caretEnsemble包对独立模型预测结果进行组合,这样整体预测率会有不小的提升。

14

这周教授请我去她家里吃饭,路上说起住处附近因为总有小孩子骑自行车乱跑,所以社区投票把很多路段的自行车道去掉换成了停车位。结果自然又是导致了关于停车位与自行车的讨论,这边社区有邮件列表,据说最近几天列表里天天出新议题。这事在国内的版本就是业主微信群,不过因为教授住的社区里的4000人大都是欧文分校的教师,各个擅长教学辩论,所以看起来一时半会也解决不了。学者吵架其实很有意思,有时候能看到通过期刊来论战的,当谁也说不服不了谁时直接分割成不同学派了。我在山大时有次走错教室听了节数论的讲座,时任数学院院长的刘建亚就说国内有个学者因为一个没定论的学术问题老找他茬,后来他就索性不理会那个学者的邮件跟电话了,结果那边直接动用科技部关系发了个批文要求他回复学术问题。文化人打架,没文化的可能连当观众的资格都没有,都不知道搞什么鬼。

晚餐就是火鸡汉堡配沙拉,教授的老公非常幽默,烤的面包也很好吃。之后讨论到了《银河系漫游指南》,然后又提到了xkcd与phdcomics的漫画。当时我说去以色列开同位素的会时见过phdcomics大电影里一个来自加州理工的演员,然后教授说phdcomics的作者跟他老公合著过一本书,翻译成好多国语言。这时我才反应过来,去年那本火的一塌糊涂的《we have no idea》正是眼前给我做面包的人写的。没错,回来之后一查果然是他,也是欧文分校的物理系教授。这圈绕的,想不到误打误撞见到了真人,这世界真小。

谈及欧文地区,我了解到整个加州其实就是个城市群,也就是说城市之间并无农田间隔。这跟国内很不一样,国内的城市与城市间往往间隔大量农田,不过仔细看了下周围地貌我发现更多的原因可能是居住模式。美国人住的都是二层小楼带车库,国内从一开始就是单元房公寓,这导致两个很明显差异。美国住宅区间的商区层高也不超过两层,而且因为家家有车所以商区有一多半要给车位预留;国内城镇化经常干的是合村成楼,从平房直接变楼房,这个过程中大力发展公共交通,但其实楼房最大的问题目前应该在大城市出现了,那就是停车位紧张,所以大城市要限号限规模来保障居住质量。实话说,中国发展不成美国的状态的,人均能耗应该是受限的,如果中国人按照美国人的生活标准来过,且不论经济上是否可行,地球的环境承载力是不够的。但一个现状就是其实国内大城市的人均能耗已经跟发达国家接轨了,也就是说,城市与乡村在未来人居环境上一定面临能耗争夺或者碳排放量的交易,这个过程甚至比国家间的争夺还要剧烈,最后可能导致乡村彻底衰落与超级城市的出现,因为这样能耗是最经济的。

15

周四教授请所有课题组成员吃饭,送了我一本书,是关于微生物研究的。类似的书我在水卢也读过,作者一般是为一些知名杂志或报纸撰稿的科学作家,这样的人北美这边比较多。国内的话,我觉得可能只有土摩托袁越达到了这个水平,能够向公众传递前沿科学理论与技术,松鼠会个别文章可以达到水准,其余的地方大都存在明显短板,不是基本功不行就是类似记者的归纳总结能力不够,给出的文章让人看起来雾里看花,要么就是不会讲故事。

其实能围绕一个前沿主题,从生活出发阐述技术与争论再落脚回生活是挺不容易的,科研是允许自己跟自己玩的,但能不能把自己做的事以故事的形式说出来也是看功力的。我觉着现在科研人员过于强调了专业性,甚至都附加了神秘性,这本身就很不科学。目前做规律演绎灌水的人太多,踏踏实实去总结学科进展并对学科逻辑体系进一步归纳的人太少,这一方面是因为科研的职业化发展让从业人员在面对量化指标时不得不优先刷数据,另一方面则是培养体系中实在缺失对总结归纳能力的培养。当前的科研人员很少又能对全学科有感知的而仅仅只关心一小部分来占据生态位,这样学科内就容易出现重复造轮子的情况。国内情况尤其严重,很多教材章节间就存在重叠与逻辑混乱,一方面是因为教材不是一个人写的,另一方面则是总编没有系统规整内容,这也是很多学科现在都用海外影印教材的原因。按我的观察,教材一个人写出来后逻辑是非常清晰的,不重不漏,如果是合作就会出现问题,不如一个人写出提纲来别人丰富,至少主干清晰。

此外,聊天中得知欧文分校出现过捐资冠名学院的教授因为被控多名性骚扰教职人员而一夜除名的事。捐钱对于高校属于创收重要来源,楼名字卖了可以卖教室,甚至校园里的椅子都有冠名状况。不过性骚扰这事放到任何一个地方都上不了台面,除名并不意外。不过如果自己本身有问题还要去冠名来树立形象,这其实是一种名誉绑架,高校创收归创收,来源还是要注意的,否则影响很坏。校园性骚扰其实是个台面下的问题,能报出来的还是少数,所以出现一个严惩一个没有什么问题。很多人讨论说搞得人心惶惶,但我觉得这属于无知之幕。

所谓无知之幕,就是说你永远不知道下一个受害人是谁,因此保护措施就一定要按照下一个受害人是自己或自己的亲朋好友来设计。我不清楚这么简单的一个道理为什么很多人就不理解,规矩下的自由自由度最高,无序的自由一定造成意见割裂与对立。不过很多人也会去争论度的问题,如果搞不清度的把握,那么保守点就可以了,再或者,你可以问啊。什么都不说按照自己的自由度聊天是不成熟的表现,尊重别人也会给自己赢得自由空间。我有个师兄已经独立成立课题组,只要跟女生讨论问题,一定把办公室门打开。也许有人会说这是不是过敏,其实不是,因为校园里确实不应该出现师生关系亲密,对于无所谓的人而言,开门并不损失,学术问题确实存在机密内容,不过同一院系一般竞争关系不应太大,这属于院系招人的体系设计问题;而对于有问题的人,开门就会形成威慑力。只是现在可能不论异性同性都得注意了,这就是社会伦理需要发展的地方,尽量给所有人最大且不干涉他人的空间。

不过,眼下的信息时代存在一个隐忧,无知之幕的现实基础正在被技术进步破坏。很多时候,有些人是知道自己不会成为受害者才肆无忌惮地争取利益,例如商品的差异定价,如果商家对你特别了解,它不会给你那个充分竞争的最低价,而是会根据你的消费水平推断出你能承受的最高价。而且你很有可能完全无法发现,这也是你在固定消费模式后决定的。个性化推荐的背后有着巨大的套利空间,此时游戏规则设计里如不考虑无知之幕或者通过技术与数据追踪突破了无知之幕,那么每个人将可能面临一个看似合理但实际被奴役的未来,在这样的空间里你的价值将被榨取到最后一滴而不自知,很多人则可能面临被侵害但上诉无门或彻底被主流所抛弃。对未来的无知是公平的最后一道保护伞,突破了这个,利益冲突就实质上成了社会伦理问题,这个时候会有些人成为社会的永恒弃子与棋子。但愿技术也可以用来巩固无知之幕,虽然事实公平很难保证,但起码在社会运行中,原则上给所有人公平自由的制度。

16

在欧文分校的最后一天,我拿出两个小时讲了下基于 RStudio 的可重复研究。这边的研究生用 RStudio 的很多,但项目管理、版本控制与脚本储存都很原始或根本就没有。这点我到不吃惊,特别看到他们脚本第一句是setwd()且输入箭头不用快捷键时,我只是觉得很多东西是一套效率体系,学一个两个可能不管用,你得同一时间打包展示给他们,让他们实实在在看到效率的提升。我记得有个网站是专门直播程序员编程的,其实这个看似很技术的东西是很容易被忽略却很重要的,你不去了解根本不知道有些人把屠龙刀用成了铅笔刀,完了还说不好用,也不知道原来还有那么明朗的编程习惯。我觉得站在高手背后看他操作的成长是最快的,很多牛人可能根本意识不到普通人的痛苦,很简单,做给他们看就行了,比啃文档快多了。我在这边留了这两周所有数据分析的脚本且进行了备注,我觉得只要稍微用心,移植在下一个项目上很轻松。不过我越发觉得探索性数据分析的重要性,可视化与探索尝试对于发现问题非常有帮助,虽然我一直强调流程,但流程只是保证不出错,探索才能发现新知。

不过目前我也意识到了一个痛点,那就是协作版本控制,这个本地文档自己搞总是没问题,牵扯到多人协作就不一样了,评论与修改在命令行下实在不好完成。Google doc是个方案,不过并不完美。Sharelatex 与 overleaf 都是基于 LaTeX 的在线协作,甚至直接支持某些期刊的投稿。不过我很意外的发现了 Authorea,这个平台几乎符合所有我对科研在线文档协作的要求,markdown、LaTeX、文献管理、协作… 唯一的问题就是不支持 R 绘图而支持 python ,不过这个影响倒也不大,其支持 plotly,全在线就可以了,唯一的问题可能就是这玩意又好又贵。不过如果数据分析与论文协作都可以在线完成且协作的人也认可,那么我是可以为便利埋单的。每天少一杯咖啡而已,虽然本来我也不喝咖啡。

17

这个八月很漫长,在《凉宫春日的忧郁》中,女主因为暑假过的不如意就反复让八月重现,终于在15532次后,男主改变的行为让女主终结了漫无止境的八月。这当然是创作的想象,但却给了一种解释既视感的不可证伪的思路,或许这个世界因为某个人或者动物的某个意愿,在8月最后一天的最后一秒解体重组为8月第一天的样子,生物无法对倒流的时间产生记忆而仅仅就是重新走了一遍直到某一次那个人或动物满意了时间就继续流逝下去,唯一的痕迹就是既视感。这很唯心,但你也不能说就不是真的。

有一个思想实验就是突然有一天,宇宙里所有的东西都扩大了两倍,但除了少数人知道以外,所有人都无法从实验证据中证实。因为这个两倍扩大的很基础,是从电子尺度开始扩的,好比你虽然高了一倍,但量你的尺子也长了一倍,只能感知表象的我们是无法验证这件事的,而那些坚持扩大的少数人则仅仅就是相信这个事实发生的信念,别的证据也没有。如果连这少数人也不存在,那么人类处境可能非常荒谬,例如在另一个宇宙看来,我们这个宇宙天天等比例变大缩小还维持这整体扩张的红移,根本就不是个可以出现生命的宇宙,而真实的情况则可能是他们感觉荒谬的事我们感知不到,而在我们的观测中,他们的宇宙常数根本就不对。所以,在对方眼里,我们都不应该存在,这里的核心就在于其实基线的真实很复杂或根本就不存在。

这样想来的宇宙倒挺公平的,它可能给了每个生命一次无限循环的机会,但因为每个生命都只能单向感知时间,所以我们意识不到这种公平性。当然,这就是说着玩,类似的不能证伪却逻辑自洽的理论可以有很多,所以人类提出了奥卡姆剃刀,把这些有的没的都不影响的东西都给砍掉了。砍掉了就一定不存在吗?这个很难说,但这个问题过于形而上,超出了科学范畴。

不过这不妨碍想象,法国有个设计师叫Jacques Carelman,他也设计了一大堆看上去挺新奇但其实没用的东西。最近我看了一系列快手上一个做手工的耿哥的视频,当真是土味发明家,耿哥的发明除了没用都挺好的。我觉得耿哥不比 Jacques Carelman 差,甚至耿哥比他更进一步,他也就是设计了图纸,耿哥是把真东西造出来了,虽然也是真没用。有时候觉着快手上很多人展示的更像是共产社会的场景,很多人做着无聊的事仅仅是因为能让他快乐,同时他还想传递这份快乐。我特别反感那些生活在鄙视链上的人,他们用尽所能就是为了证明过的比别人好,但事实上好又如何,比得上耿哥的菜刀折扇?那玩意让我笑了半个小时。同样的,北美的美甲店多如牛毛,我开始并不理解,但后来理解了,很多人在美甲时非常放松非常快乐,可以暂时逃离压力。现代社会误导了人把追求GDP当成了责任与义务,但其实GDP能否给个人带来意义是存疑的,好比我现在流落在加州旅馆,循环放着《加州旅馆》,写着游记,或许那个属于我的漫无止境时段正在发生,我谈不上幸福,也不是不幸,但有几个瞬间是快乐的,很快乐。