3093 字

R语言会议幻灯片读后感

这两天抽空看了11届R语言会议的公开幻灯片,信息量还是比较大的,在技术这块那些放在我待办事项里的东西还没来得及看,下一代技术就已经出来了。有张幻灯片说13年的 opencpu 是老古董了,但这才5年啊,这技术估计还没进到大学讲义里就有人说已经凉了。不过实话说,现在的软件文档比5年前友好太多了,现在入门的痛苦比当年小了一大截。

只说 R 社区,knitr 与 Rmarkdown 的出现切实降低了开发者与学习者之间的认知鸿沟。现在我如果发现一个新包,都直接看小品文,这在5年前是可遇不可求的。而这些小品文多半都是 Rmarkdown 直接生成的网页。同时,现在开发一个新包,用 pkgdown 可以一键生成介绍网站。也许很多人觉得这都是一些连接转换工作,很多事 pandoc 之前就做了,但我觉得这些工作意义很大,因为给你土豆、青椒与茄子你没吃过是做不出地三鲜的。

这个时代不缺新技术,我每次觉得自己想法很好时上网搜总能翻出类似想法的上世纪文献,但我奇怪的是为啥都提出了二十多年后面人没接着做?问了一些人得到的答案要么是压根不知道,要么是知道了也没能力复制出来,要么就直接看不懂。很显然,技术或想法也是需要营销手段来推广的,没人用的想法跟不存在在今天是同义词。

但营销想法是个异常痛苦的事,你会写软件远远不够,想出现在网上要学建站,前端、后端、数据库是座山。建好了框架还得填内容,你得学会说“人话”,也就是懂点配色跟教育心理,起码得知道同理心才能用初学者的眼光来写内容。文字内容显然不够,你最好有幻灯片、案例文档与不超过5分钟的讲座视频。这些东西全学下来不是不现实,而是不经济。好在现在我们有大量说“人话”的生产工具,基本默认配置就够用了,只有站在别人肩上才能看得远,现和水泥砌墩子太耽误事。

不过也正是这些技术让后发优势越来越明显,坑都被填了就可以更关注要解决的问题了。当年ghost还原没出来时,重装个系统得沐浴更衣拿出半天时间来折腾各种意外与软件配置,后来小学生都知道小事重启大事重装了,因为可以一键还原了。我知道很多技术出身的人对这个很不屑,好比我当年翻烂了《纽摄》深知一定要开手动对焦来拍照,但问题后来发现还不如手机全自动模式来的漂亮。这种不屑跟清末留辫子的遗老遗少在情感上没啥区别,技术高的人的高更多在于他们把技术带给了所有人而不是少数人,正因为后生可畏才更不能倚老卖老,老老实实当后生多好,用那个被废弃的校训说就是:气有浩然、学无止境。

技术与概念都可能过时也最终一定会过时,这个倒没什么可担心的,新技术框架一定是会比上一代更说“人话”的,所以其实迁移成本并不大。我看了下,谷歌的tensorflow 算是把深度学习这块统一了半边天,配个说“人话”的 keras ,以后构建深度学习模型可能会非常快。在机器学习方面,涉及数据量大需要分布式计算的就考虑 spark 体系,如果数据量上不了10G,老老实实学 caret 的框架也够了。前端方面,shiny 已经足够简单了,新工具例如 plumber 或者 fiery 适用于需要 API 调用或大规模并发调用等场景,按需求来。大炮打蚊子的事我经常干,干多了就会觉得自己特别傻,明明我选工具,结果让工具选我算怎么回事。

曾经我也为了逻辑上完备性去学一些工具,受挫最大的是个名为结构方程模型的鬼玩意,一共六个字,三个名词,颇有“古道西风瘦马”的意味。但问题是不论怎么看都觉得不靠谱,假设太多,输出完全不知道是什么意思。我印象中模型都是现实的简化并帮助理解现实,这玩意不简化也就算了,输出还不一定符合现实,还得再找个理由去解释模型的输出,这种鸡生蛋蛋生鸡的玩具我是无福消受。不过我也知道很多人用也是按套路来,并不真的理解,这时候就真害人害己了,遇到个看不见皇帝新衣的孩子是要闹笑话的。

又扯远了,上面是对幻灯片里软件这块的总结。另一个感受就是这个R语言会议其实更像数据科学会议了,因为很多报告是与R无关而与数据分析有关的。这是个很有意思的现象,我不清楚国内这个学科有没有自己的会议,但有没有都无所谓了,R语言会议似乎已经占领这个生态位了。我记得第一次参加R语言时,谢大准备了一个报告,第一个教室讲完了跑到第二个教室重讲一遍,那时候规模很小。等我16年去的时候人数就过千了,而且真的是涉及到方方面面了。现在这个会议每年还会在全国各地轮转,学科发展潜力巨大。更可贵的是这个会并不挂靠协会,更多是学生在传承,从参会规模跟覆盖学科来看,R语言会议很有可能在中国成为数据科学最重要的会议。

同时,我发现很多报告最后都有招人或留微信的情况,所以这个会会类似匹斯堡会议一样是个业界也会非常关注的招人场合。匹斯堡会议对于分析化学的学生是个找工作的神会,很多公司都是当场收简历面试发录取一条龙,R语言会议既然学生主办,就可以办招聘专场,培养下一代的数据人才。

另外,我也看到了些同行,这次生物信息学似乎没有专场但又几个跟环境健康的专场,发的期刊跟讲的内容我都很熟。但比较遗憾的是感觉他们是按照自己学科会议报告准备的,并没有特别强调数据分析的作用。结论固然是吸引人的,但展示过程与思路也很重要,不仅要站在别人的肩上,也要让别人能放心站到你的肩上。

从内容上看,很多报告因为注意到了听众面比较广而更多是展示结果,讲的比较浅显。但同会场其他报告人却可能讲的很深,这种状况对于学术会议一般不会出现,因为有同行评议与分会主席来控制报告水平相对一致,但R语言会议这样也挺好,会有利于听众现场学习。我之前去也碰到过这种情况,水平差距有时比较可观,但我相信参会者都是因为兴趣来参加并认真准备的,这里面的差距不是个人决定的,而是学科决定的。

我很明显感觉到有米的行业水平会高一些,例如量化金融、机器学习与人工智能,几乎是在讲最前沿的东西,很多来自业界的一手信息与案例。但到了技术辐射学科,例如公共卫生、医疗等行业,更多的就是新方法的R语言应用。很明确学科的技术水平也是个经济学问题,哪行平均工资高,哪行概率上就能吸引更聪明的人,学科就会领先。当学科内竞争激烈后会自然流向技术辐射或应用学科来进行降维打击,最终整体提高所有学科的平均水平。这可以说学术界内先富带动后富的实证。

技术辐射学科之内,来自学术界的并不如来自业界的水平高。起码从展示效果上,业界明显有优势但明显术语用的不对,不过也可能是很多学科用术语构建了隔离墙来抱团取暖。不得不承认很多公司在做的东西不仅有用而且如果发文章可能也不错,理工科学生其实都可以去看看,肯定能开拓眼界。这个会有很多创业公司,活力很高,按我去年的估算,国内学术界因为扩招要分流一半到三分之二的博士到业界,如果真有本事,可能业界在以后会解决更多的实际问题。说到底,留在学术界做博后等机会是把命运交给别人来选择,对于不喜欢出头的国人而言也算正常,只是浪费掉自己的选择权始终是件很奢侈的事。

其实,幻灯片公开并不是今年才有的,我一般都会过一遍。也不只是R语言会议,RStudio的会议不仅有幻灯片还有视频,公开会议幻灯片与视频在R这块一直都是很好的传统。国内原来只有精品课程网站可以看课件,很多会议报告报告人都不会留底,这算是不同学科的风格吧。技术类学科公开有利于推广,基础学科公开会被说不严谨,没有同行评议什么的。但我从内心是希望大家都公开的,用公开审稿替代匿名审稿,我们要解决的是问题,这都什么年代了还担心优先权,还是那句话,没人用的想法跟不存在在今天是同义词。如果每天的交流促进科学问题的解决,那么为什么要把这种交流搞得一年一次呢?

这个时代有很多红利,对于国内而已,R语言会议的组织形式与内容都是一种很特殊的存在,也是一种清流红利,能用到什么程度全看参与者个人了,我估计组织方都不一定想得到,顺势而为就可以了。(这次是公众号体)