风字繁体里面是个虫,爬过泰山红门线可能都知道有个“虫二”的碑,寓意风月无边。许慎在《说文解字》里说“风动虫生”,而风字的甲骨文通凤,指的是鸟,因为古人认为风源于神鸟振翅。但其实虫也可以指鸟,例如人就是裸虫,兽类是毛虫,鸟类是羽虫,鱼类是鳞虫,贝类是介虫等等。许慎的解释是基于汉代的虫,那时候风动虫生的应该是指的蛇。所以考证这事根源上总会受到当时写文献人认知水平的影响,不是说越古老就越靠谱,也可能是附会。
其实自然界现象变成字大都是象形,但风不好象形,有感无形,最后画了个鸟做了指代完事。有感无形的东西大都抽象,例如模型,学的时候就是一个个公式,用的时候往往不知道如何套用。在理解模型这件事上,我感觉要从最基本的一些概念谈起容易些。所谓模型,本质就是描述两个或多个指代实体或概念的关系,更简单的理解就是模型就是函数y=f(x)。而这个关系多半是要用数学公式来描述的,例如加减乘除等运算。所以你看,其实任何规律事件都可以抽象成模型,例如水低温结冰就可看做A在某条件下变成B,电解水成氢气氧气也可看成A在某条件下变成多个B。总之,任何物理化学生物过程都可以写成一个模型公式,着不是为了人读,更多是为了机器读懂。
任何重复性的工作都可以写成程序让电脑来执行,但你得给电脑一个它看得懂的指示。物理上说,这个指示就是一连串电磁信号,更简单点,就是半导体空穴上那个电子到底在不在,如果都在,就给回路通电,不在就断电,之后一层层传递信号,在表象上达到人意愿的那个指示。
也就是说,电脑不懂人言,有的只是规则的演绎。有个思想实验说的就是一种翻译场景,一边递进去个问题,另一边传出来一个答案,这个答案是一个不懂问题语言的人通过查阅字典返回的答案,而字典是懂语言的人写的。那么问题来了,这个翻译究竟懂不懂这个语言?不懂是事实,但他确实在进行日常意义上的交流,而其实这个现象在科研圈里早就泛滥了。
很多人使用某种统计方法或实验手段并不是因为他们是必要的而仅仅是别人已发表的文章上用了这个方法。照葫芦画瓢是很危险的,严重的话大家都不懂但都在用,最后用成行业惯例的也不少见。最严重的要数假设检验,p值的提出者Fisher根本就没说过被择假设跟零假设的事,而他的死对头Pearson提出了竞争假设的方法,但现在用的最多的倒成了这两种方法的结合。很多人经常问p值写多少合适之类的话,我觉得他们是典型的没搞清楚本质就套用概念的主,但三人成虎,你也没辙。
说回模型,同一个事是可以用不同模型来描述或得到参数的,例如都是回归,你可以极大似然与最小二乘配合得到参数,也可以用MCMC方法模拟出来。解决同一个问题,可以用随机森林,也可以用支持向量机或人工神经网络,甚至可以同时用,给不同算法附上个经验权重来综合预测结果。方法没有优劣的基础在于你对观察视角本质的理解与综合,不追新,不固守才能搞定实际问题。当然,这个时候的模型可能复杂程度很高,已经完全不能抽象理解了。
这个过程就像是风字的演变,包装上几次后可能早就面目全非。知道历史不一定会对某些现象有实质帮助,但了解历史有助于提高幽默感。