解卷积本来是指反解卷积,但在色谱质谱联用里特指从多物质混合的色谱图里分离出单独物质的色谱。不用说,这跟卷积原始概念已经八杆子打不着了,就是个学科小领域里造词或者填词赋予新含义的案例。要搞清楚这个问题,得从卷积说起。
卷积跟加减乘除一样,就是一种函数运算方法,定义上就是两个函数经过一通操作变成第三个函数。这个一通操作里涉及两个要点:1)要对其中一个函数要进行反转位移之后2)对两个函数的乘积求和或求积分。这个反转与位移发生在积分的方向上,先卷后积。
估计很多人看到这个定义会感觉莫名其妙,因为这个定义似乎没啥实际意义,凭啥要卷?又凭啥要积?这就涉及具体学科知识了。不过数学上倒也有个方便的解释,那就是函数卷积的傅立叶变换是函数傅立叶变换的乘积。傅立叶变换可以理解为一种时域与频域的转换,这样时域上卷积就是频域乘积,进行卷积运算相当于在另一个域里做乘积,傅立叶变换是可逆的,只要你能在一个域里找到乘积的物理意义,那么卷积运算就不难理解了。同时这也给解卷积提供了思路,既然可以搞成乘积形式,那就可以对原始数据做变换求卷积就简单多了。
可能有人又要问了,为啥我要对一个函数做变换?大概率还是因为计算上的方便,例如取对数后乘法就变加法了。又或者让你求正弦函数,你要是不做个泰勒展开那就只能查表了,别忘了我们基于逻辑门的计算机CPU也就能做个加法运算,其余数学运算都要还原成二进制逻辑运算才能进行。至于说傅立叶变换,可以理解为把一个线性函数转为不同频率正弦或余弦函数的叠加,这样做一个好处在于三角函数的导数与积分还是三角函数,然后关注相位变化就可以了。所以说我们并不是吃饱了撑的搞出一些数学变换或运算方法,很多时候是因为进行这些运算或变换能解决实际问题。不过,这是我学了高数很久之后才在实践中意识到的,感觉现在数学教育还是过于抽象了。
不过卷积也可以用幂级数乘法来理解,两个幂级数相乘后同幂次的系数怎么算?打比方 $x^2+2x+1$
与 $x+1$
求乘积的一次方系数,这就要是前者的一次与后者的零次乘积与前者零次与后者一次的和,也就是3,计算对齐过程就是个卷积。其实在概率论里,两个独立变量的和的概率密度函数就是这两个独立变量的卷积,例如两个骰子掷出某个点数和的概率就是两个独立变量概率密度函数的卷积,当然我们固定了和,所以两个变量其实求卷积时并不独立了。到这里其实我们大概能感受到,卷积一定是要在两个函数自变量的特定和上的一个属性。
到这里为止,我们只知道了卷积运算因为具备一些特性,可能会是一种有实际意义的运算,但实际中为啥要用还是还是要看具体问题。在信号处理里,我们固定信号输入函数跟这个信号自身在时间上的衰减函数,他们的卷积就是时间上输出的信号,这个信号既包含了输入的信号,也累积叠加了衰减效果,这个应该不难理解,时间点x上我们看到的输出信号就应该是前面t = 0时刻信号衰减到t=x时的信号累积上t=1时刻信号衰减到t=x的信号,以此类推。所以我们看到的输出本来就是个卷积后的结果。
这里积不难理解,但卷在哪?卷在那个衰减函数上,因为你实际用的是输入t=0去乘了衰减函数t=x的数,如果我们把这两个函数对齐,就需要先对衰减函数在积分的时间轴t上做镜像反转,然后平移到t=x处对齐,这就是卷的过程。此处卷积连接的输入与衰减函数也是通过时间和恒定来连接的,也就是如果你能构筑两个函数,其自变量和在某个维度上是恒定的,那么他们就适合在这个维度上做卷积运算且应该有具体的物理意义,例如某种累积效应。不过卷积是翻转加平移的,如果只平移不反转,在乘积上求和或者积分也可能有意义,例如求相关性。这里的意义是需要看需求的,构建运算不难,但跟物理世界相联系是需要下功夫理解的。
上面那个是一维卷积,如果输入输出都是个二维图像,那么卷积运算就相当于对图像做滤镜,跟输入做卷积的就是所谓的卷积核或滤镜。这个卷积核在卷积神经网络里其实就对应了图像的某个局部特征,或符合某种模式后可以穿过滤镜形成有效信号。当卷积核是3*3的矩阵,那么当图像是出现某种模式时,训练神经网络过程会找到这个对应的卷积核。一张图片可能有很多特征,那么也就可以训练出很多卷积核,当进行图片分类预测时,我们可以训练出一个基于卷积核的全连接层来输出预测分类。当然这里激活层池化层等技术或模型构架就不考虑了,但卷积运算确实是卷积神经网络的一个核心,专门用来抽数据中的特征。至于说为啥是卷积运算而不是其他运算,其实基于其他运算的也有,但本质上要处理的基本问题是图像抽特征的方法,否则1400万像素的图片你要训练的参数就是个天文数字,但训练几万个卷积核就容易多了,可以理解为一种降维的思路。
说白了卷积运算就是一种特殊滤波器或放大器,但具体到分析化学里,问题就不一样了。分析化学的光谱分析里也涉及卷积,具体说就是我们仪器上测到的信号是真实信号跟某些卷积核做卷积出来的,当然这不是说噪音,而是诸如衍射过程这种仪器来源的有固定模式的信号,此时解卷积其实就是个模式识别过程。到这里卷积的概念还算是符合原有定义的,但具体到学科小领域就完全变味了。
质谱色谱联用测到的数据是一个三维向量:一个维度是时间,一个维度是荷质比,一个维度是响应。早期可视化手段基本就是直接把荷质比这个维度上的所有响应求和形成总离子流图。但因为存在共流出现象,这种图上你数出来的色谱峰数目跟物质数目是对不上的,很多单独的峰其实是多个物质在不同荷质比上的响应叠加出来的,这导致总离子流图的峰形长得怎么说呢,比较畸形。
时间来到1974年,Biller 跟 Biemann 发表了一篇题为 Reconstructed mass spectra, a novel approach for the utilization of gas chromatograph—mass spectrometer data 的论文,提出了一种重构出单独质谱峰的算法,这个算法受限于年代,非常简单,就是提出用每个扫描循环离子响应最大值来分离不同物质,然后合并对应的扫描得到比较干净的谱图。然后到了1976年,Dromey 等人搞出了一个非常复杂的利用相似峰形建模提取独立物质质谱的方法,这个方法效果不错,但因为计算上太复杂基本属于原汤化原食,就这批人在用。等到了1992年,Colby在JASMS上发表了题为Spectral deconvolution for overlapping GC/MS components的文章,其实这篇文章的核心在于对1974年的方法进行改进,具体来说就是每个扫描循环里面只找十个峰,然后合并谱图重构出总离子流图,进而提高质谱分离的分辨率。因为这活是90年代做的,94年就有人将其程序化了,但很不幸同时也就把解卷积这个词给带到这个小领域里了。
不过这里我们很清楚此处的信号根本就没有卷积,解卷积也无从谈起,但因为Colby这篇文章,后面三十年大家就都默认了解卷积等同于重构质谱峰的意义了。不过在蛋白质质谱领域,解卷积还有另外一个概念,就是把多电荷峰反解回分子量,此处最流行的是一种利用最大似然度求解的maxent算法,同样也跟卷积的原始概念毫无关系。在中文环境里,研究人员还有仪器厂商的销售尤其喜欢这个词,因为听上去高大上显专业,但我估计他们中的大多数可能都不知道这个概念本身其实是用错了,单纯以讹传讹,三人成虎。
但更可悲的是其实错不错都不重要了,很多一线科研人员的数学功底基本上都归零了,傅立叶变换、卷积、二重积分、delta方法等概念全都谁教的还给谁了。论文里的数据分析都是对着其他论文照猫画虎,经常是驴唇不对马嘴,要是继续这么自己造词搞小圈子,那跟八股文写茴字也没啥区别了。