一种离子迁移谱谱图重构及特征峰提取算法
张根伟1, 彭思龙2,3, 郭腾霄1, 杨杰1, 杨俊超1, 张旭1, 曹树亚1,*, 黄启斌1,*
1. 国民核生化灾害防护国家重点实验室, 北京 102205
2. 中国科学院自动化研究所, 北京 100190
3. 中国科学院大学, 北京 100190
*通讯联系人 e-mail: caoshuya@163.com; fhxw108@sohu.com

作者简介: 张根伟, 1984年生, 国民核生化灾害防护国家重点实验室工程师 e-mail: zhgw1984@163.com

摘要

离子迁移谱(IMS)是一种常压下快速、 高灵敏度的痕量化学物质检测方法, 广泛应用于化学战剂、 爆炸物和毒品等检测领域。 在离子迁移谱定性和定量分析中, 采集到的原始谱图除了包含样品自身信息外, 还包含了电噪声、 背景干扰等噪声, 特别是当分析物浓度低时, 噪声会严重影响定性和定量分析的准确性。 为提高离子迁移谱技术化学物质识别准确率, 需要对离子迁移谱谱图信号进行重构。 本文提出一种可同时实现离子迁移谱谱图重构和特征峰提取的新方法。 通过建立优化目标函数, 采用 l1范数作为线性惩罚项, λ为正则化参数用来调节惩罚项在优化过程中的比例。 为了求解优化目标函数, 首先构造一个由Gaussian分布函数构成的超完备字典来表示离子迁移谱离子特征峰峰形, 采用替代函数方法对优化目标函数进行迭代求解, 当达到重构谱图与原始谱图均方根误差小于设定的阈值时停止迭代。 为了验证提出的方法性能, 分别采用仿真数据和甲基磷酸二甲酯(DMMP)样本数据进行验证, 其中仿真数据由高斯分布函数字典原子及高斯白噪声组成。 与此同时, 我们对仿真数据和真实样本数据分别采用小波软阈值、 小波硬阈值及S-G平滑滤波算法进行去噪重构。 采用均方根误差(RMSE)和信噪比(SNR)作为评价指标, 实验结果表明该方法成功实现离子迁移谱谱图重构和特征峰提取, 预处理结果比其他三种方法有显著的性能提升, 为开展离子迁移谱定性和定量分析研究提供了基础。

关键词: 离子迁移谱; 谱图重构; 特征峰提取; 稀疏表示; 替代函数法
中图分类号:O657.6 文献标志码:A
Ion Mobility Spectrometry Spectrum Reconstruction and Characteristic Peaks Extraction Algorithm Research
ZHANG Gen-wei1, PENG Si-long2,3, GUO Teng-xiao1, YANG Jie1, YANG Jun-chao1, ZHANG Xu1, CAO Shu-ya1,*, HUANG Qi-bin1,*
1. State Key Laboratory of NBC Protection for Civilian, Beijing 102205, China
2. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
3. University of Chinese Academy of Sciences, Beijing 100190, China
*Corresponding authors
Abstract

Ion mobility spectrometry (IMS) is a rapid, highly sensitive analytical method for the gaseous samples with a low detection limit. It is widely used to detect chemical warfare agents, illegal drugs and explosives. The original spectrum contains not only sample information, but also noise. Especially when the concentration of the analyte is low, the accuracy of qualitative and quantitative analysis based on IMS technology is seriously influenced. It is necessary to reconstruct the spectrum before qualitative and quantitative analysis. In our article, a new method simultaneously achieved the spectrum reconstruction, and characteristic peaks extraction was proposed. In the optimization function, we chose l1 norm as the linear penalty. The regularization parameter λ was used to adjust the scale of the penalty in the optimization. Solve the optimization function, a Gaussian dictionary was constructed to represent the shape of peak firstly, and the surrogate function algorithm was adopted to solve it. When the root mean squared error between the reconstructed and original spectrum achieved the set threshold, the algorithm was stopped. To evaluate the performance of our method proposed, the simulated data set and DMMP sample data set were used. The simulated data set was composed of Gaussian functions and Gaussian noise. Meanwhile, we compared our method with wavelet using a soft threshold, wavelet using hard threshold and S-G smoothing methods. Root mean squared error(RMSE) and signal to noise ratio(SNR) were used to compare the results of different methods. The experiments results show that our method has significant improvement than other methods. Based on the proposed method, qualitative and quantitative analysis can be carried out.

Keyword: Ion mobility spectrometry; Spectrum reconstruction; Characteristic peaks extraction; Sparse representation; Surrogate function algorithm
引言

离子迁移谱(ion mobility spectrometry, IMS)技术是基于气相中不同的离子在电场中迁移速率的差异来对化学离子物质进行分离表征的一项分析技术, 是目前最为广泛使用的痕量化学物质检测技术之一。 离子迁移谱检测仪具有常压下检测、 分析灵敏度高、 响应时间短、 成本低等突出优点, 广泛应用于化学战剂、 爆炸物、 毒品和代谢组学等检测领域[1, 2, 3]

离子迁移谱仪采集到的原始信号为微弱电流信号, 微弱信号容易淹没在噪声中而无法检测, 严重影响化学物质种类识别的准确性。 因此, 在进行化学物质种类定性分析之前需对谱图进行重构。 国内学者采用多项式数据平滑、 傅里叶变换和小波分析等方法用于离子迁移谱谱图去噪重构[4, 5]。 离子迁移谱特征峰表征了待分析样品的化学组成和含量信息, 进行特征峰提取是信号处理中很基础也至关重要的一个环节。 导数法是当前应用最普遍的一种特征峰提取方法, 按照原理不同可分为一阶、 二阶导数法及其结合方法等[6, 7]。 导数法的步骤简单易实现, 对于信噪比好的数据能获得很好的寻峰效果, 但其在应对噪声和背景的干扰、 重叠峰以及峰形畸变等情形时有明显缺陷。

现有的离子迁移谱谱图特征峰提取是在谱图去噪重构后进行, 需采用不同的算法实现。 本文通过构造一种可同时实现离子迁移谱谱图重构和特征峰提取的优化目标函数, 采用稀疏表示算法进行求解。 常用稀疏表示求解算法包括匹配追踪、 交替方向乘子算法、 最小角回归法、 替代函数法, 迭代重加权最小二乘算法等[8, 9, 10, 11]。 替代函数算法具有运行速度快的优点, 在此用于求解优化目标函数。

1 方法原理

若下述条件成立, 则φ (x, x0)称为f(x)的替代函数:

(1): φ (x, x0)≥ f(x)对于任意的x成立;

(2): φ (x0, x0)=f(x0)。

离子迁移谱信号x一般认为由纯谱s和噪声n组成, 纯谱s可以由字典Φ 线性表示, 存在表示系数α使得

s=Φα(1)

带电离子群在弱电场迁移管中运动时会受到库伦斥力、 扩散和碰撞等因素的影响, 一般认为形成的特征峰是高斯分布[12], 故采用高斯分布函数拟合离子迁移谱特征峰函数, 离子迁移谱谱图可以看成由不同的高斯分布函数拟合而成, 字典Φ 由高斯函数构造。 基于稀疏表示, 提出了一种可同时实现离子迁移谱谱图重构及特征峰提取的优化目标函数如式(2)所示

L(α)=x-Φα22+λ1α1(2)

λ1为正则化参数用来调节惩罚项在优化过程中的比例。 α(k)表示第k次迭代值, 对于L(α), 构造如式(3)替代函数

Q(α, α(k-1))=x-Φα22+λ1α1+cα-α(k-1)22-Φα-Φα(k-1)22(3)

Q(α, α(k-1))化简并且将关于α的项配方得

Q(α, α(k-1))=cα-α(k-1)+ΦTΦα(k-1)-ΦTxc22+λ1α1+const(4)

式(4)中的const部分与α的优化无关, 所以

α(k)=argminαQ(α, α(k-1))(5)

λ1α1的近端算子(proximal operator)为 12(α-ν )2+λ1α1, α的最优解的软阈值函数为

Sλ(ν)=max(ν-λ1, 0)-max(-ν-λ1, 0)(6)

利用软阈值函数得到

α(k)=Sλ12cα(k-1)+ΦTx-ΦTΦα(k-1)c(7)

由于α的非负性约束, 需要将α(k)往其正部投影。 算法的终止条件是: 达到最大的迭代次数或者重构后谱图均方根误差低于设定的阈值。 通过替代函数算法得到的s=Φ α就是重构后的离子迁移谱谱图, 特征峰提取则通过稀疏表示系数α实现。

2 仿真

使用高斯函数的线性叠加来仿真纯净的离子迁移谱信号, 仿真数据由六个不同高斯函数字典原子和高斯白噪声组成。 高斯白噪声标准差为0, 幅值为谱图信号最大幅值的1%。 计算机配置和编程语言如下: CPU: i7-4790S, 3.20 GHz; 内存: 8 GB; 操作系统: 64bit-Windows 7 Home Edition; 编程语言: MATLAB R2014a (MathWorks, Inc.)。 采用替代函数算法, 对仿真谱图进行了重构和特征峰提取, 实验结果如图1所示。

图1 (a)纯净谱图信号; (b)叠加高斯噪声后谱图信号; (c)重构后谱图信号; (d)特征峰提取Fig.1 (a) Simulated pure IMS spectrum; (b)Simulated pure IMS spectrum add Gaussian noise; (c)Reconstructed IMS spectrum; (d) Extracted characteristic peaks

为了评估替代函数算法重构效果, 我们同小波软阈值、 小波硬阈值和S-G平滑滤波等去噪重构算法进行了比较, 仿真谱图重构结果如图2所示。

图2 (a)小波软阈值算法; (b)小波硬阈值算法; (c)S-G算法; (d)替代函数算法Fig.2 (a) Reconstructed spectrum by wavelet using soft threshold algorithm; (b) Reconstructed spectrum by wavelet using hard threshold algorithm; (c) Reconstructed spectrum by S-G algorithm; (d) Reconstructed spectrum by surrogate function algorithm

重构后的IMS谱图采用均方根误差(RMSE)和信噪比(SNR)两种指标来评估方法性能, RMSE和SNR计算公式分别为式(8)和式(9)。 实验结果如表1所示。 采用替代函数算法提取的特征峰信息结果如表2所示。 从表1可以看出, 基于替代函数算法的谱图重构效果最好, 小波硬阈值和小波软阈值次之, S-G算法最差。 从表2可以看出, 基于替代函数算法提取的特征峰信息, 特征峰峰位与真实峰峰位完全一致, 特征峰峰高与真实峰峰高略有差距。

RMSE=i=0N(xi-si)N(8)

SNR=20log10s1n1(9)

表1 采用不同算法后RMSE和SNR指标对比 Table 1 Comparison of RMSE and SNR with different algorithms
表2 替代函数算法提取的特征峰信息 Table 2 Peak position and height obtained by surrogate function algorithm
3 实验部分
3.1 材料及仪器

实验采用63Ni离子源离子迁移谱检测仪。 样本为甲基磷酸二甲酯(dimethyl methylphosphonate, 国药集团化学试剂有限公司, 99%), DMMP常被用作离子迁移谱检测仪校准物, DMMP浓度低时出现质子化单体特征峰, 随着浓度的增大出现二聚体特征峰。 通过动态配气仪(CPR001, 北京康尔兴)将DMMP与氮气在气袋中混合, 样本浓度为1 mg·m-3

3.2 结果及分析

采集到的原始DMMP谱图中一共有三个特征峰, 空气中水合离子峰出现在3.9 ms处, DMMP在5.85和10.54 ms处出现质子化单体峰和二聚体特征峰, 信号中噪声波动大、 噪声幅值约为最大幅值的2%。 经过替代函数求解优化目标函数后, 重构后的DMMP谱图及特征峰提取实验结果如图3所示, 小波软阈值、 小波硬阈值、 S-G算法及替代函数算法去噪后重构谱图如图4所示。 从图3可以看出替代函数算法同时实现了谱图重构和特征峰提取, 提取的特征峰峰高和峰位误差都在3%以内。 图4中替代化数算法谱图重构效果明显优于其他三种算法。

图3 (a)替代函数算法重构DMMP谱图; (b)替代函数算法提取的特征峰Fig.3 (a) Reconstructed DMMP spectrum by surrogate function algorithm; (b) Extracted characteristic peaks by surrogate function algorithm

图4 (a)小波软阈值算法; (b)小波硬阈值算法; (c)S-G算法; (d)替代函数算法Fig.4 (a) Reconstructed spectrum by wavelet using soft threshold algorithm; (b) Reconstructed spectrum by wavelet using hard threshold algorithm; (c) Reconstructed spectrum by S-G algorithm; (d) Reconstructed spectrum by surrogate function algorithm

4 结论

对离子迁移谱谱图重构及特征峰提取算法进行了研究, 提出了一种可同时实现离子迁移谱谱图重构及特征峰提取的优化目标函数, 采用替代函数算法就行求解。 仿真和真实样本实验表明, 采用优化目标函数及替代函数算法得到的实验结果相比其他三种算法有了显著性能提升。 离子迁移谱谱图经过重构及特征峰提取后, 可以实现化学物质种类的准确识别, 为定量研究提供了基础。

参考文献
[1] Costanzo M T, Boock J J. Int. J. Mass Spectrom. , 2017, 422: 188. [本文引用:1]
[2] Cumeras R, Figueras E, Davis C, et al. Analyst, 2015, 140(5): 1376. [本文引用:1]
[3] Hernández-Mesa M, Escourrou A, Monteau F, et al. Trends in Analytical Chemistry, 2017, 94: 520. [本文引用:1]
[4] Szymanska E, Davies A, Buydens L. Analyst, 2016, 141: 5689. [本文引用:1]
[5] WANG Xin, HE Hao, FAN Xian-guang, et al(王昕, 何浩, 范贤光, ). Spectroscopy and Spectral Analysis(光谱学与光谱学分析), 2018, 38(1): 93. [本文引用:1]
[6] Arteagafalconi J, Osman H A, Saddik A E. R-Peak Detection Algorithm Based on Differention. IEEE International Symposium on Intelligent Signal Processing. , IEEE, 2015. [本文引用:1]
[7] Lu J, Trnka M J, Roh S H, et al. Journal of the American Society for Mass Spectrometry, 2015, 26: 2141. [本文引用:1]
[8] Kazimierczuk K, Kasprzak P. Sensors, 2015, 15: 234. [本文引用:1]
[9] Alfons, Andreas. Computational Statistics & Data Analysis, 2016, 93: 421. [本文引用:1]
[10] Zhang G, Peng S, Cao S, et al. International Journal of Mass Spectrometry, 2019, 436: 147. [本文引用:1]
[11] Zong Jingjing, Qiu Tianshuang. Biomedical Signal Processing and Control, 2017, 34: 195. [本文引用:1]
[12] Kopczynski D, Rahmann S. Algorithms for Molecular Biology, 2015, 10(1): 17. [本文引用:1]