基于匹配追踪的拉曼光谱信号重构算法
王昕*, 何浩, 范贤光, 汤明
厦门大学航空航天学院, 福建 厦门 361005
*通讯联系人

作者简介: 王 昕, 1984年生, 厦门大学航空航天学院仪器与电气系副教授 e-mail: xinwang@xmu.edu.cn

摘要

拉曼光谱技术是一种高灵敏度、 无损伤、 振动分子光谱技术, 在医药、 生物、 分析化学等诸多领域有着重要的作用。 然而, 由于拉曼散射强度低, 实际测得的拉曼信号容易被噪声所污染。 特别是在较短的曝光时间, 收集到的拉曼光谱的信噪比很低。 因此, 提出了一种基于匹配追踪算法的信号重构方法, 用于提取低信噪比的拉曼信号。 该方法首先通过阈值循环迭代的方法在平均谱上找出特征峰的位置、 估计峰的区间。 根据峰的位置区间等信息, 用高斯密度函数生成字典。 在噪声谱上, 根据特征峰位置和区间, 将其区分为有信号区间和无信号区间, 在有信号区间上利用匹配追踪算法重构被噪声所掩盖的拉曼信号。 该算法不仅能够很好的逼近掩盖在噪声中的拉曼信号, 且在重构信号的过程中也会对基线进行扣除, 无须作基线校正处理。 在仿真和实验中对该算法与常规算法进行了比较, 结果证明, 该算法在低信噪比条件下能够较好的恢复拉曼信号。 该算法不同于传统光谱去噪算法, 能同时对拉曼光谱进行了基线扣除以及噪声的处理, 且能取得较为理想的结果, 不需要使用不同的算法对基线和噪声分别处理。 其次, 在算法上我们创造性地将匹配追踪算法用于拉曼光谱信号的稀疏逼近求解。

关键词: 低信噪比; 拉曼光谱; 匹配追踪; 信号重构
中图分类号:O657.3 文献标志码:A
Signal Processing Method for Raman Spectra Based on Matching Pursuit
WANG Xin*, HE Hao, FAN Xian-guang, TANG Ming
School of Aerospace Engineering, Xiamen University, Xiamen 361005, China
*Corresponding author
Abstract

Raman spectroscopy, as a high sensitive, non-invasive vibrational molecular spectrocopy technique, plays a significant role in many fields such as pharmaceutical, biology and analytical chemistry etc. However, due to the weak Raman scattering intensity, the measured Raman signal is always contaminated by noise. Especially in the short exposure time, the SNR (signal to noise ratio) of collected Raman spectra is extremely low. Therefore, this paper proposed a signal reconstruction method based on matching pursuit algorithm, which is used to extract Raman signals from the low SNR Raman spectra. The method first finds the position of the characteristic peak on the average spectrum by threshold iterative method, and estimates the interval of the peak according to the location of the peak and peak interval, with a Gaussian density function to generate a dictionary. In the noise spectrum, according to the position and interval of the characteristic peak, it is divided into the signal interval and the non-signal interval. On the signal interval, the matching pursuit algorithm is used to reconstruct the Raman signal covered by noise. The algorithm not only can primely approximate the Raman signal which is covered in the noise, but also deducts the baseline in the procession of reconstructing the signal, and does not need any baseline correction further. The performances of the proposed algorithm and conventional algorithms were compared. The results show that the proposed algorithm can recover the Raman signals in the condition of low SNR. Different with the conventional de-noise algorithms, algorithm of this paper process the baselines and the random noises in Raman signals simultaneously, and the results have been proved good. So there is no need to use different algorithms to process the baselines and noises separately. Furthermore, in the aspect of algorithm, we creatively applied the matching pursuit algorithm to solve the sparse approximation of Raman signals.

Keyword: Low SNR; Raman spectra; Matching pursuit; Signal reconstruction
引 言

拉曼光谱技术是一种高灵敏度无损振动分子光谱技术, 在医药、 生物、 分析化学等诸多领域有着重要的作用[1]。 但是受困于拉曼散射强度低, 实际测得的拉曼信号总是被荧光、 射线、 CCD暗电流等噪声所掩盖。 为了克服噪声的干扰, 除了通过提升硬件性能或增加曝光时间外, 还可以利用信号处理的办法来提高光谱质量。 近年来, 国内外学者提出了各种算法用于对拉曼光谱进行噪声去除处理, 如: S-G滤波、 小波变换(wavelet transform)、 经验模态分解EMD(empirical mode decomposition)等。 1964年Savitzky等提出S-G滤波, 用于数据的平滑处理[2]。 其本质是一种基于时域的滑动窗口平滑算法。 将长度为2M+1窗口的沿着时间序列滑动, 在每个区间上利用最小二乘法拟合出与原始信号误差最小的多项式表示, 利用卷积法求解多项式系数。 将中间点的横坐标代入该多项式后得到的数据值即为平滑后该点的值。 如此遍历整个信号区间即可实现数据的平滑。 小波变换阈值去噪是一种时频分析算法, 对含噪声的信号进行小波分解, 低频部分主要被分解到较高的尺度上, 高频部分主要被分解到较低的尺度上[3, 4]。 一般认为信号主要是低频部分, 噪声集中在高频部分。 因此利用阈值法剔除部分较低尺度的系数, 然后进行小波逆变换即可得到去噪后的信号。 EMD算法将信号分解为一系列频率不同的本征模态函数IMF(intrinsic mode function)以及一个趋势项, 将这些IMF以及趋势项求和即可获得有用的拉曼信号[4, 5]

而在很多实验中, 我们为了观察动态过程, 需要采用较短的扫描时间, 此时将获得信噪比较低的信号, 而现有的算法对这样的信号处理效果并不理想。 因此, 本文提出了一种适用于低信噪比条件下的信号处理办法。 该算法首先在平均谱上标定出特征峰的区间和位置, 并据此利用高斯密度函数生成原子库。 其次, 根据上一步所获得的信息, 将噪声谱分为有信号和无信号的区间。 在有信号的波段利用匹配追踪算法提取拉曼信号。 最后再重构出整个光谱。 该算法不仅可以的得到信噪比良好的光谱, 而且在重构过程中对基线进行了校正。 仿真和实验中, 我们分别对比了该算法和小波软阈值、 小波硬阈值、 EMD、 S-G滤波等算法的去噪效果。

1 理 论
1.1 阈值循环迭代法寻峰

传统寻找信号峰值方法, 一般都通过求导来实现。 但由于噪声的影响, 求导法很容易获得许多假峰。 文献[6, 7]中介绍了利用连续小波变换(CWT)的办法得到小波系数, 再通过脊线搜索的办法确定峰位置的算法。 但实际使用的效果不佳, 甚至对纯净的信号进行处理时, 峰位置也会存在偏差。

本文中使用阈值循环迭代的办法交替寻找信号中的极小、 极大值。 在寻找极小值点时, 比较当前点值与该点之前到上一次寻找到的极值点之间所有点的最小值之差。 如果该值大于设定的阈值即判断该点的前一个序列点为一个局部极小值点, 可用式(1)来表示

x(k+1)-min{x(p), , x(k)}> Δ(1)

其中, x(i)为信号序列; x(p)为上一个极值点或者起始点, 若该式成立, 即判定x(k)为一个极小值点。 Δ 为预先设定的迭代阈值。

寻找极大值点时, 比较当前点值与该点之前到上一次寻找到的极值点之间所有点的最大值之差。 可用式(2)来表示

max{x(p), , x(k)}-x(k+1)> Δ(2)

式(2)成立, 则判定x(k)为一个极大值点。 调整合理的迭代阈值可以准确的找出信号中所有感兴趣的极小和极大值点。

对于拉曼信号而言, 所有的极大值点位置即被确认为拉曼特征峰的位置。 每个峰的区间宽度的估计可以用式(3)来表示

Wi=2×(Pi-Vi)(3)

式(3)中, Wi为第i个峰区间的宽度, Pi为第i个峰的位置, Vi为该峰位置之前相邻的一个极小值的位置。

1.2 匹配追踪算法

匹配追踪(matching pursuit)是一种适用于信号稀疏逼近的贪婪迭代算法, 广泛应用在图像、 语音处理, 压缩感知等领域[8, 9]。 所谓稀疏逼近, 指在通过在过完备字典内选择尽可能少的原子的线性组合来表示原信号。 其收敛法则有稀疏度约束和误差约束法则。 对于给定的字典D, 含噪信号y的稀疏重构可由式(4)来描述[10, 11]

γ=argminγγ0s.ty-22ε(4)

其中, γ 为信号y在字典D上的稀疏表示; ε 为收敛误差; 为重构信号。

设给定的字典D=[d1, d2, …, dm]包含m个原子, 当信号y为长度n的向量时, 原子为长度为n的单位列向量。 设γ Rm为稀疏系数向量, θ 为迭代残余部分。 每次迭代更新后的稀疏系数向量γ 以及相应的残余部分θ 均加右上标来表示。 则用匹配追踪算法重构含噪信号y的具体步骤如下:

(1) 设定初始稀疏系数向量γ 0=[0, 0, …, 0]TRm, θ 0=y, 信号y可由式(5)表示

y=Dγ0+θ0(5)

(2) 计算第p-1次迭代残余部分θ p-1与字典D中各原子的内积的最大值, 并将所得系数加入稀疏系数向量。 见式(6)

αip=maxiM(θp-1, di)(6)

其中i为所选原子在字典D中的索引。

(3) 用更新的稀疏系数向量计算第P次迭代的稀疏逼近值yp=p, 计算迭代残余θ p, 见式(7)

θp=θp-1-αip×di(7)

(4) 根据稀疏度约束条件pK或误差约束条件(‖ θ p 22ε ), 判断是否停止迭代。 其中K为设定的最大稀疏度, ε 为设定的最大残差。 若未达到终止条件, 则转到第2步, 继续搜索匹配的原子。

(5) 迭代终止, 获得含噪信号y基于字典D的稀疏逼近: y˙=

1.3 基于匹配追踪的拉曼光谱重构方法

本文提出的算法首先通过循环迭代寻峰的办法在平均谱上找出特征峰的位置和区间。 据此, 可以将噪声谱分割为有信号的区间和无信号的区间。 如式(8)所示

Noise=iSi+jNj(8)

其中, Noise为噪声信号, Sj为有信号区间, Nj为无信号区间。 对于无信号区间, 其值为0; 对于有信号区间, 先用多项式拟合的办法对其进行基线的扣除, 然后使用匹配追踪的办法来寻求真实拉曼信号的稀疏逼近。 重构后的信号可由式(9)表示。

Noise=is˙i+j0j(9)

重构信号的准确性在一定程度上取决于字典D的设计。 字典的来源一般有两个[11]: 提前设定和基于学习算法生成字典。 本文中字典是根据特征峰区间以及位置信息来设计的。 单个拉曼峰的分布可以近似认为正态分布[12], 因此本文中采用高斯密度函数来设计原子, 如式(10)所示

d(x)=12πσe-(x-μ)22σ2(10)

其中μ 为峰位置σ 为峰宽因子。

至此, 可以将利用匹配追踪算法重构拉曼光谱信号的具体步骤描述如下:

(1) 利用阈值循环迭代的方法在平均谱上找出特征峰的位置和区间等信息。

(2) 利用特征峰的位置和区间等信息将待处理的噪声谱划分区间。

(3) 对每个有信号区间光谱分别进行多项式基线校正, 将光谱无信号区间均置0。

(4) 利用匹配追踪算法, 寻求每个有信号区间光谱的稀疏逼近解。

(5) 合成重构后的拉曼光谱信号。

2 仿 真

本文中使用高斯函数的线性叠加来仿真纯净的拉曼光谱信号, 并且使用余弦函数作为基函数来仿真真实平均谱中的基线背景, 见式(11)

Baseline(x)=20cosx1000(11)

为模拟较弱的真实平均谱信号, 文中使用了较低的信号强度, 单个峰的信号强度均低于100。 仿真信号的相关参数如表1所示。

表1 仿真信号参数表 Table 1 Parameters of simulated pure Raman signal

图1(a)为仿真的纯净拉曼信号, 图1(b)为加入基线背景的仿真平均谱信号, 图1(c)为加入30 db高斯白噪声后的仿真低信噪比拉曼信号, 图1(d)为使用基于匹配追踪算法的重构信号。

图1 (a)仿真信号; (b) 仿真平均拉曼信号; (c) 仿真带噪拉曼信号; (d) 去噪后信号Fig.1 (a) Simulated pure Raman signal; (b) Simulated average Rman signal; (c) Simulated noisy Raman signal; (d) Denoised signal by the proposed algorithm

表2所示为, 使用循环阈值算法对图1(b)中的仿真平均拉曼光谱的寻峰结果。

表2 本方法获得的谱峰信息 Table 2 Peak information obtained by the proposed algorithm

结合表1表2, 以及图1(a)和(d), 可以看出, 由本文提出的算法对低信噪比含噪仿真信号去噪处理后的拉曼光谱信号峰位置以及峰区间均十分准确。 结合图1(a)和(d)来看: 重构信号的前3个峰的强度略有误差, 但均在可接受误差范围内; 后3个峰强度均与图1 (a) 较完美契合。 为了比较本文算法与常规算法的去噪效果, 本文分别使用了小波软阈值、 小波硬阈值、 S-G滤波以及EMD四种算法对图1(c)中的含噪声拉曼信号进行了处理, 结果见图2。

图2 (a)小波软阈值法获得的去噪信号; (b) 小波硬阈值法获得的去噪信号; (c) S-G滤波法获得的去噪信号; (d) EMD获得的去噪信号Fig.2 (a) Denoised signal obtained by wavelet using soft threshold; (b) Denoised signal obtained by wavelet using hard threshold; (c) Denoised signal obtained by S-G filter; (d) Denoised signal obtained by EMD

图2(a)为使用小波软阈值处理图1(c)中的噪声信号的结果, 图2(b)为使用小波硬阈值去噪后的结果, 图2(c)为使用S-G滤波去噪后的结果, 图2(d)为使用EMD算法去噪后的结果。 结合图1和图2可以看出, 以上4种算法对于信噪比较低的弱拉曼信号均不能达到很好的去噪结果, 处理后的拉曼光谱仍然存在很大噪声。

为了测试算法的去噪能力, 本文分别对图1(b)中信号加入5~60 db高斯噪声。 然后使用本文算法以及上述4种常规算法对噪声谱进行处理, 并分别计算了去噪后的信号的均方根误差(RMSE) 以及其信噪比(SNR)。 RMSE与SNR的计算公式分别如式(12)、 式(13)所示

RMSE=1Ni=1N(s˙(i)-s(i))2(12)SNR=10×log101Ni=1N(s˙(i))21Ni=1N(s˙(i)-s(i))2(13)

其中 s˙为去噪后的信号, s为原始信号。 计算结果最终形成如图3所示各算法去噪处理后对应的噪声-均方根误差对应曲线, 以及图4所示各种算法去噪处理后对应的噪声-信噪比曲线。

图3 不同方法的RMSE-Noise曲线Fig.3 RMSE-Noise curves of denoised signal with different algorithms

在加入30 db噪声后, 使用本文算法处理后的光谱信噪比可以达到9.74 db, 而使用常规算法去噪后的光谱信噪比则下降到0 db附近, 表明此时算法失效。 结合图3和图4可以看出, 基于匹配追踪的拉曼光谱重构算法具有更好的去噪能力, EMD算法次之, 小波变换软阈值和硬阈值算法性能相差无几, S-G滤波去噪能力最差。

图4 不同方法的SNR-Noise曲线Fig.4 SNR-Noise curves of denoised signal with different algorithms

3 实验部分
3.1 材料及仪器

本文实验仪器为nanophoton公司生产的第三代显微拉曼成像系统Raman-11, 该仪器具有较好的拉曼成像性能。 本文实验样品为头孢呋辛酯片粉末, 采用线激光作为激发光, 每次扫描曝光时间为0.5 s。

3.2 结果分析

由于曝光时间短, 激发光能量低以及荧光背景等原因, 单个拉曼光谱的噪声很大。 为验证算法的性能, 分别使用了本文提出的算法以及常规算法对实测的头孢呋辛酯片光谱进行了去噪处理, 实验结果如图5和图6所示。

图5 (a) 头孢的平均拉曼信号; (b) 头孢的带噪拉曼信号; (c) 本方法获得的去噪信号Fig.5 (a) Average Raman signal of cefuroxime axetil; (b) Noisy Raman signal of cefuroxime axetil; (c) Denoised signal of the Noisy signal by algorithm proposed

图6 头孢的拉曼信号
(a): 小波软阈值法的去噪结果; (b): 小波硬阈值法的去噪结果; (c): S-G滤波法的去噪结果; (d): EMD算法去噪结果
Fig.6 Raman signal of cefuroxime axetil
(a): Denoised by wavelet using soft threshold; (b): Denoised by wavelet using hard threshold; (c): Denoised by S-G filter; (d): Denoised by EMD

图5(a)所示为头孢呋辛酯的平均拉曼光谱信号。 图5(b)所示为选取的扫描区域内某一点的光谱信号, 拉曼光谱信号几乎均被噪声淹没。 图5(c)所示为使用本文算法重构后的信号。 参照图5(a)所示平均谱信号可以看出, 重构后的信号不论在谱峰位置上还是峰区间上, 均与平均谱信号较为吻合, 且没有基线的影响无须进一步处理。 表明算法较好的提取了高噪声背景中的弱拉曼信号。

图6(a)所示为采用小波软阈值对图5(b)所示的含噪光谱信号去噪后的结果; 图6(b)所示为采用小波硬阈值去噪后的结果; 图6(c)所示为采用S-G滤波去噪后的结果; 图6(d)所示为采用EMD去噪后的结果。 对比图5(a)所示平均谱信号, 可以发现, 以上四种常规算法在处理低信噪比的拉曼光谱信号时均不理想。 最后, 为了衡量计算速度, 在相同的软硬件环境下(软件: Matlab R2014b, 硬件: Intel Core M-5Y10C, 4GB RAM (DDR3L), 给出了以上各种算法处理头孢呋辛酯片拉曼光谱计算时间, 如表3所示。 由于本文算法同时对光谱的基线和噪声进行了处理, 需要相对较长的处理时间, 但仍保持在0.05s以内, 完全可以满足实际用户需求。

表3 不同方法的运行时间 Table 3 Processing times in the experiment of different algorithms
4 结 论

提出了一种基于匹配追踪的拉曼光谱的信号重构算法, 用于低信噪比的拉曼光谱的信号处理。 本文通过仿真与实验吩该算法的性能进行了验证, 并且与常规算法进行了比较。 事实说明, 使用基于匹配追踪的拉曼光谱重构算法处理的低信噪比拉曼光谱信号不仅在特征峰位置还是在峰区间上都较为准确且峰强度合理, 同时没有基线的影响无须进一步处理; 而常规算法在处理低信噪比拉曼信号时均不理想。 该算法为处理极低信噪比的拉曼光谱信号提供了一个潜在的强有力的工具。

The authors have declared that no competing interests exist.

参考文献
[1] HU Xiao-hong, ZHOU Jin-chi(胡晓红, 周金池). Analytical Instrumentation(分析仪器), 2011, 6: 1. [本文引用:1]
[2] Daniel Suescún-Díaz, Héctor F Bonilla-Londoño, et al. Journal of Nuclear Science and Technology, 2016, 53(7): 944. [本文引用:1]
[3] Galvao R K H, et al. Analytica Chimica Acta, 2007, 581: 159. [本文引用:1]
[4] Zimon M J, et al. J. Comput. Phys. , 2016, 312(15): 380. [本文引用:2]
[5] Chand ra S, Hayshibe M, Thondyath A. Biomedical Signal Processing and Control, 2017, 31: 339. [本文引用:1]
[6] Zhang Zhimin, et al. J. Raman Spectrosc. , 2010, 41: 659. [本文引用:1]
[7] Wang Xin, et al. Meas. Sci. Thchnol. , 2015, 26: 115503. [本文引用:1]
[8] Liu Qianshun, Bai Jian, Yu Feihong. Applied Optics, 2014, 53(32): 7796. [本文引用:1]
[9] LIU Ya-xin, et al(刘亚新, ). Journal of Electronics & Information Technology(电子与信息学报), 2010, 32(11): 2713. [本文引用:1]
[10] Wright J, et al. IEEE Tansactions on Pattern Analysis and Machine Intelligentce, 2009, 31(2): 210. [本文引用:1]
[11] Rubinstein R, Peleg T, Elad M. IEEE Tansactions on Signal Processing, 2013, 61(3): 661. [本文引用:2]
[12] JIANG Cheng-zhi, SUN Qiang, LIU Ying, et al(姜承志, 孙强, 刘英, ). Acta Optica Sinca, 2014, 34(6). [本文引用:1]