改进的紫外拉曼光谱分段线性拟合基线校正方法
赵曼1, 郭一新1, 何玉青1,*, 郭宏1, 金伟其1, 任林茂1,2
1. 北京理工大学光电学院, 光电成像技术与系统教育部重点实验室, 北京 100081
2. 铁道警察学院, 河南 郑州 450053
*通讯联系人 e-mail: yuqinghe@bit.edu.cn

作者简介: 赵 曼, 女, 1993年生, 北京理工大学光电学院硕士研究生 e-mail: zm_cucbit@163.com

摘要

紫外拉曼光谱具有拉曼散射强度高、 易于荧光光谱分离、 受环境干扰影响小以及人眼安全性高等特性, 所用的紫外拉曼光谱仪采用波长266 nm激光器, 拉曼和荧光光谱会有部分重叠, 增加了准确获取拉曼光谱特征信息的难度, 进一步影响样品的辨识。 因此, 需要在分析拉曼光谱之前进行基线校正来消除荧光干扰。 根据紫外拉曼+荧光混合光谱中, 荧光光谱具有逐渐增加且接近分段线性递增的特点, 利用分段线性函数拟合荧光光谱基线是一种较简捷的方法, 于是针对传统分段线性拟合基线校正方法基线点定义过度依赖操作人员、 自动化水平较低等问题, 研究了一种改进的紫外拉曼光谱分段线性拟合基线校正方法: (1)首先求原始信号经不同次平滑迭代后的光谱数据。 由于波峰相对于基线是高频信号, 在多次平滑过程中, 波峰附近的光谱强度逐渐下降且变化较大, 基线部分逐渐上升且相对变化很小, 经不同次迭代平滑的光谱波峰和基线点处的光谱强度标准差 SD差异较大。 (2)然后通过对光谱强度偏差的比较确定准有效基线点位置。 通过适当设定的阈值 SD0提取出准有效基线点位置; (3)再利用线性迭代拟合法提取并修正过校正基线点。 准有效基线点将整个拉曼光谱分割成 N个特征峰区间, 分别连接特征峰区间两端点得到一条直线, 若特征峰全部在直线以上表明不存在过校正, 否则区间端点向其峰方向移动并再次直线连接, 重复以上过程, 直到特征峰全部在直线以上, 得到有效基线点; (4)最后逐段直线连接所有相邻有效基线点得到整个光谱的基线。 原始光谱减去基线就是基线校正后的拉曼光谱。 通过对模拟和实际测量的紫外混合光谱的基线校正处理实验表明: 该方法能自动确定基线点位置, 且较传统方法能获得更好的基线校正效果, 为下一步的光谱分析提供更准确的光谱信息。

关键词: 拉曼光谱; 紫外; 基线校正; 分段线性拟合
中图分类号:O433.4 文献标志码:A
Baseline Correction of UV Raman Spectrum Based on Improved Piecewise Linear Fitting
ZHAO Man1, GUO Yi-xin1, HE Yu-qing1,*, GUO Hong1, JIN Wei-qi1, REN Lin-mao1,2
1. MOE Key Laboratory of Optoelectronic Imaging Technology and System, School of Optoelectronics, Beijing Institute of Technology, Beijing 100081, China
2. Railway Police College, Zhengzhou 450053, China
*Corresponding author
Abstract

UV Raman spectroscopy has the characteristics of high Raman scattering intensity, easy fluorescence spectrum separation, little influence by environmental interference and safety to the human eye. In this paper, the ultraviolet Raman spectrometer uses a laser with a wavelength of 266 nm. The Raman spectrum and the fluorescence spectrum will partially overlap, which increases the difficulty of accurately obtaining the characteristic information of the laser Raman spectrum, and further affects the identification and analysis of the sample. Therefore, baseline corrections need to be performed prior to analyzing Raman spectroscopy to eliminate fluorescence interference. According to the distribution characteristics of the mixed spectrum of ultraviolet Raman and fluorescence, the fluorescence spectrum has a gradual increase and is close to a piecewise linear increase. Therefore, fitting a fluorescence spectral baseline using a piecewise linear function is a relatively simple method, so that the troughs of the characteristic peaks just fall on the baseline. Aiming at the problem that the traditional piecewise linear fitting baseline correction method is over-reliant on the operator and the low level of automation, improved UV-Raman spectroscopy piecewise linear fitting baseline correction method is studied. (1) First the spectral data of the original signal after different smoothing iterations is obtained. Since the peak is a high-frequency signal with respect to the baseline, the spectral intensity at the peak position gradually decreases and changes greatly, while that at the baseline portion gradually rises and the relative change is small during the multiple smoothing process. So the standard deviation (SD) of the spectral intensity at the spectral peaks and the baseline points is different after different smoothing iterations. (2) Then the position of the quasi-valid baseline points is determined by comparing the spectral intensity deviations. The quasi-valid baseline points can be extracted by appropriately setting the threshold; (3) Next the quasi-valid baseline points divide the entire Raman spectrum into N characteristic peak intervals. Comparing the lines obtained by connecting the two ends of the characteristic peak interval with the spectral intensity of the characteristic peak interval, if the characteristic peaks are all above the straight line, there is no over-fitting, otherwise the endpoints of the characteristic peaks move toward the peak direction and are connected again by straight lines. The above process is repeated until the characteristic peaks are all above the line connecting the two ends of the interval, and the valid baseline points are obtained. (4) Finally, all adjacent valid baseline points are connected in a straight line by segment to get the baseline of the entire spectrum. The corrected Raman spectrum is obtained by subtracting the baseline from the original spectrum. Baseline calibration experiments of simulated and actual measured UV and fluorescence hybrid spectra show that the method of this paper can automatically determine the position of the baseline point and obtain better baseline correction effect than the traditional method, which will provide more accurate spectral information for the next spectral analysis.

Keyword: Raman spectroscopy; UV; Baseline correction; Piecewise linear fitting
引言

拉曼光谱分析作为一种分子光谱检测方法, 具有无需样品前处理和制备过程、 操作简便、 不损伤样品、 测定时间短、 灵敏度高等优点[1]。 但其往往伴随荧光背景, 增加了获取拉曼光谱信息的难度, 直接影响样品定性定量分析。 因此, 拉曼光谱分析需进行基线校正来消除荧光干扰。

常用的基线校正方法有多项式拟合[2]、 小波变换[3]、 平滑法等, 其中多项式拟合法基于最小二乘法确定多项式系数得到拟合基线, 原理简单但存在阶数选择的问题。 小波变换法的实质是将信号分解成一系列不同频率正弦波叠加, 可将光谱中的低频和高频信号分开, 难点是选择最佳分解方法, 计算量和难度较大。 平滑法利用循环迭代平滑的方法不断逼近基线, 每次迭代都需判断是否满足条件, 计算量较大。 另一种常用方法是分段线性拟合, 覃赵军等针对特征峰定义拟合数据点, 通过线性拟合方法分段拟合背景基线, 达到了较好的校正效果, 不足之处在于需要人工定义拟合数据点, 也存在目标点定位不准导致的过校正现象, 且处理过程繁琐, 不利于光谱信息的快速提取。

实际上, 良好的基线校正应结合可能的光谱特征, 为此, 在对紫外拉曼与荧光光谱特征分析的基础上, 通过改进相对简单的分段线性拟合基线法, 研究一种自动识别目标点位置的分段线性拟合方法, 以实现从样品的混合光谱中有效分离出拉曼光谱。

1 改进的紫外拉曼光谱分段线性拟合基线校正方法
1.1 紫外拉曼光谱的分布特点

从拉曼频移谱来看, 不同激发波长的拉曼光谱分布相近, 但是相较于可见光和红外拉曼光谱, 紫外拉曼光谱还具有一些重要的特点: 紫外拉曼光散射强度高[4]; 受环境干扰影响小; 人眼安全性高[5, 6]; 可用于爆炸性材料; 易于荧光光谱分离: 激光照射会产生拉曼和荧光, 通常拉曼光谱约有200~4 000 cm-1的拉曼位移, 荧光光谱则在280~370 nm较强。 采用波长较短的紫外激光可望在光谱上形成拉曼和荧光光谱的分离[7, 8], 有利于拉曼光谱的分析。 研究表明[9]: 当激光波长在250 nm以下时, 拉曼光谱与其彻底分离(如图1)。

图1 拉曼响应与荧光光谱(Laser Line为激光发射源)[10]Fig.1 Raman response and fluorescence spectrum (Laser Line is the response of the laser source)

以上特性表明, 日盲紫外拉曼光谱检测适合白天自然环境下远距离的遥测, 在诸如爆炸物、 毒品以及食品和药品安全等的非接触无损检测方面具有广泛的应用前景。

1.2 改进的分段线性拟合方法

本文所用的紫外拉曼光谱仪采用波长266 nm的激光器, 根据前面的分析, 它激发出的拉曼和荧光光谱有部分重叠, 即距离激发波长较近部分几乎无重叠, 波长增加之后开始重叠且荧光成分逐渐增加, 接近分段线性递增的特点, 因此, 利用分段线性函数拟合荧光光谱基线比较简捷。 传统方法[5]采用人为预定义基线点, 再在其前后三点中取最小值作为目标点。 此方法需经验丰富的操作人员, 否则将造成基线点偏差, 出现过校正现象, 此外定义基线点过程中选取最小值的方式容易引入噪声干扰, 导致特征峰强度异常增大。

为此, 本文研究了一种自动基线点选择方法, 通过对不同次平滑迭代后光谱强度偏差的比较确定准有效基线点位置, 然后利用线性迭代拟合法提取并修正过校正基线点, 再对所有相邻有效基线点进行逐段直线连接得到基线, 最后用平滑去噪后的光谱减去基线得到拉曼光谱。

(1)首先求原始信号经不同次平滑迭代后的光谱数据

选择Savitzky-Golay算法作平滑迭代[3], 在这个过程中光谱波峰位置附近逐渐下降且变化较大, 基线部分逐渐上升且相对变化很小[图2(a)]。 如果只根据经某次平滑迭代后的光谱数据与原光谱数据的偏差来判定基线点, 很容易受到噪声的干扰直接导致误判[图2(b)], 因此, 本文通过求不同次迭代后光谱数据之间的标准差来达到避免噪声干扰的目的。 首先介绍S-G平滑迭代原理。

图2 平滑迭代过程
(a): 波峰与基线位置处的变化; (b): 单次平滑迭代判定基线点易受噪声干扰
Fig.2 Smooth iteration
(a): The changes at the peak and baseline position; (b): The effect of noise

设原始信号为S(x)=p0(x), x(j) (j=1, 2, …, J)为光谱采样点; 2M+1的平滑窗口, 用K< (2M+1)阶多项式pt[x(j+i)](i=-M, …0, …, M)对pt-1(x)(t=1, 2, 3, …, T)平滑滤波

pt(x(j+i))=k=0Kαkt[x(j+i)-x(j)]k(t=1, 2, 3, , T)(1)

其中, akt为第t次滤波的多项式系数, 其由拟合误差ε t取到最小确定

εt=i=-MM(pt(x(j+i))-pt-1(x(j+i)))2min(t=1, 2, 3, , T)(2)

将第t次平滑滤波函数在中心点i=0处x(j)的值pt[x(j)](j=M+1, M+2, …, J-M)作为滤波结果。 对于光谱两端的2M个点, 分别利用第M+1个点和倒数第M+1个点为中心拟合的多项式求解。

平滑窗口在光谱中移动, 每移动一次去掉最左边一个点加上最右边一个点, 利用式(1)求得平滑后的拉曼光谱数据pt(x)。

pt(x)=j=1Jpt(x(j))(3)

(2) 然后通过对光谱强度偏差的比较确定准有效基线点位置

为减小噪声影响, 将原始光谱S(x)经一次平滑滤波的p1(x)作为后续处理的光谱数据。 经不同次迭代平滑的光谱波峰和基线点处的光谱强度标准差SD差别较大[图2(a)], 定义

SD(x)=1Tt=1T[pt(x)-p̅(x)]2< SD0(4)p̅(x)=1Tt=1Tpt(x)(5)

其中, p̅(x)表示经第1, 2, 3, …, T次平滑光谱强度的平均值。 平滑窗口大小、 多项式阶数和迭代次数都会影响SD的值, 这三个参数选取过大会增加计算量, 窗口和迭代次数选取过小会使光谱波峰和基线点处SD差异太小, 影响光谱强度偏差法判别效果。 在迭代次数固定的情况下, 多项式阶数和窗口大小需要匹配。 之后通过适当设定阈值SD0提取准有效基线点位置区间, 相比传统方法(只取最小值一点作为基线点, 易选到噪声最低点, 造成临近拉曼峰的强度异常增大), 本文方法抗噪声干扰能力更强。

(3) 再利用线性迭代拟合法提取并修正过校正基线点

准有效基线点区间将整个拉曼光谱分成N个特征峰区间(图3), 设特征峰区间为[xl(n), xr(n)] (n=1, 2, 3, …, N), 直线连点(xl(n), yl(n))和(xr(n), yr(n))得

h1(x)=yl(n)-yr(n)xl(n)-xr(n)x+xl(n)yr(n)-xr(n)yl(n)xl(n)-xr(n), (xl(n)< xxr(n), n=1, 2, , N)(6)

h1(x)≤ p1(x), 直接得基线h1(x)[图3(a)中红线]; 若h1(x)> p1(x), 该特征峰区间两侧存在过校正[图3(b)中红虚线], 需把两端点即(xl(n), yl(n))和(xr(n), yr(n))分别朝特征峰方向移动, 哪个端点移动取决于过校正点集E与相应特征峰(特征峰区间连峰时取较近峰)的位置关系, 根据二阶导数极小值与谱峰中心x0(n)重合[10]x0(n), 一二阶导数的计算式

p1d1(x(j))=p1(x(j+1))-p1(x(j))x(j+1)-x(j)(7)p1d2(x(j))=p1d1(x(j+1))-p1d1(x(j))x(j+1)-x(j)=p1(x(j+2))-2p1(x(j+1))+p1(x(j))(x(j+1)-x(j))2(8)

E全在特征峰左侧[x(E)< x0(n)], 左端点xl(n)右移; 若E全在特征峰右侧[x(E)> x0(n)], 右端点xr(n)左移; 若E在两侧都有, 则两端点同时发生以上移动, 且每次分别移动一个数据点。 直到两端点刚移至(xL(n), yL(n))和 (xR(n), yR(n))时满足h1(x)≤ p1(x), 得到有效基线点。

图3 模拟光谱基线拟合过程
(a): 第3个特征峰区间; (b): 第2个特征峰区间
Fig.3 Baseline fitting process of the simulated spectrum
(a): The 3rd characteristic peak intervals; (b): The 2nd characteristic peak intervals

(4)逐段直线连接所有相邻有效基线点

根据边界条件

xl(n)=xL(n)yl(n)=yL(n)xr(n)=xR(n)yr(n)=yR(n)(9)

和式(6)得到该特征峰区间的基线h1(x)[图3(b)红实线]。 由特征峰区间确定基线区间[xr(n), xl(n+1)] (n=1, 2, 3…, N)和[xa, xl(1)](xa是首个基线区间的起点), 分别用直线连接各基线区间点得基线区间的基线h2(x)。 最后, 得到整个光谱的基线(算法流程如图4)

h(x)=h1(x), xl(n)< xxr(n)h2(x), xa< xxl(1)xr(n)< xxl(n+1)(n=1, 2, , N)(10)

图4 改进的分段线性拟合方法流程图Fig.4 Flow chart of improved piecewise linear fitting method

2 结果与讨论
2.1 模拟光谱验证校正效果

为验证本文方法的有效性, 引入由多个洛伦兹函数叠加而成的模拟拉曼光谱。 根据紫外混合光谱基线的特点, 选用反曲线形函数模拟漂移较小和较大的荧光基线, 并叠加信噪比为20 dB的高斯白噪声, 得到具有荧光和噪声的模拟拉曼光谱[图5(a)与(c)蓝色谱线]。

图5 模拟紫外拉曼光谱的基线校正
(a), (b): 漂移较小的基线拟合及校正效果; (c), (d): 漂移较大的基线拟合及校正效果
Fig.5 Baseline correction of simulated UV Raman spectra by traditional method and method of this paper

综合考虑简便程度和算法效果, 选取窗口大小为5的一阶多项式, 迭代次数分别取5, 10和20次, 经过平滑迭代后的光谱分别为p5(x), p10(x)和p20(x), 设定阈值SD0, 满足SD< SD0(SD0=0.002I, I=SD(x0(c)), 出处取min{(x-x0(c)) |c=1, 2, 3, …, C}时的x0(c), x0(c)为第c个谱峰中心的点即可被判定为基线点并保留。 同时考虑噪声的影响, 设定另一个阈值SD1=0.000 2I, 区间SD1< SD< SD0的点为准有效基线点, 根据准有效基线点确定特征峰所在区间。

对比分析传统方法与本文方法的基线校正效果(图5, 绿线—传统方法, 红线—本文方法), 大体看两种方法都取得良好校正效果, 但传统方法对某些特征峰出现过校正[如图5(a) 800 cm-1处的特征峰左侧, 由右侧基线较高而左半侧基线抬高不明显导致], 造成临近位置的特征峰强度降低[图5(b), 标准光谱、 本文和传统方法校正后光谱在800和880 cm-1处强度分别为39.51, 38.94, 36.02; 31.93, 30.98, 28.34], 进一步计算校正后光谱与标准光谱峰强度间的均方根误差, 本文方法较传统方法分别由1.22和1.69降低为0.36和0.85, 说明本文拟合方法得到了更好的校正效果。

2.2 实验及光谱校正

为检验本文校正方法效果, 采用自研的紫外拉曼光谱仪(激光波长266 nm, 功率30 mW, 分辨率12 cm-1, 光谱范围350~4 000 cm-1)对典型的小苏打药片、 阿司匹林粉末、 维生素C泡腾片等样品进行了拉曼光谱检测。 紫外拉曼光谱仪原理和实物如图6所示, 266 nm紫外光经反射镜M照射到双向色镜BS1上, 经BS1反射通过显微物镜L1聚焦到样品产生拉曼散射; 拉曼散射以相同路径返回BS1(滤除266 nm光); 之后经BS2反射、 BS3长通滤光片二次滤除、 接收物镜L2, 通过光纤耦合到光谱仪, 获得拉曼+荧光混合光谱, 基线校正由PC机专用处理软件完成, 可进行样品的拉曼光谱特征峰检测和识别出样品的种类。

图6 紫外拉曼光谱仪
(a): 光路设计; (b): 装置实物
Fig.6 Ultraviolet Raman spectrometer
(a): Optical path design; (b): Experimental device

图7给出实测小苏打药片、 阿司匹林粉末、 VC泡腾片拉曼光谱及其基线校正曲线(绿线为传统方法, 红线为本文方法)。 可看出: (1)光谱在波数较大处的基线被抬高, 两种方法校正后都取得较好效果; (2)传统方法对某些拉曼特征峰过校正 (如小苏打1 845 cm-1、 阿司匹林836 cm-1、 VC 1 125 cm-1处特征峰左侧), 造成临近位置的特征峰强度降低(表1)。 (3)传统方法受噪声影响导致校正基线后的特征峰强度异常增大(阿司匹林2 906和2 957cm-1的特征峰, 由于传统方法定义基线点时只选最小值一点, 易选到噪声的最低点, 导致特征峰异常增大), 而本文方法通过光谱强度偏差的比较, 设定适当的阈值自动确定基线点位置区间, 然后经多次线性迭代校正, 成功避免了上述过校正现象和噪声干扰获得了更好的校正效果。

图7 传统方法和本文方法的紫外拉曼光谱基线校正
(a), (b), (c): 小苏打、 阿司匹林和VC泡腾片的混合光谱; (d), (e), (f): 对应的基线校正效果
Fig.7 Baseline correction of UV Raman spectra
(a), (b), (c): The mixed spectrum of baking soda, aspirin and VC effervescent tablets; (d), (e), (f): Corresponding baseline correction effect

表1 传统方法和本文方法在过校正处的特征峰强度对比 Table 1 Comparison of characteristic peak intensities at the over-fitting position

作为算法验证对比, 采用中天锋公司近红外拉曼光谱检测仪RM-ZTF-600 (激光波长785 nm, 功率50 mW, 分辨率4 cm-1, 光谱范围200~1 500 cm-1)对上述样品检测, 并与本文结果对比(图8): 由于紫外拉曼光谱仪设计的光谱范围较宽(利于提取更丰富的光谱信息)造成光谱分辨率降低, 某些特征峰密集处出现峰的包络, 但其位置与近红外拉曼光谱一致 (小苏打1 450 cm-1, 阿司匹林1 294和1 336cm-1处以及VC 706和734 cm-1等处), 除此之外的特征峰位置也均与之对应, 表明本文实验及校正方法是正确可行的。 紫外与近红外拉曼光谱特征峰的差异与激发波长有关, 不同激发波长下, 样品吸收、 激光穿透深度和拉曼截面不同引起特征峰强度的变化[11, 12], 它们之间的关系有待后续进一步研究。

图8 紫外与近红外拉曼光谱基线校正效果
(a): 小苏打; (b): 阿司匹林; (c): VC泡腾片
Fig.8 Baseline correction effect of ultraviolet and near-infrared Raman spectrum
(a): The baking soda; (b): Aspirin; (c): VC effervescent tablets

3 结论

紫外拉曼检测可在自然环境下实施, 但其带来的信号小和干扰强等问题需要更佳的基线校正和噪声滤除方法来解决。 本文针对传统分段线性基线校正方法需要人工定义初始拟合数据点, 过度依赖操作人员经验、 自动化水平程度较低等问题, 根据266 nm紫外拉曼光谱的特点, 研究了一种改进的紫外拉曼光谱分段线性拟合基线校正方法, 基于原始混合光谱数据经过Savitzky-Golay滤波平滑迭代, 利用光谱强度偏差比较自动确定准有效基线点位置; 然后不断线性迭代拟合修正, 直到特征峰上的所有点都在基线及其以上位置, 自动得到最终的基线分布; 最后混合光谱减去基线分布即得到校正的紫外拉曼光谱。 通过对模拟和实际测量的紫外混合拉曼光谱基线校正, 证明了方法的有效性, 可为下一步的紫外拉曼光谱分析提供准确的光谱数据, 对实现诸如爆炸物、 毒品以及食品和药品等的定性定量检测具有重要意义。

参考文献
[1] Schie I W, Alber L, Gryshuk A L, et al. Analyst, 2014, 139(11): 2726. [本文引用:1]
[2] Mauro Mecozzi. APCBEE Procedia, 2014, 10: 2. [本文引用:1]
[3] MA Zhen, MA En, XIONG Fei-bing, et al(马真, 马恩, 熊飞兵, ). Applied Laser(应用激光), 2017, 37(4): 614. [本文引用:2]
[4] YANG Xu-gang, WU Qi-lin(杨序纲, 吴琪琳). Raman Spectroscopy Analysis and Application(拉曼光谱的分析与应用). Beijing: National Defense Industry Press(北京: 国防工业出版社), 2008. 9. [本文引用:1]
[5] Glimtoft M, Bååth P, Saari H, et al. Detection and Sensing of Mines, Explosive Objects, and Obscured Targets XIX. International Society for Optics and Photonics, 2014, 9072: 907210. [本文引用:2]
[6] Carroll J A, Izake E L, Cletus B, et al. Journal of Raman Spectroscopy, 2015, 46(3): 333. [本文引用:1]
[7] McCain S T, Guenther B D, Brady D J, et al. Chemical, Biological, Radiological, Nuclear, and Explosives (CBRNE) Sensing XIII. International Society for Optics and Photonics, 2012, 8358: 83580Q. [本文引用:1]
[8] Chirico R, Almaviva S, Botti S, et al. Optics and Photonics for Counterterrorism, Crime Fighting, and Defence VIII. International Society for Optics and Photonics, 2012, 8546: 85460W. [本文引用:1]
[9] Fulton J. Optics and Photonics for Counterterrorism, Crime Fighting, and Defence VIII. International Society for Optics and Photonics, 2011, 8018: 80181A. [本文引用:1]
[10] YANG Gui-yan, LI Lu, CHEN He, et al(杨桂燕, 李路, 陈和, ). Chinese Journal of Lasers(中国激光), 2015, 42(9): 0915003. [本文引用:1]
[11] Martin Ortiz-Morales, Juan Jose Soto-Bernal, Claudio Frausto-Reyes, et al. Appl. Spectrosc. , 2018, 72(6): 879. [本文引用:1]
[12] Woo Sik Yoo, Jae Hyun Kim, Seung Min Han. Journal of Micro/Nanolithography MEMS and MOEMS, 2014, 13(1): 011205-4. [本文引用:1]