改进的局部最值分段多项式拟合算法精确校正拉曼光谱基线
田超凡, 李剑君*, 翁国军, 朱键, 赵军武*
西安交通大学生命科学与技术学院, 教育部生物医学信息工程重点实验室, 陕西 西安 710049
*通讯作者 e-mail: jjunli@mail.xjtu.edu.cn; nanoptzhao@163.com

作者简介: 田超凡, 1997年生, 西安交通大学生命科学与技术学院硕士研究生 e-mail: 15921036852@163.com

摘要

基线校正作为拉曼光谱预处理极为关键的步骤之一, 对进一步拉曼光谱数据分析和实现拉曼成像等有重要意义。 目前, 最常用的基线校正算法基于多项式拟合, 由于其采用手动或半手动的形式, 因此依赖人工经验, 对用户的专业性要求较高, 处理过程繁琐, 处理结果差异较大。 同时, 在使用过程中, 多项式阶数及移动分段窗口难以选择确定, 因此处理的结果常出现欠拟合或过拟合现象。 针对传统多项式拟合算法的此类局限性, 改进了局部最值分段多项式拟合(NPPF)算法用于精确校正拉曼光谱基线。 首先采用了改进的基于分段的局部最值算法, 选取光谱中最宽峰底部轮廓的近似横向宽度作为背景点窗口宽度, 依次选取窗口内的最小两个值作为需要拟合的背景基线点, 避免直接比较或者人工选取导致的背景点选取困难, 实现更准确地选取每个背景轮廓基线点。 然后通过每个窗口三次拟合迭代覆盖的方式, 得到三个拟合曲线函数, 选取窗口内每个点对应三个曲线函数值, 分别计算与前一拟合值的差值绝对值, 取绝对值最小的曲线函数值作为此点拟合曲线值, 从而较好地避免了传统分段多项式拟合(PPF)算法中的欠拟合和过拟合现象, 同时也确定了拟合过程中的阶数和分段窗口。 模拟了两种不同背景类型的拉曼光谱, 将NPPF与PPF算法分别对两种模拟光谱进行处理比较, 发现NPPF处理结果均方根误差(RMSE)小, 证实NPPF较于PPF的优越性。 最后, 对实际样品(烯啶虫胺、 罗丹明6G)的拉曼光谱进行了NPPF和PPF对比处理, 发现NPPF的拟合基线较为准确, 证实该算法NPPF在拉曼光谱基线校正预处理中具有广泛的实际应用价值和前景。

关键词: 拉曼光谱; 多项式拟合; 基线校正; 局部最值
中图分类号:O657.37 文献标志码:A
Improved Num-Local Piecewise Polynomial Fitting Algorithm for Accurate Correction of Raman Spectroscopy Baselines
TIAN Chao-fan, LI Jian-jun*, WENG Guo-jun, ZHU Jian, ZHAO Jun-wu*
School of Life Science and Technology, Xi'an Jiaotong University, Key Laboratory of Biomedical Information Engineering of Ministry of Education, Xi'an 710049, China
*Corresponding authors
Abstract

Baseline correction, one of the extremely critical steps in Raman spectroscopy pre-processing, is of great significance for further Raman spectroscopy data analysis, Raman imaging, etc. Currently, the most common baseline correction algorithm is based on polynomial fitting; due to its manual or semi-manual form, manual experience, a high level of user expertise, and a tedious processing process are required, leading to large differences in processing results. At the same time, the polynomial order and the moving segmentation window are difficult to select in the process, so the processed results are often under-fitted or over-fitted. This paper improves the Numlocal Piecewise Polynomial Fitting (NPPF) algorithm for accurately calibrating Raman spectral baselines. Firstly, an improved segmentation-based local optimum algorithm is used to select the approximate lateral width of the bottom contour of the widest peak in the spectrum as the background point window width; the minimum and second minimum values within the window, in turn, are selected as the background baseline points to be fitted, avoiding the difficulty of selecting background points, and achieving more accurate selection of each background contour baseline point. Then, the three fitted curve functions are obtained by iterative coverage of each window three times, and each point in the selected window corresponds to three curve function values, which are calculated with the previous fitted absolute value separately. The curve function value with the minimum absolute value is taken as the fitted curve value at this point. Thismethod better avoids the underfitting and overfitting phenomenon of the Piecewise Polynomial Fitting(PPF) algorithm and also determines the order and segmentation window in the fitting process. In this paper, two Raman spectra with different background types are simulated, and the NPPF and PPF algorithms are compared to process the two simulated spectra separately. The Root Mean Square Error (RMSE) of NPPF processing results is found to be smaller, which confirms the superiority of NPPF over PPF. Finally, the Raman spectra of the actual samples (alizarin and rhodamine 6G) are processed by comparing NPPF and PPF, and it is found that the fitted baseline of NPPF is more accurate, which confirms that the NPPF algorithm in this paper has wide practical application value and prospect in the baseline correction pretreatment of Raman spectra.

Keyword: Raman spectroscopy; Polynomial fitting; Baseline correction; Local optimum
引言

拉曼光谱(Raman spectrometry)为散射光谱, 能够反映分子内部的振动与转动能级, 拉曼光谱分析技术是根据光谱的频率、 强度和偏振等信息去获取样品的特征, 因此, 不会破坏检测物和制备检测样品, 以其快速、 简单、 可重复、 无损伤和信息丰富等优点广泛应用于各类物质成分分析以及对各种不同材料特性的探索[1]。 例如用来诊断肿瘤组织、 分析食品中的营养成分常会考虑到拉曼光谱分析技术的无损特性[2]。 然而, 在拉曼光谱信号获取过程中, 一些物理效应及干扰物会影响生物样品和成分的拉曼光谱[3]。 尤其一些生物组织样品会在拉曼检测中呈现高自发荧光背景的拉曼信号, 干扰拉曼光谱的准确识别, 甚至极大可能埋没样品的光谱信息[4]。 因此, 拉曼光谱分析中的预处理步骤, 例如抑制背景噪声、 校正基线, 能够消除光谱中荧光和其他附加特征的影响[5], 对光谱的定性定量分析起重要作用。

现阶段为抑制背景噪声, 常用的实验手段和数字处理这两种方法。 实验手段通常操作成本较高, 操作流程复杂, 因此推广难度较大。 相比而言, 数字处理法所需成本低, 且操作简便快捷, 因而具有出色的应用潜力。 数字处理方法包括频域滤波、 小波变换和曲线拟合等[6, 7, 8]。 频域滤波参数设计复杂。 小波变换计算量和计算复杂度相对较高, 因而曲线拟合应用较为广泛和普遍, 本课题组曾提出了一种基于自动线性拟合的快速拉曼基线校正算法(FR-BCA)来解决类似缺陷, 其核心思想就是从原始光谱中寻找一系列标记点将光谱分段并循环线性拟合直至得到最合适的基线。 这与Chen等[9]基于迭代平均形态打开和关闭操作的自适应和全自动基线估计算法所提出的方法相似, 都能够处理基线的不同形状和幅度。 B-spline曲线具有低阶和平滑的优点, Wang等[10]将其作为拟合算法, 有效避免欠拟合和过拟合且不需要用户输入, 简化了操作。 Liu等[11]结合谱峰识别算法和自适应重复加窗去除峰值操作, 完成拉曼光谱的基线拟合; 使用传统多项式曲线拟合算法[12, 13]的方式进行基线校正也已经广泛进行了讨论和研究, 但是仍存在一些问题和挑战, 例如拟合阶数难以确定, 不同拉曼光谱拟合基线的分段窗口大小难以选取, 针对选取背景点仍采用人工的方式, 依赖性太强。 因此在不增加实验设备成本的前提下, 针对传统基线校正-分段多项式拟合(piecewise polynomial fitting, PPF)的方法进行了改进, 提出局部最值分段多项式拟合(numlocal piecewise polynomial fitting, NPPF)算法。 针对拉曼光谱窄峰、 对称的特点改进了局部最值背景点选取的方式, 克服了选取背景点对人工的依赖性。 同时又改进分段多项式曲线拟合方法, 解决了曲线拟合阶数和分段窗口难以确定的难题, 而且具备保留弱拉曼峰段, 防止过拟合和欠拟合的优点。 先模拟带有不同类型和信号强度背景的拉曼光谱, 并使用NPPF和PPF对模拟的光谱分别进行基线校正, 再对实际样品中带有基线漂移的拉曼光谱分别进行两种算法验证, 证实了NPPF较于PPF能更有效地消除拉曼光谱的基线漂移, 为进一步拉曼光谱数据的分析和实现拉曼光谱成像提供准确可靠的信息。

1 算法原理
1.1 基于自适应窗口局部最值的背景点选取

常见各类曲线拟合方式均建立在已选取的背景数据点的基础上, 背景点的选取对于后续基线拟合具有关键意义, 传统方法多采用人为预选取基线数据点, 再在其前后三点中取最小值作为目标点。 人工背景点的选取过于依赖经验且操作繁琐。 也有采用多次迭代的多项式方法[14]进行初始基线估计作为基线背景代替人工选取方式, 然而此类方法计算量大且易造成基线点偏差, 出现过校正或拟合不充分现象。 另外有使用直接比较法选取波谷作为背景点的方式, 但是无法有效确定比较的窗口, 较大噪声可能使选取的背景点不在底部背景轮廓上, 同样会出现拟合不准确的现象。 本工作在选取背景点方面进行了改进。 选择了两种拉曼光谱常见的基线漂移方向左上漂移、 右上漂移, 用以讨论背景点选取时窗口宽度W的确定方式。 如图1所示(a)、 (b)选取W长度作为整体移动的窗口大小, W应选择在最宽峰的底部, 近似为峰宽, 每个W内找寻最小值两个点作为背景点, 这样W的宽度保证能涵盖所有不连续的拐点, 同时保证所有选取的背景点都在底部背景轮廓上。 移动窗口选取不同的背景点放入序列f(x), 再进行下一步的曲线拟合。

图1 窗口宽度W的选取方式
(a): 基线右上漂移的拉曼光谱算法处理宽度选取; (b): 基线左上漂移的拉曼光谱算法处理宽度选取
Fig.1 Modeof window width W selection
(a): The processing width selection for Raman spectroscopy algorithm with right-up drift of baseline; (b): The processing width selection for Raman spectroscopy algorithm with left-up drift of baseline

1.2 改进的迭代多项式曲线拟合

PPF从光谱中选取拟合背景数据点序列f(x), 通过定义合适的拟合阶数和寻找合适的分段窗口[15], 根据最小二乘原理计算出满足通过f(x)的最佳逼近函数。 在此过程中, 不同基线对应拟合的多项式阶数不同, 窗口大小也不同。 如果选取阶数过高, 拟合曲线的上下震荡范围比较大, 甚至会出现Runge现象, 且计算量大; 而阶数过低, 拟合不够充分, 误差大, 会掩盖较弱拉曼峰段。 PPF对复杂高噪声的拉曼光谱也难以有效处理, 确认处理的最优窗口大小也是其面临的重要困难之一。

本工作对PPF进行了改进, 首先在选取窗口大小上设置为图1中的W。 为了保证曲线拟合的契合度, 需要使得所选多项式函数曲线有较好的波动走向, 可选取多项式阶数为奇数, 同时为了算法在计算过程中的简洁快速, NPPF的多项式曲线拟合最终使用3阶多项式, 并且每次选取5个背景点。 每一个窗口内都模拟出三个前(Ff)、 中(F)、 后(Fa)的3次多项式函数进行迭代覆盖; 例如分段拟合中: 目标为拟合出x值在30~50范围之间的y值, 第一步: 先拟合三种曲线x值范围分别为[20, 40]、 [30, 50]、 [40, 60]的三条对应3阶多项式曲线函数FfFFa, 第二步: 计算三条曲线对应函数的区间[30, 50]的函数y1, y2, y3, 第三步: 计算y1, y2, y3与上一个拟合点y0的差值绝对值, 选择绝对值最小的设为拟合的基线值; 而基线最初点设为原始光谱的起点y值。 因此这样迭代覆盖的方式使得基线不会出现较大的震荡与波动。 这种在三次模拟基础上取最小绝对值的方法可以有效防止多项式拟合出现过拟合和欠拟合的值。 整体算法流程如图2。

图2 NPPF算法流程Fig.2 NPPF algorithm flow chart

2 结果与讨论
2.1 模拟数据

为验证本算法的有效性和可行性, 验证的数据由matlab2021b进行模拟。 根据拉曼谱峰的特点, 在数据模拟中随机引入了高斯峰型[图3(a、 d、 g)]、 洛伦兹峰型及混合峰型[图3(j)]作为拉曼光谱特征峰的模拟峰型; 同时为了模拟常见的两种基线漂移类型(左上漂移、 右上漂移), 选择对应的模拟指数型(e)函数曲线和反曲线(f)型曲线作为理想光谱的基线背景。 分别模拟四组数据如图3所示。

图3 四组模拟的理想及引入曲线背景的拉曼光谱
(a)、 (d)、 (g)、 (j): 四种理想光谱; (b)、 (e)、 (h)、 (k): 引入指数型(e)曲线背景基线的对应拉曼光谱; (c)、 (f)、 (i)、 (l): 引入反曲线型(f)曲线背景基线的对应拉曼光谱
Fig.3 Four groups of simulated ideal and introduced curve background Raman spectra
(a), (d), (g), (j): Four ideal spectra; (b), (e), (h), (k): The corresponding Raman spectra with the background baseline of the exponential (e) curve; (c), (f), (i), (l): The corresponding Raman spectra with the background baseline of the inversed (f) curve

图3中, 每组拉曼光谱数据引入两种不同类型基线背景: 指数型(e)基线和反曲线型(f)基线背景。 特别是, 第三组(g)加大了基线背景信号强度与拉曼特征峰强度的比值, 模拟出高荧光背景下弱拉曼峰的光谱情形(h、 i); 而在第四组(j)则模拟了带有洛伦兹峰型、 高斯峰型、 多项式曲线峰型及混合峰型的拉曼光谱(k、 l)。

2.2 模拟光谱基线校正结果对比验证

PPF实现所需的参数主要有两个: 分段的窗口大小P, 拟合阶数R; NPPF只需要确定一个参数窗口宽度W; 为了保证对比的有效性, 两种算法均选取了最优参数进行验证, 其中通过式(1)循环取优计算选取最优阶数和窗口作为PPF参数, NPPF的窗口参数采用1.1中讨论的方式选取, 具体参数见表1

表1 PPF与NPPF算法处理所选取的参数数值 Table 1 Parameter values selected for PPF and NPPF algorithm processing

在选取好参数后, 对2.1中模拟的光谱数据进行处理得到基线如图4所示, 其中红色代表NPPF模拟的基线, 蓝色代表PPF模拟的基线。

图4 PPF与NPPF基线拟合效果对比
(a)、 (c)、 (e)、 (g): 指数型(e)背景下拟合的基线; (b)、 (d)、 (f)、 (h): 反曲线型(f)背景下拟合的基线
Fig.4 Comparison of baseline fitting between PPF and NPPF
(a), (c), (e), (g): Baseline fitted in exponential (e) background; (b), (d), (f), (h): Baseline fitted in inverse curvilinear (f) background

从图4中可以直观地看出NPPF模拟的基线(红色)普遍比PPF(蓝色)拟合的基线更准确地包络拉曼光谱。 在PPF的处理下, 图4(a)在600~1 000和1 350 cm-1附近其拟合的基线(蓝色)存在一定程度的过拟合, 在起始处(400 cm-1)则存在欠拟合现象; 图4(b)中在500~1 000 cm-1出现过度拟合, 而在1 550 cm-1附近出现了欠拟合。 图4(c)、 (e)、 (g)中PPF模拟的基线则不能很准确地包络背景轮廓, 使得背景的去除不彻底, 基线校正不准确。 与之对比, NPPF在以上情况下处理得到的基线则更准确, NPPF处理的过拟合和欠拟合程度均远低于PPF。

图5显示了PPF和NPPF处理后扣除基线后的拉曼光谱, 并对比图4观察得出, NPPF基线校正后的拉曼光谱(红虚线)与理想光谱(黑实线)重合度明显高于PPF基线校正后的拉曼光谱(蓝色虚线)与理想光谱的重合度。 在图4(e)、 图4(f)和图5(e)、 图5(f)对比显示了对于高背景信号强度基线的处理结果。 图4(e)中显示PPF并未准确的实现背景轮廓的包络, 而使得背景基线去除不彻底, 因此在图5(e)中可以看出扣除基线后的校正拉曼光谱仍然存在一定程度的基线漂移; 同样, 在图4(f)中PPF对起始拉曼位移(400 cm-1)附近拟合不充分也使得在图5(f)中对应的基线校正结果相同位置出现误差。 然而, 与之对比NPPF处理结果则没有上述现象。 从整体来看, NPPF的算法效果优于PPF。 在第四组数据的处理结果中, 图4(g)显示的NPPF的拟合基线包络性更好, 图5(g)、 (h)也显示出NPPF处理后的校正拉曼光谱与理想光谱之间重合度较PPF更好, 也验证了NPPF针对复杂拉曼光谱仍有良好的处理效果。

图5 PPF与NPPF基线校正结果对比
(a)、 (c)、 (e)、 (g): 指数型(e)背景校正结果; (b)、 (d)、 (f)、 (h): 反曲线型(f)背景校正结果黑实线: 理想拉曼光谱; 红虚线: NPPF校正后拉曼光谱; 蓝虚线: PPF校正后拉曼光谱
Fig.5 Comparison of baseline correction results between PPF and NPPF
(a), (c), (e), (g): The correction results in exponential (e) background; (b), (d), (f), (h): The correction results in inversed (f) background Black solid line: Ideal Raman spectrum; Red dotted line: NPPF corrected Raman spectrum; Blue dotted line: PPF corrected Raman spectrum

为了进一步确认与验证基线拟合的效果, 将拟合后的基线扣除得到的拉曼光谱与理想光谱做误差计算, 采用均方根误差(root mean square error, RMSE)的评价指标计算处理过后的光谱的误差大小。 设标准理想光谱为P(x), 基线校正后的光谱为P'(x), 则有如式(1)

RMSE=x=1S[P(x)-P'(x)]2/S(1)

式(1)中, S为光谱数据的长度或光谱采样数据点数; 本研究中S=3 112。 x序列对应光谱拉曼位移横坐标的个数, P为纵坐标强度。 RMSE的值越小, 代表与理想光谱越是接近即基线拟合的效果越好, 即证明NPPF算法的优越性越高。 结果如图6(a, b)。

图6 带有e型(a)和f型(b)背景基线的拉曼光谱通过PPF(蓝)和NPPF(红)处理的RMSE结果
1、 2、 3、 4: 对应图3数据(a)、 (d)、 (g)、 (j)
Fig.6 RMSE results of PPF (blue) and NPPF (red) processing for Raman spectra with background baselines of type e (a) and type f (b)
1, 2, 3, 4: Data of (a), (d), (g), (j) in Fig.3

由图6中可以得知, 无论是针对e型曲线背景还是f型曲线背景, NPPF算法处理的结果误差均小于PPF算法处理的结果误差, 证实NPPF相比PPF具有较大的优越性。

2.3 实际光谱测试

为进一步检验本基线校正方法的实际应用效果, 采用拉曼光谱仪(激光波长633 nm, 功率20 mW, 光谱范围400~2 000 cm-1)对样品烯啶虫胺、 罗丹明6G进行了拉曼光谱检测。 分别使用NPPF和PPF算法对两种实际拉曼光谱进行基线的拟合, 结果如图7(a, b)所示。

图7 烯啶虫胺(a)、 罗丹明6G(b)拉曼光谱及基线拟合结果BL: 基线Fig.7 Raman spectra and baseline fitting results of nitenpyram (a) and rhodamine 6G (b) BL: Baseline

图7中观察PPF(蓝色)和NPPF(红色)基线拟合结果可知, NPPF算法能够较好地实现背景轮廓的包络, PPF则在图7(a)的300~600和1 200~1 500 cm-1附近拟合不够充分, 在200和1 000 cm-1附近出现过拟合现象, 而与之对比的NPPF则未出现此种现象。 类似地, 观察图7(b)的PPF处理结果(蓝色)可知1 100 cm-1附近及1 350 cm-1附近出现了过拟合, 而在650 cm-1附近和1 650 cm-1附近出现欠拟合的现象, 而对应NPPF则没有这种现象。 通过对实际样品拉曼光谱的算法验证, 证明了NPPF算法的实际应用效果优于PPF。

3 结论

提出了一种基于局部最值改进的多项式校正拉曼光谱基线的方法, 利用分段局部最值算法识别背景点数据, 通过优化多项式分段拟合时的覆盖方式, 从而最大程度上减少了拟合过程中的过拟合和欠拟合现象, 实现对拉曼光谱信号的基线校正。 与传统多项式拟合基线相比, 本算法克服了分段时窗口难以确定, 阶数选择困难的缺点, 拟合的整体和局部基线准确性均较好, 通用性强, 适用范围广。 对于背景信号强度较大而拉曼特征峰较弱的光谱信号以及带有各种不同种类复杂峰型的拉曼光谱, 本算法均表现出较好的校正效果。 因此本算法有望作为一种有效、 简洁的基线校正方法广泛应用到实际中。 另外在本算法中, 多项式阶数和背景点数固定, 未来在不考虑算法复杂度和计算量的情况下, 可以改变阶数和背景点数的选取数量, 以进一步探究基线校正的结果是否得到更大的优化; 同时考虑局部最值背景选取算法的原理, 未来也将测试NPPF在其他光谱基线校正的使用效果。

参考文献
[1] Orland o A, Franceschini F, Muscas C, et al. Chemosensors, 2021, 9(9): 262. [本文引用:1]
[2] Scotter C N G. Trends in Food Science & Technology, 1997, 8(9): 285. [本文引用:1]
[3] Liland K H, Kohler A, Afseth N K. Journal of Raman Spectroscopy, 2016, 47(6): 643. [本文引用:1]
[4] Emry J R, Marshall A O, Marshall C P. Geostand ards and Geoanalytical Research, 2016, 40(1): 29. [本文引用:1]
[5] Afseth N K, Segtnan V H, Wold J P. Applied Spectroscopy, 2006, 60(12): 1358. [本文引用:1]
[6] Zhang Zhimin, Chen Shan, Liang Yizeng. Analyst, 2010, 135(5): 1138. [本文引用:1]
[7] Lieber C A, Mahadevan-Jansen A. Applied Spectroscopy, 2003, 57(11): 1363. [本文引用:1]
[8] Schulze G, Jirasek A, Yu M M L, et al. Applied Spectroscopy, 2005, 59(5): 545. [本文引用:1]
[9] Chen Hao, Xu Weiliang, Broderick N G R. Applied Spectroscopy, 2019, 73(3): 284. [本文引用:1]
[10] Wang Xin, Fan Xianguang, Xu Yingjie, et al. Measurement Science and Technology, 2015, 26(11): 115503. [本文引用:1]
[11] LIU Long, FAN Xian-guang, KANG Zhe-ming, et al(刘龙, 范贤光, 康哲铭, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(1): 111. [本文引用:1]
[12] Liland K H, Almoy T, Mevik B H. Applied Spectroscopy, 2010, 64(9): 1007. [本文引用:1]
[13] Kand jani A E, Griffin M J, Ramanathan R, et al. Journal of Raman Spectroscopy, 2013, 44(4): 608. [本文引用:1]
[14] WANG Tuo, DAI Lian-kui. Applied Spectroscopy, 2017, 71(6): 1169. [本文引用:1]
[15] HU Hai-bin, BAI Jing, GUO Xia, et al. Photonic Sensors, 2018, 8(4): 332. [本文引用:1]