作者简介: 徐嘉阳, 2003年生,浙江大学爱丁堡大学联合学院本科生 e-mail: jiayang.21@intl.zju.edu.cn;蒙思宇, 1995年生,中国科学院苏州生物医学工程技术研究所助理研究员 e-mail: mengsy@sibet.ac.cn;徐嘉阳,蒙思宇:并列第一作者
拉曼光谱是无损光谱分析技术, 通过分析散射光的频率变化获取物质的分子结构信息。 基线校正是提升光谱数据质量的关键步骤, 可以去除背景信号和不相关噪声, 凸显并纯化目标信号。 传统的拉曼光谱技术对基线校正的时效性要求不高, 但随着流式拉曼和内窥拉曼等需要实时处理光谱数据的应用场景增多, 基线校正在速度和准确性要求也随之提高。 传统的迭代多项式拟合和小波变换方法在时间、 精度或自适应能力上存在不足。 本研究开发了一种基于负集加权迭代修正最小二乘原理的快速自适应基线校正算法(MWIALS)。 主要原理是提取负数集并赋予更高权重, 在迭代过程中不断修正基线, 并通过设置参数阈值以跳出循环, 实现快速准确的基线校正。 提出两种参数选择策略: 固定参数(FMWIALS)适用于批量同类型光谱的快速处理, 自适应(AMWIALS)适用于差异化光谱的自适应处理。 该算法应用于颗粒物的流式拉曼光谱分析。 结果表明, 与其他主流算法相比, MWIALS在实际光谱处理上显著高效(平均处理时长47 ms·谱-1), 具有较高的准确性和自适应性。 该算法能够满足流式拉曼和内窥拉曼等生物样本检测中实时光谱处理的需求, 为拉曼光谱技术的进一步应用提供了强有力的支持。
Raman spectroscopy is a non-destructive spectral analysis technique that obtains molecular structure information of substances by analyzing the frequency changes of scattered light. Baseline correction is a key step in enhancing spectral data quality, as it removes background signals and unrelated noise to highlight and purify the target signal. Traditional Raman spectroscopy applications do not require high timeliness for baseline correction. Still, in recent years, applications such as flow Raman and endoscopic Raman, which require real-time processing of spectral data, have increased, placing higher demands on the speed and accuracy of baseline correction. Traditional methods, such as iterative polynomial fitting and wavelet transform, have time, accuracy, or adaptability deficiencies. This study developed a fast adaptive baseline correction algorithm based on the Minus-Weighted Iterative Adjustment Least Square Method (MWIALS). The main principle is to extract the set of negative values and assign them higher weights, continuously adjust the baseline during the iteration process, and set parameter thresholds to exit the loop to achieve fast and accurate baseline correction. We also proposed two parameter selection strategies: Fixed Parameter (FMWIALS), suitable for rapid processing of batch homogeneous spectra, and Adaptive Parameter (AMWIALS), suitable for adaptive processing of heterogeneous spectra. The algorithm was applied to flow Raman spectral analysis of particulate matter, and the results showed that compared to other mainstream algorithms, it was significantly more efficient in practical spectral processing (average time of 47 milliseconds per spectrum) and achieved higher accuracy and adaptability. This algorithm can meet the real-time spectral processing needs in biological sample detection for flow Raman and endoscopic Raman applications, providing strong support for the further application of Raman spectroscopy technology.
拉曼光谱是基于非弹性散射的分子振动光谱技术, 揭示了分子结构和化学特性[1, 2], 其特性使拉曼光谱在生物医学中得到广泛应用, 如区分肿瘤和正常组织、 早期诊断癌症、 追踪药物分布和代谢, 微生物检测分析以及研究蛋白质和核酸的结构[3, 4, 5]。
拉曼光谱在实际应用中面临基线漂移和噪声干扰的挑战。 基线校正作为一种数据预处理技术, 通过消除背景噪声和杂散光, 准确展示化学成分的光谱特征, 提高信噪比和谱线的可视性及可解释性[6]。 新的应用场景, 如流式拉曼术实时快速分析和内窥拉曼显微镜在体拉曼检测, 对基线校正提出了更高的速度要求[7, 8]。 传统方法往往在实现速度与精度的平衡时存在局限, 如多项式拟合法在处理复杂样本时速度和精度均存在缺陷; 小波变换法能分离信号进行快速拟合, 但在精度方面表现不佳; 形态拟合法通过数学形态学操作去除背景, 而对动态和不规则背景的适应性有限[9, 10, 11, 12, 13]。
研究中提出了一种新型拉曼光谱基线校正算法, 基于负集加权迭代修正最小二乘(minus-weighed iterative adjustment least square method, MWIALS)原理。 首先介绍MWIALS的原理和算法步骤, 然后探讨算法参数对校正速度和准确度的影响。 结果部分展示了基于三种不同数据的算法性能, 验证了两种参数选择策略的优越性及其在实际应用中的效果。 总之MWIALS是一种快速、 准确且自适应的算法, 满足了实时基线校正的需求, 扩大了拉曼光谱的应用范围。
MWIALS算法的核心前提是理想的基线应低于实际测量值。 在基线校正过程中, 所有低于原始光谱数据的基线点都被视为合理, 并保持初始权重不变。 相反, 高于原始光谱的基线点则被视为拟合错误, 需要在后续迭代中进行修正。
基线是通过多项式[式(1)]拟合得到的
式(1)中, N为多项式的阶数, cj是多项式系数。 本目标是最小化加权残差平方和S, 定义如式(2)
每次迭代计算残差pi=yi-p(xi)。 如果ri是负值, 则拟合值高于实际光谱值, 加入负数集Φ , 调整其权重为w1=w0+Weight* lenspectrum, 用于下一次拟合。
算法流程图如图1所示, 具体算法流程包括: (1)初始化基线拟合多项式的阶数和最大迭代次数。 (2)对原始光谱数据执行多项式拟合, 计算初始基线。 (3)计算拟合基线与原始光谱数据之间的残差, 挑选负数组成负数集。 (4)对负数集对应的数据点赋予更高权重, 形成新的数据集。 (5)重复步骤2至4, 直至达到设定的最大迭代次数。 (6)输出最终的基线拟合结果。
目前主流的方法的原理: 自适应迭代重加权部分最小二乘法(adaptive iteratively reweighted penalized least squares, airPLS)通过自适应调整惩罚因子去除基线漂移[14]; 迭代多项式拟合(iterative polynomial fitting, IPF)迭代拟合基线多项式[10]; 小波变换(wavelet transform, WT)采用小波变换移除低频基线噪声[13]; 不对称最小二乘法(asymmetric least squares, AsLS)通过不对称权重最小化残差[9]; 形态学滤波和加权最小二乘法(morphological filtering and weifhted least squares, MILE)结合形态学滤波器特征和加权最小二乘法[15]。 MWIALS与IPF、 AsLS和airPLS相似, 均属于采用多项式拟合的参数校正算法。 其与MILE和WT等无需预设参数的非参数方法不同。 相比于最经典的IPF算法中固定参数的最小化残差拟合, MWIALS通过对负集设置不同权重进行多次迭代修正, 并采用自适应参数策略, 针对不同类型的光谱实现更快、 更优的基线校正。 具体比较结果参见2.2与2.3节。
此算法存在三个核心参数: 拟合阶数Item、 权重参数Weight和迭代次数Iteration。 随机挑选了一张光谱, 以此为例详细探讨参数对速度和准确度的影响, 并提供参数选择策略。
阶数Item作为多项式拟合的次数, 对基线形状和平滑度具有重要影响。 如图2(a)所示, 在阶数较低(1~6)时, 多项式拟合出的基线过于平滑, 无法反映光谱信号的细微变化; 而阶数较高(9~14)时, 基线变化幅度过大, 不符合基线平滑变换的特性。 为了进一步寻找其在6~9之间的最佳值, 使用信噪比(signal to noise ratio, SNR)和噪声平均值(noise mean, NM)进行评价, 选择1 050、 1 400和2 750 cm-1位置的特征峰值, 选择2 250~2 450 cm-1的片段为噪声, 如图2(b)所示。 通过定量分析, 发现时间在不同阶数的选择下几乎相同, 而当阶数为7时, 相比于其他阶数, 信噪比更大和噪声平均值更小, 因此确定Item=7作为该类型图谱的最优选择。
权重参数Weight作为对负集的额外权重, 迭代次数Iteration决定何时结束循环, 直接影响基线校正的时间和准确度。 如图2(c、 d)所示, 权重参数上升会导致处理时间的增加, 并且其对准确度的影响受迭代次数的限制。 迭代次数对时间的影响在最初迭代过程中受权重参数影响较大, 而在后期趋于线性关系。 在确定两者的最佳组合时, 同时考虑算法的速度和准确率, 以Minus(原始光谱中高于基线的原始组成的集合)中元素小于10和Time小于0.1 s为筛选条件, 见图2(e)。 基于此计算了两者的加权平均值并绘制热图, 如图2(f)所示, 最终确定该类型图谱的最优参数组合为Weight=0.013, Iteration=26。
在2.1节将基于同类型光谱分析确定了三个关键参数。 虽然这些参数对特定类型的光谱效果良好, 但在差异较大的光谱集上可能准确度降低, 速度不稳定。 为此提出两种策略: 固定参数的FMWIALS和自适应参数的AMWIALS, 应对不同场景。
1.2.1 FMWIALS算法批量处理同类型光谱
FMWIALS(fixed minus-weighed iterative adjustment least square method)适用于同类大量光谱处理, 以其快速、 准确和简便为特点。 此算法参数如阶数、 权重、 迭代次数固定, 选择基于同类光谱参数变化对校正影响较小的事实。 固定参数可缩短选择时间, 避免不当选择导致的时间延长或准确度下降。 细节可参考1.1节的方法确定。
1.2.2 AMWIALS算法自适应处理差异化光谱
AMWIALS(adaptive minus-weighed iterative adjustment least square method)解决了固定参数仅适用于单一光谱类型的局限。 通过设计自适应变化的参数, 能根据光谱特征或迭代效果自适应调整, 有效处理不同光谱。 参数设计, 阶数设为6~9, 适应大多数光谱, 而对于极端情况(信号峰集中或几乎无信号)则需低、 中、 高阶数进行多次拟和。 通过加权平均这些基线, 并确保中阶数基线权重超半, 可以适应原光谱形状的同时保持平滑性。 权重和迭代次数的调整基于修正效果, 通过负数集Minus变化衡量。 对初始权重效果好的光谱, 保持不变或缩短迭代, 加快速度; 对难以修正的光谱, 提高权重并增加迭代次数, 提升准确度。 使AMWIALS成为适应差异性光谱的自适应算法。
为建立MWIALS算法、 评估其速度和精度及验证两种参数策略的有效性, 使用自研搭建的共聚焦显微拉曼光谱系统采集数据进行验证。 该系统采用532 nm激发, 样品面激光功率5 mW, 使用600 l· mm-1光栅进行分光, 通过50x(Olympus, NA=0.8)物镜进行聚焦和拉曼信号收集。 样品为金黄色葡萄球菌、 热带念珠菌和人白色念珠菌, 细菌离心清洗后取1 μ L点样在镀铝载玻片采集光谱, 积分时间6 s· 谱-1。 其中单独的金黄色葡萄球菌的光谱图作为数据集1(DATA1), 进行固定参数算法的验证; 混合的三种菌类的光谱图作为数据集2(DATA2), 进行自适应参数算法的验证, 详见2.2节。
为验证MWIALS算法在实时检测分析中的真实性能, 使用共聚焦显微拉曼光谱系统采集流式芯片中高速流过的带SERS标记的ϕ 10 μ m聚苯乙烯微球(巯基丙酸标签)拉曼光谱。 流式分析芯片中, 通过压力泵和阀门控制样本流速, 表面声波实现目标捕获。 目标流至检测窗口时, 采集拉曼光谱, 积分时间100 ms。 实验条件下, 每分钟超过500个目标微球通过检测窗口。 所采集的微球拉曼光谱数据作为数据集3(DATA3), 以比较MWIALS与其他算法的效果, 详见2.3节。
本研究所有速度相关测试均为基于以下计算机参数: 处理器为AMD Ryzen 7 5800H频率2.90 GHz 8核16线程, 内存为16 GB。 算法基于Python(3.11.4)开发。
首先比较了该算法的两种参数选择策略: 固定参数的FMWIALS和自适应参数的AMWIALS。 在大量相同类型的光谱组成的数据集一(DATA1)中, 两种策略绘制的基线极其相似, 如图3(a)所示。 图3(c)表明, 两种参数选择策略的minus相近, 而AMWIALS的time却显著高于FMWIALS, 这主要原因为AMWIALS进行了三次不同阶数Item的拟合。 说明针对大量同类型光谱, 固定参数策略优于自适应参数的策略。 而在不同类型的差异化光谱组成的数据集二(DATA2)中, 如图3(b)所示, AMWIALS的适应性明显优于FMWIALS, 尤其在端点拟合和基线对噪声部分的贴合上表现更加合理。 图3(d)说明, 虽然AMWIALS的运算时间有所增加, 但其以一定时间成本实现了更高的准确度和视觉呈现效果, 是处理不同类型光谱的优选算法。
比较了MWIALS的两种参数选择策略与其他几种主流方法在时间和准确度。 针对数据集一(DATA1), 由于其为大量同类型的光谱, 选用固定参数的FMWIALS算法。 各方法的基线拟合效果如图3(e)所示, 其中FMWIALS和IPF展现了较好的基线贴合效果和平滑特性, 而其他方法在拟合效果和基线陡峭度方面存在缺陷。 表1中DATA1结果显示FMWIRAS的准确度超越其他方法, 尽管在速度上稍逊于airPLS和WT。 同时通过信噪比和噪声平均值的归一化比较, 发现FMWIALS在信号强化和噪声减弱方面优于大多数方法。 针对数据集二(DATA2), 由于其来源于不同类型的差异化光谱, 选用AMWIALS算法。 如图3(f)所示, AMWIALS和IPF在基线贴合效果和平滑性良好, 而airPLS虽然贴合度高, 其基线存在尖点, 不符合基线应有的平滑特性。 其他方法在拟合效果或基线陡峭度方面存在缺陷。 表1中DATA2结果说明, AMWIALS虽速度慢于airPLS和WT, 但准确度显著领先。 IPF在速度和准确度与AMWIALS相近, 而噪声波段和端点的拟合效果上不如AMWIALS。
![]() | 表1 MWIALS和其他方法的比较 Table 1 Comparison between MWIALS and other methods |
在拉曼流式分析应用场景中, 考虑到待测目标类型不同而产生的多样性光谱, 选用AMWIALS对光谱进行实时校正。 结果与2.2节相似, 图4(a, b)与表2表明该算法在速度和准确度表现优异, 在两种之间取得了较好的平衡, 明显优于其他算法。 通过AMWIALS将每张光谱基线校正时间缩短为50 ms, 基本与本应用中的光谱积分时间(100 ms)相近, 从而能够保证该系统每分钟处理500~1 000个以上事件, 提高了拉曼流式系统的检测通量, 缩小了拉曼流式与荧光流式在检测通量的差距, 本结果证明了该算法在实际应用中的有效性和卓越性。
![]() | 图4 拉曼流式应用中不同算法绘制的基线 (a), (b): 随机挑选的两张差异化光谱Fig.4 Baselines of different algorithms in streaming Raman applications (a), (b): Two randomly selected spectra of different type |
![]() | 表2 不同算法在流式拉曼应用中的效果 Table 2 Effects of different algorithms in streaming Raman applications |
该算法不会将较宽峰(宽度大于500 cm-1)作为基线去除, 而在较宽峰局部基线拟合存在一定的误差, 可以通过两种方法解决: (1)手动调整阶数Item为5或以下; (2)以500 cm-1为宽峰的长度阈值, 设置宽峰识别算法, 在达到宽峰阈值时直接用直线连接两侧端点。 可以避免过度拟合现象, 提供基线校正效果。
在流式拉曼光谱和内窥拉曼光谱等新兴应用领域中, 实时分析迫切需要更快速、 更精确的基线校正技术[16]。 现有的传统校正方法在这些方面显示出了局限性。 为应对这一挑战, 开发了一种创新的负集加权迭代修正最小二乘拟合(MWIALS)算法, 显著提高了基线校正的效果。 此算法通过在迭代过程中重新赋予权重, 以提高先前拟合不佳部分的精确度。 在参数选择上设计了两种策略: 固定参数的FMWIALS, 适用于快速校正大量同类型光谱; 自适应参数的AMWIALS, 能够适应并精确校正不同类型光谱。 经过仿真和实际应用场景测试, 证实了本方法的有效性。 不仅能提供精确的生物流式拉曼光谱数据, 还在微生物检测、 分类以及生物大分子的识别等领域显示出巨大的应用潜力。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|