一种提高生物体拉曼光谱痕量测量精度的方法
赵肖宇1, 翟哲2, 谭峰1, 佟亮3, 田芳明1, 刘畅1
1. 黑龙江八一农垦大学电气与信息学院, 黑龙江 大庆 163319
2. 中国林业科学研究院, 北京 102300
3. 齐齐哈尔大学通信与电子工程学院, 黑龙江 齐齐哈尔 161006

作者简介: 赵肖宇, 女, 1977年生, 黑龙江八一农垦大学副教授 e-mail: xy_zhao77@163.com

摘要

微量物质拉曼光谱测量精度的提高是拉曼分析技术的难点之一, 特别是高荧光背景下生物体中微量物质的测量。 根据拉曼谱峰突发、 离散特点, 分别给出荧光背景和噪声拟合函数, 通过监测总体拟合偏差A类不确定度函数实现拉曼谱峰定位和干扰信号滤波; 进一步根据谱峰位置划分光谱区间, 在单调区间内弱化非谱峰信号, 实现谱峰信号增强。 与其他光谱处理方法比较, 可以准确拆分重叠特征峰, 不会降低特征峰高度, 提供更加灵敏的半谱峰面积指标。 实验表明, 该方法在处理皮肤拉曼光谱时, 可以准确得到螺旋构象的酰胺I带、 神经酰胺和C=0的归属拉曼谱峰; 另外经过该方法处理后数据建立水溶性糖(水稻叶片)含量测量模型, 其精度优于小波分解、 多项式拟合和非线性最小二乘法。

关键词: 生物体拉曼光谱; 微量物质; 测量精度
中图分类号:O657.3 文献标志码:A
The Improved Method of Trace Content for Raman Measurement Accuracy
ZHAO Xiao-yu1, ZHAI Zhe2, TAN Feng1, TONG Liang3, TIAN Fang-ming1, LIU Chang1
1. College of Electrical and Information, Heilongjiang Bayi Agricultural University, Daqing 163319, China
2. Chinese Academy of Forestry, Beijing 102300, China
3. Communication and Electronic Engineering Institute, Qiqihar University, Qiqihar 161006, China
Abstract

To improve the measurement accuracy for the Raman spectrum of micro-substance is one of the difficulties in Raman analysis technique, which is prominent when measuring the micro-substance in organism under the background of high fluorescence. According to the burst and dispersed characteristics to Raman spectrum peak, the fluorescence background and noise fitting function was given in this paper respectively. The location of Raman spectrum peak and interference signal filtering had been realized through monitoring A-type uncertain function in the overall fitting deviation. The spectrum section had been divided according to the spectrum peak’s location further, and the spectrum peak signal had been enhanced through weakening the non-spectrum peak signal within monotone interval. Compared to other fluorescent processing methods, this method could split the overlapped characteristic peak accurately, however, the height of the characteristic peak will not be lowered and more sensitive semi-spectrum peak index could be offered. The experiment indicates that while processing the skin Raman spectrum, such method could obtain the affiliation Raman spectra of the amide I-belt, ceramide and C=0ester in helical conformation. What’s more, the measurement model with the content of water-soluble sugar (rice leaf) had been established with the data after being processed by such method, and it had been found that the precision is superior to that of the model established by using the processing data of wavelet decomposition, fitting of a polynomial and nonlinear least square method.

Keyword: Biological Raman spectroscopy; Micro-substance; Measurement accuracy
引言

目前拉曼光谱在物质定性识别方面研究及应用较多, 受到测量精度影响, 在定量计算特别是微量成分测量方面研究相对较少。 拉曼光谱对测量样本的微小变化极其敏感, 其利于微量物质精密测量; 同时环境的任何微小变化也会对光谱产生极大影响, 所以提高拉曼光谱测量精度的关键技术是如何去除光谱中环境背景干扰, 提高光谱特征指标与待测量之间相关性。 特别是对于具有强荧光特性的生物体样本, 其强大荧光背景和干扰噪声的处理在数据分析中至关重要。

在光谱背景和噪声的处理研究中常采用一阶、 二阶微分, 频域滤波, 多项式拟合, 小波变换法等[1]。 一阶或二阶微分法的有效性依赖于准确的拉曼谱峰定位和重叠峰拆分, 但是拉曼谱峰的拆分和定位难度很大, 并且微分处理后拉曼光谱形变严重, 除非预先采用复杂算法严格拟合光谱[2, 3]。 快速傅里叶变换是频域处理方法之一, 其处理效果决定于是否能够准确区分噪声、 背景和荧光背景的频率分量[4]。 多项式拟合是应用最广泛的荧光去除方法, 拟合关键在于非拉曼线形的人工设置, 尽管有研究设计出自动多项式拟合方法, 但是高噪声环境限制了其应用范围[5, 6, 7]。 小波分解法可以自动的进行背景拟合, 但是分解层数、 基函数选择和阈值设定对荧光背景去除效果影响很大[8]

上述方法在特定应用情况下都可以有效去除背景信息, 但是目前还没有针对强荧光背景下微量物质痕量测量的特殊性提出解决方案。

本文提出了一种提高强荧光背景下生物中痕量物质测量精度的方法, 此方法分为二步, 第一步拉曼谱峰定位及高荧光背景和噪声去除, 第二步增强拉曼光谱特性。

1 谱峰定位及干扰信号去除

记拉曼光谱信号为S, 其构成如式(1)

S(λ)=Sr(λ)+F(λ)(1)

式(1)中λ 为拉曼频移, Sr为生物体样本的真实光谱数据, F为干扰信息总和, 包括荧光背景、 温度漂移、 系统机械漂移和各种噪声。 拉曼光谱经过采样变换后, 是关于拉曼频移量的一组离散随机序列; 噪声和背景信息连续存在于系统中, 以采样频率, 按照拉曼频移函数形式加载到拉曼光谱中。 记干扰信号总体估计为 F˙(λ ), F˙(λ )对F(λ )的估计过程产生偏差, 该偏差由不确定度函数UF(λ )表示。

考虑到拉曼谱峰尖锐, 具有突发特点, 相当于连续信号中突发离散脉冲序列, 而荧光背景、 温度漂移、 系统机械漂移和噪声信号始终存在于系统中, 其稳定出现在拉曼光谱中, 与拉曼谱峰比较具有连续性。 根据拉曼谱峰特性可知, 在谱峰点处, 干扰信号不确定度函数会突然增大, 文中通过监控不确定度函数变化, 实现拉曼谱峰定位。 进一步在两个谱峰点之间, 标定最小值点为基底, 以谱峰和基底为区间端点对非谱峰信号弱化操作, 最终实现拉曼谱峰特征增强。 该过程具体如图1所示。

图1 拉曼峰增强过程Fig.1 Enhancement process for Raman peaks

首先对干扰信号建模估计, 在频移变量λ 处, 采用最小二乘法构建干扰信号多项式形式估计模型

F˙(λ)=a0+a1λ(2)

式(2)中, a0a1为多项式系数。

从原始光谱信号中减去干扰信号拟合值即为拟合残差, 见式(3)

ε(λ)=S(λ)-F˙(λ)(3)

建立辅助拟合残差函数式(4)

ε'(λ)=ε(λ)d(λ)(4)

其中d(λ )为拟合标准差, 见式(5)

d(λ)=λ=1nε(λ)2n-1(5)

从拟合残差定义和辅助拟合残差函数构建过程可见, ε '(λ )相当于对原始光谱数据序列进行了Z-score处理, 所以辅助拟合残差符合均值为0, 标准差为1正态分布序列特征。 见式(6)和式(7)

E{ε'(λ)}=0(6)D{ε'(λ)}=E{ε'(λ)-E{ε'(λ)}}2=1(7)

上述过程完成了对干扰信号最小二乘拟合, 由最小二乘拟合的不确定度理论, 可知在λ 点干扰信号的A类不确定度可表示为式(8)

UF(λ)={d(λ)nλ2-1n(λ)2×λ2+λ2n+2×λλ}12(8)

至此, 从光谱信号中分离出干扰成分, 并进行A类标准不确定度评估的工作基本完成。

由式(8)得到A类标准不确定度以后, 以此为依据进行阈值判断即可标记拉曼光谱特征谱峰。 为了简化合理性阈值设置工作, 使用A类标准相对不确定度函数uF(λ ), 见式(9)

uF(λ)=ΔUF(λ)UF(λ)=UF(λ)-UF(λ-1)UF(λ)(9)

以0.5为初始阈值, 通过与A类标准相对不确定度UF(λ )比较, 筛分得到光谱特征波长, 建立拉曼光谱定量计算模型, 以模型相关系数为指标反馈调整阈值, 步长为0.1。

最后从光谱信号中减去干扰信号拟合值, 得到光谱信号估计序列 S˙r(λ ), 见式(10)

S˙r(λ)=S(λ)-F˙(λ)(10)

2 弱化非谱峰信号

通过上述工作, 完成了光谱中干扰信号去除以及谱峰定位工作, 但是仍然存在一些范围过大谱峰。 为了增强拉曼峰特征, 以特征峰和两个峰位之间最低点为端点, 将相邻谱峰分割成两个区域, 左边为严格单调下降区间, 区间长度为n, 其信号表示为Srl={sl1, sl2, …, sln}, 令

sli=slin-i+1nn-i+1(11)

式(11)右边为严格单调上升区间, 区间长度为m, 其信号表示为Srr={sr1, sr2, …, srm}, 令

sri=sriimi(12)

经过信号弱化处理的拉曼光谱, 完整保留了原始光谱中特征波长位置和特征谱峰强度, 并且由单调区间性质可知, 左右两个区间都存在且唯一存在 sl12srm2点, 该点对应光谱强度即为半峰高, 则该点与相邻半峰波长之间的距离即为半峰全宽, 沿谱峰轨迹在该点之间积分即为半谱峰面积。

3 应用实例

图2中蓝色谱是美国DeltaNu拉曼光谱仪采集得到水稻叶片拉曼光谱, 黑色谱是加拿大Aura拉曼光谱仪采集人体食指指肚处光谱(激光激发波长均为785 nm), 均可见强生物体荧光背景和系统噪声干扰, 其掩盖拉曼信号, 很难提取特征谱峰。 使用本方法, 根据干扰信息不确定度函数定位拉曼谱峰并扣除荧光和噪声拟合信号, 处理结果分别如图3和图4, 其已经呈现谱峰特性, 可以依此进行特殊物质定性识别和常规定量分析, 但是仍然不能完全分开相邻或重叠特征峰。 对于微量成分检测, 如水稻植株中水溶性糖含量、 氮、 磷、 钾等微量元素以及真皮层中蛋白质、 脂质等测量, 还需进一步增强谱峰特性, 以增加相关参数灵敏度, 提高拉曼测量精度。

图2 水稻叶片和手指皮肤拉曼光谱Fig.2 Raw Raman data of the rice leaf and finger

图3 去除噪声和荧光背景的水稻叶片拉曼光谱Fig.3 Raman data of rice leaf processed by removal noise and fluorescence background

图4 去除噪声和荧光背景的手指拉曼光谱Fig.4 Raman data of finger processed by removal noise and fluorescence background

继续使用非谱峰信号弱化方法处理光谱数据, 得到图5和图6所示结果。 两图中完整保留了拉曼特征峰位置和高度信息, 通过非谱峰信号弱化间接实现谱峰锐化, 使得半峰高和谱峰面积指标灵敏度提高。 图3和4中, 很多弱幅值肩峰和连续峰湮灭在强特征峰中, 而本方法可以有效提取和增强弱幅值特征峰, 为测量模型提供了更加丰富建模指标。

图5 非谱峰弱化处理后的水稻叶片拉曼光谱Fig.5 Raman data of rice leaf processed by non-peak weakened

图6 非谱峰弱化处理后的手指拉曼光谱Fig.6 Raman data of finger processed by non-peak weakened

Caspers[9]研究了人体皮肤中拉曼谱峰的归属, 认为1 665 cm-1是由螺旋构象的酰胺Ⅰ 带激发散射产生, 1 061, 1 128和1 296 cm-1处特征峰均来自脂质的贡献, 其中前两个谱带鉴定为来自角质层的延伸脂质, 所有三个谱带都是神经酰胺的拉曼光谱的强特征, 图6中准确呈现了上述4个特征谱峰。 并且文中方法处理后的1 080, 1 061和1 128cm-1谱峰强度相当, 与文献[9]中测量结果完全一致。 1 747 cm-1处弱峰也没有丢失, 该峰归因于(C=O)酯振动, 其大量存在于甘油三酸酯中。

进一步建立水稻植株中水溶性糖含量的测量模型, 以验证文中方法。 文献[10, 11, 12]给出几种振动形式的拉曼谱峰归属, 分别为721, 853, 1 125, 1 170, 1 264, 1 300, 1 340和1 660 cm-1, 图5完整呈现了上述谱峰特性, 说明光谱采集过程和信号处理方法是正确的。

以1 660 cm-1为例, 详细对比多项式法与方法处理后特征谱峰的变化情况。 图7中使用多项式方法拟合背景, 从光谱中扣除背景后, 可见特征谱峰幅值降低, 与相邻谱峰连接紧密无法区分。 图8中1 660 cm-1谱峰完整且清晰, 较图7中具有更高辨识度, 并且峰形尖锐, 如图9所示, 半谱峰面积与可溶性糖质量含量呈现较高线性相关性, 而图7中特征峰变化缓慢, 无法准确定位半谱峰位置以及计算半谱峰面积。

图7 多项式拟合法处理数据Fig.7 A slice of data processed by polynomial fitting

将待测物质单位质量变化引起的谱峰高度、 面积等指标量的相对变化率定义为敏感度函数。 表1针对上述所列特征波长计算了本方法处理后光谱特征峰的相关系数、 半峰面积相关系数、 特征峰敏感度和半峰面积敏感度, 表2是经过多项式拟合处理后上述数据(仅列出相关性较高部分)。

图8 文中方法处理数据Fig.8 A slice of data processed by method in the paper

图9 半谱峰面积与可溶性糖含量的相关系数Fig.9 Correlation between the half peak area and the quality of soluble sugar

表1 文中方法处理后的拉曼特征峰的相关系数 Table 1 Correlation coefficients of Raman characteristic peaks processed by method in the paper
表2 多项式拟合法处理后的拉曼特征峰的相关系数 Table 2 Correlation coefficients of Raman characteristic peaks processed by polynomial fitting

表1特征峰相关系数高于表2, 说明本方法对归属谱峰位置和强度影响均低于多项式拟合法, 本方法较多项式方法更可以准确表达文献[10, 11, 12]振动形式定位。 通过与表2数据对比发现, 表1中半峰面积相关系数、 特征峰敏感度和半峰面积敏感度指标明显高于多项式拟合指标, 其中半峰面积敏感度是表2的6.8~14倍, 说明可溶性糖含量变化时, 半谱峰面积变化显著, 这对于微量物质测量极其重要, 可以显著提高测量精度。

分别尝试基于sym5, sym7, sym8, db5, db6, db7, db9, coif3小波基函数, n(1~20)层分解及其他方法处理拉曼光谱中背景和噪声信号。 基于最优处理效果参数(db6, 9), 多项式拟合(13点4阶拟合), 非线性最小二乘法(分段正弦波函数)处理拉曼光谱背景, 应用自主研发化学计量学分析软件(Analysis2.0)提取主成分后, 并建立拉曼光谱与可溶性糖含量之间神经网络测量模型, 与文中方法比较。

建模效果由校正相关系数、 预测相关系数、 交叉验证标准差和相对分析误差表示, 如表3所示, 文中方法的上述四个指标均优于其他方法, 说明文中拉曼谱峰加强方法不会改变特征峰关键信息, 极高的半谱峰面积敏感度对于微量物质测量精度的提高是有益的。

表3 不同方法处理模型的指标 Table 3 Indexes of model disposed by different methods
4 结论

(1) 通过监测A类不确定函数完成强荧光等干扰信号扣除, 并以特征峰为界点弱化非特征数据, 使特征数据得到优化。 该方法针对微量物质拉曼光谱测量取得了优于小波分解、 多项式拟合、 最小二乘法拟合的预测效果。

(2) 与上述方法比较, 本方法无需设定基函数, 没有分解层数、 拟合阶次, 面向不同处理对象无需调整参数, 操作简单, 对重叠特征峰拆解准确有效, 实用性强。

The authors have declared that no competing interests exist.

参考文献
[1] Schulze G, Jirasek A, Yu M M L. Appl. Spectrosc. , 2005, 59: 545. [本文引用:1]
[2] O’Grady A, Dennis A C, Denvir D. Anal. Chem. , 2001, 73: 2058. [本文引用:1]
[3] Zhang D M, Ben-Amotz D. Appl. Spectrosc. , 2000, 54: 1379. [本文引用:1]
[4] Mosierboss P A, Lieberman S H, Newbery R|. Appl. Spectrosc. , 1995, 49: 630. [本文引用:1]
[5] Mahadevan-Jansen A, Mitchell M F, Ramanujam N. Photochem. Photobiol. , 1998, 68: 123. [本文引用:1]
[6] Zhao J, Lui H, Mclean D I. Appl. Spectrosc. , 2007, 61: 1225. [本文引用:1]
[7] Brennan J F, Wang Y, Dasari R R. Appl. Spectrosc. , 1997, 51: 201. [本文引用:1]
[8] Cai T T, Zhang D M, Ben-Amotz D. Appl. Spectrosc. , 2001, 55: 1124. [本文引用:1]
[9] Caspers P J, Lucassen G W, Wolthuis R. Biospectroscopy, 1998, 4(45): 31. [本文引用:2]
[10] Nicholas Stone, Catherine Kendall, Jenny Smith. Faraday Discuss, 2004, 126: 141. [本文引用:2]
[11] Wood B R, Tait B, McNaughton D. BBA-Molecular Cell Research, 2001, 1539: 58. [本文引用:2]
[12] Xie Chan-gan, Li Yong-qing, Tang Wei, et al. J. Appl. Phys. , 2003, 94(9): 6138. [本文引用:2]