应用Hilbert变换提取拉曼光谱相位信息进行血液识别分类方法的研究
王宁1,2, 王驰1, 卞海溢2, 王钧3, 王鹏2, 白鹏利3, 尹焕才3, 田玉冰2, 高静2,*
1. 上海大学机电工程及自动化学院, 上海 200072
2. 中国科学院苏州生物医学工程技术研究所江苏省医用光学重点实验室, 江苏 苏州 215163
3. 中国科学院苏州生物医学工程技术研究所中国科学院生物医学检验技术重点实验室, 江苏 苏州 215163
*通讯联系人 e-mail: owengaojing@126.com

作者简介: 王 宁, 1993年生, 上海大学机电工程及自动化学院硕士研究生 e-mail: sharpeningwn@163.com

摘要

将拉曼光谱技术和化学计量学方法相结合实现了对人血和动物血种属的区分, 并提出了一种基于Hilbert变换的拉曼光谱相位提取方法, 提高了人血与动物血区分的准确度。 分别对血液光谱数据和它所对应的相位信息进行主成分分析(PCA), 通过主成分得分图比较两者对人与动物血液的区分程度, 并建立偏最小二乘判别分析(PLS-DA)模型, 通过设置合适的分类阈值 y, 可以实现人与动物血液的有效区分。 结果表明在选取第一、 第二主成分分析时, 利用光谱数据相位信息建立的PCA模型, 识别率更高, 人与动物血液明显区分开来。 其所对应的PLS-DA模型最优主成分数为3, 预测标准误差(RMSEP)和决定系数( R2)分别为0.044 3和0.993 2。 而用血液原始光谱建立的PLS-DA模型最优主成分数为6, RMSEP和 R2分别为0.053 7和0.990 1。 说明利用拉曼光谱相位信息建立的PLS-DA模型可以拟合较少的主成分数来获得误差更小的预测结果。 进一步观察PLS-DA模型拟合不同主成分数的预测标准误差曲线图, 当选取同样多的拟合主成分数时, 利用血液拉曼光谱相位信息建立的PLS-DA模型其所对应的预测标准误差均低于原始血液光谱数据。 所以, 通过提取血液拉曼光谱数据的相位信息, 可以降低模型的复杂程度, 提高识别准确度。

关键词: 拉曼光谱技术; 化学计量学方法; 血液; 相位信息
中图分类号:O657.3 文献标识码:A
The Identification Method of Blood by Applying Hilbert Transform to Extract Phase Information of Raman Spectra
WANG Ning1,2, WANG Chi1, BIAN Hai-yi2, WANG Jun3, WANG Peng2, BAI Peng-li3, YIN Huan-cai3, TIAN Yu-bing2, GAO Jing2,*
1. School of Mechatronic Engineering and Automation, Shanghai University, Shanghai 200072, China
2. Jiangsu Key Laboratory of Medical Optics, Suzhou Institute of Biomedical Engineering and Technology, Chinese Academy of Sciences, Suzhou 215163, China
3. CAS Key Lab of Bio-Medical Diagnostics, Suzhou Institute of Biomedical Engineering and Technology, Chinese Academy of Sciences, Suzhou 215163, China
Abstract

A novel method is reported to discriminate human and animal blood by using Raman chemometric analysis. The phase information of Raman spectra was extracted with Hilbert transform and then analyzed with PCA and PLS to improve the accuracy of identification of human and animal blood compared with original spectra. The cluster analysis was made according to the principal component scores scatter plots of blood spectra data or its corresponding phase information. And the appropriate threshold value was set in the PLS-DA model in order to discriminate human and animal blood. The results show that the PCA model of the phase information can identify animal blood and human blood obviously and it exhibits higher recognition rate compared with PCA of original Raman spectra. The PLS-DA indicates that the optimal number of principal components for the phase information is 3, RMSEP and R2 are 0.044 3, 0.993 2, respectively. However, in the PLS model established with the original spectra, the optimal number of principal components is 6, RMSEP and R2 are 0.053 7, 0.990 1, respectively. This indicates that the PLS-DA model of the phase information can make less error by using less principal components. The RMSEP of PLS-DA model built by the phase information of Raman spectra is lower than that of the blood Raman spectra when taking the same number of fitting principal components. In conclusion, the complexity of the PCA and PLS models can be reduced and the recognition accuracy can be improved by extracting the phase information of Raman spectroscopy.

Key words: Raman spectroscopy; Chemometrics method; Blood; Phase information
引言

血液里包含着重要的遗传信息, 因此成功鉴别人与动物血液样本的归属在法医刑侦、 生命科学、 海关安全检验中有着重要的意义[1, 2]。 人血和动物血的主要成分有血细胞、 激素、 酶、 抗体、 无机盐、 氧、 各种营养成分和代谢产物, 二者在这些成分上没有明显的差异。 目前对血液种属进行区分识别方法, 多为使用高效液相色谱、 液相色谱-质谱法等一些传统的分析方法[3], 使用这些方法通常需要对待检测的样品进行一定的前处理, 加大了操作人员的工作量, 而且血样处理过程中有可能会造成血液样品的损耗, 血液中含有的细菌、 病毒等病原微生物也会给工作人员带来一定的风险, 因此亟需一种简单方便、 高效无损的血液样本种类检测技术。

近年来拉曼光谱技术结合化学计量学方法鉴别血液种属的方法逐渐兴起。 2008年, De Wael等提出了运用光谱学来解决血液分类问题的研究, 由于测得血液光谱数据非常近似, 导致他们并不能成功地将其分类。 2010年, Virkler等将拉曼光谱技术与化学计量学方法相结合, 通过对人、 猫、 狗三种血液拉曼光谱进行主成分分析, 并将它们成功的分成了三类。 2014年, Gregory McLaughlin等又在Virkler的研究基础上做了更进一步的研究, 他们选取了12种不同种动物的血液样本进行分析, 考虑到数据集复杂性有所提高, 提出使用偏最小二乘判别分析的方法来解决血液归属问题, 其模型识别结果正确率达到100%, 但预测标准差误差较大[4]

本文提出了一种对拉曼光谱进行Hilbert变换的基础上进而提取出光谱的相位信息, 并将此方法运用到人与动物血液种属归类研究中。 结合化学计量学方法, 将利用相位信息与原始光谱所建的分类模型进行对比, 发现两者均能有效地将人血和动物血区分开来。 但是使用相位信息建立的主成分分析和偏最小二乘判别分析模型, 所需拟合主成分更小, 并且其偏最小二乘判别分析模型可以获得更小的预测标准差。

1 拉曼光谱相位提取方法

为了提高对不同物种血液光谱的区分度, 本文采用希尔伯特变换对血液拉曼光谱进行处理。 拉曼光谱仪所采集的信号为离散信号, 可以将拉曼光谱仪所采集的一条光谱定义为x(k)其中k是这组离散信号的序数, 那么x(1), x(2), …, x(k)便对应了一条完整的血液光谱信号, 其中血液拉曼光谱信号x(k)的强度主要与激发光功率, 血液样本量, 血液中与其对应的官能团浓度及其分子极化性和分子振动强度有关, 如式(1)所示

x(k)IacαQ2(1)

其中I为激光功率, c为官能团浓度, a为血液量, α 为分子极化性, Q为分子振动强度[5]。 利用希尔伯特变换将血液拉曼信号所包含的的血液物质量、 浓度以及分子极化性和振动强度信息转化为相位信息, 并对其进行后续的建模分析。 希尔伯特变换维系着对离散序列进行傅里叶变换后的实部和虚部之间或者幅度和相位之间的关系, 它的实质就是x(k)与函数h(k)=1/π k卷积(k=1, 2, …, n), 其可以表示为

x˙(k)=x(k)×h(k)=τ=-+h(τ)x(k-τ)=-2π-m=-+12m-1x(k-2m+1)(2)

光谱信号x(k)的希尔伯特变换结果是 x˙(k), 它的解析信号为

q(k)=x(k)+ix˙(k)(3)

θ(k)=arctanx˙(k)x(k)(4)

θ (k)便是x(k)的瞬时相位, 其含义是将原始的血液光谱信号的频率分量相位推迟90° 之后的信号和原始信号的正切夹角。

2 实验部分
2.1 材料与仪器

本实验所用仪器为英国雷尼绍公司生产的inVia型共聚焦显微拉曼光谱仪, 分辨率为1 cm-1, 所用激光器中心波长为785 nm, 激光最大输出功率为280 mW。

共采集36个人体血液样本, 由志愿者提供; 48个动物血液样本, 其中包含29只大鼠, 9只兔和10只狗, 均由苏州大学动物研究中心提供。 所有血液样品均为暗红色静脉血, 均装入含有乙二胺四乙酸(ethylene diamine tetraacetic acid, EDTA)抗凝剂的采血管内。

2.2 光谱的采集与处理

本次实验所有血液样本的光谱数据均在采集血液后24 h之内完成, 测量血液样本拉曼散射光谱前使用标准硅片对仪器进行光谱校正, 随后抽取40 μ L血液滴在镀铝载玻片上进行光谱采集, 设置拉曼光谱仪扫描范围为300~1 700 cm-1, 激光器激发功率为2.8 mW(最大输出功率的1%), 使用50倍物镜聚焦, 每个样本累计扫描7次, 取其平均值作为该样品的原始光谱。

拉曼信号本身较弱, 在获取过程中容易受到激光器功率变化、 CCD探测器的暗噪声以及样品本身荧光物质的影响, 导致光谱数据中伴随着大量的高频噪声以及较大的荧光背景干扰, 致使光谱数据十分复杂, 因此在对拉曼光谱数据进行建模分析之前还要对其进行预处理, 以此降低背景噪声所带来的误差, 提高模型的稳健性。

拉曼光谱预处理流程包含以下三项: 平滑、 去基线、 归一化, 使用Matlab R2016b工程软件对各个光谱曲线进行Savitzky-Golay卷积平滑降低噪声并通过自适应迭代重加权惩罚最小二乘算法(airPLS)[6]来消除荧光背景对光谱分析产生的影响。

研究中, 除了在对拉曼光谱数据进行传统的预处理外, 还要通过前文所提出的方法对预处理之后的血液光谱数据进行Hilbert变换, 以此提取血液拉曼光谱的相位信息, 进而建立分析模型, 实现血液人与动物种属的区分, 基本原理如图1所示。

图1 拉曼光谱数据处理流程图Fig.1 The processing flow chart of Raman spectra

2.3 定性分析

使用主成分分析(principal component analysis, PCA)对光谱数据进行分析, 观察其主成分得分图和载荷图, 分析是否存在异常样本, 初步确定血液分类以及光谱差异性峰位[7]; 利用偏最小二乘判别分析法(partial least squares discriminant analysis, PLS-DA)建立预测模型进一步解决血液种属分类的问题[8], 其具体流程如图2所示。

图2 PLS-DA模型分析流程图Fig.2 The processing flow chart of PLS-DA model

首先利用留一法对预处理后的血液拉曼光谱与其相对应的光谱相位信息进行交叉验证, 分别计算其预测残差平方和(prediction residual error sum of square, PRESS), 并确定两者PLS-DA模型的最佳主成分数, 其次分别用两者数据建立PLS-DA模型, 设置分类阈值, 观察识别正确率。 并通过计算决定系数(R2), 校正标准误差(RMSEC)和预测标准误差(RMSEP)[9], 来对两者模型性能进行评估对比。 一个好的模型通常具有低的RMSEC和RMSEP值, 高的R2值, R2值越接近1, 模型预测结果越好。 本研究中光谱数据预处理以及模型建立全部基于Matlab R2016b软件。

3 结果与讨论
3.1 主成分分析

图3为四种典型的血液光谱曲线, 图4为采集到的84条血液光谱曲线。 综合图3、 图4可以看出人与动物血液的特征峰位置及相对强度并无明显差异。

图3 四种典型血液光谱曲线Fig.3 The plot of four typical blood spectrum

图4 原始血液拉曼光谱图Fig.4 The original Raman spectra of blood

图5是对84个预处理之后的血液光谱进行主成分分析的载荷图, 可以看出第一主成分和第二主成分包含的主要光谱信息在波数755, 1 003, 1 224, 1 448, 1 300~1 350以及1 500~1 700 cm-1范围内。 图6是人血平均光谱与动物血平均光谱经平滑归一化处理后的结果, 人与动物血液光谱主要区别在于755, 1 003, 1 224和1 448 cm-1这4个特征峰以及1 300~1 350和1 500~1 700 cm-1范围内, 其中波数755, 1 300~1 350和1 448 cm-1为色氨酸特征峰, 1 003 cm-1为苯基丙氨酸特征峰, 1 224和1 500~1 700 cm-1为血红素和血红蛋白特征峰[10], 说明人血和动物血在成分上有一定的微小差异。 综合图5、 图6可以发现第一主成分和第二主成分包含了血液光谱主要的差异峰位信息, 这为建立血液样本分类模型提供了理论依据。

图5 第一主成分及第二主成分载荷图Fig.5 The loadings of PC1 and PC2

图6 预处理之后的人血和动物血平均光谱Fig.6 The human average spectrum and animal average spectrum of pre-processing

图7(a)为对预处理后的血液光谱直接进行主成分分析的主成分得分图, 通过计算主成分得分图中各样本之间的马氏距离, 来判断血液样本之间是否存在异常点, 如有异常样本存在, 其主成分分布将会偏离其他正常样本, 且马氏距离也会偏大[11], 如图7所示, 虽然各样本分布较为散乱且存在一些离群点, 动物血与人血之间主成分得分存在一定的交集无法完全区分开, 但并无异常血液样本, 通过第一主成分和第二主成分可以将血液样本大体分为两类。 但是在对血液光谱进行Hilbert变换提取相位信息之后, 通过第一主成分和第二主成分人血与动物血便能很好的区分, 不同归属的血液样本在得分图中分布比较均匀集中互不干扰, 并且人血分布离散度相对于图7(a)较小, 如图7(b)所示, 说明对血液光谱相位补偿之后进行主成分分析有助于提高样本聚集度增强识别率。 这可能是由于第一主成分和第二主成分对原始光谱解释度太小, 但通过提取光谱相位信息可以提高第一第二主成分对原始光谱所包含的信息量, 增加了样本光谱之间差异, 从而提高了模型的预测性能。

图7 血液光谱第一主成分和第二主成分得分图
(a): 原始血液光谱得分图; (b): 相位信息得分图
Fig.7 The scores of the blood spectrum’ s PC1 and PC2
(a): The scores of original blood spectrum; (b): The scores of phase information

3.2 偏最小二乘法判别分析

在偏最小二乘法判别分析中, 确定参与回归的最佳主成分数尤为重要。 利用留一法交叉验证, 从84条血液光谱中每次挑选出一条光谱数据作预测, 用余下的样本建立校正模型, 来预测拿出去的样本。 重复上述过程, 经反复建模预测, 直至所有样本均被预测一次, 计算其PRESS值, PRESS值越小, 说明模型的预测能力越好。 如果选取的拟合主成分数过多, 会出现过拟合现象, 反而会增大模型的预测误差。 因此当处理大量光谱数据时, 在保证PRESS值低的情况下, 拟合主成分数越小越好。

使用相位信息进行偏最小二乘法判别分析, 在选取主成分数小于4的情况下, 计算得到的PRESS值小于原始光谱数据, 但当拟合主成分大于4时, 原始光谱的PRESS值略低于光谱数据相位信息的PRESS值, 如图8所示。 经过相位提取的光谱数据开始时随所包含的成分数的增加而降低, 但在成分数超过3以后, 随着成分数的增加, 误差开始上升, 因此, 确定模型所拟合的成分数为3时, 为最佳的预测模型。 在确保PLS模型PRESS值小且没有过拟合的情况下, PRESS值随主成分数增多而变化不明显的情况下, 优先选择相对较少的拟合主成分数, 所以原始光谱数据拟合成分数为6时, 为最佳的预测模型。

图8 不同拟合主成分数下预测残差平方和Fig.8 The PRESS of different principal component numbers

从所采集的84个血液光谱中分别随机抽取10个动物血液光谱(4只大鼠, 3只狗, 3只兔), 7个人血光谱作为预测检验样品光谱, 剩余样品光谱用于建模。 分别选取3个主成分和6个主成分进行偏最小二乘法拟合, 动物血标记为0, 人血标记为1。 模型预测结果如图9所示, 1— 67号样本为训练集样本(1— 38号动物血样本, 39— 67号人血样本), 68— 77号样本为预测集动物血样本, 78— 84号样本为预测集人血样本。

通过设置分类阈值y, 将预测集的样本代入PLS-DA模型, 若预测值大于y则将其识别为人血样本, 若预测值小于y则将其识别为动物血样本, 阈值计算公式如式(5)所示。

i1=1my-yfiti1m=i2=1ny-yfiti2n(5)

其中y为阈值, yfiti1为模型训练集第i1个动物血训练样本拟合值, yfiti2为模型训练集第i2个人血训练样本拟合值, m为训练集动物血样本个数, n为训练集人血样本个数, 此处mn分别为38, 29。

不难发现通过将预测值与分类阈值y相比较, PLS-DA模型可以将动物血和人血光谱识别区分出来, 但是选取的拟合成分数和是否进行Hilbert变换提取相位信息都对预测误差有着一定的影响, 结果如图9、 表1所示。 当拟合主成分数为3时, 血液光谱相位信息比原始数据预测值更加收敛, 且对于动物血的预测偏差更小, 如图9(a), 图9(b)所示。 当选取6个拟合主成分时, 原始数据预测精度比之前有了一定提高, 预测值相对比较收敛, 但后者并无明显变化, 如图9(c), 图9(d)所示。

图9 血液及其相位信息模型预测结果图
(a): 3主成分数下原始光谱预测结果; (b): 3主成分数下血液光谱相位信息预测结果; (c): 6主成分数下原始光谱预测结果; (d): 6主成分数下血液光谱相位信息预测结果
Fig.9 The plot of prediction results based on the prediction method of original spectra and phase information
(a): The prediction results of 3 principal components with original spectra; (b): The prediction results of 3 principal components with phase information; (c): The prediction results of 6 principal components with original spectra; (d): The prediction results of 6 principal components with phase information

表1 血液及其相位信息分析模型预测结果表 Table 1 Prediction results based on the prediction method of original spectra and phase information

通过计算图9中校正标准误差(RMSEC), 预测标准误差(RMSEP)和相关系数(R2)来衡量两者模型的优劣, 结果如表1所示。 比较光谱相位信息和原始光谱数据两者的PLS-DA模型的RMSEC, RMSEP和R2, 两者的R2值都比较接近于1, 这说明两个模型都能较好地预测血液光谱种属。 当拟合3个主成分时, 两者的RMSEP分别为0.044 3和0.061 8; 当拟合6个主成分时, 两者的RMSEP分别为0.045 6和0.053 1。 在选取同样多的主成分数的情况下, 前者的预测精度略高于后者, 而且只需用到3个主成分得到的预测标准差值就能比后者通过拟合6个主成分得到的预测标准差值小。 但是同样相对于选取较多主成分数拟合模型, 前者的RMSEP值并没有相对于拟合主城分数多而减小, 反而增大, 是因为过多的主成分数已经拟合进去了较多测量噪声, 造成了过拟合现象, 并不能提高模型的预测性能, 相反还有可能降低模型的稳定性。

图10 不同拟合主成分数下预测标准偏差值Fig.10 The RMSEP of different principal component numbers

为了进一步研究经Hilbert变换后提取光谱相位信息的模型与原数据模型之间的差别, 通过拟合3~12个成分数建立模型, 以此观察前后两者模型之间RMSEP变化曲线, 结果如图10所示。 在选取同样多主成分数进行建模分析时, 光谱相位信息数据模型预测标准误差均小于原始数据, 且其最佳成分数与后者相比更加少, 原始血液数据需要拟合5个主成分才能使RMSEP值在该模型中达到最小值0.051 8, 而利用相位信息只需3个主成分便能达到最小RMSEP值0.044 3, 且主成分数相同的情况下后者的RMSEP值均小于前者。 这一特点更加说明了对血液光谱数据提取相位信息可以减少拟合模型时所需选取的主成分数, 有助于获得一个更加简单、 稳定的模型。

4 结 论

利用雷尼绍inVia型显微共聚焦拉曼光谱仪采集了84个血液光谱数据(48个动物, 36个人), 并对原始光谱数据进行预处理后进行Hilbert变换提取相位信息, 利用获得的相位信息进行主成分分析和偏最小二乘分析, 并取得了良好的效果。 通过PCA对相位信息进行分析, 发现与只进行预处理血液数据相比, 可以获得更加集中的主成分得分图, 人与动物血液样本区分得更加明显。 利用原始光谱数据和光谱相位信息建立PLS-DA分类模型, 通过交叉检验寻找两者模型中的最佳拟合主成分数, 进而利用获得的最佳主成分数建立模型, 选择合适的分类阈值y实现了动物血液和人血液种属的区分, 并通过计算RMSEC, RMSEP和R2值对两者模型进行评价。 结果表明, 利用拉曼光谱相位信息建立的PLS模型可以利用较少的拟合主成分数来获得误差更小的预测结果, 其能在保证预测精度不丢失的情况下, 减少运算量, 提高建模速度, 在其他光谱数据多而复杂的分析实验中将会有更好的发展前景。

The authors have declared that no competing interests exist.

参考文献
[1] LI Kai-kai(李开开). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(Suppl. 1): 235. [本文引用:1]
[2] Mclaughlin G, Doty K C, Lednev I K. Forensic Science International, 2014, 238C(5): 91. [本文引用:1]
[3] Steendam K, De C M, Dhaenens M, et al. Int. J. Legal. Med. , 2013, 127(2): 287. [本文引用:1]
[4] Mclaughlin G, Doty K C, Lednev I K. Forensic Science International, 2014, 238C(5): 91. [本文引用:1]
[5] Larkin P. Infrared & Raman Spectroscopy, 2011: 117. [本文引用:1]
[6] Zhang Z M, Chen S, Liang Y Z. The Analyst, 2010, 135(5): 1138. [本文引用:1]
[7] Bai P, Wang J, Yin H, et al. Analytical Letters, 2016. [本文引用:1]
[8] Almeida M R D, Correa D N, Rocha W F C, et al. Microchemical Journal, 2013, 109(14): 170. [本文引用:1]
[9] CHU Xiao-li(褚小立). Molecular Spectroscopy Analytical Technology Combined with Chemometrics and Its Application(化学计量方法与分子光谱分析技术). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2011. [本文引用:1]
[10] Lednev I K. Bureau of Justice Statistics, 2012. [本文引用:1]
[11] Brereton R G, Lloyd G R. Journal of Chemometrics, 2016, 30(4): 134. [本文引用:1]