基于Raman光谱的人、 犬、 兔血液鉴别
董家林1, 洪明坚1,3,*, 郑祥权2,3, 徐溢2,3
1. 重庆大学软件学院, 重庆 401331
2. 重庆大学化学化工学院, 重庆 401331
3. 重庆大学新型微纳器件与系统技术国家重点学科实验室, 重庆 400044
*通讯联系人 e-mail: hmj@cqu.edu.cn

作者简介: 董家林, 1992年生, 重庆大学软件学院硕士研究生 e-mail: dongjialin@cqu.edu.cn

摘要

多物种血液鉴别对于进出口检验检疫、 刑事侦检以及野生动物保护等领域尤为重要。 传统的血液鉴别方法, 在鉴别时常常会对血液样本造成破坏, 而Raman光谱作为一种振动光谱可获得物质分子振动、 转动信息, 进而分析物质组成, 为无损血液鉴别技术提供了可能。 目前, 已经有基于Raman光谱进行血液鉴别的报道, 但存在如下两个问题: 单一物种样本数量较少, 易导致模型欠拟合; 均采用线性分类模型, 忽略了光谱中非线性因素的影响, 降低了模型的分类性能。 因此, 将支持向量机沿用至Raman光谱血液鉴别中, 克服了线性模型只能为光谱中线性关系建模的缺点, 有效地吸收了Raman光谱中的非线性关系, 实现了对人、 犬及兔血液的三分类。 实验通过激发波长为785 nm的海洋Raman光谱仪测得共326例样本数据(人110例、 犬116例、 兔100例), 利用Savitzky-Golay平滑滤波、 加权最小二乘多项式拟合基线以及矢量归一化等方法对Raman光谱数据进行预处理, 并选择2/3的样本数据作为校正集用于模型训练, 余下1/3作为测试集用于盲测。 与线性分类模型对比实验结果显示, 该模型的校正集分类正确率达100%, 盲测集分类正确率达93.52%, 均优于线性分类模型。 实验结果表明, 基于支持向量机的分类模型可以用于Raman血液光谱鉴别, 具有重要的研究价值和广泛的应用前景。

关键词: 血液; Raman光谱; 分类模型; 支持向量机
中图分类号:O657.37 文献标志码:A
Discrimination of Human, Dog and Rabbit Blood Using Raman Spectroscopy
DONG Jia-lin1, HONG Ming-jian1,3,*, ZHENG Xiang-quan2,3, XU Yi2,3
1. School of Software Engineering, Chongqing University, Chongqing 401331, China
2. School of Chemistry and Chemical Engineering, Chongqing University, Chongqing 401331, China
3. National Key Laboratory of Fundamental Science of Micro/Nano-Device and System Technology, Chongqing University, Chongqing 400044, China
Abstract

The identification of multiple species blood is particularly important for entry-exit inspection and quarantine, forensic investigation and wildlife protection. The traditional methods often destroy blood samples and make further analysis of samples impossible. Raman Spectroscopy is a vibrational spectrum, which can obtain the information of molecular vibration and rotation so as to analyze the chemical composition of the material. It provides the possibility of non-destructive blood identification. Currently, there are several methods of blood identification based on Raman spectroscopy, but these methods use the linear classification model, ignoring nonlinear relationship between the spectrum and sample, and lead to the bad performance of the model. Moreover, the small sample number of each species usually results in the under-fitting the model. Therefore, this paper set up a classification model for the nonlinear relationship using the support vector machine to identify Raman spectra of blood, overcame the shortcoming of the linear classification model which emphasizes the linear characteristic of the spectrum in the training, and absorbed the nonlinear relationship in the Raman spectrum effectively, realizing the three classification of human, dog and rabbit blood. There are a total of 326 samples which were measured by Ocean Raman spectrometer with excitation wavelength of 785 nm, including 110 humans, 116 dogs and 100 rabbits. Savitzky-Golay smoothing filter, weighted least squares baseline correction, and vector normalization were used to preprocess them. The 2/3 of these samples were used as calibration set for training and the remaining samples were used as test set for blind testing. Experimental results showed that the classification accuracy of proposed model for the calibration set and the blind test were 100% and 93.52%, and outperformed the existing linear classification models. This indicates that proposed classification model has good application prospects and research value.

Keyword: Blood; Raman spectrum; Classification model; Support vector machine

引 言

在进出口检验检疫、 刑事侦检以及野生动物保护等领域, 常常需要对未知的血液样本进行物种鉴别。 传统的血液鉴别方法常常利用隐色孔雀石绿、 鲁米诺、 酚酞和四甲基联苯胺等作为反应物对未未知物种血液做氧化还原检测[1]。 随着技术的进步, 出现了一系列新兴的血液鉴别方法, 包括高效液相色谱法(high-performance liquid chromatography, HPLC)和质谱分析(mass spectrometry, MS)。 但这一系列方法存在的最大问题是对于血液样本的破坏, 尤其是在刑事侦检时, 应尽可能保护疑似的血液样本, 以便将来对样本做进一步的分析。 因此, 探究一种无损的血液鉴别技术对于进出口检验检疫、 刑事侦检以及野生动物保护等领域都具有重大的研究价值和意义。

Raman光谱作为一种振动光谱, 对与入射光频率不同的散射光进行分析以得到物质分子振动、 转动信息, 从而分析物质的组成[2], 为无损鉴别提供了可能。 血液的Raman光谱信息非常丰富, 其中血红蛋白的结构信息对于Raman光谱的分子振动贡献最为明显, 而不同归属的血液血红蛋白的结构差异, 导致了其Raman光谱的微弱差异[3]。 Wael等第一次将Raman光谱应用于血液样本鉴别, 但无法区分人、 猫和犬三种类别的血液, 随后Virkler等通过化学计量学方法提取了血液Ramam光谱间的细微差别, 成功地鉴别出人、 猫和犬三个物种, 大大扩展了Raman光谱在血液鉴别领域的应用范围[4]。 此后, McLaughlin[5, 6]等对Virkler的工作进行了扩展, 将动物类别扩充至10类, 并采用偏最小二乘(partial least square discriminant analysis, PLS-DA)模型对10类动物与人血液Raman光谱样本数据进行训练, 建立了人与动物的二分类模型, 成功将人与其他动物中区分开来[5]; 接着, 进一步将二分类模型改进为多分类模型, 成功的区分了10个不同的物种[6]。 最近, Fujihara[7]等用便携式的Raman光谱仪采集了人和10类动物血液的样本数据, 并利用主成分分析(principal component analysis, PCA)方法成功地将人和动物区分开来, 且该方法对于处于室温下三个月后的人与动物血迹, 仍然具有较好的分类性能。

然而, 文献[4, 5, 6, 7]在训练分类模型时单一物种样本数量较少, 其用于训练的校正集单一物种样本数量均不超过10例(测试集单一物种样本数量不超过5例), 而较少的样本使得训练时模型所学到的“ 普遍规律” 也随之减少, 常导致分类模型欠拟合(Under-fitting), 影响模型的分类结果。 同时, 受仪器的杂散光、 待测物质的物理特性(如颗粒度, 装填密度和均匀性等)、 环境温度和探测器的非线性响应等因素影响, 光谱对物质的响应不完全是线性的[8], 而文献[4, 5, 6, 7]均采用线性分类模型忽略了光谱中非线性因素的影响, 降低了模型的分类性能。 因此, 本文通过支持向量机(support vector machine, SVM)为110例人、 116例犬以及100例兔血液样本建立非线性关系判别模型, 实现了对人、 犬及兔血液的三分类。 为了进一步评估SVM模型的分类性能, 对训练样本数据集之外未知血液样本进行了验证, 并与线性方法PCA和PLS分类模型进行了对比。 实验结果表明, 采用基于非线性的SVM分类模型, 对于人、 犬、 兔三类的血液Raman光谱数据具有更优的鉴别能力。

1 实验部分
1.1 试剂和仪器

试剂: 乙醇(95.00%, 重庆川东化工有限公司, 重庆)。

光谱仪: 海洋激光共聚焦Raman光谱仪(IDR-MICRO-785)。

光源: 半导体激光器, 功率18.8 mW, 激发波长785 nm。

1.2 血液样本

110例人血液样本采集于重庆西南医院, 116例犬血和100例兔血采集于重庆中药研究院, 如表1所示。 实验所有血样均采用乙二胺四乙酸二钠(EDTA)抗凝管盛装, 并选用半导体硅片, 以其520 nm的Raman峰进行仪器测试的定标; 用移液枪滴取2 μ L血液样本在洁净的石英片上, 采用海洋IDR-MICRO-785型号的小型Raman光谱仪对人血、 比格犬血以及新西兰兔血进行测试, 测试条件: 激发波长为785 nm, 光谱扫描范围为200~2 000 cm-1, 激光功率为18.8 mW, 曝光时间为5 s, 累加3次。 每个样本均选择3~4个位置点进行测试, 取其平均作为最终Raman光谱, 共得到人110例、 犬116例以及兔100例的Raman光谱数据集。

表1 血液样本测试清单 Table 1 List of blood samples
1.3 数据预处理及实验工具

所有的数据预处理以及统计模型的构建, 均通过运行在MATLAB R2011a上的PLS Toolbox 8.1(Eigenvector Research Inc.)实现。 首先, 对所有光谱数据均截取630~1 710 cm-1波段参与建模, 采用Savitzky-Golay[9]平滑滤波降噪, 窗口大小设置为12; 然后, 采用4次多项式拟合的加权最小二乘基线方法, 对光谱数据做基线校正。 基线校正后, 分别将每条光谱线性归一化到0~1范围。

1.4 校正集与盲测集

为了评估模型的分类效果, 将110例人血液光谱、 116例犬血液光谱以及100例兔血液光谱通过Duplex算法[10]各选取1/3作为测试集用于盲测, 即人37例、 犬38例、 兔33例, 余下2/3作为校正集用于模型训练, 即人73例、 犬78例、 兔67例。

2 结果与讨论

实验主要包括血液样本的Raman测试、 血液光谱数据的预处理以及分类模型的选择, 并分别选用PCA+LDA, PLS-DA和SVM分类模型对人、 犬以及兔血液Raman光谱样本数据进行训练, 建立人、 犬以及兔血液Raman光谱的三分类模型, 类比其训练效果。 同时, 为了进一步验证模型的性能, 实验最后对该训练模型进行了盲样测试。

2.1 血液样本Raman测试条件选择

首先对石英载玻片进行Raman光谱测试, 结果如图1所示, 在200~2 000 cm-1扫描范围中仅200~630 cm-1有较明显波峰, 其他波段都比较平滑。 因此, 通过滴加血液样本在石英载玻片上测试Raman光谱可以忽略630~2 000 cm-1的石英的影响。 测试条件为激发波长为785 nm, 光谱扫面范围为200~2 000 cm-1, 激光功率为18.8 mW, 曝光时间为5 s, 累加3次, 测试结果如图2所示。 由于200~630 cm-1左右受石英所影响, 而1 710 cm-1之后无明显波峰, 因此仅截取630~1 710 cm-1波段进行分析。

图1 石英载玻片Raman光谱测试图Fig.1 Raman spectrum of quartz microscope slide

图2 人、 犬、 兔Raman光谱测试典型图例Fig.2 Typical Raman spectra of human, dog and rabbit blood

2.2 血液样本Raman光谱分析

在样本数据中常常包含着少量的数据对象, 它们与数据的一般行为或特征不一致, 这些数据对象被称作异常点(Outlier), 一般是由于错误测试所产生。 如果我们把这数据样本与正常数据样本放在一起进行分析, 会影响模型的解释能力和预测能力。 因此, 实验首先从218例校正集样本(人73例、 犬78例、 兔67例)中剔除异常点。 实验中, 分别对校正集的样本逐一观察, 最终确定1例犬类样本和1例兔类样本作为异常点。 图3(b)所示异常犬类样本, 异常峰位在1 400~1 500 cm-1, 图3(c)所示异常兔类样本, 异常峰位在1 200~1 300 cm-1, 这种峰位异常的跳变, 可能是错误测试所导致。

图3 (a)正常血液Raman光谱, (b)犬血液异常Raman光谱, (c)兔血液异常Raman光谱Fig.3 (a) Normal Raman spectrum of blood, (b) Abnormal Raman spectrum of dog blood, (c) Abnormal Raman spectrum of rabbit blood

对异常点剔除后的216例校正集样本(人73例、 犬77例、 兔66例)归一化到0-1范围后, 其人、 犬、 兔三类各自的平均Raman光谱如图4所示。 不难看出, 不同种类之间的光谱都非常相似。 它们都具有相似的主峰676, 754, 1 001, 1 123, 1 225, 1 340, 1 449, 1 563和1 620 cm-1(表2), 这些主峰都是由血红蛋白、 白蛋白、 葡萄糖所衍生[7, 11]。 从平均光谱图中可以看出, 在780~900 cm-1波段能看出人、 犬、 兔三类平均光谱的微弱差异, 而在1 250~1 370 cm-1波段能较为明显的看出犬与人和兔平均光谱的差异, 这两个波段主要是色氨酸、 苯丙氨酸等蛋白质的Raman特征峰[3, 11, 12]。 虽然人、 犬、 兔血液中均包含血红蛋白、 白蛋白等物质, 使得Ramao光谱在对应的峰位具有相似的主峰, 由于不同物种遗传物质基因的不同, 导致了物种蛋白质的多样性、 氨基酸含量的差异性, 使其Raman光谱在对应峰位的相对强度具有明显差异。 同时, 血液中血红蛋白氨基酸成分及其结构的不同, 也会导致了Raman光谱在其对应峰位相对强度的微弱差异。 然而这种微弱的差异难以直接鉴别这三类光谱, 因此常通过化学计量学建模提取。

图4 人、 犬、 兔平均Raman光谱Fig.4 Average Raman spectra of all human spectra, all dog spectra and all rabbit spectra

表2 血液Raman光谱与振动模式的对应表[3, 7, 11, 12] Table 2 Raman peak assignments with vibrational modes for blood [3, 7, 11, 12]

由于波长点较多, 为了较清晰的展现人、 犬、 兔三类样本在空间中分布, 图5显示了30例校正集样本(人、 犬、 兔三类样本各10例)的前3个主成分得分图, 不难看出前3个主成分得分已大致能将人、 犬、 兔三类分开。

图5 PCA得分图Fig.5 Scores plot of PCA

2.3 分类结果比较

目前, 用于血液Raman光谱鉴别的方法主要有PCA+LDA[5, 13]和PLS-DA[6, 7]两种。 文献[4]印证了不同物种血液Raman光谱在PCA得分空间是可区分的, 因此可采用线性判别分析[13](linear discriminant analysis, LDA)进行分类。 实验分别基于这两种分类模型, 对人、 犬、 兔三类血液样本, 建立三分类的PCA+LDA, PLS-DA模型, 并与SVM分类模型对比。

PCA[13]是一种广泛使用的数据降维方法, 它通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量即主成分(PC)。 首先, 对PCA+LDA采用留一法交叉验证[14](leave-one-out cross validation, LOOCV)选择了17个主成分, 并选取第1, 4和11个主成分作得分图, 如图6(a)和(b)所示。 虽不能完全将三类分开, 但大致能看出三类样本在空间中的分布情况。 其次, 对获得的17个主成分采用LDA进行分类, 分类结果如图6(c)所示, 4例人血样本以及2例兔血样本被错分为犬血, 此外, 还有6例犬血样本被分错, 3例错分为人血, 3例错分为兔血。 校正集分类正确率为94.44%(204/216)。

图6 PCA+LDA(a)得分图, (b)RMSEC及RMSECV图, (c)分类结果图Fig.6 PCA+LDA (a) Scores plot, (b) RMSEC and RMSECV plot, (c) Classification results

PLS-DA是一种结合了多元线性回归和主成分分析特点的常见判别分析统计方法, 特别适合于解释变量数多且存在着多重共线性, 样本观测数少, 且干扰噪声大的情况, 而这种情况在Raman光谱数据中极为常见。 实验通过LOOCV共选择8个主成分参与建模, 并选取第1, 4和8个主成分作得分图, 如图7(a)和(b)所示。 从图中能大致看出三类的得分分布情况, 分类时对参与建模的8个主成分做判别分析。 结果如图7(c)所示, 分错的3例犬血中, 2例被错分为兔血, 1例被错分为人血, 同时, 兔血也被分错2例, 1例被错分为人血, 1例被错分为犬血。 校正集分类正确率较PCA+LDA高, 为97.69%(211/216)。

图7 PLS-DA(a)得分图, (b)RMSEC及RMSECV图, (c)分类结果图Fig.7 PLS-DA (a) Scores plot, (b) RMSEC and RMSECV plot, (c) Classification results

此外, 图8展示人、 犬、 兔三个类别PLS-DA回归系数的绝对值, 不难看出, 最终鉴别的结果受整个波段的Raman

图8 PLS-DA回归系数的绝对值Fig.8 Absolute value of PLS-DA regression coefficients

光谱数据影响, 这意味着无法通过血液Raman光谱的少量特征峰直接鉴别物种。 尽管如此, 但其回归系数绝对值的差异仍然可以反映相应波段人、 犬、 兔Raman光谱之间的差异。 从图中不难看出, 回归系数在754, 855, 900, 1 156, 1 225, 1 311, 1 563, 1 604和1 639 cm-1波数上回归系数的绝对值有较明显差异。 图9则进一步显示了这些波数所对应的谱峰峰位, 在754, 855, 900, 1 156, 1 225和1 311 cm-1波数上的峰位主要是由色氨酸等蛋白质振动所产生, 即人、 犬、 兔血液在色氨基酸等蛋白质的含量上存在微弱差异。 而1 563, 1 604和1 639 cm-1波数上的峰位则是由血液中的血红蛋白振动所产生, 1 563 cm-1波数上的差异最为明显, 文献[7]指出不同物种血液中某些成分的浓度及其化学特性是不同的, 如人和马的血红蛋白中36个氨基酸残基就有18个不同, 正是由于不同物种间血红蛋白化学特性的不同(结构上的差异), 导致了其Raman光谱在对应峰位相对峰强的微弱差异。 虽然人、 犬、 兔血液中氨基酸种类大致相同, 使得其Raman光谱具有相似的峰位, 但其氨基酸含量、 化学特性及其结构上的不同, 都可以通过Raman光谱去解释。

图9 人、 犬、 兔血液平均Raman光谱及其特征峰位Fig.9 Average Raman spectra and characteristic peaks of human, dog and rabbit

SVM[15]支持向量机是通过一个非线性映射, 把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间), 把样本空间中的非线性可分问题转化为特征空间中的线性可分问题。 SVM分类模型有两个重要的参数cost和gamma, 其中cost是惩罚系数即对误差的宽容度, 其值越大越不能容忍出现误差, 易过拟合, 反之, 越小易欠拟合; gamma则是选择径向基函数作为内核后, 该函数自带的一个参数, 其隐含地决定了数据映射到新的特征空间后的分布, 其值越大支持向量越少, 反之, 其值越小支持向量越多。 实验通过LOOCV确定参数cost=100, gamma=0.031623, 即图10(a)“ X” 处所示。 由于其涉及高维度(n> 3)的判别分析, 无法用图表的形式表示, 因此仅对其分类结果进行分析讨论。 如图10(b)所示, 216例样本均为分对, 校正集分类正确率较PCA+LDA, PLS-DA高, 为100%(216/216)。

图10 SVM(a)网格搜索图, (b)分类结果图Fig.10 SVM (a) Grid-search of parameters, (b) Classification results

根据上述实验结果可知SVM具备更优的分类性能。 这是由于在实际应用中, 被测量的分析物与光谱响应之间并非严格的线性关系[8]。 PCA+LDA和PLS-DA这一系列线性分类模型往往过于强调光谱中的线性特性, 而忽略了光谱中非线性因素的影响[8], 降低了模型的分类性能。

2.4 盲样测试

为了进一步验证模型的预测能力, 对未参与建模的108例血液样本数据进行预测(人38例、 犬37例、 兔33例)。 PCA+LDA的盲测结果如图11(a)所示, 4例人血以及2例兔血被错分为犬血, 此外, 还有10例犬血被分错, 其中6例被错分为兔血, 4例被错分为人血, 盲测集分类正确率为85.19%(92/108)。 PLS-DA的盲测结果如图11(b)所示, 3例人血被错分为犬血, 6例错分的犬血中, 有4例错分为兔血, 2例错分为人血, 同时, 兔血也被分错2例, 1例被错分为人血, 1例被错分为犬血, 盲测集分类正确率89.81%(97/108)。 SVM的盲测结果如图11(c)所示, 人血错分2例, 均被错分为犬血, 错分的5例犬血中, 2例被错分为人血, 3例子被错分为兔血, 而兔血未被错分, 盲测集分类正确率93.52%(101/108)。

图11 分类结果图(含盲测)
(a): PCA+LDA; (b): PLS-DA; (c): SVM
Fig.11 Classification results (including test set)
(a): PCA+LDA; (b): PLS-DA; (c): SVM

从对于未知样本的分类情况来看, 与校正集的分类情况相同, SVM具备更优的分类性能。 如图12所示, SVM三分类模型在校正集分类正确率和测试集分类正确率上, 均优于PCA+LDA和PLS-DA。 这进一步验证了血液Raman光谱中非线性因素对与血液鉴别的重要, SVM作为一种典型的非线性分类模型, 在鉴别不同物种的血液Raman光谱时体现出了更优越的鉴别性能, 这使得该方法更适合于进出口检验检疫、 刑事侦检以及野生动物保护等领域。

图12 模型校正集与盲测集分类精度对比Fig.12 Comparison of classification accuracy for calibration set and test set

3 结 论

提出了一种能有效鉴别人、 犬、 兔血液Raman光谱的三分类SVM模型, 克服了线性分类模型在训练时过于强调光谱中线性特性的缺点, 有效地吸收了Raman光谱中的非线性关系, 使得该分类模型无论是在校正集上还是在盲测集上, 分类正确率都优于现有血液光谱鉴别方法PCA+LDA和PLS-DA。 在进出口检验检疫、 刑事侦检以及野生动物保护等领域都具有广泛的应用价值。 为了充分发掘该方法对于血液鉴别的潜力, 未来的工作将进一步扩充物种数量, 实现对更多物种的Raman血液光谱鉴别。

The authors have declared that no competing interests exist.

参考文献
[1] Mclaughlin G, Doty K C, Lednev I K. Forensic Science International, 2014, 238(5): 91. [本文引用:1]
[2] WANG Xiao-bin, WU Rui-mei, LIU Mu-hua, et al(王晓彬, 吴瑞梅, 刘木华, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(6): 1566. [本文引用:1]
[3] LU Ming-zi, GUO Yan-jun, ZHAO Lian, et al(卢明子, 郭延军, 赵莲, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(2): 439. [本文引用:2]
[4] Virkler K, Lednev I K. Analytical Chemistry, 2009, 81(18): 7773. [本文引用:4]
[5] Mclaughlin G, Doty K C, Lednev I K, et al. Anal. Chem. , 2014, 86: 11628. [本文引用:5]
[6] Mclaughlin G, Doty K C, Lednev I K. Forensic Science International, 2014, 238(5): 91. [本文引用:5]
[7] Fujihara J, Fujita Y, Yamamoto T, et al. International Journal of Legal Medicine, 2016. 1. [本文引用:6]
[8] CHEN Da, YAN Meng-yu, LI Qi-feng, et al(陈达, 闫孟雨, 李奇峰, ). Nanotechnology and Precision Engineering(纳米技术与精密工程), 2015, 13(3): 226. [本文引用:3]
[9] Li J, Deng H, Li P, et al. Applied Physics B, 2015, 120(2): 207. [本文引用:1]
[10] Huang G, Ruan X, Chen X, et al. Analytical Methods, 2014, 6(9): 2900. [本文引用:1]
[11] Premasiri W R, Lee J C, Ziegler L D. Journal of Physical Chemistry B, 2012, 116(31): 9376. [本文引用:2]
[12] WANG Gui-wen, PENG Li-xin, SHEN Wei-dong, et al(王桂文, 彭立新, 申卫东, 等). Acta Optica Sinica, 2011(6): 276. [本文引用:1]
[13] Skrobot V L, Castro E V R, Pereira R C C, et al. Energy & Fuels, 2016, 21(6): 5. [本文引用:3]
[14] Wong T T. Pattern Recognition, 2015, 48(9): 2839. [本文引用:1]
[15] Guerbai Y, Chibani Y, Hadjadji B. Pattern Recognition, 2015, 48(1): 103. [本文引用:1]