一种基于简化正交距离的近红外异常光谱判断方法
孟丹蕊, 傅博, 徐可欣, 刘蓉*
天津大学精密测试技术及仪器国家重点实验室, 天津 300072
*通讯联系人 e-mail: rongliu@tju.edu.cn

作者简介: 孟丹蕊, 女, 1994年生, 天津大学精密测试技术及仪器国家重点实验室硕士研究生 e-mail: 2015202128@tju.edu.cn

摘要

及时发现并剔除异常光谱对于提高近红外光谱分析的可靠性具有重要意义。 首先介绍了基于正交距离的稳健主成分分析法判断异常光谱的原理, 分析了该方法的局限性, 在此基础上提出了一种基于简化正交距离的异常光谱判断方法, 即以高浓度样品的光谱直接估计第一稳健主成分, 再通过重复测量估计正交距离的统计参数来判断异常光谱。 最后, 采用上述两种方法对葡萄糖水溶液和2% Intralipid仿体溶液透射实验中受温度影响的异常光谱进行了判别。 结果表明, 基于正交距离的稳健主成分分析法, 当崩溃值设定为40%时, 葡萄糖水溶液和仿体溶液实验中受温度影响的异常光谱均能被正确识别; 当崩溃值设定为25%时, 对葡萄糖水溶液和仿体溶液实验中受温度影响的异常光谱漏判率分别为54.5%和72.7%。 而简化正交距离法可以准确识别出葡萄糖水溶液和仿体溶液实验中受温度干扰的异常光谱, 且具有无需预先设定崩溃值和测量持续时间较短等优点。 因此, 简化正交距离法在实际应用中相比基于正交距离的稳健主成分分析法有着显著的优势。

关键词: 近红外; 异常光谱; 正交距离; 稳健主成分; 崩溃值
中图分类号:O433.4 文献标志码:A
An Outlier Determination Method for Near-Infrared Spectroscopy Based on the Simplified Orthogonal Distance
MENG Dan-rui, FU Bo, XU Ke-xin, LIU Rong*
State Key Laboratory of Precision Measuring Technology and Instruments, Tianjin University, Tianjin 300072, China
Abstract

Fast detecting and eliminating the outliers is of great significance to improve the reliability of the near-infrared(NIR) spectroscopy analysis. In this paper, the principle of outlier determination method based on orthogonal distance and robust principal component analysis was introduced firstly with the analysis of its limitations. Then an outlier determination method based on the simplified orthogonal distance was proposed, where the spectra of the samples with high concentration were employed to estimate the first robust principal component directly and the statistical parameters of the orthogonal distance were obtained with repeated measurements to detect outliers. Finally, the outliers caused by the temperature fluctuations in the NIR transmission spectra of glucose aqueous solutions and 2% Intralipid solutions, were determined by these two methods. Results showed that, for the orthogonal distance combined with robust principal component analysis method, all the outliers induced by temperature variations could be correctly determined under the collapse value of 40%, while the false negative rates for the glucose aqueous solutions and Intralipid solutions under the collapse value of 25% were 54.5% and 72.7%, respectively. Besides, all the outliers induced by temperature variations also could be recognized with the method based on the simplified orthogonal distance, which saves the need for collapse value and shortens the tine for measurement. Therefore, the outlier determination method based on the simplified orthogonal distance is more practical than the robust principal component analysis.

Keyword: Near infrared; Outlier; Orthogonal distance; Robust principal component; Collapse value

引 言

近红外光谱具有检测速度快、 可多种组分同时检测以及无需预处理等优点, 已被广泛应用在农业、 化工等领域[1, 2]。 同时, 由于近红外光对体液和皮肤组织具有良好的穿透性, 故而其非常适用于临床检测[3]。 目前, 近红外光谱法以其穿透皮肤的深度较深、 信号强度较大、 仪器设备成本相对较低等优点, 成为了人体血糖浓度无创测量研究领域最有前景的方法之一。

对样品进行近红外光谱测量时, 光谱中包含了样品各个组分含量的信息。 由于光谱仪光源存在波动, 检测器存在噪声等原因, 光谱数据包含一定的干扰。 光源波动与检测器热噪声等都具有随机性, 使得全波段下测量的多元数据成为一个随机向量。 如果随机噪声与有用信号相比较小, 则当样品中待测成分含量改变时, 光谱数据依然会在整体上有着确定的变化趋势, 借助合适的化学计量学方法便可以实现对组分含量较为精确的测量。 但是, 除了测量过程中的随机噪声以外, 干扰组分含量的变化、 实验条件的改变以及测量仪器自身的系统误差等确定性噪声同样会影响到测量的准确性。 确定性噪声造成的光谱数据变异虽然存在一定的规律性, 但其信号强度可能很大。 当确定性噪声的强度与待测成分变化引起的有用信号强度相当或者确定性噪声强度更大时, 光谱数据就会包含大量的干扰信息, 以致形成异常光谱, 从而导致错误的分析结果。 因此, 异常光谱的判断成为了利用近红外光谱法进行无创血糖测量中必不可少的环节。

目前, 关于近红外光谱中异常光谱的判断, 大多使用马氏距离或者杠杆值等统计参数来检测样品浓度是否超出了正常浓度范围, 或者通过光谱残差来检测样品光谱是否含有未知组分的变异信息[4]。 Li等[5]利用近红外光谱对痰热清注射液中总有机碳量和可溶性固形物含量进行分析时, 通过对样品光谱的马氏距离进行Q值检验以及杠杆值诊断来判断异常光谱以提高模型精度。 Cardenas等[6]利用近红外漫反射光谱研究药品中西替利嗪的含量时, 以光谱得分与光谱残差建立模型空间, 并使用霍特林检验和Q值检验确定异常光谱。 Shen等[7]在对小麦秸秆与豆油的近红外光谱定量分析时, 以杠杆值、 光谱残差和浓度残差建立三维坐标系进行异常光谱判断, 效果明显优于马氏距离法和霍特林检验法。

除了传统的基于马氏距离、 杠杆值和光谱残差等指标的异常光谱判断方法外, 也出现了关于异常光谱判断的新研究方向。 郝建明等[8]通过遗传算法的优化搜索确定马氏距离的阈值, 实现了异常光谱的自适应剔除。 李纪鑫等[9]对猪肉中水分、 蛋白质、 脂肪物质含量进行近红外光谱测定时采用免疫克隆选择算法识别异常光谱, 提高了模型预测精准度和稳健性。 无论采用何种指标衡量数据的异常程度, 都可应用稳健分析来消除掩蔽效应和淹没效应, 提高异常光谱判断准确率[10]。 Engel等[11]利用基于投影追踪和极小协方差行列式的稳健主成分分析(robust principal components analysis, ROBPCA)方法判断不同种类啤酒的异常光谱。 李庆波等将稳健校正方法应用在人体无创血糖检测领域, 利用可变权重的偏稳健M回归判断葡萄糖样品近红外光谱数据中的异常光谱。 然而, 稳健算法是通过数据自身特性以及数据之间的关系来确定数据集主体的位置和分布情况, 因此要求正常数据要超过数据集的50%。 同时, 稳健算法在实际应用中的效果会随数据总量的降低以及数据集中异常值比例的增加而变差。

基于此, 首先分析了基于正交距离的稳健主成分分析法判断异常光谱的原理和局限性, 在此基础上, 提出了一种基于简化正交距离的异常光谱判断方法, 直接测量高浓度样本的光谱作为第一稳健主成分的估计值, 再通过对同一样品的重复测量在小样本情况下估计出正交距离的统计参数来快速识别异常光谱。 最后, 开展了糖水和含糖2%Intralipid仿体溶液近红外透射实验, 采集了正常条件下和受温度影响下的光谱, 并基于上述两种方法进行了异常光谱的判别。

1 理论分析

与一维数据相比, 高维数据比较复杂抽象, 一般通过主成分分析使其简化。 无论是经典主成分分析还是稳健主成分分析, 都试图在高维空间中找到一个能反映数据变异主体的低维子空间, 达到提取信息和降维的目的。 通常, 将数据到其在主成分子空间的投影(即得分)的距离称之为正交距离(orthogonal distance, OD), 将得分到数据中心的距离称为得分距离(score distance, SD)。 一般来说, 正常的光谱具有较小的正交距离和得分距离, 而正交异常光谱具有较大的正交距离和较小的得分距离。 如果光谱数据正交距离小而得分距离大, 则为好杠杆点; 正交距离和得分距离都大则为坏杠杆点。 好杠杆点有时也被归为异常光谱, 但其所包含的信息仍然符合待测物质变异信息的规律, 只是数据杠杆值较大, 引起此类异常光谱的原因大多为配样误差或者记录错误等。 而实际的近红外异常光谱主要由实验条件变化、 干扰组分影响以及仪器系统误差所导致, 也就对应了具有异常正交距离的正交异常光谱和坏杠杆点。 因此, 我们可以利用正交距离表征数据的特异性, 分析其统计特性来进行异常光谱的判断。

以葡萄糖为分析对象, 当待测样品中只有葡萄糖浓度变化时, 可以认为第一主成分对应了葡萄糖的浓度变异信息, 其余主成分是由噪声所致, 光谱数据到第一主成分子空间的正交距离反映了其异常程度。 假设光谱数据共含有m个波长, 对一待测样品和参考样品进行测量, 则待测样品相对于参考样品的吸光度变化量为一个m维列向量x。 若参考样品的浓度与待测样品相同, 在各个波长的测量结果相互独立的前提下, x应服从期望为0的多维正态分布[12]。 再设第一主成分对应直线的方向向量为p=[p1, p2, …, pm]T , 则光谱x的正交距离表达式为

OD=up-x(1)

其中, ‖ · ‖ 表示欧几里得范数, x为某一数据, u为数据的稳健平均值, p为上述方向向量。

根据Hubert等的研究, 式(1)中正交距离的2/3次方近似服从正态分布[13]。 由此可得, 当待测样品浓度与参考样品浓度一致时, 吸光度变化量的正交距离的2/3次方近似服从正态分布。 而葡萄糖浓度的变化只影响光谱数据在第一主成分对应直线上的投影位置, 不影响正交距离的分布。 因此, 可以认为待测样品的全波段吸光度变化量光谱对第一主成分的正交距离的2/3次方近似服从正态分布。

基于投影追踪和极小协方差行列式的稳健主成分分析由Hubert提出[13]。 通过稳健主成分分析获得葡萄糖浓度变化的主成分信息, 便可利用上述正交距离统计规律对异常光谱进行判断, 这就是基于正交距离的稳健主成分分析法的基本思路。 该方法要求测量的样品数较多, 测量所需时间较长, 而过长的测量时间很可能会导致实验环境的变化或者仪器的漂移, 使得校正集中出现较多异常光谱。 光谱数据集中异常光谱所占比例超过一半时, 分析结果就会变得不稳定。 为了在预测集全部为异常数据的情况下仍然能够较为准确地获得葡萄糖的主成分, 应保证校正集样品数目两倍于预测集样品数目。 同时, 该方法所能抵御的最高异常值比例(即崩溃值)需要预先设定, 通常不能超过50%。

为了能在较短时间内利用较少的测量次数确定正常光谱的范围, 可以直接测量含糖样品的光谱作为第一稳健主成分的估计值, 再通过对同一样品的重复测量在小样本情况下估计出正交距离的统计参数, 从而实现对异常光谱的判断。 这便是基于简化正交距离的异常光谱判断方法的基本思路。 以葡萄糖水溶液为例, 具体判断步骤如下:

(1) 分别测量无糖样品与某一含糖样品的光谱, 并分别计算其与相应的参考样品的吸光度变化量, 将两吸光度变化量光谱作差后的结果作为第一主成分对应直线的方向向量, 即葡萄糖主成分的估计值。 含糖样品的浓度选择要适中, 浓度偏小会使得仪器随机误差的影响较大, 浓度偏大则可能造成朗伯-比尔定律中的线性关系不再成立。 可利用校正集浓度最大的样品或者实际应用中可能测到的浓度最大的样品来估计葡萄糖的主成分。

(2) 连续测量多次(如5次)无糖样品, 计算其到第一主成分子空间的正交距离, 并利用最小协方差行列式法确定测量数据的稳健均值与方差, 再结合一定置信度下t-分布确定正交距离的截断值。

(3)计算所测得光谱数据到第(1)步中确定的第一主成分子空间的正交距离, 若正交距离大于第(2)步中的截断值, 则将该光谱判断为异常光谱。

2 实验部分

实验均采用课题组自行研制的基于声光可调谐滤光器分光的近红外光谱检测系统, 系统示意图如图1所示。 该系统由AOTF分光系统、 光纤、 样品箱以及信号采集电路等部分组成。 光源功率为100 W, 采用两个半导体制冷的InGaAs光电检测器检测光谱信号, 样品池为光程1 mm的石英样品池。

图1 近红外光谱检测系统示意图Fig.1 Schematic diagram of NIR spectra measuring system

实验所用样品为葡萄糖水溶液以及仿体溶液。 糖水溶液实验中, 样品中葡萄糖的浓度为0~4 000 mg· dL-1, 浓度间隔为400 mg· dL-1, 共11个样品。 样品均采用分析纯葡萄糖粉末与去离子水配置。 仿体溶液实验采用不同葡萄糖浓度的2%Intralipid溶液, 葡萄糖浓度范围和间隔与糖水溶液一致。

糖水溶液实验中, 利用双光路方法在1 100~1 700 nm中的50个波长下进行测量。 测量每个样品时, 先测纯水(参考样品)透射光强作为参考光强, 再测待测样品透射光强, 连续测量5次取平均值作为透射光强数据。 按照随机顺序对11个样品进行测量, 共测量两组。 两组测量中, 在待测样品于样品池中温度稳定后记录透射光强, 获得未受干扰的对照组数据, 共22个。 第一组测量得到的11个对照组数据用于建模, 第二组测量得到的对照组数据用于预测, 以验证用于建模的对照组数据是否真正未受到其他因素干扰。 在第一组测量中, 以热电偶温度计测得样品刚刚注入样品池时, 其温度比稳定后的温度高0.5~1 ℃, 因此记录样品刚刚注入样品池后的双光路透射光强, 可获得一组受温度影响的异常组数据, 共11个。 最后利用透射光强数据计算待测样品相对于纯水的吸光度变化量(简记为Δ A), 进行偏最小二乘建模以及异常光谱判断。 吸光度变化量的计算公式为

ΔA=-lnIgIw(2)

其中, Δ A表示吸光度变化量, Ig为葡萄糖水溶液的透射光强, Iw为纯水的透射光强。 仿体溶液实验流程与糖水溶液实验相同, 不再赘述。

3 异常光谱判断
3.1 糖水溶液的异常光谱判断

糖水溶液实验中得到的对照组与异常组的吸光度变化量光谱如图2所示。 为了清晰起见, 对照组只画出了建模部分的光谱。 从图2可以看出, 对照组中各条光谱随着浓度变化呈现出阶梯型变化。 而异常组数据的吸光度的变化和对应样品浓度的变化相关性很弱。

图2 糖水样品吸光度变化量
(a): 对照组; (b): 异常组
Fig.2 Absorbance difference of glucose aqueous solutions
(a): Control group; (b): Abnormal group

将糖水溶液实验中第一组与第二组测量得到的各11个对照组吸光度变化量光谱分别组成对照组建模部分和对照组预测部分。 利用对照组建模部分建立偏最小二乘模型, 分别预测对照组预测部分和异常组的光谱数据, 验证数据异常情况。 对照组建模部分校正均方根误差为40.75 mg· dL-1, 预测部分预测均方根误差为31.34 mg· dL-1, 数据误差水平相当, 可认为对照组数据所受到的外界干扰很小。 而受到温度影响的异常组数据集预测均方根误差为195.66 mg· dL-1, 明显高于正常数据, 可以推断异常组数据中葡萄糖的变异信息受到了干扰。

对对照组与异常组共33个数据使用基于正交距离的稳健主成分分析法进行异常光谱的判断, 异常光谱约占33.3%, 所占比例不超过50%。 图3(a)和(b)分别为置信度97.5%下, 崩溃值设定为40%与25%时的异常值图。 图中平行于横轴的虚线为置信水平为97.5%的单侧置信区间上限。 从图中可以看出, 当崩溃值设定为40%时, 对照组中有一个数据被错判, 错判率为4.5%, 异常组数据均被准确识别, 无漏判现象。 而崩溃值设定为25%时, 对照组数据均被准确识别, 无错判现象, 异常组中有六个数据被漏判, 漏判率为54.5%。

图3 基于正交距离的稳健主成分分析法对糖水实验中异常光谱的判断结果
(a): 崩溃值40%; (b): 崩溃值25%
3.2 仿体溶液实验的异常光谱判断
Fig.3 Outliers determination results for glucose aqueous solutions by the method based on orthogonal distance and robust principal component analysis using the collapse value of (a) 40% and (b) 25%

利用简化正交距离法进行异常光谱判断时, 不需要预先设定崩溃值, 选择对照组建模部分中糖浓度为0与4 000 mg· dL-1样品吸光度变化量的差作为计算正交距离时直线的方向向量, 利用五个纯水吸光度变化量到该直线的正交距离估计其期望及方差。 以置信水平为97.5%的正交距离作为单侧置信区间上限, 异常光谱判断结果如图4所示。 从图4可以看出, 对照组中有一个数据被错判, 错判率为4.5%, 异常组数据均被准确识别, 无漏判现象。

图4 简化正交距离法对糖水实验中异常光谱的判断结果Fig.4 Outliers determination results for glucose aqueous solutions by the method based on the simplified orthogonal distance

仿体溶液实验中得到的对照组与异常组的吸光度变化量光谱如图5所示。 为了清晰起见, 对照组只画出了建模部分的光谱。 从图5可以看出, 对照组数据依然呈现出与浓度的相关性, 但异常组数据(尤其在浓度较大时)光谱形状和正常数据的差异不太大。 因此, 很难直接将受到影响的光谱分辨出来。

图5 仿体溶液样品吸光度变化量
(a): 对照组; (b): 异常组
Fig.5 Absorbance difference of 2% Intralipid solutions
(a): Control group; (b): Abnormal group

采用与糖水溶液实验相同的建模方案对仿体溶液光谱数据进行分析。 对照组建模部分校正均方根误差为38.01 mg· dL-1, 预测均方根误差为67.02 mg· dL-1, 数据误差水平相当。 而受到温度影响的异常组数据集预测均方根误差为

444.47 mg· dL-1, 明显高于对照组的误差水平。 因此, 可认为对照组数据所受到的外界干扰很小, 异常组数据中葡萄糖的变异信息被强烈干扰。

对对照组与异常组共33个数据采用基于正交距离的稳健主成分分析法进行异常光谱的判断, 异常光谱约占33.3%, 所占比例不超过50%。 图6(a)和(b)分别为置信度97.5%下, 崩溃值设定为40%与25%时的异常值图。 与糖水溶液判断结果类似, 当崩溃值设定为40%时, 对照组中有一个数据被错判, 错判率为4.5%, 异常组数据均被准确识别, 无漏判现象。 而崩溃值设定为25%时, 对照组无错判现象, 异常组中有8个数据被漏判, 漏判率为72.7%。

图6 基于正交距离的稳健主成分分析法对仿体实验中异常光谱的判断结果
(a): 崩溃值40%; (b): 崩溃值25%
Fig.6 Outliers determination results for 2% Intralipid solutions by the method based on orthogonal distance and robust principal component analysis using the collapse value of (a) 40% and (b) 25%

利用简化正交距离法判断仿体溶液实验中的异常光谱, 与糖水溶液实验类似, 选择对照组建模部分中糖浓度为0与4 000 mg· dL-1样品的吸光度变化量的差作为计算正交距离时直线的方向向量, 利用五个无糖2%Intralipid溶液样品的吸光度变化量到该直线的正交距离估计其期望及方差。 以置信水平为97.5%的正交距离作为单侧置信区间上限, 异常光谱判断结果如图7所示。 从图中可以看出, 对照组中有两个数据被错判, 错判率为9.1%, 异常组光谱均能被正确识别, 无漏判现象。

图7 简化正交距离法对仿体实验中异常光谱的判断结果Fig.7 Outliers determination results for 2% Intralipid solutions by the method based on the simplified orthogonal distance

从实验结果可以看出, 基于正交距离的稳健主成分分析法在设置合适崩溃值时和简化正交距离法均能正确识别出实验中受温度影响的异常光谱, 因此在一定程度上两种方法都是有效的。 两种方法对糖水溶液和仿体溶液实验中的对照组数据都存在错判现象。 但是对于个别数据的误判, 不能将其原因全部归结为方法的错误。 对于异常数据的判断, 本来就会存在一定的取伪或者弃真的概率, 这种错误是不能避免的。 另一方面, 即便在控制实验环境, 仪器系统误差以及其他组分干扰的情况下, 出现异常数据也是有可能的, 这并不影响两种方法的有效性。

4 结 论

分析了基于正交距离的稳健主成分分析法判断异常光谱的原理和局限性, 提出了一种基于简化正交距离的异常光谱判断方法, 实现了近红外光谱分析中异常光谱的快速、 准确判断, 提高了近红外光谱分析的可靠性。 并以葡萄糖水溶液和含糖2%Intralipid仿体溶液的近红外透射光谱为对象, 利用上述两种方法分别对受到温度影响的异常光谱数据进行了判断, 并对判断结果进行了分析。 以置信水平为97.5%的正交距离作为单侧置信区间上限进行异常光谱的判断, 对于基于正交距离的稳健主成分分析法, 当崩溃值设定为40%时, 糖水溶液和仿体溶液实验中的异常光谱均能被正确识别, 无漏判现象; 而崩溃值设定为25%时, 对糖水溶液和仿体溶液实验中异常光谱的漏判率分别为54.5%和72.7%。 对于简化正交距离法, 糖水溶液和仿体溶液实验中的异常光谱均能被正确识别, 无漏判现象。 结果表明, 基于正交距离的稳健主成分分析法和简化正交距离法都能在一定程度上准确识别出光谱数据集中的异常光谱。 但是基于正交距离的稳健主成分分析法的有效性依赖于光谱数据集中异常光谱所占比例及对其的预判, 而简化正交距离法则不受异常光谱数量与崩溃值等因素的限制, 且测量持续时间较短, 可以降低测量条件改变对光谱特异性表征的潜在影响, 相比于前者有着显著的优势。

The authors have declared that no competing interests exist.

参考文献
[1] TIAN Xiang, LIU Si-chen, WANG Hai-gang, et al(田翔, 刘思辰, 王海岗, ). Food Science(食品科学), 2017, 38(16): 1. [本文引用:1]
[2] Mclauchlin A R, Ghita O, Gahkani A. Polymer Testing, 2014, 38(18): 46. [本文引用:1]
[3] Yadav J, Rani A, Singh V, et al. Biomedical Signal Processing & Control, 2015, 18: 214. [本文引用:1]
[4] CHU Xiao-li(褚小立). Molecular Spectroscopy Analytical Technology Combined with Chemometrics and Its Applications(化学计量学方法与分子光谱分析技术). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2011. 89. [本文引用:1]
[5] Li W, Qu H. Chemometrics & Intelligent Laboratory Systems, 2016, 152: 140. [本文引用:1]
[6] Cárdenas V, Cordobés M, Blanco M, et al. Journal of Pharmaceutical & Biomedical Analysis, 2015, 114: 28. [本文引用:1]
[7] Shen W, Kong Q, Wang J, et al. Mathematical Problems in Engineering, 2015, 2015(5): 1. [本文引用:1]
[8] HAO Jian-ming, LI Zong-nan, XIE Jing(郝建明, 李宗南, 谢 静). Journal of Huazhong Agricultural University(华中农业大学学报), 2014, 33(5): 135. [本文引用:1]
[9] YU Fan, LI Ji-xin(于 帆, 李纪鑫). Journal of Xi’an Technological University(西安工业大学学报), 2014, 34(1): 38. [本文引用:1]
[10] Li Z, Xu G, Wang J, et al. Chinese Journal of Analytical Chemistry, 2016, 44(2): 305. [本文引用:1]
[11] Engel J, Blanchet L, Buydens L M C, et al. Talanta, 2012, 99: 426. [本文引用:1]
[12] ZHANG Li-zhuo(张立卓). College Mathematics(大学数学), 2014, 30(2): 94. [本文引用:1]
[13] Hubert M, Rousseeuw P J, Brand en K V. Technometrics, 2010, 47(1): 64. [本文引用:2]