可见-近红外光谱的模型转移分类方法
李雪莹1,2,3,4, 范萍萍1,3,4,*, 侯广利1,3,4, 邱慧敏1,3,4, 吕红敏1,3,4
1.齐鲁工业大学(山东省科学院)海洋仪器仪表研究所, 山东 青岛 266061
2.中国石油大学(华东) 地球科学与技术学院, 山东 青岛 266580
3.山东省海洋环境监测技术重点实验室, 山东 青岛 266061
4.国家海洋监测设备工程技术研究中心, 山东 青岛 266061
*通讯作者 e-mail: fanpp_sdioi@126.com

作者简介: 李雪莹, 女, 1990年生, 齐鲁工业大学(山东省科学院)海洋仪器仪表研究所助理研究员 e-mail: 412973984@qq.com

摘要

基于光谱技术建立的多元校正模型通常条件下只适用于同一台仪器、 相同的测试条件及同批次或同类别的样品。 在仪器、 测试环境、 样品发生变化后, 已建光谱模型不再适配, 需要进行模型转移。 模型转移是限制光谱技术推广应用的关键技术瓶颈, 模型转移是否成功直接影响到可见-近红外光谱技术的推广应用, 为此, 综述了其研究现状, 并探讨了其未来发展方向。 首先, 将模型转移问题分成了两类: 第一类是相同样品在不同仪器或不同测试环境(不同温度/不同湿度)等条件下产生的模型不适配问题; 第二类是不同批次、 不同物理形态、 不同种类间产生的模型不适配问题。 这两类问题性质不同, 解决第一类模型转移, 能够保证同源样品的准确性和稳定性; 解决第二类, 能够实现光谱模型在不同样品间的自动传递和匹配应用。 然后, 梳理了常用的模型转移算法并进行了分类, 包括模型更新、 基于光谱校正算法、 基于结果校正算法等, 并列举了每个类别的模型转移算法的应用。 模型更新是一种重新计算模型系数最直接的方法, 通过扩展和调整模型来满足新的变化; 基于光谱校正算法是通过算法计算转移矩阵, 实现对光谱的校正; 基于结果校正算法是通过算法计算预测结果和实际结果系数, 从而实现预测结果的校正。 最后, 指出未来应着重研究第二类模型转移问题, 并且要寻找能够实现机器自动校正的模型转移, 从根本上解决模型转移这一限制光谱速测应用的主要技术瓶颈。

关键词: 光谱技术; 模型转移; 定量分析模型; 化学计量学
中图分类号:O657.3 文献标志码:R
A Review of Calibration Transfer Based on Spectral Technology
LI Xue-ying1,2,3,4, FAN Ping-ping1,3,4,*, HOU Guang-li1,3,4, QIU Hui-min1,3,4, LÜ Hong-min1,3,4
1. Institute of Oceanographic Instrumentation, Qilu University of Technology (Shandong Academy of Sciences), Qingdao 266061, China
2. School of Geosciences, China University of Petroleum (Huadong), Qingdao 266580, China
3. Shandong Provincial Key Laboratory of Ocean Environmental Monitoring Technology, Qingdao 266061, China
4. National Engineering and Technological Research Center of Marine Monitoring Equipment, Qingdao 266061, China
*Corresponding author
Abstract

Generally, the multivariate calibration model based on spectroscopy is only for the same instrument, the same test conditions and the same batch or similar samples. However, with the increasing demand for spectral application, the problem that different samples cannot share the spectral model has become the fundamental technical bottleneck limiting spectral technology application. In the visible near-infrared spectrum analysis, after the change of the instrument, the test environment and the sample, the established spectral model is no longer suitable. So the model transfer is needed to solve this kind of problem. The model transfer is the key technology bottleneck to limit the application of spectral technology. Therefore, this paper summarizes the current research situation and discusses future development direction. First of all, the model transfer problem is divided into two categories: the first is the model mismatch of the same sample under different instruments or different test environments, called the first type of model transfer; the second is the model mismatch between different samples, called the second type of model transfer. These two kinds of problems are different in nature. To solve the first type of model transfer can ensure the accuracy and stability of homologous samples. And to solve the second type can realize the automatic transfer and matching application of spectral model between different products. Then, the commonly used model transfer algorithms are sorted and classified, including model updating, spectrum based correction algorithm, result based correction algorithm, and the application of each category of model transfer algorithm is listed. Model updating is the most direct method for recalculating model coefficients, which can meet the new changes by expanding and adjusting the model. Spectrum based correction algorithm is based on the calculation of the transfer matrix to achieve spectral correction. Result based correction algorithm is based on the calculation of pre-test results and actual results coefficients, so as to achieve the correction of prediction results. Finally, it is pointed out that the second type of model transfer should be studied in the future, especially the automatic model transfer by machine, so as to realize the real spectral velocity measurement.

Keyword: Spectroscopy technology; Model transfer; Quantitative analysis model; Chemometrics
引言

可见-近红外光谱技术具有快速、 无损、 实时分析、 操作简单、 无需样品预处理等特点[1], 已广泛应用于多个领域[2]。 但是, 通常情况下, 光谱模型适用的范围较小, 仅限于与建模样品同源的样品。 一旦测试条件或样品发生变化, 已建光谱模型便不再适配。 当在某一台光谱仪上建立的模型用于另一台光谱仪时, 光谱仪硬件发生了变化, 如光源更换、 仪器老化等; 测试条件, 如温度、 环境也发生了变化; 若直接采用原模型预测不同样品, 结果会产生较大偏差; 模型转移就是用于解决这类问题[3]

模型转移的本质是解决样品在不同仪器上或在不同环境下测得光谱之间的差异性, 以及不同样品间实现同源性的偏差[6]。 最直接的解决途径就是重新建立分析模型, 但这是一件繁复而艰巨的工作, 费时耗力, 费用高; 而依赖化学计量学方法, 开发出多种模型转移算法, 能够快速、 方便解决这一类问题, 因此模型转移是否成功直接影响到可见-近红外光谱技术的推广应用。 在实际应用中, 实现模型转移仍然需要研究人员进行各种参数的调整和尝试, 根据实际问题采用不同的算法来解决模型转移问题。

模型转移问题可分为两类, 第一类是相同样品在不同测试条件下产生的模型不适配问题; 第二类是不同样品间产生的模型不适配问题。 这两类问题性质不同, 解决第一类模型转移, 能够保证同源样品的准确性和稳定性; 而解决第二类, 能够实现光谱模型在不同样品间的自动传递和匹配应用。

已有研究大部分是针对第一类模型转移问题, 小部分解决第二类模型转移问题, 开发了大量模型转移算法。 在此对这些算法进行梳理, 分成模型更新、 基于光谱校正算法、 基于结果校正算法三类。 通过分析这些算法, 以期研究更多适用于解决第二类模型转移的算法, 攻克限制光谱技术应用的关键技术瓶颈, 真正实现光谱速测。

1 模型转移问题分类

基于光谱建立的多元校正模型通常条件下只针对于同一台仪器、 相同的测试条件及同批次或同类别的样品。 随着不断提高的光谱应用需求, 不同样品间无法共享光谱模型成为限制光谱技术应用的根本技术瓶颈。 模型转移问题主要分为两类: 第一类模型转移问题和第二类模型转移问题。

1.1 第一类模型转移

第一类模型转移是相同样品在不同仪器或不同测试环境等条件下产生的模型不适配, 如在不同的仪器、 不同环境温度等情况下测定同一样品的光谱数据[4]。 相关研究主要以不同仪器之间的模型转移为主, 不同仪器主要指不同品牌、 不同原理的光谱仪。 以某一系列的光谱仪的精度校准为例, 以其中一个标准光谱仪为参考, 通过模型转移算法消除其他光谱仪与标准光谱仪之间的测量差异[3]。 两个仪器间的模型转移和多个仪器间的模型转移本质是一样的, 区别在于采用一个标准光谱仪对一个仪器还是多个仪器解决模型不适配问题。

还有部分研究以解决不同温度/湿度产生的模型转移。 通过校准不同温度/湿度条件下的光谱差异, 实现相同样品在不同测试环境下的模型传递。

1.1.1 不同仪器的模型转移

不同仪器主要指不同品牌、 不同原理的光谱仪, 设模型效果好的一个光谱仪为主仪器, 待模型转移的光谱仪为从仪器, 从仪器可为一个, 也可为多个, 通过模型转移算法消除仪器之间测量值的差异。

针对两种仪器之间进行模型转移, Xiao等[5]采用benchtop-Fourier变换(VECTOR 22/N)和便携式光栅扫描(SupNIR-1500)两种光谱仪实现模型传递。 Yahaya等[7]比较不同光谱仪(美国海洋光学的QE65000光谱仪和Jaz光谱仪, 美国ASD公司的FieldSpec 3光谱仪)的模型转移效果。 Yang等[8]对台式光谱仪、 便携式光谱仪和手持式光谱仪之间的校准传递进行了研究。

1.1.2 不同温度/湿度下的模型转移

采用同一仪器在不同温度/湿度下下测量的光谱也会有所差异, 为了能够消除温度/湿度下对光谱建模的影响, 同样需要模型转移来解决该类问题。

针对不同温度之间模型转移问题。 陈韵等采用模型转移算法对近红外光谱不同温度下溶液浓度进行修正。 以利用溶液中溶剂的光谱温度特性对样品光谱进行校正的方法。 Fernandez等[9]为解决温度差异导致气体传感器模型无法转移应用的问题, 采用四种抵消温度改变对气体传感器预测影响。 针对不同湿度之间模型转移问题。 陈奕云等通过DS算法, 建立不同湿地土壤与烘干土的光谱转换关系, 从而实现对不同湿地土壤的有机质测定的校正。

1.2 第二类模型转移

第二类模型转移是不同样品间产生的模式不适配, 如使用同一仪器、 在相同的环境温度下测试不同的样品。 相关研究主要针对不同批次、 不同物理形态、 不同种类(主要指不同区域或不同品种的样本)等的样品, 通过模型转移消除其对光谱模型的影响。 由于不同批次、 不同物理形态或不同种类的样品差距较大, 第二类模型转移较为复杂, 可能包括不同样品在相同测试条件下的模型转移, 也可能包括不同样品在不同测试条件下的模型转移, 因此相较于第一类模型转移, 第二类模型转移的解决更困难, 相关研究也比较少。 这两类模型转移的性质不同。 解决第一类模型转移, 能够保证同源样品的准确性和稳定性, 同时为第二类模型转移提供方法基础。 解决第二类, 能够解决光谱模型在不同样品间的自动传递和匹配应用, 真正实现光谱速测。

针对不同批次样品的模型转移问题。 Wang等[10]针对不同批次的金银花萃取液光谱模型的模型转移。 在不同种类样品的模型转移问题上。 Qiao等[11]采用模型更新、 直接标准化和斜率/偏差校正对不同品种鸭肉的总挥发性碱氮含量进行模型转移。 对于不同物理形态样品的模型转移问题。 Pereira等[12]采用双窗口分段直接标准化(DWPDS)实现近红外光谱药物粉末模型不同物理形式的同一样品光谱之间的模型转移。 Li等[13]以土壤的可见-近红外光谱为例, 探讨了两种不同类型土壤总碳、 总氮含量之间的校准传递。

2 模型转移算法

第一类模型转移中, 通常设置一个主样本和一个/多个从样本, 建立主从样本之间的转移矩阵, 实现模型转移过程。 在此根据转移矩阵作用的对象进行分类, 分为模型更新、 基于光谱校正算法、 基于结果校正算法。

2.1 模型更新

模型更新是一种重新计算模型系数最直接的方法, 通过扩展和调整模型来满足新的变化。 模型更新中一种简单的方法是添加部分待测样品的标准样品于原有样品中, 重新建立模型, 实现对待测样品的预测[14]。 将从样本标准集光谱数据和从样本实测物质含量值Ys加入原有样品模型modelold中, 采用PLSR等方法, 建立新的定量模型modelnew。 将从样本未知样品光谱数据Xs, p代入新模型modelnew中, 即可得到其预测的物质浓度值。

模型更新具有一定的效果, 但是由于模型更新添加的新样本需要数量足够且具有代表性, 因此模型更新的作用有限, 为此, 人们在此基础上对模型更新进行了改进。 Xie等[15]提出了一种基于半监督学习的模型更新策略, 对未知蚕蛹的雌雄分类。 一些学者提出了Tikhonov正规化(TR)模型转移方法、 基于聚类算法模型更新等方法。 除此之外, 还有在特征光谱上进行改进。 陈令奕等提出了一种基于特征波段的黄酒近红外光谱检测总酸模型递归更新方法。 Chen等提出了一种基于实时波长选择的模型更新算法。

2.2 基于光谱校正

模型转移中, 基于光谱信号校正的方法主要有直接校正法(direct standardization, DS)、 分段直接校正法(piecewise direct standardization, PDS)、 典型相关分析算法(canonical correlation analysis, CCA)等。

2.2.1 DS算法和PDS算法

DS和PDS算法是最常用的模型转移算法, 其本质是通过主样本标准集光谱数据Xm和从样本标准集光谱数据Xs计算两者之间的转移矩阵F, 即Xm=Xs· F, 通过转移矩阵对未知样品的光谱数据进行转化, 实现仪器之间、 不同环境下的模型转移。 DS通过全波长光谱建立转移矩阵[3], 而PDS是在DS的基础上进行的改进, 选取一部分窗口数据来计算转移矩阵[16]

丁柯等采用DS算法和PDS算法, 实现了蛋白饲料原料粗蛋白含量在三台不同类型的近红外光谱仪之间的模型转移。 还有一些研究是在采用DS和PDS算法的基础上, 结合光谱波段筛选或其他预处理等进行改进。 一些学者提出了波长筛选结合直接校正法(WSDS)、 小波多尺度分段直接校正法(WMPDS)、 标准正态变换法结合PDS算法、 小波变换-分段直接校正法(WT-PDS)等算法。

2.2.2 CCA算法

典型相关分析(CCA)是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。 其基本原理是: 为了从总体上把握两组指标之间的相关关系, 分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合), 利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性[17]。 CCA算法的本质也是通过计算主从样本之间的转移矩阵。 郑开逸等[17]以甲苯、 氯苯和正庚烷混和三组分体系为研究对象, 应用CCA算法对不同仪器和不同测量时间导致的近红外光谱之间的差异进行模型转移, 效果优于PDS算法。 Lu等利用PDS、 谱空间变换(SST)和CCA分别研究不同仪器间的植物样品的近红外光谱模型转移。

2.2.3 光谱预处理算法

采用光谱预处理方法进行模型转移, 该方法通常与其他算法进行联用来解决实际问题, 光谱预处理方法如正交信号校正(orthogonal signal correction, OSC)、 独立分量分析(independent component analysis, ICA)、 标准正态变量校正(standard normal variate, SNV)。 正交信号校正是光谱预处理一种算法, 其基本思想是利用数学上正交的办法, 将原始光谱矩阵中与待测品质不相关的部分信息滤除。 在模型转移中, OSC算法通对光谱矩阵中的变量进行过滤, 以除去光谱矩阵与待测品质无关的部分。 Wang等[10]建立金银花萃取液中API含量的近红外光谱模型时, 提出了直接正交信号校正与斜率和偏差校正相结合算法(DOSC-SBC)。 Liu等[18]提出了一种基于独立分量分析(ICA)的多光谱校准传递方法, 能够较好的解决多台仪器间的模型传递。 黄承伟等采用标准正态变换的分段直接校正方法(SNV-PDS)应用于不同拉曼光谱仪器间的模型传递。

2.3 基于结果校正

模型转移中基于预测结果校正的方法主要有斜率/截距校正法(slope/bias correction, S/B)、 线性插值算法(linear interpolation, LI)等。 基于结果校正方法多与基于光谱校正联用来解决模型转移问题。

2.3.1 S/B算法

S/B是基于结果校正最常用的方法, 通过主从样本的标准集预测值和实测值建立线性拟合, 求解其参数斜率(Slope)和截距(Bias), 再将待测样品代入这个线性式中, 求得校正后的结果。 通过将从样本标准集光谱数据代入主样本建立的模型中, 得到实测值Ys, p与从样本标准集实测值Ys, t, 采用一元线性回归方程进行拟合, 方程如: Ys, t=Slope× Ys, p+Bias。 然后以残差平方和最小为原则, 用最小二乘法求解线性方程, 得到Slope和Bias。 再利用上述方程对待测样品预测结果进行修正。 Qiao等[11]为实现不同品种鸭肉的总挥发性碱氮模型的适用性, 采用模型更新、 直接标准化和S/B进行模型转移, 结果表明S/B效果最好。

S/B是一种单变量方法, 它不能处理波长移动和仪器强度变化之间的复杂相互作用[19], 适用于校正线性强度变化。 当测量过程或测量条件发生一些复杂的变化时, 该方法可能预测结果会出现不准确的问题。 为此, 一些学者对传统的S/B进行改进, 在线性拟合、 偏最小二乘法求参数的基础上, 引入其他算法, 从而实现解决非线性问题。

2.3.2 LI算法

线性插值(LI)算法是针对一维数据的插值方法, 它根据一维数据序列中需要插值的点的左右邻近两个数据点来进行数值的估计。 在模型转移中, 常把LI用于模型中物质含量的结果校正, 常与其他算法联合使用[17]。 Xiao等[5]采用PDS-LI, 实现了不同近红外光谱仪间的葡萄可溶性固形物含量较好的模型转移。

2.3.3 Shenk’ s算法

Shenk’ s算法是基于波长校正和吸光度校正同时联用的一种方法[16]。 Shenk’ s算法是一种需要标样的模型转移算法, 因此, 标样的选取极其重要, 标样数太少, 会导致波长和吸光度校正系数包含的转换信息不充分, 标样数太多, 实际应用不方便。 相较于DS和PDS, Shenk’ s利用某波长点小窗口范围的光谱数据来计算该波长的校正参数, 可以避免过校正现象。 陈斌等采用Shenk’ s解决了白酒酒精度近红外光谱分析模型在不同仪器间的模型转移。

3 讨论

以上方法主要是针对第一类模型转移问题开发的, 但为第二类模型转移问题的解决提供了有效参考。 已有模型转移都需要设立主从样本, 利用主样本和一部分从样本重新建立新的光谱模型, 从而较好的保证从样本的预测准确度。 这意味着, 在用主样本的光谱模型之前, 需要先了解从样本, 即需要测定一部分代表性的从样本的化学及其光谱数据, 而前者是个繁琐耗时的过程。 因此, 已有的模型转移并未实现真正意义上的速测。 如何实现机器自动校准将是未来的发展方向。 这里, FIR算法(finite impulse response, FIR)是一个较好的代表。 FIR是采用有限脉冲响应滤波, 完成主从样本间的光谱矩阵转移, 其目标光谱常以源机校正模型光谱阵的平均值代替, 是一种无标算法[16]。 但是FIR算法也有其局限性, 未来还将进一步对无标模型转移算法进行研究。

4 结论

基于光谱法建立定量模型已被国内外大量研究, 并成功应用于多个领域。 不同仪器之间、 测量条件的改变, 不同样品种类之间都会使原有模型不适用, 因此需要对已有的光谱模型进行科学/规律变化才能被有效使用, 即模型转移。 目前模型转移的研究主要以不同仪器之间为主, 其次是不同测量条件下的, 这两类称之为第一类模型转移问题; 针对不同样品间的模型转移问题, 即第二类模型转移问题, 研究较少。 这两类问题性质不同, 第Ⅰ 类较为浅显, 第Ⅱ 类更为本质。 解决第一类模型转移, 能够保证同源样品的准确性和稳定性; 解决第二类, 能够实现光谱模型在不同样品间的自动传递和匹配应用。 目前已有的第二类模型转移的算法是由第一类模型转移算法借鉴或引申而来, 在解决第二类模型转移问题时有一定的局限性, 未来应研究更加适合第二类模型转移的新算法, 并且要寻找能够实现机器自动校准的模型转移, 从根本上解决限制光谱速测应用的主要技术瓶颈, 即两类模型转移问题。

参考文献
[1] Guo Y, Ni Y, Kokot S. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2015, 153: 79. [本文引用:1]
[2] Li X Y, Fan P P, Liu Y, et al. Journal of Applied Spectroscopy, 2019, 86(4): 765. [本文引用:1]
[3] CHU Xiao-li, XU Yu-peng, LU Wan-zhen(褚小立, 许育鹏, 陆婉珍). Chinese Journal of Analytical Chemistry(分析化学), 2008, 36(5): 702. [本文引用:3]
[4] ZHANG Jin, CAI Wen-sheng, SHAO Xue-guang(张进, 蔡文生, 邵学广). Progress in Chemistry(化学进展), 2017, 29(8): 902. [本文引用:1]
[5] Xiao H, Sun K, Sun Y, et al. Sensors, 2017, 17(11): e2818. [本文引用:2]
[6] Andries E. Journal of Chemometrics, 2017, 31(4): si. [本文引用:1]
[7] Yahaya O K M, MatJafri M Z, Aziz A A, et al. Journal of Instrumentation, 2015, 10(5): T05002. [本文引用:1]
[8] Yang J X, Lou X P, Yang H Q, et al. Analytical Letters, 2019, 52(14): 2188. [本文引用:1]
[9] Fernand ez L, Guney S, Gutierrez-Galvez A, et al. Sensors and Actuators B: Chemical, 2016, 231: 276. [本文引用:1]
[10] Wang A D, Yang P, Chen J, et al. Infrared Physics & Technology, 2019, 103: 103046. [本文引用:2]
[11] Qiao L, Lu B, Dong J, et al. Spectroscopy Letters, 2020, 53(1): 44. [本文引用:2]
[12] Pereira L S A, Carneiro M F, Botelho B G, et al. Talanta, 2016, 147: 351. [本文引用:1]
[13] Li X Y, Liu Y, Lv M R, et al. Journal of Spectroscopy, 2018, 2018: 8513215. [本文引用:1]
[14] Wu Y, Jin Y, Li Y, et al. Vib. Spectrosc. , 2012, 58: 109. [本文引用:1]
[15] Xie L, Yang Z, Tao D, et al. Spectroscopy Letter, 2019, 52(10): 642(doi: 101080/003870102019. 1681463). [本文引用:1]
[16] CHU Xiao-li, YUAN Hong-fu, LU Wan-zhen, et al(褚小立, 袁洪福, 陆婉珍, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2001, 20(6): 146. [本文引用:3]
[17] ZHENG Kai-yi, FAN Wei, WU Ting, et al(郑开逸, 范伟, 吴婷, ). Computers and Applied Chemistry(计算机与应用化学), 2013, 30(3): 246. [本文引用:3]
[18] Liu Y, Xu H, Xia Z Z, et al. Analyst, 2018, 143(5): 1274. [本文引用:1]
[19] Noord O E D. Chemometrics and Intelligent Laboratory Systems, 1994, 25(2): 85. [本文引用:1]