一种基于变量稳定性和可信度的紫外-可见特征波长选择方法
孙涛, 阳春华, 朱红求*, 李勇刚, 陈俊名
中南大学自动化学院, 湖南 长沙 410083
*通讯联系人 e-mail: hqcsu@csu.edu.cn

作者简介: 孙 涛, 1994年生, 中南大学自动化学院硕士研究生 e-mail: ssunttao@csu.edu.cn

摘要

针对多组分金属离子混合溶液的紫外-可见吸收光谱(UV-Vis)重叠严重、 难以分离的问题, 提出了一种基于稳定性和可信度偏最小二乘法(SCPLS)的特征波长选择方法。 在SCPLS中, 引入指数衰减函数(EDF)以迭代的方式对波长变量进行选择。 在每次迭代中对蒙特卡罗采样所得到的数据集建模, 计算各波长变量的稳定性和可信度指标, 并通过EDF选择具有较高稳定性和可信度的变量, 选择的变量作为新的变量集进入下一次变量选择迭代。 迭代全部完成后, 计算每一次迭代所选的变量集建模的交叉验证均方根误差(RMSECV), 选择RMSECV最小的变量集作为波长变量选择的结果。 利用Zn(Ⅱ), Cu(Ⅱ) 和Co(Ⅱ)混合溶液的紫外-可见光谱数据集和Zn(Ⅱ)和Co(Ⅱ)混合溶液的紫外-可见光谱数据集对所提方法性能进行了验证, 并与全波段偏最小二乘、 移动窗口偏最小二乘法(MWPLS)、 蒙特卡罗无信息变量消除方法 (MC-UVE)、 竞争性自适应加权算法 (CARS)和稳定性竞争自适应加权算法(SCARS)进行了比较分析。 结果表明: 该方法不仅能降低波长选择的复杂度, 还能在保证波长选择过程稳定的情况下, 选出对模型重要的波长变量, 较之其他方法所提出的方法选取的变量建立的模型RMSECV最小, 对于Zn(Ⅱ), Cu(Ⅱ) 和Co(Ⅱ)数据集, 使用SCPLS方法得到的Zn(Ⅱ), Cu(Ⅱ)和Co(Ⅱ)的RMSECV值分别比全光谱PLS下降60.5%, 40.2%和31.8%, 与SCARS相比分别下降29.8%, 26.1%和0.8%, Zn(Ⅱ), Cu(Ⅱ)和Co(Ⅱ)平均相对误差分别为2.14%, 1.25%和0.74%, 其中Zn(Ⅱ)的最大相对误差为4.67%, Cu(Ⅱ)的最大相对误差为3.99%, Co(Ⅱ)的最大相对误差为3.12%; 对于Zn(Ⅱ)和Co(Ⅱ)数据集, 使用SCPLS方法得到的Zn(Ⅱ)和Co(Ⅱ)的RMSECV值分别比全光谱PLS下降39.4%和24.9%, 与SCARS相比分别下降35.3%和13.3%, Zn(Ⅱ)和Co(Ⅱ)平均相对误差分别为1.23%, 1.10%, 其中Zn(Ⅱ)的最大相对误差为4.45%, Co(Ⅱ)的最大相对误差为4.57%, 有效提高光谱建模精度。

关键词: 波长选择; 稳定性; 可信度; 紫外-可见光谱
中图分类号:O433.4 文献标志码:A
A Wavelength Selection Method of UV-Vis Based on Variable Stability and Credibility
SUN Tao, YANG Chun-hua, ZHU Hong-qiu*, LI Yong-gang, CHEN Jun-ming
School of Automation, Central South University, Changsha 410083, China
*Corresponding author
Abstract

This paper proposes a wavelength selection method based on stability and credibility partial least squares (SCPLS), to solve the problem that the ultraviolet visible (UV-Vis) spectra of multi-metal ion mixture solution were seriously overlapped and difficult to separate. In SCPLS, an exponentially decreasing function (EDF) is applied to select the variables in an iterative manner. In each iteration, a series of models are built with the sub-datasets sampled using the Monte Carlo strategy. Then, the stability and credibility of each variable are calculated, and the variables with high stability and credibility are selected by the EDF. Subsequently, the selected variables are used to construct a new variable subset for the next iteration. After the selection iterations are terminated, the root mean square error of cross validation (RMSECV) of each subset is calculated. The variable subset with the minimum RMSECV value is considered to be the optimal variable subset. The performance of SCPLS is evaluated with UV-Vis Spectral data set of Zn(Ⅱ), Cu(Ⅱ) and Co(Ⅱ) mixture solution and UV-Vis Spectral data set of Zn(Ⅱ) and Co(Ⅱ) mixture solution, and compared with that of full spectrum partial least squares (PLS) modeling and the moving window PLS (MWPLS), Monte Carlo uninformative variable elimination (MC-UVE), competitive adaptive reweighted sampling (CARS) and stability competitive adaptive reweighted sampling (SCARS) methods. The results show that SCPLS can not only reduce the complexity of the wavelength selection, but also ensure the stability of the wavelength selection process. And it can select the subset with the minimum RMSECV value. Thus, the RMSECV of Zn(Ⅱ), Cu(Ⅱ) and Co(Ⅱ) models obtained by SCPLS are 60.5%, 40.2% and 31.8% respectively lower than that of full spectrum PLS, and 29.8%, 26.1% and 0.8% respectively lower than that of SCARS. The average relative error of Zn(Ⅱ), Cu(Ⅱ) and Co(Ⅱ) is 2.14%, 1.25% and 0.74% respectively, of which the maximum relative error of Zn(Ⅱ) is 4.67%, the maximum relative error of Cu(Ⅱ) is 3.99%, and the maximum relative error of Co(Ⅱ) is 3.12%. And the RMSECV of Zn(Ⅱ) and Co(Ⅱ) models obtained by SCPLS are 39.4% and 24.9% respectively lower than that of full spectrum PLS, and 35.3% and 13.3% respectively lower than that of SCARS. The average relative error of Zn(Ⅱ) and Co(Ⅱ) are 1.23% and 1.10% respectively, of which the maximum relative error of Zn(Ⅱ) is 4.45% and the maximum relative error of Co(Ⅱ) is 4.57%. The proposed method can efficiently improve modeling accuracy.

Keyword: Wavelength selection; Stability; Credibility; UV-Visible spectrophotometer
引 言

紫外可见分光光度法(UV-Vis)[1]是一种广泛应用于金属离子浓度检测的方法, 具有操作简单、 准确度高、 重现性好、 测量方便等特点。 该方法通常联合多元分析方法对全波段数据进行建模, 分离计算多金属离子的浓度, 实现复杂混合样品中多金属离子浓度同时检测[2]。 然而, 当各金属离子吸收光谱互相干扰和重叠严重时, 传统的全波段多元分析建模方法存在很大的误差及大量冗余信息, 导致模型精度低且实时性差。 因此, 如何选择有效的特征波长变量参与建模具有重要意义。

目前, 大量国内外学者对波长选择方法进行了相关研究, 提出了更可靠、 更精确的模型。 其中一些方法基于模型性能的统计量来评价变量, 如区间偏最小二乘法(IPLS)[3]和移动窗口偏最小二乘法(MWPLS)[4]。 其他的方法是根据变量的统计特性, 如相关系数和信噪比等, 这种方法包括无信息变量消除(UVE)[5], 蒙特卡罗无信息变量消除方法(MC-UVE)[6]和竞争性自适应加权算法(CARS)[7]等。 蒙特卡罗无信息变量消除方法(MC-UVE)将蒙特卡罗采样应用于UVE, 以降低过拟合的风险, 从而获得更好的结果。 竞争性自适应加权算法(CARS)以回归系数的绝对值大小作为衡量指标对光谱数据进行变量筛选。 基于CARS的稳定性竞争自适应加权算法(SCARS)[8]以变量的稳定性作为衡量指标, 延续了CARS方法的变量选择流程。 但在光谱重叠严重的情况下, 前一类方法是对变量区间进行选择的, 并未针对性地选择特征变量, 选择过程中通常会出现特征波长变量多选或漏选的情况[9]; 后一类方法单独对每一个波长进行抽样[10]选择, 但抽样过程随机性大, 导致变量指标计算不准确, 影响特征波长变量的选择结果。

为了克服上述波长选择方法的不足, 提出了一种新的波长选择方法, 即基于稳定性和可信度偏最小二乘法(stability and credibility partial least squares, SCPLS)。 首先根据稳定性选取贡献较大的变量, 然后应用可信度指标从高稳定性变量中选择更可信的变量(对模型性能影响较大的变量)。 SCPLS应用EDF以迭代的方式筛选变量, 以避免信息不丰富的变量产生误导性结果。 通过交叉验证[11]评价用子集建立模型的性能。 以最小的RMSECV值的变量子集被认为是最佳变量子集。 为了测试SCPLS的性能, 将该方法应用于两个UV-Vis数据集, 即来自Zn(Ⅱ ), Cu(Ⅱ ) 和Co(Ⅱ )混合溶液的数据集和Zn(Ⅱ )和Co(Ⅱ )混合溶液的数据集。 与MWPLS, MCUVE, CARS和SCAR方法相比, 用SCPLS方法选取的变量建立的模型达到了最小RMSECV。

1 实验部分

矩阵Xn× p为所测样本的光谱吸光度矩阵, n为混合溶液样本数, p为波长变量数; 矩阵yn× m表示浓度矩阵, n为混合溶液样本数, m为组分数。 在建模过程中, Xn× pyn× m都是以均值为中心, 在PLS模型中, β p× mEn× m分别定义为回归系数矩阵和误差矩阵, 浓度矩阵yn× m可以描述为

yn×m=Xn×pβp×m+En×m(1)

以稳定性和可信度作为评价变量重要性的指标, 先用稳定性来选择对y贡献较大的变量, 然后根据可信度选取对模型性能影响较大的变量。 通过交叉验证来评价模型的性能, 降低了过拟合风险。

1.1 基于蒙特卡罗采样的变量稳定性定义

蒙特卡罗采样是从多个角度对数据集进行评估, 因此可以减少过拟合的风险。 采用蒙特卡罗采样法从数据集中随机抽取k个样本(通常占数据集的80%~90%)建立PLS回归模型并计算相应的回归系数矩阵, 经过M次采样后可得到一个回归系数矩阵BM× p([b1, b2, …, bj, …, bp]), 并计算第j个波长变量的稳定性值为

sj=|b̅j|1Mi=1M(bij-b̅j)2(2)

其中, sj表示M次采样后第j个变量的稳定性值, bij是第i次蒙特卡罗采样中第j个变量的回归系数, b̅jM次采样后第j个变量回归系数的平均值。 从式(2)可以看出, | b̅j|值越大, 标准偏差越小, 表明该变量的稳定性值越大, 重要性越强。

1.2 基于后向选择的可信度定义

计算当前变量集剔除某个变量后模型性能的变化, 分析每个变量对模型性能的可信程度, 则采用一种后向选择方法。 该方法每执行一次都会从初始数据集中删除一个变量, 形成一个新的数据集, 并使用该数据集生成一个新模型。 以第j个变量为例, 分别计算当前变量集的校正均方根误差(root mean square error of calibration, RMSEC)RMSEC0和当前变量集剔除第j个变量后的校正均方根误差RMSECj。 与RMSEC0相比, RMSECj变小表明新模型的性能有所提高, 意味着第j个变量对模型性能有负面影响。 第j个变量的可信度定义为rj

rj=RMSECj-RMSEC0(3)

1.3 基于EDF的变量保留率

变量的性能相互影响, 尚未淘汰的冗余变量可能会误导变量的选择。 因此通过迭代选择变量更为可靠。 模型随变量的选择而变化, 变量的稳定性和可信度也随每次迭代发生变化。 每一次迭代变量消除率并不相同。 最初, 变量集包含许多信息不丰富和不重要的变量, 这些波长点将被迅速消除, 这是一个“ 粗略选择” 阶段。 然后, 随着信息不足和不重要变量的减少, 消除速度会减慢, 因为如果波长点仍然被迅速消除, 关键变量可能会被错误地消除。 这一阶段称为“ 精选” 。 为了实现这两阶段变量的选择, 使用指数衰减函数(EDF)强制消除变量。 Ri被定义为第i次迭代时的变量保留率。 其中, ak为第1次和第N次循环时样本集中建模数目, 为遍历所有变量, 第N次设为2个变量, 所以R1=1; RN=2/p, 在以上条件下, Ri可以表示为

Ri=ae-ki(4)

参数ak表示为

a=p21N-1k=ln(p/2)N-1(5)

1.4 SCPLS波长选择方法

SCPLS以稳定性和可信度作为评价变量重要性的指标, 该方法通过交叉验证来评价模型的性能, 降低了过拟合的风险。 SCPLS算法具体步骤如下:

Step1: 设定循环次数初始值i=1;

Step2: 对数据集进行蒙特卡罗采样建立M个模型;

Step3: 计算第i次迭代的变量保留率Ri;

Step4: 依据回归系数计算各波长变量的稳定性指标, 剔除稳定性低的变量, 选择对浓度矩阵y贡献较大的变量;

Step5: 计算每个波长变量的可信度, 并利用EDF选择可信度高的变量, 把所选定的变量作为下一次迭代的新子集; 循环次数i=i+1;

Step6: 若iN, 依次执行Step2, Step3, Step4, Step5; 若i=N+1, 执行Step7;

Step7: 经过N次循环, 获得N个变量子集, 分别用这N个变量子集建立偏最小二乘(PLS)模型, 计算各模型的RMSECV, 并选取RMSECV最小的变量集作为最优变量集。

1.5 数据集

在两个真实数据集上进行测试Zn(Ⅱ ), Cu(Ⅱ ) 和Co(Ⅱ )混合溶液的紫外-可见光谱数据集和Zn(Ⅱ )和Co(Ⅱ )混合溶液的紫外-可见光谱数据集。

1.5.1 UV-Vis数据集1

UV-Vis数据集1使用北京普析T9紫外可见分光光度仪获得。 该数据集含有27个Zn(Ⅱ ), Cu(Ⅱ )和Co(Ⅱ )混合溶液样品的紫外-可见光谱数据, 在400~700 nm范围内, 间隔1.0 nm测量并打印各点的吸光度。 混合溶液中Zn(Ⅱ ), Cu(Ⅱ ) 和Co(Ⅱ )的浓度范围是0.1~1.0 mg· L-1, 用2-(5-溴-2-吡啶偶氮)-5-二乙氨基苯酚(5-Br-PADAP)溶液作为显色剂。 吸光度矩阵X包含27个样品在301个波长点(400~700 nm)的吸光度。 浓度矩阵分别为yZn, yCuyCo。 该数据集的原始紫外-可见光谱如图1所示。

图1 数据集1的原始紫外-可见光谱Fig.1 The original UV-Vis spectra of dataset 1

1.5.2 UV-Vis数据集2

UV-Vis数据集2采用与UV-Vis数据集1相同的方法获得。 该数据集含有80个Zn(Ⅱ )和Co(Ⅱ )混合溶液样品的紫外-可见光谱数据。

混合溶液中Zn(Ⅱ )和Co(Ⅱ )的浓度范围分别为0.5~4.0和0.25~2.50 mg· L-1, 用二甲酚橙溶液作为显色剂。 吸光度矩阵X包含80个样品在301个波长点(400~700 nm)的吸光度。 浓度矩阵分别为yZnyCo。 该数据集的原始紫外-可见光谱如图2所示。

图2 数据集2的原始紫外-可见光谱Fig.2 The original UV-Vis spectra of dataset 2

2 结果与讨论
2.1 参数的影响

SCPLS方法的性能受以下3个参数的影响: 蒙特卡罗采样率, 蒙特卡罗采样数和迭代次数, 分别表示为R, MN。 为了分析R, MN对SCPLS性能的影响, 采用了一系列不同的R, M, N的值对SCPLS的性能进行了测试: M范围设置为50~300, 间隔为50并且R=0.9, N=100; R的范围设置为0.8~0.9, 间隔为0.025并且M=100, N=100; N设置为10~200, 并且R=0.9, M=100。 UV-Vis数据集1中Zn(Ⅱ )的三个参数的箱形图如图3所示。

图3 UV-Vis数据集1中Zn(Ⅱ )的R (a), M (b)和N (c)的箱形图Fig.3 The box-plots of R (a), M (b) and N (c) for Zn(Ⅱ ) in UV-Vis dataset 1

从图3中可以看出, 在UV-Vis数据集1中, Zn(Ⅱ )的最佳蒙特卡罗采样率R和采样数M分别为0.825和50, 并且迭代次数N的最佳范围为100~200。

2.2 UV-Vis数据集1

分析Zn(Ⅱ )的波长变量选择过程, 并采用留一交叉验证方法对模型性能进行评价。 RMSECV的变化趋势和所选变量的数量如图4所示。

图4 RMSECV值的变化趋势(a)和Zn(Ⅱ )的所选变量数(b)Fig.4 The change trend of the RMSECV values (a) and number of selected variables for Zn(Ⅱ ) (b)

图4(a)表明RMSECV的值在开始时(迭代1~35次)明显下降, 是因为消除了最不重要的变量。 然后, RMSECV值的下降(迭代35~58次)是由于消除率较低和被淘汰变量的重要性增加所致。 在RMSECV到达最低点(迭代58次)后, 继续迭代则会消除关键变量, 因此RMSECV值开始增加(迭代58~100)。 在所有迭代完成之后, 选择具有最小RMSECV值的子集作为最优子集。 图4(b)表明变量的数量先是迅速减少, 然后随着迭代次数的增加而减慢, 这两个阶段被认为是“ 粗略选择” 和“ 细化选择” 阶段。

为了进一步评估SCPLS方法的性能, 在同一数据集上应用了几种常用的变量选择方法, 即MWPLS, MCUVE, CARS和SCARS, 所选波长结果如图5(a, b, c)所示。

图5 5种不同方法对UV-Vis数据集1中Zn(Ⅱ )的波长选择性能的比较
(a): RMSEC较小; (b): MCUVE法稳定性较高; (c): 各方法比较
Fig.5 Comparison of wavelengths selected by five different methods for Zn(Ⅱ ) of UV-Vis dataset 1
(a): MWPLS method for smaller RMSEC; (b): MCUVE method for more slability; (c): Comparision results of wavelength selection of each method

图5(a)表明用MWPLS(窗口大小为15)筛选出较小RMSEC的波长区域为505~519和527~583 nm, 图5(b)表明用MCUVE筛选出较高稳定性的波长区域为430~456, 476~501, 521~524, 535~554和556~580 nm。 在图5(c)中可以看到与MWPLS和MCUVE相比, CARS, SCARS和SCPLS会优先选择离散波长变量。 尽管这5种波长选择方法筛选出一些相同的波长点, 但是它们仍有许多不同之处。 MCUVE没有选择稳定性的局部峰461~471 nm, 相反, 使用CARS, SCARS和SCPLS从该区域中选择了几个波长点, 表明这些方法以迭代方式可以更好地选择潜在变量。 并且通过CARS, SCARS和SCPLS选择的波长点也不相同。 MWPLS选中波长区域505~510和527~533 nm, SCPLS在该区域选中3个波长点, 但MCUVE, CARS和SCARS在该区域没有选中波长点。 这是因为MWPLS和SCPLS都以变量对模型性能的影响为标准进行选择的。

同样, 在UV-Vis数据集1中, SCPLS对Cu(Ⅱ )和Co(Ⅱ )的波长选择性能也与MWPLS, MCUVE, CARS和SCARS进行了比较, 结果如图6(a— f)所示。

图6 5种不同方法对UV-Vis数据集1中Cu(Ⅱ )(a— c)和Co(Ⅱ )(d— f)波长选择性能的比较Fig.6 Comparison of wavelengths selected by five different methods for Cu(Ⅱ ) (a— c) and Co(Ⅱ ) (d— f) of UV-Vis dataset 1

从图6(c)中可以看出CARS, SCARS和SCPLS比MWPLS和MCUVE选择的变量少。 SCPLS在515~530和570~580 nm波段的波长选择与MWPLS, MCUVE, CARS或SCARS方法的选择相似, 但是SCPLS选择的波长比CARS和SCARS所选择的波长要少。 在图6(f)中, CARS, SCARS和SCPLS的波长选择差异更大。 SCPLS在RMSEC的局部槽或稳定性的局部峰中选择了许多其他方法没有选择的波长点, 例如400~475和515~520 nm波段。 这个结果反映了SCPLS具有更好地选择潜在变量的能力。

表1展示了使用全光谱PLS, MWPLS, MCUVE, CARS, SCARS和SCPLS的RMSECV值、 潜在变量数以及选定变量数。 与全光谱PLS相比, 波长选择方法选择较少的变量, 并获得较小的RMSECV值。 在所有方法中, SCPLS获得最小的RMSECV值, 并且使用SCPLS得到的潜在变量数和选择的变量数与CARS和SCARS相似。 此外, 使用SCPLS方法得到的Zn(Ⅱ ), Cu(Ⅱ )和Co(Ⅱ )的RMSECV值分别比全光谱PLS下降60.5%, 40.2%和31.8%, 与SCARS相比分别下降29.8%, 26.1%和0.8%。

表1 UV-Vis数据集1的6种方法的性能结果 Table 1 Results of six methods of variable selection for UV-Vis dataset 1

UV-Vis数据集1经SCPLS建模后样本浓度预测值和实际值之间的散点图如图7所示, Zn(Ⅱ ), Cu(Ⅱ )和Co(Ⅱ )平均相对误差分别为2.14%, 1.25%和0.74%, 其中Zn(Ⅱ )的最大相对误差为4.67%, Cu(Ⅱ )的最大相对误差为3.99%, Co(Ⅱ )的最大相对误差为3.12%, 该方法检测精度较高, 效果较理想。

图7 实际值与预测值的散点图
(a): Zn(Ⅱ ); (b): Cu(Ⅱ ); (c): Co(Ⅱ )
Fig.7 Scatter diagram of actual value and predicted
(a): Zn(Ⅱ ); (b): Cu(Ⅱ ); (c): Co(Ⅱ )

2.3 UV-Vis数据集2

将SCPLS方法应用于UV-Vis数据集2, 与UV-Vis数据集1相似, 也对三个参数进行了优化。 对于UV-Vis数据集2中的Zn(Ⅱ ), R, MN分别设为0.9, 50和150; 对于UV-Vis数据集2中的Co(Ⅱ ), R, MN分别设为0.9, 250和100。 采用十折交叉验证RMSECV对模型性能进行了评价。

图8显示了五种方法(MWPLS, MCUVE, CARS, SCARS和SCPLS)对UV-Vis数据集2的波长选择情况。 许多变量既被SCPLS选择, 也被CARS或SCARS选择, 但是仍有许多不同。 例如, 在图8(c)中, SCPLS在420~450 nm波段范围内选择了三个波长点, 其中一个在稳定性的局部峰和一个在RMSEC的局部槽, 而其他方法则没有选择。

图8 5种不同方法对UV-Vis数据集2中Zn(Ⅱ )(a— c)和Co(Ⅱ )(d— f)波长选择性能的比较Fig.8 Comparison of wavelengths selected by five different methods for Zn(Ⅱ ) (a— c) and Co(Ⅱ ) (d— f) of UV-Vis dataset 2

表2展示了使用六种方法的RMSECV值、 潜在变量数以及选定变量数。 波长选择方法的RMSECV值都小于全光谱PLS方法的RMSECV值。 与UV-Vis数据集1的结果相比, 使用MWPLS的结果要好于使用MCUVE, CARS和SCARS方法的结果, 这表明基于模型统计性能评价变量的选择方法要比基于此数据集中的变量属性评价变量的选择方法有更好的性能。 SCPLS是基于变量稳定性和可信度来评价变量的, 该方法得到了所有方法的最小RMSECV值。 并且使用SCPLS方法得到的Zn(Ⅱ )和Co(Ⅱ )的RMSECV值分别比全光谱PLS下降39.4%和24.9%, 与SCARS相比分别下降35.3%和13.3%。

表2 UV-Vis数据集2的6种方法的性能结果 Table 2 The results of six methods of variable selection for UV-Vis dataset 2

UV-Vis数据集2经SCPLS建模后样本浓度预测值和实际值之间的散点图如图9所示, Zn(Ⅱ )和Co(Ⅱ )平均相对误差分别为1.23%, 1.10%, 其中Zn(Ⅱ )的最大相对误差为4.45%, Co(Ⅱ )的最大相对误差为4.57%, 该方法检测精度较高, 效果较理想。

图9 实际值与预测值的散点图
(a): Zn(Ⅱ ); (b): Co(Ⅱ )
Fig.9 Scatter diagram of actual value and predicted
(a): Zn(Ⅱ ); (b): Co(Ⅱ )

3 结 论

针对多组分金属离子混合溶液的紫外-可见吸收光谱重叠难以解析分离的问题, 提出了一种紫外-可见特征波长选择方法, 该方法基于稳定性和可信度来选择贡献大、 噪声低、 对模型有积极影响的变量。 以迭代的方式选择光谱波长; 然后, 选择的变量作为新的变量集进入下一次迭代进行变量选择。 模型性能最好的子集(最小RMSECV)被认为是最优子集。 用两种紫外-可见光(UV-Vis)数据集对SCPLS的性能进行了测试, 结果表明SCPLS选择的潜在变量数和波长数比MWPLS和MCUVE少, 与使用CARS和SCARS获得的潜在变量数和波长数相近。 SCPLS有效增强了波长变量选择方法对变量重要性的评估能力, 所选择的波长变量建立的模型性能得到有效提高, 并得到了所有方法中最小的RMSECV值, 为复杂光谱波长变量选择提供了一种新方法。

参考文献
[1] TANG Bin, WEI Biao, MAO Ben-jiang, et al(汤斌, 魏彪, 毛本将, ). Laser & Optoelectronics Progress, 2014, 51(4): 043002. [本文引用:1]
[2] Zhu Hongqiu, Wang Guowei, Yang Chunhua, et al. Transactions of Nonferrous Metals Society of China, 2013, 23(7): 2181. [本文引用:1]
[3] Suhand y D, Yulia M, Ogawa Y, et al. Engineering in Agriculture, Environment and Food, 2013, 6(3): 111. [本文引用:1]
[4] Chen H Z, Pan T, Chen J M, et al. Chemometrics and Intelligent Laboratory Systems, 2011, 107(1): 139. [本文引用:1]
[5] Brusco Michael J. Computational Statistics & Data Analysis, 2014, 77: 38. [本文引用:1]
[6] Xu Deng, Fan Wei, Lv Huiying, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2014, 123: 430. [本文引用:1]
[7] Liu S S, Zhang J, Lin S H, et al. Laser & Optoelectronics Progress, 2018, 55(2): 023001. [本文引用:1]
[8] Rahman A, Kondo N, Ogawa Y, et al. Biosystems Engineering, 2016, 141: 12. [本文引用:1]
[9] WANG Yu-tian, YANG Zhe, HOU Pei-guo, et al(王玉田, 杨哲, 侯培国, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(7): 2144. [本文引用:1]
[10] ZHU Hong-qiu, CHEN Jun-ming, YIN Dong-hang, et al(朱红求, 陈俊名, 尹冬航, ). Journal of Chemical Industry and Engineering(化工学报), 2017, (3): 206. [本文引用:1]
[11] Zhang Bo, Sun Lanxiang, Yu Haibin, et al. Spectrochimica Acta Part B, 2015, 107(1): 32. [本文引用:1]