近红外光谱Elastic Net建模方法与应用
郑年年, 栾小丽*, 刘飞
江南大学自动化研究所, 轻工过程先进控制教育部重点实验室, 江苏 无锡 214122
*通讯联系人 e-mail: xlluan@jiangnan.edu.cn

作者简介: 郑年年, 1997年生, 江南大学自动化研究所轻工过程先进控制教育部重点实验室硕士研究生 e-mail: 1379924290@qq.com

摘要

当近红外光谱信息远大于样本量时, 对光谱信息进行自动变量选择进而建立光谱与样品含量的稀疏线性模型重要且具有挑战性。 利用近红外光谱, 将变量选择方法Elastic Net用于聚苯醚生产过程中微量成分邻甲酚的测量, 建立近红外光谱与邻甲酚含量之间的定量校正模型, 并将其模型预测效果与Lasso方法进行对比。 在变量数目远远大于样本量的情形下, Lasso方法虽可实现变量选择, 但由于对系数的过度压缩, 使得模型的预测精度受到影响, 而Elastic Net通过增加L2惩罚项避免了过多删失数据, 可以提高模型预测精度。 为了验证Elastic Net方法的模型性能指标, 用复相关系数 R2和调整的复相关系数Ra2来评价模型的可解释性, 利用平均相对预测误差MRPE(mean relative prediction error)和预测相关系数Rp来评价模型的预测精度。 Lasso方法建立的模型性能指标为: R2=0.94,Ra2=0.93, MRPE=4.51%, Rp=0.96; Elastic Net方法的性能指标为: R2=0.97,Ra2=1, MRPE=3.25%, Rp=0.98。 结果表明, Elastic Net所建立模型的性能指标优于Lasso方法, 可以得到可解释性较强和预测精度较高的稀疏线性模型。

关键词: 近红外光谱; Elastic Net; Lasso; 可解释性; 预测精度
中图分类号:O657.3 文献标志码:A
Elastic Net Modeling for Near Infrared Spectroscopy
ZHENG Nian-nian, LUAN Xiao-li*, LIU Fei
Key Laboratory for Advanced Process Control of Light Industry of Ministry of Education, Institute of Automation, Jiangnan University, Wuxi 214122, China
*Corresponding author
Abstract

It is important and challenging to select the variable for the spectral information automatically and establish a sparse linear model between the spectrum and the sample content under the circumstance that the near-infrared spectral information is much larger than the sample size. In this paper, Elastic Net was used for the measurement of o-cresol in the polyphenylene ether by utilizing the near infrared spectroscopy and a quantitative calibration model between near infrared spectroscopy and o-cresol content was established. Then, the model prediction effect is compared with the Lasso method. In the case where the number of variables is much larger than that of the samples. Although Lasso method can achieve variable selection, the prediction accuracy of the model is affected due to excessive compression to variable coefficients. Elastic Net avoids excessive censorship by increasing L2 penalty, which can improve model prediction accuracy. In order to verifymodel performance indicators ofElastic Net method, we use the complex correlation coefficient R2 and the adjusted complex correlation coefficientRa2 to evaluate the interpretability of the model, meanwhile, the prediction accuracy of the model is evaluated by using the mean relative prediction error MRPE and the prediction correlation coefficient Rp. Lasso method to establish the model performance indicators are: R2=0.94,Ra2=0.93, MRPE=4.51%, Rp=0.96; Elastic Net method performance indicators are: R2=0.97,Ra2=1, MRPE=3.25%, Rp=0.98. From the result we could draw the conclusion that Elastic Net’s model is better than Lasso method. A sparse linear model with higher interpretability and high prediction accuracy can be obtained by the Elastic Net regression.

Keyword: Near infrared spectroscopy; Elastic Net; Lasso; Interpretable; Prediction accuracy
引 言

近红外光谱(near infrared spectroscopy, NIRS)是一种快速、 高效、 无损、 适合过程在线分析的技术, 在诸多领域, 如石油化工、 农业、 医药、 食品等得到了广泛应用[1, 2]。 在近红外光谱与样品质指标之间建立一个稳健的线性模型对近红外光谱定量分析十分重要。 常见的建模方法有偏最小二乘法(PLS)[3]和主成分回归(PCR)[4]。 由于光谱信息量(待选自变量数目)远远大于样本量(采样次数), 为了降低模型复杂度, 对光谱信息进行变量选择(剔除无效信息、 保留对样品品质指标有显著影响的变量)格外重要。 PLS和PCR虽然在自变量数目大于样本量的情形下取得了不错的回归效果, 但其拟合出的线性模型用到了所有的自变量, 不能进行变量选择从而建立近红外光谱的特征稀疏模型。

近年来, Lasso(least absolute shrinkage and selection operator)由于能够同时实现变量选择和参数估计, 在多元统计和回归建模领域越来越多地得到人们的重视[6, 13]。 该方法通过对自变量系数的绝对值进行惩罚使一些不重要系数自动缩减为零, 从而得到涉及自变量数目较少但具有较好解释性的线性模型。 但是由于Lasso方法对所有的自变量系数进行相同程度的压缩, 因此可能得到过于稀疏的模型, 导致其预测性能有所下降。 为了解决这个问题, Elastic Net回归方法作为对Lasso的改进于2004年被Hui Zou和 Trevor Hastie提出[5], 该方法对自变量系数的绝对值及其平方同时进行惩罚, 既能够得到解释性较好的稀疏线性模型, 又避免了“ 过压缩” 带来的重要变量丢失问题, 从而提高了模型的预测精度[13]

针对聚苯醚生产过程中微量成分邻甲酚难以检测的问题, 在光谱信息量远远大于样本量的背景下, 建立了近红外光谱与邻甲酚含量之间的定量校正模型, 并分析比较了Lasso和Elastic Net两种回归方法的模型评价指标。 实验表明Elastic Net方法的模型可解释性要强于Lasso方法, 且其模型预测精度也要优于Lasso。

1 Lasso和Elastic Net近红外建模原理

X=(X1, X2, …Xp)∈ Rn× p为自变量(解释变量)矩阵, YRn× 1为因变量(响应变量), 因变量Yp个自变量之间的线性模型如下[13]

Y=β0+β1X1+β2X2++βpXp+ε(1)

其中Y=[ y1y2yn]T, Xj=[ x1jx2jxnj]T, j=1, 2, …, p, β 0为常数项, β 1, β 2, …, β p为回归系数, ε =[〗 ε1ε2εn]T为随机误差项。 假设自变量测量值xij已经经过中心归一化处理, 即

1ni=1nxij=0i=1nxij2=1(2)

在线性模型中, 常数项的估计 β̂0= Y̅, 不失一般性, 假设对因变量观测值也进行中心化处理, 即

1ni=1nyi=0(3)

则常数项估计值 β˙0=0, 此时线性模型可以表示为

Y=+ε(4)

其中β =[ β1β2βn]T

1.1 Lasso建模

Lasso的基本思想是在回归系数的绝对值之和小于调整参数的约束条件下, 使残差平方和最小, 从而可以将某些不重要自变量的回归系数收缩为零。 Lasso可以看作是在最小二乘估计的基础上对回归系数进行非线性约束, 因此该方法可以同时进行变量选择和参数估计。

针对线性模型(4), Lasso回归系数可以表示为

β̂lasso(λ)=argβminSSE+λj=1pβj(5)

其中SSE代表残差平方和

SSE=i=1nyi-j=1pxijβj2(6)

式(5)也可等价的表示为

β̂lasso(λ)=argβminSSE+λj=1pβjsubjecttoj=1pβjt(7)

其中t≥ 0是约束值, 调整参数λ 的选取和t有关。 采用循环坐标下降算法对Lasso进行变量选择, 同时采用交叉验证法选取最优调整参数[7, 9]

1.2 Elastic Net建模

虽然Lasso方法可以同时进行变量选择和参数估计, 并且在样本容量n大于待选自变量数目p时取得了不错的效果, 但也存在以下缺点: 当待选自变量数目p远远大于样本容量n时, Lasso方法对所有自变量系数进行相同程度的压缩, 最终选出解释变量的数目至多为n, 虽然此时的线性稀疏模型具有解释能力, 但由于过度压缩造成重要自变量丢失将大大降低模型的预测精度。 Elastic Net回归作为对Lasso方法的改进, 很好的解决了Lasso方法中存在的过度压缩问题。 针对线性模型(4), Elastic Net回归系数可以表达为

βEN(λ1, λ2)=(1+λ2)argβminSSE+λ1j=1pβj+λ2j=1pβj2(8)

从式(8)可以看出, Elastic Net回归对自变量系数的绝对值和平方同时进行压缩, 既实现了变量选择与参数估计的同步进行, 又可以在pn的情况下防止删失重要自变量, 提高模型预测精度。

值得注意的是, 若令α =λ 1/(λ 1+λ 2), λ =λ 1+λ 2, 则式(8)可等价的表示为

βEN(λ1, λ2)=argβminSSE+αj=1pβj+λ(1-α)j=1pβj2(9)

从等价表达式(9)更容易看出, Elastic Net回归是对Lasso回归的改进, 当α =1式(9)退化为Lasso回归(5)。

实际上, 如果把Elastic Net和Lasso回归系数估计同时写为如下矩阵形式[5]

β˙EN(λ1, λ2)=argβminβTXTX+λ2I1+λ2β-2yT+λ1j=1pβj(10)β̂Lasso(λ1)=argβminβT(XTX)β-2yT+λ1j=1pβj(11)

对比式(10)和式(11)可以发现: 与Lasso相比, Elastic Net只是在XTX的基础上多了λ 1倍的单位矩阵和对整体的系数1/(1+λ 2), 一旦调整参数λ 2固定下来, 多出来的部分可以看做对XTX的线性变换, 此时Elastic Net解的路径和Lasso问题一致, 因此我们可以借助于Lasso回归的求解过程来求解Elastic Net问题。

由于Elastic Net含有两个调整参数, 故其求解步骤可以分两步来完成[9]:

(1) 固定参数λ 2, 改变参数λ 1, 借助Lasso问题求解的算法, 求解的路径, 利用交叉验证准则找出最优参数估计[14];

(2) 改变参数λ 2, 找出一组最优系数估计, 然后对一组最优系数利用交叉验证准则, 找出最终系数估计值。

2 模型评价指标

为了分析比较两种方法在近红外建模中的性能, 采用复相关系数R2、 调整的复相关系数 Ra2来评价模型的可解释性, 建立模型评价指标体系。 在多元线性回归过程中, 如果自变量数目远远大于样本量, 复相关系数会随着选入自变量数目的增加而增大, 复相关系数R2在解释自变量与因变量的相关性方面含有“ 虚假” 的成分, 因此同时考虑用调整的复相关系数 Ra2来评价模型的拟合效果[8]。 另外采用平均相对预测误差MRPE(mean relative prediction error)和预测相关系数Rp来判断模型的预测精度。

3 实验部分
3.1 样品与仪器

试验样品为某实验室提供的化工原料聚苯醚, 为液态。 以该原料中邻甲酚的浓度作为样品质量指标。 采用德国Bruker公司生产的MATRIX-F型傅里叶红外光谱仪(含OPUS定量分析软件包)进行数据采集, 设置光谱测量波长范围为10 000~4 500 cm-1, 分辨率为8 cm-1

3.2 光谱采集与数据处理

共200个化工原料样品, 对每个样品测量其邻甲酚浓度值; 同时用近红外光谱仪对每个样品连续扫描3次, 获得600组光谱样本数据。 为消除基线漂移和背景干扰, 对重叠峰提高分辨率, 对原始光谱进行一阶导数预处理[12], 处理后的光谱如图1所示。 然后将测得的600组样本, 提取前400组作为训练集进行建模, 剩下的200组作为测试集来检验模型的预测精度。

图1 预处理前后光谱图Fig.1 Spectra before (a) and after (b) pretreatment

4 结果与讨论
4.1 Lasso变量选择

Lasso方法进行变量选择时, 其解的路径如图2所示, 横坐标表示调整参数λ 的对数值, 纵坐标表示每个自变量系数取值的变化趋势。 由于在求解的过程中, 调整参数λ 代表对自变量系数的惩罚力度或者约束程度, 因此随着λ 的不断增大, 必然会有自变量系数绝对值变小直至缩减为零的现象。 从图中可以看出随着Log(λ )的增大, 自变量系数不断缩减, 直至为零。

图2 变量系数随参数λ 变化Fig.2 Coefficients vary with the parameter λ

同时, 在Lasso问题的求解过程中, 需要利用交叉验证找出最优的调整参数, 即在均方误差(mean squared error, MSE)最小时确定最优调整参数。 交叉验证准则和调整参数的关系如图3所示, 黑色箭头所指即为最优调整参数λ

图3 最优调整参数λ Fig.3 Optimal adjustment parameter λ

4.2 Elastic Net变量选择

Elastic Net方法进行变量选择时, 其解的路径如图4所示, 横坐标表示调整参数λ 1的对数值, 纵坐标表示每个自变量系数取值的变化趋势。 此时固定λ 2=1, 从图中可以看出, 随着调整参数λ 1的增大, 自变量系数值不断缩减直至为零。

图4 自变量系数随参数λ 1变化Fig.4 Coefficients vary with the parameter λ 1

相应的, 图5是在λ 2=1时, 通过交叉验证准则选出最优的系数估计值的过程。 值得注意的是, Elastic Net的求解, 到此只是完成一半, 接下来通过调整参数λ 2, 得到一系列系数估计, 然后利用交叉验证准则, 确定最优的自变量系数。

另外, 对比图2和图4可以发现, 图4的彩色线条数量明显多于图2, 这说明Elastic Net在求解过程中, 对系数的压缩程度明显小于Lasso方法, 因此有更多的自变量进入模型。

图5 最优调整参数λ 1Fig.5 Optimal adjustment parameter λ 1

4.3 两种方法性能对比

两种建模方法分别用于训练集和预测集的残差序列曲线, 也即e(i)=y(i)- y˙(i)的序列分布图如图6和图7。 从图中可以看出无论是训练集还是预测集, Lasso方法的模型残差波动幅度大于ElasticNet方法, 说明Elastic Net方法拟合效果较好。

图6 训练集残差分布曲线Fig.6 Distribution curve of residual error in training set

图7 预测集残差分布曲线Fig.7 Distribution curve of residual error in predicting set

进一步对比两种变量选择方法, 各自的模型评价指标如表1所示。 从表1可以看出, Elastic Net的复相关系数和调整的复相关系数都大于Lasso, 表明Elastic Net所建立的线性模型更能准确地反映光谱与邻甲酚浓度之间的线性关系, 即模型具有较好的解释能力; 同时Elastic Net的平均相对预测误差MRPE小于Lasso, 且其预测相关系数较大, 因此具有较好的预测性能。

表1 不同方法所建立模型的的评价指标 Table 1 Evaluation indicators for models based on different methods
5 结 论

在近红外光谱建模过程中, 如果自变量数目远远大于样本量, Elastic Net是一种性能良好的建模方法, 该方法不仅能够对自变量数目进行适当程度的压缩, 选出对响应变量有显著影响的重要自变量, 建立解释性能较好的线性模型, 而且具有较高的预测精度。 将该方法应用于聚苯醚中微量成分邻甲酚的测量, 实验表明Elastic Net所建模型的可解释性和模型预测精度均要优于Lasso方法。

The authors have declared that no competing interests exist.

参考文献
[1] LU Wan-zhen(陆婉珍). Modern Near Infrared Spectroscopy Analytical Technology, 2nd Ed. (现代近红外光谱分析技术, 第2版). Beijing: China Petrochemical Press(北京: 中国石化出版社), 2010. [本文引用:1]
[2] Huang X Y, Teye E, Sam-Amoah L K, et al. Analytical Methods, 2014, 6(14): 5008. [本文引用:1]
[3] SHI Ting, LUAN Xiao-li, LIU Fei(史婷, 栾小丽, 刘飞). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(4): 1058. [本文引用:1]
[4] TANG Shou-peng, YAO Xin-feng, YAO Xia, et al(汤守鹏, 姚鑫锋, 姚霞, ). Chinese Journal of Analytical Chemistry(分析化学), 2009, 37(10): 1445. [本文引用:1]
[5] Zou H, Hastie T. Journal of the Royal Statistical Society. Series B(Methodological), 2005, 67(1): 301. [本文引用:2]
[6] Tibshirani R. Journal of the Royal Statistical Society. Series B(Methodological), 1996, 15(1): 267. [本文引用:1]
[7] LIU Liu, TAO Da-cheng(刘柳, 陶大程). Journal of Data Acquisition and Processing(数据采集与处理), 2015, 30(1): 35. [本文引用:1]
[8] HE Xiao-qun, LIU Wen-qing(何晓群, 刘文卿). Applied Regression Analysis(应用回归分析). Beijing: China Renmin University Press(北京: 中国人民大学出版社), 2015. [本文引用:1]
[9] ZHANG Yu(张玉). Journal of Jiangsu Institute of Education·Natural Sciences(江苏教育学院学报·自然科学), 2012, 28(3): 28. [本文引用:2]
[10] LIU Ran, YANG Xiao-li, XU Yun-hui, et al(刘冉, 杨晓丽, 徐云惠, ). Guangzhou Chemical Industry(广州化工), 2013, 41(15): 128. [本文引用:1]
[11] WANG Xin(王欣). Science & Technology Information(科技资讯), 2013, 15: 2. [本文引用:1]
[12] Tong Peijin, Du Yiping, Zheng Kaiyi, et al. Chemometrics and Intelligent Laboratory Systems, 2015, 143: 40. [本文引用:1]
[13] Khan M H R, Shaw J E H. Statistics and Computing, 2016, 26(3): 725. [本文引用:3]
[14] WANG Da-rong, ZHANG Zhong-zhan(王大荣, 张忠占). Journal of Applied Statistics and Management(数理统计与管理), 2010, 29(4): 616. [本文引用:1]