Lasso算法的油砂钠元素近红外建模
刘进, 栾小丽*, 刘飞
江南大学自动化研究所轻工过程先进控制教育部重点实验室, 江苏 无锡 214122
*通讯联系人  e-mail: xlluan@jiangnan.edu.cn

作者简介: 刘 进, 1995年生, 江南大学自动化研究所轻工过程先进控制教育部重点实验室硕士研究生

摘要

以油砂中钠元素为研究对象, 首次应用近红外光谱, 结合Lasso(least absolute shrinkage and selection operator)建模方法, 建立了油砂金属钠含量的近红外光谱定量校正模型, 并与传统的PLS建模方法进行比较。 结果表明, 两种方法建立的油砂金属钠含量校正模型都具有很高的精度, 预测性能方面略有差异。 在实验验证集与预测集中, PLS与Lasso算法的相关系数分别是: Rv=0.878 8, Rp=0.857 9和 Rv=0.887 4, Rp=0.860 0。 实验验证了使用近红外光谱快速测定油砂金属钠含量的有效性, 并分析了PLS与Lasso算法的适用范围。

关键词: 近红外光谱; 油砂金属钠元素; Lasso; 定量校正模型
中图分类号:O657.3 文献标志码:A
Near Infrared Spectroscopic Modelling of Sodium Content in Oil Sands Based on Lasso Algorithm
LIU Jin, LUAN Xiao-li*, LIU Fei
Key Laboratory for Advanced Process Control of Light Industry of Ministry of Education, Institute of Automation, Jiangnan University, Wuxi 214122, China
*Corresponding author
Abstract

For the sake of the quick analysis of sodium in oil sands, near infrared spectroscopic technology was applied combing with Least Absolute Shrinkage and Selection Operator (Lasso) modeling algorithm in order to establish quantitative calibration model. The comparison with the traditional PLS modeling method was conducted for comparative analysis. The results showed that the calibration models of the sodium content established by both methods had almost the same accuracy, but the prediction performance was slightly different. The verification experiment illustrated that the model evaluation indexes of PLS and Lasso algorithms were Rp=0.998 1, RMSEP=0.010 8 and Rp=0.998 6, RMSEP=0.009 5 respectively. The effectiveness of near-infrared spectroscopic analysis to determine the sodium content in oil sands was verified. The modeling precision and applicable areas of the PLS and Lasso algorithms were compared and analyzed.

Keyword: Near infrared spectroscopy; Sodium content in oil sand; Lasso; Quantitative calibration model
引 言

我国石油的进口依赖度逐年升高, 国内油砂矿等非常规能源的开发利用愈加急迫[1]。 在油砂加工过程中, 油砂中金属元素将影响催化剂活性及选择性、 降低重油的转化率、 易导致设备腐蚀等, 直接影响生产过程的安全与经济效益[2, 3]; 油砂生产排废中, 金属元素不达标会危害生态环境; 另一方面, 油砂中金属元素含量是不同油源样品的分类依据[4, 5], 因此油砂中的金属元素检测十分必要。 传统石油类产品金属的检测方法有原子吸收光谱法[6]、 紫外可见分光光度法、 电感耦合等离子体原子发射光谱法(ICP-AES)[7]、 电感耦合等离子体质谱法(ICP-MS)[8]等。 但上述方法检测周期长, 对样品需要复杂的预处理, 处理过程中易产生有毒化学物质, 且不适用于实时在线检测等[9], 因此研究一种简单、 快速、 有效的油砂金属元素含量测定技术很必要。

近红外光谱测量主要依据含氢基团(X— H)振动的倍频和合频吸收, 因此可通过检测与金属元素相结合的含氢(X— H)烃类化合物, 从而间接测定烃类物质中金属元素含量。 如: 刘燕德等根据丁香蓼叶片内金属与叶内有机物的络合, 应用近红外光谱技术结合PLS法, 建立了丁香蓼叶内重金属铜含量的检测定量模型[10]; 邵学广等阐述了应用近红外光谱检测金属元素, 是依据金属与有机物或其他成分的结合[11]。 且油砂中的金属元素存在于烃类化合物及其衍生物中, 可通过检测其烃类化合物从而间接测定油砂中的金属元素。 然而应用近红外对油砂金属含量进行检测至今还未见报道, 且上述各种金属含量的近红外测定方法大多为PLS建模方法, 而新兴的数据处理Lasso算法可同时进行变量选择和参数估计。

因此本工作利用近红外光谱分析技术对油砂中的金属钠元素进行检测, 并采用Lasso方法建立了定量校正模型。 为了使建模结果更有说服力: (1)将油砂样品分为建模与验证、 独立验证两部分, 进行模型参数的估计与评价; (2)与PLS建模方法对比分析, 比较了两种方法的预测性能与适用范围, 为油砂中金属含量的测定提供了理论依据。

1 实验部分
1.1 仪器设备

实验使用布鲁克MATRIX-F型傅里叶红外光谱仪(OPUS定量分析软件包, 德国Bruker公司)和漫散射反射式光纤探头来采集油砂的近红外光谱, 光谱分辨率为2 cm-1, 光谱测定范围800~2 500 nm积分时间为32 s, 分析软件为The Unscrambler-X(Camo Software Inc.), Matlab R2010a。

1.2 油砂样品收集与校正集样品选择

随机采集某油砂富集地区不同地质条件下的877个油砂样品并用标准法测定了油砂金属钠的含量。 在877个油砂样品中分离出146个样品作为独立验证部分的未知样品预测集, 不作任何处理。 剩余731个样品用于建模与验证部分, 用Kennard-Stone法根据2:1的比例分为488个样品和243个样品, 分别作为校正样品集和验证样品集。 Kennard-Stone方法的原理是依据变量之间的欧式距离, 在样品光谱的特征空间里依次选取距离最大的样品为校正集样品[12], 能够避免人为选取的主观盲目性。 表1为标准方法测定所有油砂样品的钠金属含量值的分布情况。

表1 油砂金属钠含量分布情况 Table 1 Statistical values of Na in oil sands
1.3 光谱采集和预处理

首先将所有油砂样品放置于冰箱中, 保持4 ℃温度, 等待样品温度达到稳定状态, 对877个样品依次等时间间隔扫描3次, 共得到877× 3=2 631组样品光谱数据。

在近红外光谱采集过程中, 往往包含一些与待测样品性质无关的因素, 如仪器本身性能的漂移、 杂散光、 人员操作以及外界温度干扰等, 致使近红外光谱一定程度的变化, 因此适当的光谱预处理能够提高所建模型的预测性能[13]。 对原始光谱数据进行一阶微分、 多元散射校正方法分别克服基线漂移、 油砂颗粒对光谱的影响。 经过预处理后的近红外光谱如图1所示。

图1 预处理后的油砂光谱Fig.1 Preprocessed near infrared spectra of oil sands

1.4 Lasso近红外建模

将油砂中钠含量测定值与校正集中对应的油砂近红外光谱数据相结合, 用Lasso方法建立金属钠含量的近红外数学模型。 Lasso[14]的基本思想是在无偏估计— — 最小二乘法的基础上加上一个惩罚项, 通过使系数的绝对值和小于某一常数来最小化残差平方和。 由于加入一个小的惩罚项, 所以Lasso算法相比于无偏的普通最小二乘法来说是有偏估计的, 通过牺牲一部分偏差来提高模型预测能力使模型更为稳定, 同时将与Y关系弱的自变量系数压缩为0从而实现稀疏性[15]

考虑一般线性回归模型: Y=+e, 其中Xn× m阶自变量矩阵, Yn× 1阶响应变量, β m× 1阶向量系数; en× 1阶误差向量, 且var(e)=σ 2E(e)=0。 对Y中心化, X标准化处理, 故模型不包含截距项。 普通最小二乘法估计 mini=1n(yi-j=1mβjxij)2, 求得β^ols=(XTX)-1XTy普通最小二乘在j=1m|βj|t的约束条件下, 称为Lasso回归

β^lasso=argmini=1n(yi-j=1mβjxij)2s.t.j=1m|βj|t(4)

根据Lagrangian乘数法, 上述问题等价于

β^lasso=argmini=1n(yi-j=1mβjxij)2+λj=1m|βj|(5)

考虑到系数压缩的性质可以通过正交设计情形获得, 所以令Xn× m的正交设计矩阵, 使得XTX=I, 那么Lasso估计的解能够表示为

β̂lasso=sign(β̂ols)(|β̂ols|-λ)+(6)

因此Lasso通过系数压缩、 变量选择能够克服普通最小二乘的缺点, 不仅可以解决样本数量小于变量数目情况下的过拟合问题以提高预测精度, 也减轻或消除了无关变量的影响使模型解释性增强。

2 结果与讨论
2.1 Lasso建模参数选取

Lasso建模方法在光谱分析领域中的应用没有PLS建模广泛, 但是仍具有令人惊叹的效果。 此小节我们旨在用Lasso算法建立金属钠含量的校正模型, 回顾式(5)

β^lasso=argmini=1n(yi-j=1mβjxij)2+λj=1m|βj|

在Lasso回归中, 正则项的存在是Lasso算法和普通最小二乘本质最为不同的地方, 参数的大小又决定了正则化项对残差平方和的惩罚力度, 图2显示了通过交叉验证在均方误差(mean squared error, MSE)最小时确定的参数, 箭头所指即为最优。 图3为预测系数β λ 的关系, 从中可以看出λ 值越大, 惩罚力度越大, λ =1时惩罚力度最大, β 系数全部压缩为零; λ =0时惩罚力度最小, β 系数是普通最小二乘的原始解。

图2 参数λ 值的选择Fig.2 The selection of λ value

图3 参数λ β 关系Fig.3 The relationship between parameters λ and β

2.2 结果对比

采用全近红外波段光谱, 结合Lasso方法对油砂样品建立金属钠含量与光谱之间相关联的校正模型, 并与应用广泛的PLS方法建模对比验证其算法的可行性及适用范围, 建模参数选择如表2所示。 PLS算法建模时选取主成分数为4, 该算法建模时对变量整体降维, 对所有的变量在不同空间进行投影, 因此PLS算法对所有变量都予以保留, 并没有进行选择; 相反Lasso算法把变量数目从506个压缩至63个, 对变量进行了筛选, 且求出的系数β 可以与每个变量一一对应, 有利于我们找到和响应不相关的变量并进行剔除, 保留和响应相关性强的变量用于建模分析。

表2 金属钠含量在不同模型下的评价结果 Table 2 The evaluation results of metallic sodium contents under different models

图4与图5分别是Lasso与PLS两种方法在488个校正集样品、 243个验证集样品和146个未知样品预测集下的建模结果。 图4与图5的差异并不明显, 为了进一步对比两种方法的精度, 计算模型评价指标, 如表2所示。 PLS与Lasso算法不分伯仲, Lasso方法所得结果的RvRp较高, 可见Lasso建模的预测精度更高一些。

图4 Lasso模型的拟合值与真实值对比图
(a): 校正集; (b): 验证集; (c): 预测集
Fig.4 Correlation of predicted and measured values based on Lasso
(a): Calibration set; (b): Validation set; (c): Prediction set

图5 PLS模型的拟合值与真实值对比图
(a): 校正集; (b): 验证集; (c): 预测集
Fig.5 Correlation of predicted and measured values based on PLS
(a): Calibration set; (b): Validation set; (c): Prediction set

因此, 传统PLS算法处理过程背景都比较熟悉的领域且影响因素较为明确的问题比较合适, 而对于陌生领域或工况复杂的过程, Lasso算法估计出模型的同时还可以筛选出重要变量, 对实际生产过程比如故障诊断也有借鉴意义。

3 结 论

应用近红外光谱结合Lasso方法快速测定油砂金属钠元素具有可行性, 建模效果良好, 和应用广泛的PLS建模方法相比, 稳健性与预测精度毫不逊色, 而且在处理变量选择问题中有较强的推广性, 表明Lasso算法在光谱分析领域中很有前景。 基于Lasso的近红外光谱检测技术可应用于油砂金属含量的在线检测, 除了钠元素, 油砂中的其他金属如钙、 镁、 锌等元素均可用近红外光谱进行在线测定。

The authors have declared that no competing interests exist.

参考文献
[1] CAO Peng, ZOU Wei-hong, DAI Chuan-rui(曹鹏, 邹伟宏, 戴传瑞). Xinjiang Petroleum Geology(新疆石油地质), 2012, (6): 747. [本文引用:]
[2] SHEN Man-dui, WU De-liang(申满对, 吴德良). Refining Technology and Engineering(炼油技术与工程), 2011, 41(7): 39. [本文引用:1]
[3] LI Zhen-yu, QIAO Ming, REN Wen-po(李振宇, 乔明, 任文坡). Journal of Petroleum Science &Petroleum Processing(石油学报&石油加工), 2012, 28(3): 517. [本文引用:1]
[4] LIU Hua-long, WANG Hai-yan, FANG Long(刘华龙, 王海燕, 方龙). Petrochemical Applications(石油化工应用), 2016, 35(1): 112. [本文引用:1]
[5] LI Jing-xi, CHEN Fa-rong, CUI Wei-gang(李景喜, 陈发荣, 崔维刚). Journal of Analytical Science(分析测试学报), 2010, 29(6): 558. [本文引用:1]
[6] Habibiyan A, Ezoddin M, Lamei N. Journal of Molecular Liquids, 2017, 242: 292. [本文引用:1]
[7] Han H B, Diao Y, Wei H P, et al. Applied Mechanics & Materials, 2014, 543-547: 1136. [本文引用:1]
[8] Beauval N, Howsam M, Antherieu S. Regulatory Toxicology & Pharmacology, 2016, 79: 144. [本文引用:1]
[9] YAO Zhen-xing, XIN Xiao-dong, SI Wei(姚振兴, 辛晓东, 司维). Analytical Techniques and Instruments(分析测试技术与仪器), 2011, 17(1): 29. [本文引用:1]
[10] LIU Yan-de, SHI Yu, CAI Li-jun(刘燕德, 施宇, 蔡丽君). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2012, 32(12): 3220. [本文引用:1]
[11] SHAO Xue-guang, NING Yu, LIU Feng-xia, et al(邵学广, 宁宇, 刘凤霞, ). Acta Chimica Sinica(化学学报), 2012, 70(20): 2109. [本文引用:1]
[12] Saptoro A, Tade M O, Vuthaluru H. Chemical Product & Process Modeling, 2012, 7(1): doi: DOI:10.151511934-2659.1645. [本文引用:1]
[13] Zhou Y T, Du X P, Li M Z. Applied Mechanics & Materials, 2014, 556-562: 527. [本文引用:1]
[14] Tibshirani R. Journal of the Royal Statistical Society, 2011, 73(3): 267. [本文引用:1]
[15] Willis M J, Stosch M V. Chemometrics & Intelligent Laboratory Systems, 2017, 165: 29. [本文引用:1]