LASSO-LSSVM与激光诱导击穿光谱技术结合提高铝合金中Mn成分检测精度研究
戴宇佳1, 高勋2,*, 刘子源1,*
1.浙江农林大学光机电工程学院, 浙江 杭州 311300
2.长春理工大学物理学院, 吉林 长春 130022
*通讯作者 e-mail: lasercust@163.com; liuziyuan@zafu.edu.cn

作者简介: 戴宇佳, 女, 1992年生, 浙江农林大学光机电工程学院讲师 e-mail: 20220013@zafu.edu.cn

摘要

铝合金作为一种重要的航空航天装备材料, 其元素含量是决定铝合金材料质量和性能的关键因素, 其组成成分的多样性对铝合金的铸造、 冶炼以及回收分类有较大的影响, 其中Mn是铝合金中的重要元素, 能够止铝合金的再结晶过程, 提高再结晶温度。 铝合金成分的定量测定是合金成分在线检测的重要组成部分。 信号波动(激光能量波动、 等离子体不稳定性、 样品不均匀性等)和自吸收效应对激光诱导击穿光谱(LIBS)技术测定铝合金中微量元素有一定影响。 为了消除自吸收效应和信号波动所引起的偏差, 提出了一种利用LIBS技术结合LASSO-LSSVM机器学习法检测铝合金材料中微量元素含量的新方法。 利用最小绝对收缩和选择算子(LASSO)模型对光谱特征向量进行选择, 降低光谱数据的维度从而与训练样本相匹配, 降低了过拟合风险, 有效提取表征LIBS光谱最重要的特征。 利用最小二乘支持向量机(LSSVM)模型对LASSO所选择的特征光谱进行训练, 分析结果与内标法和偏最小二乘回归(PLSR)相比, LASSO-LSSVM回归模型的精度和准确性都有所提高, 其中, Mn元素回归曲线的相关系数( R2)从74.62%提高到99.29%, 平均相对误差(ARE)从22.38%降低到3.56%, 训练集均方根误差(RMSEC)从0.66 wt%降低到0.040 wt%, 测试集均方根误差(RMSEP)从0.58 wt%降低到0.042 wt%。 LASSO-LSSVM回归模型适用于复杂、 不确定性较高的高维光谱数据, 能够大大降低输入光谱数据的维数和冗余信息, 因此, 该模型减少了LSSVM的过拟合问题。 研究结果表明, LIBS技术和LASSO-LSSVM回归模型的结合可以有效改善LIBS技术对于铝合金材料的定量分析性能, 是一种简单、 可靠、 高精度检测合金含量的新方法。

关键词: 激光诱导击穿光谱; 铝合金; LASSO-LSSVM; 定量分析
中图分类号:O433.4 文献标志码:A
Accuracy Improvement of Mn Element in Aluminum Alloy by the Combination of LASSO-LSSVM and Laser-Induced Breakdown Spectroscopy
DAI Yu-jia1, GAO Xun2,*, LIU Zi-yuan1,*
1. College of Optical, Mechanical and Electrical Engineering, Zhejiang A&F University, Hangzhou 311300, China
2. School of Physics Science, Changchun University of Science and Technology, Changchun 130022, China
*Corresponding authors
Abstract

Aluminum alloy is an important aerospace equipment material, and its element content is an important factor determining the quality and performance of aluminum alloy materials. The Mn is an important element in aluminum alloy, which can stop the recrystallization process of aluminum alloy and increase the recrystallization temperature. Quantitative determination of aluminum alloy composition is an important part of on-line detection of alloy composition. The signal fluctuation (laser energy fluctuation, plasma instability, sample inhomogeneity, etc.) and self-absorption effect influence the determination of trace elements in aluminum alloys by laser-induced breakdown spectroscopy (LIBS). In order to eliminate the bias caused by the self-absorption effect and signal fluctuation, a new method for detecting alloy content using LIBS technology combined with the LASSO-LSSVM machine learning method is proposed. The Least Absolute Shrinkage and Selection Operator (LASSO) model is used to select the spectral eigenvectors, reducing the dimension of the spectral data to match the training samples, reducing the risk of overfitting, and effectively extracting the most important features that characterize LIBS spectra. The Least squares support vector machine regression (LSSVM) model is used to train the characteristic spectra selected by LASSO. Compared with the internal standard method and partial least squares regression (PLSR), the analysis results show that the model accuracy and accuracy of LASSO-LSSVM were improved. The Mn element regression curve's correlation coefficient ( R2) of Mn element regression curve increased from 74.62% to 99.29%. The mean relative error (ARE) decreased from 22.38% to 3.56%, the root mean square error (RMSEC) of the training set decreased from 0.66 wt% to 0.040 wt%, and the root mean square error (RMSEP) of the test set decreased from 0.58 wt% to 0.042 wt%. The LASSO-LSSVM regression model is suitable for complex and high-dimensional spectral data with high uncertainty, and can greatly reduce input spectral data's dimension and redundant information. Therefore, the model reduces the overfitting problem of LSSVM. The results show that LIBS technology and the LASSO-LSSVM regression model can effectively improve the quantitative analysis performance of aluminum alloy materials by LIBS technology, which is a simple, reliable and high-precision method to detect alloy content.

Keyword: Laser-induced breakdown spectroscopy; Aluminum alloy; LASSO-LSSVM; Quantitative analysis
引言

铝合金是世界上使用量第二大金属材料, 仅次于钢。 由于其强度高、 密度低、 塑性好, 广泛应用于汽车、 建筑、 卫星以及化学工业等诸多领域[1, 2, 3, 4]。 铝合金中各种元素的含量将直接影响铝合金的质量和性能, 其中Mn是铝合金的重要元素, 能够止铝合金的再结晶过程, 提高再结晶温度。 为了保证铝合金的质量, 对其元素含量的实时、 快速检测提出了很高的要求。

传统的铝合金成分检测技术主要有电感耦合等离子体原子发射光谱法(inductive-coupled plasma-atomic emission spectrometry, ICP-AES)、 火花源原子发射光谱法(spark source atomic emission spectrometry, spark-OES)和X射线荧光法(X-ray fluorescence spectrometer, XRF)[5, 6, 7], 上述方法通常需要复杂的预处理、 较长的检测时间、 昂贵的设备以及专业人员, 所使用的试剂可能对样品造成二次污染。 LIBS技术作为一种快速、 绿色的新兴化学检测技术, 被誉为分析化学中的“ 未来巨星” [8, 9]。 激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)技术在金属制厂的快速元素分析中具有突出的优势, 如样品制备量少或无需样品制备、 实时和全元素分析[10, 11]。 因此, LIBS是在线、 原位、 实时元素分析中最有前途的技术, 在冶金[12]、 煤炭生产[13]和矿物开发[14]等制造业中具有广阔应用市场。

尽管如此, LIBS技术由于定量分析性能的限制, 导致其目前无法大规模商业化。 量化性能始终是LIBS技术的一个短板, 相对较低的测量精度和准确度是LIBS在广泛应用中成为常规分析方法的主要障碍。 等离子体的时空不均匀性导致的自吸收效应、 样品的物理性质和化学组成造成的基体效应、 激光不稳定和光散射等产生的噪声都导致元素含量与 LIBS光谱谱线强度的线性关系出现偏差, 降低测量的精度和准确度。 近年来, 许多研究者开始将LIBS技术与多元分析回归模型[15]结合起来进行定量研究。 多元方法可以充分利用LIBS发射谱线的信息, 克服其他干扰因素的影响, 从而提高LIBS在定量分析中的性能。 李明亮等[16]利用多变量线性回归、 中值高斯核SVM回归法和标准化偏最小二乘回归(partial least squares regression, PLSR)模型对铝合金中的Cu元素进行定量分析, 结果表明, 标准化PLSR模型的精度和准确度都有明显的提高, R2值达到0.997。 Song等[17]基于RF-ANN算法建立了合金钢中Cr和V元素检测的多元模型, 与内标法相比, Cr和V的RMSECV值分别降低了65.0%和83.3%, 结果表明, RF-ANN方法可以改善合金钢的LIBS定量分析性能。

多变量分析技术有许多种, 其中PLSR模型是一种常用的多变量分析方法, 但其也具有一定局限性。 根据定义, 对于每个感兴趣的样本, PLSR能够获取全部预测变量(对于LIBS, 这意味着每个光谱通道的强度)。 然而, LIBS数据中的许多通道对于浓度的预测是没有意义的, 可能会产生噪声和错误的结果。 因此, 在进行LIBS定量分析之前, 可以使用特征选择技术对光谱中有意义的区域进行挑选。 目前, 基于先验知识的特征谱线的手动选择和自动优化方法[11, 12]已成功应用于LIBS光谱数据分析中。 Lü 等[18]提出了一种线性回归(LR)与稀疏欠完全自动编码器(SUAC)相结合的特征提取方法, 对陶瓷LIBS高维光谱数据进行非线性特征提取和降维, 大大减少了输入数据维数和冗余信息, 成功提高了LIBS定量分析性能。 Deng等[19]分别利用竞争自适应重加权采样法(CARS)和连续投影算法(SPA)对煤炭LIBS光谱进行特征向量选择, 并结合PLS建立回归模型, 结果表明, SPA-PLS最终通过连续投影分别筛选出14(N元素)和11(S元素)个变量, 并获得了最佳的预测结果。 杨淋玉等[20]利用遗传算法对钢铁LIBS光谱进行特征向量选择, 将挑选出的有效信息带入PLS模型中, 成功提高了PLS的分析性能。 为了提高LIBS定量分析性能并减少计算成本, 可以将高维回归技术与自动减少输入变量数量的功能结合起来。 本文将最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)和最小二乘支持向量机(least squares support vector machine, LSSVM)模型相结合, 建立了铝合金中Mn元素的回归模型。 对于铝合金数据的LIBS技术定量分析, 几乎没有探索过这种数据分析组合。

本文分别利用传统单变量线性校准法、 PLSR、 和LASSO-LSSVM回归对铝合金中Mn元素的LIBS光谱数据进行定量分析, 对比了三种回归模型的分析精度和准确度, 以验证多元校准模型的稳定性和准确性。

1 实验部分
1.1 装置

纳秒激光诱导击穿光谱实验装置如图1所示。 该实验系统采用Nd:YAG激光器(Power8000, Continuum, 波长: 1 064 nm, 脉冲宽度: 10 ns, 重复频率: 10 Hz, 光束直径: 6 mm, 最大能量: 1 J)。 激光束通过焦距为120 mm的平凸石英透镜(L1)聚焦到铝合金样品表面产生等离子体, 并通过由半波片和格兰棱镜组成的能量衰减系统调节激光脉冲能量。 等离子体辐射光谱由焦距为75 mm的收集透镜L2聚焦到配有ICCD(1 024 Pixel× 1 024 Pixel, DH334T)的中阶梯光栅光谱仪(Mechelle 5000, Andor)的光纤探头(纤芯直径200 μm)内, 其中光谱仪的采集波长范围为200~975 nm, 精度为± 0.05 nm, 分辨率为λ λ =5 000, ICCD探测器的门宽为1 μ s。 实验过程中, 激光能量为80 mJ, 延迟时间为1 μ s。 为避免对铝合金样品表面同一位置的过度烧蚀, 样品在PI三维电动平移台(M-521DD, Physik Instrumente, Germany)上以0.5 mm· s-1的速度做“ 弓” 字形运动。 数字延时触发器(DG645)同步触发激光器和光谱仪。 为了降低光谱探测的随机误差, 每个光谱累积50个脉冲。 实验样品为铝合金国家标准样品(购买于西南铝业集团有限责任公司, LD7.8系列), 物质含量符合国家标准, 表1为铝合金标样中各元素的质量浓度参数。

图1 激光诱导击穿光谱实验系统Fig.1 Experimental setup diagram of laser-induced breakdown spectroscopy

表1 LD7.8铝合金样品元素浓度参数(wt%) Table 1 Certified concentration of LD7.8 alloy samples(wt%)
1.2 LIBS定量分析评价参数

为了评价LIBS回归模型的性能, 选用R2、 平均相对误差(average relative error, ARE)、 训练集均方根误差(root mean square error calibration, RMSEC)和测试集均方根误差(root mean square error prediction, RMSEP)作为评价参数。 具体表达式如式(1)—式(3)

R2=1-i=1n(x^i-xi)2i=1n(xi-x-)2(1)

RMSE=i=1n(x^i-xi)2n(2)

ARE(%)=100ni=1n|x^i-xi|xi(3)

其中, x^i为的预测浓度, xi为标准浓度, x-为浓度平均值, n为样品的数量。

2 LIBS回归模型
2.1 光谱预处理

为了降低外界环境等因素对定量分析结果的影响, 采用小波阈值法和三阶极小值算法对光谱数据进行降噪处理, 其中小波阈值法的最佳参数为5层分解层和bior2.6小波。

2.2 最小绝对收缩和选择算子回归模型

最小绝对收缩和选择算子(LASSO)是一种有效的变量选择方法。 LASSO对模型系数进行L1范式惩罚, 与L2相比, 使用L1正则化可以将无关变量的权重值压缩至0。 进而得到一个稀疏矩阵, 并提取与定量分析相关的变量, 从而实现光谱数据的有效降维。 LASSO的损失函数可以表达为[21]

minω12-y22+αω1(4)

式(4)中, α 是正则化系数, ω是回归系数。

2.3 最小二乘支持向量机回归模型

LSSVM是基于SVM法的改进机器学习方法, 对于非线性问题的处理具有一定优势。 LSSVM模型在进行数据分析时通常选择径向基函数(RBF)作为核函数。 核函数表达式为

K(xi, xj)=exp(-x-xk2/2σ2)(5)

式(5)中, σ 为核参数。

LSSVM回归模型

f(x)=i=1naik(xi, xj)+b(6)

3 结果与讨论

为了降低基体效应对LIBS定量分析结果的影响, 采用内标法对铝合金中的Mn元素进行定量分析。 选取内标参考线时, 选择含量稳定、 且对待分析元素无干扰的特征谱线, 同时参考线的谱线位置尽量与内标元素位置接近。 因此, 选择Mn Ⅰ 383.9 nm作为分析谱线, 附近的Al Ⅰ 396.2 nm作为参考线。 选择每块铝合金样品的8组光谱数据作为训练集, 4组数据作为预测集, 对12组样品数据进行统一分析。 定量分析结果如图2所示, Mn元素的相关系数R2、 RMSEC、 RMSEP和ARE分别为74.62%、 0.66 wt%、 0.58 wt%和22.38%。 结果表明, 通过内标法校准后, Mn元素的预测准确性不是很高, 需要探索更有效的铝合金微量元素浓度检测方法。 因此, 为了能够减小误差并提高Mn元素的定量分析性能, 下面采用基于偏最小二乘法和LASSO-LSSVM的多变量分析方法。

图2 基于内标法的Mn元素定标曲线Fig.2 The calibration curve of Mn element based on internal standard

目前, 多元分析方法在LIBS定性和定量分析的应用中发挥着重要作用。 PLSR是一种常用的多元方法, 该方法可有效避免基体效应, 并且可以较好地处理LIBS光谱中的噪声, 同时数据处理速度较快。 为了避免PLSR模型因为包含不相关因素而出现过拟合现象, 采用10倍交叉验证方法优化PLSR模型的参数。 当RMSECV值最小时, Mn元素的主成分数量为11。 为了降低光谱数据的复杂性, 降低过度拟合的风险, 选择Mn元素403~437 nm波段的谱线作为PLSR模型的输入变量。 利用这些谱线建立实际浓度和预测浓度之间的关系曲线, 如图3所示。 Mn元素的相关系数R2、 RMSEC、 RMSEP和ARE分别为95.27%、 0.18 wt%、 0.19 wt%和9.79%。 从以上结果可以看出, 与内标法相比, PLSR模型校准曲线的R2有了很大的提高, RMSEC、 RMSEP和ARE值都大大降低了, 该模型提高了定量分析的准确性和稳定性。

图3 基于PLSR的Mn元素定标曲线Fig.3 Calibration model based on PLSR for Mn elements

根据定义, PLSR模型从每个目标样本中获得所有预测变量(对于LIBS光谱, 这代表每个波长的强度)。 但是, LIBS数据中许多光谱通道无法完成元素含量的准确预测, 即使它们具有较小的相关系数, 也可能产生噪声和错误的结果。 为了克服PLSR模型的局限性, 利用LASSO模型进行特征向量选择。 通过交叉验证对模型参数进行优化, 选择均方根误差最小时的Alpha值为最优参数。 将LIBS光谱数据带入到LASSO回归模型中, 得到的结果如图4所示。 LASSO回归模型为每个分析元素选择了特定波长, 同时每个波长都具有非零ω系数值。 图4(a)给出了Mn元素的12个光谱通道的非零ω系数(Mn Ⅰ 383.3 nm、 Mn Ⅰ 383.9 nm、 Mn Ⅰ 403.07 nm、 Mn Ⅰ 403.3 nm等), 图4(b)表示LASSO模型选择的Mn光谱波长范围区域。 这些通道中的一部分对应于强分析线, 另一部分对应于连续光谱。 以上结果表明, 在整个波长范围内, LASSO模型可以有效地搜索一个小而合理的预测因子子集, 而PLSR模型中的每个波长都具有相关系数, 计算过程相对比较复杂。 LASSO模型用多个谱线来预测每个元素的浓度, 而自吸收效应只可能发生在强谱线上, 因此, 与单变量分析模型相比, 多变量LASSO模型出现自吸收的可能性较小。

图4 (a) 具有非零系数的光谱通道的值; (b)代表LASSO选择的Mn光谱波长范围区域Fig.4 (a) The values of the spectral channels with non-zero coefficient; (b) Selected region of wavelength range with LASSO is shown to represent key part of the spectra for Mn

利用LSSVM算法对LASSO挑选出的Mn元素的光谱数据进行建模, 结果如图5所示。 图5给出了六个样品中Mn元素的标准浓度和预测浓度值的关系曲线。 回归模型中共有6个样本的72个光谱数据(48组作训练集, 24组作测试集)。 可以看到, 相比于内标法和偏最小二乘法, LASSO-LSSVM模型的RMSEC、 RMSEP和ARE数值都大大降低了, 同时R2也有很大程度的提高。

图5 基于LASSO-LSSVM的Mn元素定标曲线Fig.5 Calibration model based on LASSO-LSSVM for Mn elements

表2对比了内标法、 PLSR和LASSO-LSSVM三种定量分析模型的参数。 相比于内标法, 相关系数R2从74.62%提高到99.29%, ARE从22.38%降低到3.56%, RMSEC从0.66 wt%降低到0.040 wt%, RMSEP从0.58 wt%降低到0.042 wt%。 可以看出, LASSO-LSSVM回归模型的定量分析精度和准确度都有大幅度的提高, LASSO模型在内标法、 PLS法之间选择“ 中间位置” , 能高效地为整个光谱中的待分析元素搜索到少量的特征波长, 并且这些波长可以匹配特定的辐射特性, 该特性可以有效降低基体效应和自吸收效应的影响。

表2 Mn元素的三种定量分析参数对比 Table 2 Comparison of R2, ARE(%), RMSEC (wt%), and RMSEP (wt%) of Mn elements calculated by ISC, PLSR, and LASSO-LSSVM
4 结论

本文开展了基于LIBS技术与LASSO-LSSVM回归模型相结合提高铝合金中Mn元素的定量分析精度的研究, 该方法可有效消除自吸收效应和发射源噪声引起的偏差。 首先, 采用LASSO模型进行光谱特征选择, 并结合LSSVM算法对铝合金材料中的微量元素Mn建立回归模型, 进一步将分析结果与传统的单变量分析模型(内标法)和PLSR模型进行比较, 验证了多元校准模型的准确性。 与内标法和PLSR相比, R2提高到99.29%, ARE、 RMSEC和RMSEP分别降低到3.56%、 0.040 wt%和0.042 wt%。 以上结果表明, LIBS技术和LASSO-LSSVM的结合是测量铝合金材料中微量元素的有效方法。 LIBS技术与机器学习相结合可以确定铝合金中微量元素的含量, 进而可以对航空航天设备中的金属成分检测提供技术支持。

参考文献
[1] GAO An-jiang, WANG Gang, QU Xin-lei, et al(高安江, 王刚, 曲信磊, ). Recyclable Resources and Circular Economy(再生资源与循环经济), 2015, 8(2): 33. [本文引用:1]
[2] Xiong H Y, Tan Z R, Zhang R H, et al. Nanotechnology Reviews, 2019, 8(1): 370. [本文引用:1]
[3] Hong K, Park H, Kim Y, et al. Journal of the Mechanical Behavior of Biomedical Materials, 2019, 98: 213. [本文引用:1]
[4] Petráčková K, Kondás J, Guagliano M. Journal of Thermal Spray Technology, 2017, 26(8): 1888. [本文引用:1]
[5] YE Mu-zhou(叶慕舟). Metallurgical Analysis(冶金分析), 2015, 35(4): 13. [本文引用:1]
[6] Cheng A, Yu J, Gao C, et al. IOP Conference Series Materials Science and Engineering, 2020, 780: 062059. [本文引用:1]
[7] Lahmar L, Benamar M, Melzi M A, et al. X-Ray Spectrometry, 2020, 49(2): 313. [本文引用:1]
[8] Guo Y M, Guo L B, Li J M, et al. Frontiers of Physics, 2016, 11(5): 114212. [本文引用:1]
[9] Winefordner J D, Gornushkin I B, Correll T, et al. Journal of Analytical Atomic Spectrometry, 2004, 19(9): 1061. [本文引用:1]
[10] Naes B E, Umpierrez S, Ryland S, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2008, 63(10): 1145. [本文引用:1]
[11] Guo L B, Zhang D, Sun L X, et al. Frontiers of Physics, 2021, 16(2): 22500. [本文引用:2]
[12] Gudmundsson S H, Matthiasson J, Björnsson B M, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2019, 158: 105646. [本文引用:2]
[13] Hou Z, Wang Z, Yuan T, et al. Journal of Analytical Atomic Spectrometry, 2016, 31(3): 722. [本文引用:1]
[14] Yin H, Hou Z, Zhang L, et al. Journal of Analytical Atomic Spectrometry, 2016, 31: 2384. [本文引用:1]
[15] Wang Z, Afgan M S, Gu W, et al. TrAC Trends in Analytical Chemistry, 2021, 143: 116385. [本文引用:1]
[16] LI Ming-liang, DAI Yu-jia, QIN Shuang, et al(李明亮, 戴宇佳, 秦爽, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(2): 587. [本文引用:1]
[17] Song X Y, Li K H, Dai K J, et al. Optik, 2022, 249: 168214. [本文引用:1]
[18] Lü Z J, Yu H X, Sun L X, et al. Analytical Methods, 2022, 14: 1320. [本文引用:1]
[19] Deng F, Ding Y, Chen Y, et al. Plasma Science and Technology, 2020, 22(7): 074005. [本文引用:1]
[20] YANG Lin-yu, DING Yu, ZHAN Ye, et al(杨淋玉, 丁宇, 战晔, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(6): 1804. [本文引用:1]
[21] Hastie T J, Tibshirani R J, Friedman J H. Journal of the Royal Statistical Society, 2004, 167(1): 192. [本文引用:1]