腔体约束LIBS结合机器学习对土壤重金属元素的定量分析
刘烨坤, 郝晓剑*, 杨彦伟, 郝文渊, 孙鹏, 潘保武
中北大学电子测试技术重点实验室, 山西 太原 030051
*通讯作者 e-mail: NUOCHXJ69@163.com

作者简介: 刘烨坤, 1997年生,中北大学电子测试技术重点实验室硕士研究生 e-mail: 931262129@qq.com

摘要

土壤重金属元素含量检测及防治, 对我国农业、 生态环境修复具有重大意义。 利用外加腔体约束结合激光诱导击穿光谱技术(LIBS)获得土壤光谱数据, 采用机器学习对土壤中重金属元素Ni和Ba含量进行分析。 实验设置延迟时间为0.5~5 μs, 选择Ni Ⅱ 221.648 nm和Ba Ⅱ 495.709 nm作为目标研究特征谱线, 计算两种LIBS条件下延迟时间对信噪比、 光谱强度及增强因子的影响。 结果表明, 腔体约束LIBS(CC-LIBS)可以增大光谱强度及目标元素信噪比, 同时随着采集延迟时间增长, 等离子体数目变少, 光谱强度及信噪比逐渐减小并趋于稳定; 当延迟时间设置为1 μs时, CC-LIBS条件下Ni和Ba元素特征谱线信噪比达到最优, 确定此时为LIBS最优实验条件。 通过最优条件获取9种含Ni和Ba元素土壤样品的光谱数据, 由于采集到的每组光谱信息有12 248个数据点, 利用主成分分析(PCA)对CC-LIBS条件下的光谱数据降维, 在保留95%以上的土壤原始信息后, 选择9个主成分作为定量分析模型的输入变量, 以提高模型的运算速度。 采用机器学习中的Lasso, AdaBoost和Random Forest模型, 对PCA降维后的光谱数据进行建模及预测, 实现土壤重金属元素Ni和Ba的定量分析。 结果表明, 与Lasso和AdaBoost模型相比, Random Forest模型在训练集和测试集中表现出的预测性能最优。 Random Forest模型下Ni元素在测试集中的R2为0.937, RMSEP为3.037; Ba元素在测试集中的相关系数R2为0.886, 均方根误差RMSEP为90.515。 基于腔体约束LIBS技术结合机器学习, 为土壤重金属元素的高精度检测提供了技术指导。

关键词: 激光诱导击穿光谱; 腔体约束; 信噪比; 定量分析; 机器学习
中图分类号:O433.4 文献标志码:A
Quantitative Analysis of Soil Heavy Metal Elements Based on Cavity Confinement LIBS Combined With Machine Learning
LIU Ye-kun, HAO Xiao-jian*, YANG Yan-wei, HAO Wen-yuan, SUN Peng, PAN Bao-wu
Science and Technology on Electronic Test and Measurement Laboratory, North University of China, Taiyuan 030051, China
*Corresponding author
Abstract

The detection and control of the content of heavy metal elements in the soil are of great significance to the restoration of agriculture and the ecological environment. This study used external cavity confinement combined with traditional laser-induced breakdown spectroscopy (LIBS) to obtain soil spectral data. Then machine learning was used to analyze the content of heavy metal elements Ni and Ba in the soil. During the experiment, the delay time was set to 0.5~5 μs, Ni Ⅱ 221.648 nm and Ba Ⅱ 495.709 nm were selected as the target characteristic spectrum to study, and calculated the influence of delay time on the signal-to-noise ratio (SNR), spectral intensity and enhancement factor under two LIBS conditions. Experimental results show that cavity confinement LIBS (CC-LIBS) can increase the target element’s spectral intensity and SNR. As the acquisition delay time increases, the number of plasmas decreases, and the spectral intensity and SNR gradually decrease, then become stable; when the delay time is set to 1 μs, the SNR of the characteristic spectrum of Ni and Ba elements reaches the best under CC-LIBS conditions, which is determined to be the optimal experimental condition for LIBS at this time. Obtain the spectral data of 9 soil samples containing Ni and Ba through optimal conditions. Since there were 12 248 data points for each set of collected spectral information, the principal component analysis algorithm (PCA) was used to reduce the dimensionality of the spectral data under CC-LIBS conditions. After retaining more than 95% of the original soil information, 9 principal components were selected as the quantitative analysis model’s input variables to improve the model’s calculation speed. The Lasso, AdaBoost and Random Forest models in machine learning were used to model and predict the spectral data after PCA dimensionality reduction to realize the quantitative analysis of soil heavy metal elements Ni and Ba. The experimental results show that the Random Forest model has the best prediction performance in the training and test sets compared with Lasso and AdaBoost models. Under the Random Forest model, the correlation coefficientR2 of the Ni element in the test set is 0.937, and the root mean square error (RMSEP) is 3.037; theR2 of the Ba element in the test set is 0.886, the RMSEP is 90.515. This paper is based on the research of cavity-confinement LIBS technology combined with machine learning to provide theoretical support and technical guidance for the high-precision detection of heavy metal elements.

Keyword: Laser-induced breakdown spectroscopy; Cavity confinement; Signal-to-noise ratio; Quantitative analysis; Machine learning
引言

生态环境保护已经被列为我国最重要的治国理政与发展战略, 而土壤修复是生态环境保护的重中之重。 土壤中重金属元素如钡、 铬、 镍等难以被微生物分解; 随着食物链的传递重金属元素逐渐富集, 有损动植物健康。 因此实现高精度土壤微量重金属元素检测, 对治理我国土壤污染有着重要意义。

激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)技术在近二十年发展迅速, 由于分析速度快且无需对样品预处理的特点, 被广泛应用于多种物理形态样品如: 液体[1, 2]、 气体[3, 4]、 固体[5, 6]的定量定性分析中。 传统LIBS技术存在灵敏度低、 噪声明显、 重复性差等缺点, 从而影响了定量分析的精度。 国内外研究学者提出利用磁场约束[7, 8]、 双脉冲激光[9]、 腔体约束[10]等提高光谱强度, 改善LIBS灵敏度低的缺点。 Cui[11]利用long-short double pulse LIBS(DP-LIBS)对钢铁样品中的锰元素定量分析, 结果表明与single-pulse LIBS相比DP-LIBS拟合系数R2从0.810提升到0.988, 平均相对误差从94.9%下降到4.9%。 Akhrar[12]等利用磁场约束LIBS对土壤中重金属元素Cr进行含量检测, 检测限下降为原来的0.42倍。

为了提高LIBS定量分析精度, 李春艳[13]等建立了基于谱线筛选的PLS模型对煤炭灰分进行检测, 以剔除噪声对信息的干扰, 结果表明与传统PLS相比, 基于谱线筛选的PLS对灰分预测精度更高, 其平均误差由2.262%下降至1.972%。 周华茂[14]等建立基于粒子群算法-支持向量机(PSO-SVM)模型对稻壳中Cr元素定量分析, 其测试集RMSE为7.83, 平均绝对误差为4.10%, 预测结果要优于采用联合区间最小二乘法(siPLS)。 Guo[15]等利用偏最小二乘回归(PLSR)和支持向量回归(SVR)对土壤中元素定量分析, 结果表明SVM鲁棒性优于PLSR。 目前腔体约束LIBS结合机器学习对土壤的定量分析还未见报道。

为了提高土壤中微量元素Ni和Ba的检测精度, 分析了传统LIBS与外加腔体约束LIBS条件下, 采集延迟时间对特征谱线强度的影响, 通过信噪比及增强因子确定最佳实验条件。 利用主成分分析算法(principal component analysis, PCA)对采集到的光谱数据进行降维, 采用机器学习中Lasso、 自适应增强(AdaBoost)、 随即森林(random forest, RF)模型对降维后光谱数据分析, 实现Ni和Ba元素高精度定量分析, 并对模型的性能进行评估。

1 实验部分
1.1 仪器

实验用仪器为美国ChemReveal集成式台式激光诱导击穿光谱仪。 该仪器配置的激光器为法国Quantel公司的Nd:YAG激光器, 波长为1 064 nm, 激光脉冲能量0~200 mJ, 频率1~10 Hz可调。 光谱仪采用Echelle的7通道iCCD高分辨率光谱仪, 探测波长范围为180~980 nm。 实验过程中将直径为5 mm, 高度为4 mm的铝制腔体薄片紧贴于土壤表面, 调节X-Y-Z三维样品台, 使得激光束聚焦在约束腔的圆心, 实验装置如图1所示。

图1 实验装置示意图Fig.1 Schematic diagram of the experimental device

实验所用的9种土壤样品来自中国不同省份的标准物质, 为了获取均匀的激光烧蚀土壤样品表面, 分别称取4 g待测样品, 并用台式粉末压片机将土壤粉末压制成直径32 mm, 厚度约为3 mm的圆形土壤压片。 为减小外部环境因素及土壤颗粒大小不均匀等问题对实验结果的影响, 设置激光器脉冲能量为70 mJ, 聚焦后光斑直径为200 μm, 在样本表面选取5个点, 分别对这5个点击打45次, 对获取的光谱数据求平均值, 作为样本的最终光谱数据。 土壤中重金属Ni, Ba元素的含量如表1所示。 随机选择1#, 2#, 4#, 5#, 7#和8#为训练集, 3#, 6#和9#作为测试集。

表1 土壤样品中Ni和Ba元素含量 Table 1 Contents of Ni, Ba in soil samples
1.2 方法

首先利用外加腔体约束LIBS提高光谱强度及信噪比, 减少外部环境对光谱仪采样的影响。 之后在Python环境下利用PCA实现特征谱线的降维, 通过协方差矩阵计算主成分贡献率, PCA算法在反映样品信息的同时, 可以有效降低计算成本。 定量分析模型属于机器学习中的有监督学习, 将PCA处理后的土壤数据输入Lasso、 AdaBoost、 RF三个模型中, 对土壤中Ni、 Ba元素进行定量分析。 Lasso回归解决了线性回归出现的过拟合问题, 通过引入正则化L1惩罚项, 解决求解θ 中出现的转置不可逆的现象。 AdaBoost是一种迭代算法, 其核心思想是利用不同的弱学习器对同一个训练集进行训练, 之后将弱学习器集合成一个强学习器。 RF是Bagging的扩展变体, 它以决策树构建为基础, 利用集成思想提升单个决策树的性能, 获取比单个模型更好的回归表现。 通过对以上三个模型参数的调节实现土壤中重金属元素的定量分析, 根据模型的相关系数R2, 均方根误差RMSE对模型性能进行评估。

2 结果与讨论
2.1 延迟时间对谱线强度、 信噪比及增强因子的影响

光谱仪采集到的等离子体数目与其设置的延迟时间有关。 设置光谱采集延迟时间在0.5~5 μs之间。 分析LIBS、 外加腔体约束LIBS(cavity confinement LIBS, CC-LIBS)两种条件下Ni Ⅱ 221.648 nm和Ba Ⅱ 495.709 nm谱线强度及信噪比(signal-to-noise ratio, SNR)随延迟时间的变化, 并计算Ni和Ba元素在不同情况下光谱强度的增强因子, 结果如图2, 图3和图4所示。

图2 Ni, Ba在两种LIBS条件下随延迟时间的强度变化Fig.2 Intensities of Ni and Ba with delay time under two LIBS conditions

图3 两种元素在不同条件下的信噪比
(a): Ni Ⅱ 221.648 nm; (b): Ba Ⅱ 475.709 nm
Fig.3 The SNR of two elements under different conditions
(a): Ni Ⅱ 221.648 nm; (b): Ba Ⅱ 475.709 nm

图4 Ni和Ba元素的增强因子随延迟时间的变化Fig.4 The enhancement factors of Ni and Ba elements with delay time

从图2、 图3可以看到与传统LIBS相比外加腔体约束可以增大特征谱线光谱强度及SNR, 这是由于激光烧蚀样品表面后, 等离子扩散速度要远小于冲击波膨胀速度, 冲击波膨胀过程中碰到腔体壁后向烧蚀点中心反射, 此时对等离子体进行压缩, 增大了等离子的密度, 最终实现光谱强度的增强。 在0.5 μs处光谱仪采集到的等离子体数目最多, 光谱强度最大。 之后随着采集时间的延长, 等离子体数目衰减较多, 谱线强度及SNR同时降低, 并趋于平缓。 从图3可以观察到, 延迟时间在1 μs处腔体约束LIBS条件下Ni和Ba的信噪比达到最大。

为了表征等离子体光谱的增强情况, 计算Ni和Ba元素的增强因子随延迟时间的变化, 如图4所示, 增强因子随延迟时间在1.1~2.4范围内波动, 且当延迟时间为1 μs时, 增强因子达到最大, 分别为2.21和2.36。 结果表明, 腔体约束LIBS不但可以增大光谱强度, 同时可以改善特征谱线的信噪比, 提高LIBS的灵敏度。 因此在后续分析中, 选择外加腔体约束LIBS, 激光能量为70 mJ, 延迟时间为1 μs对样品进行击打, 获取最优条件下的土壤光谱数据。

2.2 PCA降维预处理

光谱仪探测到的光谱范围为190~980 nm, 每组光谱包括12 248个光谱特征变量, 将全光谱数据作为定量分析的输入, 会增加计算机的运算量, 减缓运算速度。 因此在对腔体约束增强得到的光谱数据进行标准化处理后, 利用PCA对数据进行降维, 当选择9个主成分时, 其主成分贡献率分别为0.512, 0.157, 0.134, 0.072 7, 0.031 1, 0.024 2, 0.014, 0.007 3和0.004 4, 方差累计贡献率已达到了95.67%, 可以较好地反映原始土壤样品的信息, 如图5所示。

图5 PCA降维主成分累计贡献图Fig.5 Cumulative contribution rate of principal components after PCA dimensionality reduction

2.3 定量分析

为了分析土壤中微量金属元素Ni和Ba的含量, 将PCA降维后的光谱数据输入Lasso, AdaBoost和RF模型中进行训练, 训练后的Ni、 Ba元素在三个模型中的预测结果结果如图6, 图7所示。

图6 Ni元素在不同模型下的预测结果
(a): Lasso模型; (b): AdaBoost模型; (c): RF模型
Fig.6 The prediction results of Ni element using different models
(a): Lasso; (b): AdaBoost; (c): RF

图7 Ba元素在不同模型下的预测结果
(a): Lasso模型; (b): AdaBoost模型; (c): RF模型
Fig.7 The prediction results of Ba element using different models
(a): Lasso; (b): AdaBoost; (c): RF

从图6可以看出, 利用机器学习中的三种模型对Ni元素进行定量分析时, 训练集的预测效果都较好, 但测试集的预测结果则有较大的差异。 在Lasso模型中, 训练集中的相关数 Rc2为0.977 5, 均方根误差RMSEC为2.776, 测试集中的相关系数 Rp2仅为0.509, RMSEP为8.49。 在AdaBoost模型中, 训练集中的 Rc2为0.999 8, RMSEC为0.233, 测试集中 Rp2为0.714, RMSEP为6.483。 在RF模型中, 训练集中的 Rc2为0.981, RMSEC为2.56, 测试集中 Rp2为0.937, RMSEP为3.037。 结果表明, 利用Lasso, AdaBoost和RF三个模型对Ni元素进行定量分析时, AdaBoost和Lasso拟合效果较差, RF模型可以实现高精度预测土壤中的Ni元素。

对Ba元素进行定量分析时, 从图7的结果中可以看出, 在Lasso模型中, 训练集中 Rc2为0.964, RMSEC为57.67, 测试集中的 Rp2仅为0.720, RMSEP为131.95。 在AdaBoost模型中, 训练集中的 Rc2为0.998, RMSEC为12.87, 测试集中 Rp2为0.839, RMSEP为99.89。 在RF模型中, 训练集中的 Rc2为0.969, RMSEC为53.064, 测试集中 Rp2为0.886, RMSEP为90.515。 结果表明, 对土壤中Ba元素进行定量分析时, Lasso预测效果较差, AdaBoost和RF模型较好, RF对预测效果更优。

综上所述, Lasso模型在对土壤中Ni和Ba元素进行定量分析时, 预测结果较差, 当使用集成学习中的AdaBoost模型对Ni分析时, 效果也不理想, 但在对Ba元素进行定量分析时, AdaBoost模型预测效果得到了提升。 就RF模型而言, 对两种元素都有较好的定量分析结果。

3 结论

研究了LIBS技术结合腔体约束在不同延迟时间下的特征光谱强度及信噪比的变化, 结果表明腔体约束LIBS可以提高光谱强度及信噪比, 同时在1 μs下元素的信噪比及增强因子达到最大, 因此腔体约束可以提高LIBS灵敏度。 利用机器学习中Lasso, AdaBoost, RF模型对土壤中Ni和Ba元素进行定量分析, RF的预测效果最优, 此时Ni和Ba元素在预测集中的拟合系数R2分别为0.937, 0.886, RMSEP分别为3.037, 90.515。

参考文献
[1] LI Wen-ping, ZHOU Wei-dong(李文平, 周卫东). Chinese Journal of Lasers(中国激光), 2019, 46(9): 306. [本文引用:1]
[2] Du Chuanmei, Liu Xiaoyan, Miao W, et al. Optik, 2019, 187: 98. [本文引用:1]
[3] WANG Zhen-zhen, ZHANG Zhen-zhen, YAN Jun-jie, et al(王珍珍, 张臻臻, 严俊杰, ). Journal of Chinese Society of Power Engineering(动力工程学报), 2018, 38(2): 127. [本文引用:1]
[4] Zhang X, Li N, Yan C, et al. Journal of Analytical Atomic Spectrometry, 2020, 35(2): 403. [本文引用:1]
[5] Aderval S Luna, Fbiano B Gonzaga, Werickson F C da Rocha, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2018, 139: 20. [本文引用:1]
[6] Tang Y, Li J, Hao Z, et al. Optics Express, 2018, 26(9): 12121. [本文引用:1]
[7] LI An, WANG Liang-wei, GUO Shuai, et al(李安, 王亮伟, 郭帅, ). Chinese Optics(中国光学), 2017, (5): 101. [本文引用:1]
[8] Liu P, Hai R, Wu D, et al. Plasma Science & Technology, 2015, 17(8): 687. [本文引用:1]
[9] LI Ye-qiu, SUN Cheng-lin, LI Qian, et al(李业秋, 孙成林, 李倩, ). Infrared and Laser Engineering(红外与激光工程), 2019, 48(10): 90. [本文引用:1]
[10] WANG Qiu-yun, CHEN An-min, LI Su-yu, et al(王秋云, 陈安民, 李苏宇, ). Acta Photonica Sinica(光子学报), 2018, 47(8): 54. [本文引用:1]
[11] Cui Minchao, Yoshihiro, et al. Applied Spectroscopy, 2018, 73(2): 152. [本文引用:1]
[12] Akhtar M, Jabbar A, Mehmood S, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2018, 148: 143. [本文引用:1]
[13] LI Chun-yan, CHI Fang, LIU Cui-ru(李春艳, 茌方, 刘翠茹). Coal Quality Technology(煤质技术), 2019, 34(222): 42. [本文引用:1]
[14] ZHOU Hua-mao, CHEN Tian-bing, LIU Mu-hua, et al(周华茂, 陈添兵, 刘木华, ). Chinese Journal of Analytical Chemisty(分析化学), 2020, 48(6): 140. [本文引用:1]
[15] Guo G M, Niu G H, Shi Q, et al. Analytical Methods, 2019, 11: 3006. [本文引用:1]