作者简介: 朱绍农, 1999年生, 南京信息工程大学本科生 e-mail: shaonong_zhu@nuist.edu.cn
土壤中重金属元素检测是环境保护事业的重点之一, 因此亟需一种能够快速检测土壤重金属浓度的定量分析手段。 该研究旨在建立一种基于激光诱导击穿光谱结合偏最小二乘法的含油土壤中重金属元素快速定量检测方法。 通过激光诱导击穿光谱(LIBS)获取含油土壤光谱数据, 采用偏最小二乘法(PLS)对样品中铜、 镍元素进行定量分析预测, 并在此基础上, 结合区间以及后向区间法对全谱进行变量筛选, 构建形成区间偏最小二乘法(iPLS)和后向区间偏最小二乘法(BiPLS)定量分析铜、 镍元素含量的模型。 结果表明: 后向区间偏最小二乘法(BiPLS)在剔除了干扰信息的基础上, 保留了更多的有效光谱信息, 获得了比PLS和iPLS更好的预测结果: 铜元素的测试集预测结果的决定系数(
The detection of heavy metals in soil is one of the emphases of environmental protection. This paper aims to establish a fast and quantitative method for the determination of heavy metal elements in soil, based on LIBS and combined with the PLS method. We used PLS model to quantitatively analyze and predict the contents of Cu and Ni elements in oil-contaminated samples. On this basis, the variables of the full spectrum were screened by combining the Interval method and the Backward Interval method, which formed the Interval Partial Least Square (iPLS) and the Backward Interval Partial Least Square (BiPLS). The experimental results showed that the BiPLS method retained more spectral information after removing the interference information, and obtained better-predicted results than PLS and IPLS. The R2P and RMSEP of the predicted results of the test set for the copper element are 0.944 9 and 0.036 3, respectively, and the RPD reached 3.0. Those of the predicted results of the test set for nickel element are 0.933 7 and 0.041 4, respectively, and the RPD reached 2.6. Compared with the PLS and iPLS methods, the prediction results of the BiPLS method of the two elements were significantly optimized, the predictive ability was significantly improved, and the accuracy was much better. Therefore, In the analysis of heavy metal elements in oil-contaminated soil by LIBS technique, BiPLS is more suitable than iPLS and PLS for screening the feature variables that contribute greatly to the quantitative analysis of Cu and Ni elements, so as to improve the prediction effect. This method will promote the application of LIBS technology to the online evaluation of soil quality.
土壤中各种元素的含量是用来衡量土壤质量的重要指标之一[1], 因此, 如何高效的掌握土壤中元素含量是农业发展的重要内容。 而在工业飞速发展的大背景下, 由于工业“ 三废” 的不合理排放, 大量的重金属污染物以不同的形式进入土壤, 其中最具代表性的便是工业用油的污染。 近年来, 在石油的开采、 油品的储存以及运输使用过程中, 石油泄漏事故多次发生。 2004年11月18日, 陕西延安发生的特大石油泄露事故使得数百亩农田被污染; 2013年11月山东青岛的东黄输油管道原油泄漏并发生了爆炸, 不仅使得周边土壤被严重污染, 甚至造成了重大的人员伤亡。 含油土壤中的重金属元素不仅会极大地破坏土壤的结构, 改变其物理化学性质, 还会影响植被的品质, 并通过食物链危害人类和动物的生命安全, 严重威胁生态环境与人类的食品安全。 因此, 检测含油土壤中的重金属浓度及其治理是目前环境保护工作的重点项目。 然而使用传统方法进行土壤中重金属元素的原位分析十分困难, 加之不同重金属分析方法存在差异, 导致分析过程周期长, 成本高, 操作工序复杂, 不适合大规模使用。
激光诱导击穿光谱(laser induced breakdown spectroscopy, LIBS)是一项近年来发展极为快速的元素分析技术, 目前已经广泛应用于化工[2]、 食品[3]、 生物[4]、 考古[5]以及农业[6]等领域。 该技术具有检测速度快、 不需要样品预处理等优点[7], 因此对于污染场地重金属元素的即时检测以及污染防控的快速反应有着极其重要的意义。 但在实际应用中, 由于该项技术是通过获取等离子体发射谱线的强度信息来确定元素的含量, 而传统的基本标定法与内标定法均为单变量模型[8], 对于自吸收效应, 基体效应等干扰无法做到有效的消除, 故需要一种准确度更高的方法来满足实际应用的需要。
在定量分析中, 偏最小二乘法(partical least-square method, PLS)能够在自变量存在较强相关性的情况下处理光谱, 目前已经在铝合金、 钢铁、 煤炭等材料的LIBS成分检测中得到广泛应用[9, 10]。 PLS利用光谱数据作为自变量, 被分析元素浓度作为因变量, 在一定程度上可以克服传统方法的缺陷。 但由于全谱建模在实验中复杂费时[11], 且全光谱常常掺杂着非目标成分的吸收, 导致样品光谱与样本组分性质之间的关联性较差, 选取全谱作为模型的输入变量, 不仅可能会影响光谱的灵敏度, 还会影响模型的准确度。 因此, PLS结合变量选择发展出了一些改进的建模方法, 这些方法的优势也在不同领域得到了应用[12, 13]。
本研究基于LIBS技术对含油土壤中的铜、 镍两种重金属污染元素进行分析, 建立PLS模型, 并将独立的PLS模型与区间变量选择法以及后向区间变量选择法结合, 探索对定量分析性能提升的效果。
PLS算法的建模思想主要是从自变量和因变量矩阵中提取第一主成分, 并求得协方差, 再提取第二主成分, 求得协方差, 依次迭代, 最后根据交叉验证的结果, 建立最终的偏最小二乘定量回归预测分析模型。
区间偏最小二乘法(interval partical least-square method, iPLS)是由Norgaard等提出的波段区间选择方法[14]。 其原理主要是将数据集均分成多个同等宽度区间之后, 建立每个子区间的PLS模型, 再根据各个模型的交叉验证结果优选出最佳的光谱波段。
后向区间偏最小二乘法(backward interval partial least-square method, BiPLS)是在iPLS的基础上更进一步提出的算法。 由于iPLS并不能确保选出的一个区间是最适于建模的, 故不能排除多个区间建模效果更好的可能。 因此在BiPLS中将会进行多次计算, 并依次减少交叉验证表现最差的区间, 直到只剩下一个数据区间, 进而得出交叉验证结果最小, 即预测效果最好的波段集合。
以校正集与测试集的决定系数(
其中n为校正集和测试集的样品个数, y和y分别为对应的预测值和真实值, SD为样品的标准差。 一般来说, R2越接近于1, RMSE越小, RPD越大, 则说明模型的预测能力越好, 预测结果的准确度越高。
实验装置如图1所示。 激发源采用Q-Switched Nd:YAG激光器(北京镭宝, Dawa 300), 激光波长1 064 nm, 工作频率1 Hz, 脉冲能量设定为150 mJ。 激光器发出的高能脉冲经反射镜传递至聚焦镜(焦距: 100 mm)后, 聚焦在放置于三维样品台上的样品表面。 烧蚀样品产生等离子体, 辐射出的光谱信号经光纤探头耦合至光谱仪。 光谱仪为海洋光学MX2500+, 波长范围190~520 nm, 光谱分辨率0.07 nm, 光谱积分时间设定为1 ms。 为了降低光谱信号产生前期的韧致辐射等影响, 将延时时间设定为3 μ s。 所有实验均在常温常压下完成。
实验样品中Cu和Ni的成分如表1所示, 由XRF检测获得。 样品1是从受到油污染地区采集的原始样品, 其他样品是通过光谱纯试剂配制而成。 为了降低样品不均性对实验结果的影响, 所有的样品均在150 ℃的烤箱中烘干6 h, 烘干后的样品研磨过200目筛网, 最终压制成ϕ 20× 1.5 mm的圆片, 压力为20 MPa。 光谱信号采集过程中, 为了进一步降低激光能量波动等因素对光谱信号的影响, 每个样品采集50个点, 且每个点是由5发脉冲产生的光谱信号平均所得。 建模时, 随机选取了1, 3, 5, 6, 7, 8, 10, 11, 13, 14和15号样品作为校正集, 剩余5个样品作为测试集。
![]() | 表1 样品中Cu和Ni含量(%) Table 1 The Contents list of Cu and Ni (%) |
波长和强度是用于定性分析含油土壤中重金属元素的重要信息。 图2为所有样品的光谱信号平均后得到的光谱图, 结合NIST数据库可以发现, Cu元素在216.51, 324.75和327.39 nm位置的特征线信号较强, Ni元素在338.05和361.49 nm位置特征线信号较强。 但由于土壤成分较为复杂, 除了Cu和Ni元素, 还有较多其他元素的光谱信号, 如K和Ca等。 这些信号的强度以及位置都会对Cu和Ni的谱线造成影响。 因而探得不同的变量选择方法以剔除干扰信号, 达到提升定量分析结果的目的。
3.2.1 PLS模型预测性能
在PLS建模过程中, 潜变量数(LV)的选择尤其重要, 若LV太少, 会导致光谱中较多信息的丢失, 最终导致拟合不充分; 若LV太多, 则会导致过拟合现象, 最终得到的预测误差会有显著的增大。 本实验中, 将通过交叉验证确定两种元素的最佳潜变量。
如图3所示, 两种元素对应模型的RMSECV值先随着LV的增加而减小, 儿后又随着LV的增加而有所起伏。 当LV为3时, Cu元素的PLS模型有最小的RMSECV; 当LV为2时, Ni元素的PLS模型有最小的RMSECV。 在最佳潜变量下, 建立两种重金属元素的全光谱PLS模型, 建模预测结果如图4、 图5所示。
![]() | 图3 Cu和Ni元素PLS模型下不同潜变量数对应的RMSECVFig.3 RMSECVs for PLS models with different potential variables of Cu and Ni |
结果表明, Cu元素的校正集
3.2.2 iPLS模型的预测性能
利用iPLS方法, 将全光谱波段依次按10~25个区间进行等分, 并在每一个区间建立PLS回归模型。 将每次等分所获得的最小RMSECV作为衡量标准。 如表2所示, 在铜元素的区间划分过程中, 当共划分19个区间时, 对应区间9的RMSECV最小, 故选择第9区间作为铜元素iPLS建模的输入变量。 对于Ni元素, iPLS筛选结果与Cu一致。
![]() | 表2 iPLS模型不同区间个数对应Cu的RMSECV Table 2 RMSECVs for iPLS models with different interval numbers of Cu |
建立两元素的iPLS预测模型, 模型的预测结果如图6、 图7所示。
Cu元素的校正集预测结果的
3.2.3 BiPLS模型的预测性能
虽然iPLS对数据集进行了一定程度的筛选, 但由于其忽略了多区间建模效果更优的可能性, 所以可能会丢失一些其他区间的有用信息, 因此采用BiPLS再次进行特征变量的提取。 将全谱划分为10~25个子区间, 并挑选出最小RMSECV值作为建模的光谱区间集合。 对于Cu元素, 结果如表3所示, 当所划区间数为21时, RMSECV最小为0.014 3。
![]() | 表3 BiPLS模型下不同区间个数Cu的RMSECV Table 3 RMSECVs for BiPLS with different interval numbers of Cu |
将由表3确定的21个子区间进行联合建模, 依次剔除RMSECV表现最差的子区间, 当剔除掉11个子区间, 剩下10个子区间时, RMSECV的表现最好, 10个子区间分别为第1, 4, 6, 8, 10, 12, 14, 15, 19和21区间。 对于Ni元素, BiPLS筛选结果与Cu一致。
利用筛选出的区间分别建立两元素的BiPLS模型并预测, 得到两元素预测的结果如图8、 图9所示。
Cu元素校正集预测结果的
Ni元素校正集预测结果的
将全光谱PLS, iPLS以及BiPLS三个模型的各项结果进行比较。
铜元素建模检测结果如表4所示, 以全光谱作为输入变量的PLS模型虽然在校正集中表现良好, 但测试集预测结果较差, 说明光谱中掺杂了过多的干扰信息, 影响了预测结果; iPLS在筛选出建模区间后, 校正集预测能力明显提高, 但测试集
![]() | 表4 Cu元素的PLS, iPLS, BiPLS模型结果比较 Table 4 Comparison of PLS, iPLS and BiPLS models for Cu element |
镍元素建模检测结果如表5所示, 以全光谱建模的PLS模型预测能力较差, 校正集和测试集的预测结果均为三种模型中最差, RPD< 1, 可能对于镍元素来说, 光谱中的干扰信息过多, 全光谱建模不适用于检测其浓度; iPLS模型在筛选出建模区间后, 校正集和测试集的预测结果表现均有明显提高, 说明所选区间的代表性较好, 光谱中的冗余信息也被有效的剔除; 而BiPLS在iPLS的基础上, 保留了更多的光谱信息, 故其测试集表现更好。 由实验数据可知,
![]() | 表5 Ni元素的PLS, iPLS, BiPLS模型结果比较 Table 5 Comparison of PLS, iPLS and BiPLS models for Ni element |
分别采用了PLS, iPLS和BiPLS对土壤中的Cu、 Ni两种元素的含量进行了建模, 并在建模过程中进行了不同方式的特征波长区间的筛选。 实验结果表明: PLS由于采用全光谱建模, 光谱中过多的冗余信息干扰了建模结果, 所建模型的准确度与预测能力均较差; iPLS虽然筛选出了部分波段, 建模结果的表现有所上升, 但由于其剔除的有用信息过多, 导致模型的预测能力和准确度没有明显提升; BiPLS在剔除了干扰信息的基础上, 保留了更多的光谱信息, 模型的预测能力有明显提高, 且预测结果的准确性最佳, 铜元素测试集预测结果的
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|