作者简介: 关丛荣,女, 1971年生,北方工业大学副教授 e-mail: gcr@ncut.edu.cn
土壤是人类赖以生存的物质基础, 它的特性与人们的生产生活密切相关, 传统土壤重金属检测方法如原子吸收光谱法、 电感耦合等离子体质谱法分析能力较弱且价格昂贵, 因此亟需一种开发低成本易操作的土壤多种元素同时定量分析方法。 激光诱导击穿光谱(LIBS)技术因其分析快速、 多元素同时分析等优点被广泛关注, 但由于其体积较大不便于携带并且大多应用于实验室分析, 为了满足现场检测的需求, 研制了一台分体式现场LIBS检测仪, 其设计是将仪器分为探测头和机箱两部分并通过包塑管进行连接, 采用微型二极管泵浦激光器, 脉冲能量可达100 mJ, 波长1 064 nm, 重复频率为1~10 Hz; 此外采用多通道高分辨率光谱仪, 提高LIBS的分析性能; 为了减小辐射背景干扰, 利用FPGA实现μs级延迟时间功能。 对其应用在11种土壤获取光谱数据, 实验设置脉冲能量为100 mJ, 延迟时间设为1 μs, 积分时间2 ms, 每个样品采集10个不同位置的光谱, 每个位置测量20次, 共采集200个光谱数据, 为减少噪声干扰, 对每个样品的光谱数据进行均值预处理后再进行Beads算法基线校正, 利用PCA主成分分析得到贡献率最大的3个主成分分量, 再通过Kmeans++算法对不同地区不同类型的11种土壤进行聚类分析, 将相同类别的土壤代入偏最小二乘(PLSR)算法, 每个元素选取两个特征谱线以及上下各10个点来增强光谱信息, 选择一种样品作为预测对Cu、 Cr、 Ni、 Co、 Cd五种土壤重金属元素进行定量分析。 结果表明, 与未进行聚类分析相比, 此方法可明显提高元素的拟合相关系数, 五种重金属元素的相关系数分别从0.953、 0.992、 0.989、 0.982、 0.99提高至0.999、 0.998、 0.999 5、 0.996 5、 0.993, 相关系数均达到0.99及以上满足LIBS线性分析要求, 其预测结果与实际含量之间的平均相对误差分别从83.45%、 16.03%、 22.94%、 43.91%、 125.768%提高至1.14%、 0.99%、 0.895%、 1.879%、 1.862%, 可以发现经过聚类分析后, 其预测误差大大降低, 均在5%以内, 具有较好的分析性能, 五种元素的相关系数和预测误差相比于直接进行PLSR方法均有提升。 PCA与Kmeans++结合的方法能够更准确的进行聚类, 在降维后进行聚类可以减少噪声和冗余信息的影响, 加快计算速度, 减少异常点对聚类效果的影响提高鲁棒性。
Soil is the material basis of human survival; its characteristics closely relate to people's production and life. Traditional soil heavy metal detection methods such as atomic absorption spectroscopy and inductively coupled plasma mass spectrometry analysis are weak and expensive, so the development of low-cost operating soil elements quantitative analysis method at the same time. Laser-induced breakdown spectroscopy (LIBS) technology has been widely used because of its rapid and multi-element simultaneous analysis. However, because it is not easy to carry, a split-type field LIBS detector was developed to meet the field testing needs. Its design is to divide the instrument into two parts, probe head, and chassis, and connect it through a plastic pipe. Using a miniature diode pump laser, the pulse energy is up to 100 mJ, with a wavelength of 1 064 nm. The repetition frequency is 1~10 Hz. In addition, using a multichannel high-resolution spectrometer improves LIBS's analytical performance. FPGA is used to realize the us-level delay time function to reduce radiation background interference. To obtain spectral data in 11 soils, The pulse energy was 100 mJ, The delay time was set to 1us, Integration time of 2 ms, Spectra from 10 different positions were collected for each sample, Each position was measured 20 times, A total of 200 spectral data were collected, To reduce the noise interference, The spectral data for each sample were mean-preprocessed after the Beads algorithm baseline correction, The three principal component components with the largest contribution rate were obtained using PCA principal component analysis, In the clustering analysis of 11 different types of soils in different regions by the Kmeans++ algorithm, of the same category of soil into the partial least squares (PLSR) algorithm, Each element selects two characteristic lines and 10 points to enhance the spectral information, One sample was selected as a prediction for quantitative analysis of five soil heavy metal elements, Cu, Cr, Ni, Co, and Cd. the results show that, In contrast to that where no cluster analysis was performed, This method can significantly improve the fitting correlation coefficient of the elements, The correlation coefficients of the five heavy metal elements increased from 0.953, 0.992, 0.989, 0.982, 0.99 to 0.999, 0.998, 0.999 5, 0.996 5, 0.993, respectively, The correlation coefficient of 0.99 and above all meet the requirements of LIBS linear analysis, The average relative error between the prediction results and the actual content increased from 83.45%, 16.03%, 22.94%, 43.91%, 125.768% to 1.14%, 0.99%, 0.895%, 1.879%, 1.862%, respectively, It can be found that after the cluster analysis, Its prediction error is greatly reduced, All were within 5%, With a relatively good analytical performance, The correlation coefficient and prediction error of the five elements are improved compared with the direct PLSR method. Combining PCA and Kmeans++ can be more accurate clustering after dimension reduction, reduce the influence of noise and redundant information, speed up the calculation, reduce the influence of abnormal points on the clustering effect, and improve the robustness.
土壤是环境的重要组成部分, 人类生产、 生活离不开土壤[1]。 然而, 随着工业、 城市化和现代农业的快速发展, 大量有害物质被排放到土壤中造成重金属污染, 所以土壤重金属污染检测至关重要。 目前, 国内外学者和研究机构常用的土壤重金属成分检测方法通常有电感耦合等离子体发射光谱法[2, 3](ICP-OES)、 电感耦合等离子体质谱法[2, 4](ICP-MS)、 X射线荧光光谱法[2, 5](XRF)等分析方法, 但这些方法分析能力较弱且操作成本昂贵无法满足现场分析, 因此开发低成本易操作的土壤多种元素同时定量分析方法以及现场检测仪十分必要。
激光诱导击穿光谱(LIBS)技术因其分析快速、 无需样品制备以及多元素同时分析等优点被广泛关注并应用于土壤重金属检测分析中, 但是, 传统的 LIBS检测仪存在着尺寸过大、 不方便携带等缺点, 而便携式LIBS检测仪多采用牺牲性能的方法, 存在着定量准确度和准确度不高、 结果不稳定、 可重复性差等不足。
姚胤旭等[6]为分析改善利用LIBS技术定量分析时基体效应的影响, 研究了基体种类、 KCl质量分数和激发方式等对大米中镉元素进行研究, 其结果表明基体主成分的化学形态和电离能是产生基体效应的主要因素, KCl作为添加剂可以增强光谱强度, 双脉冲激发方式不仅增强光谱强度还能提高信噪比; 窦有权等[7]研制了基于LIBS的便携式煤质快速检测仪, 基于马氏距离的异常数据剔除与基于稀疏矩阵的基线估计与降噪算法进行预处理, 结合支持向量机算法对煤样进行回归预测, 碳含量的预测误差为4.51%; 胡梦颖等[8]采用超高压制样技术与LIBS联用测定土壤中的硅铝铁钾, 该方法测定营养元素的精密度范围在0.31%~4.21%之间; Li等[9]通过在土壤中加入不同浓度KCl和KI添加剂研究土壤中Cd和Al的光谱强度, 结果说明15%的KCl可以将土壤中Cd和Al和光谱强度分别提高至1.33倍和1.61倍, 15%的KI将光谱强度分别提高至1.84倍和1.81倍, 提高了土壤检测精度; Erler[10]等利用手持式LIBS仪器分析土壤中Ca、 K、 Mg、 N、 P和微量元素Mn、 Fe, 采用偏最小二乘法、 最小绝对收缩和选择运算符回归以及高斯过程回归的方法对其进行预测, 其中, Ca、 K、 Mg和Fe的预测效果最好; 曾庆栋[11, 12]等设计并搭建了基于光纤激光器的便携式LIBS检测仪, 对钢铁中的Mn、 Si等元素进行了定量分析, 除此之外, 还研制了移动式光纤激光诱导击穿光谱仪, 能够对钢材料中的Mn、 Cr、 Ni等元素进行定量分析; 林庆宇[13]等研制出国内首台高能手持式LIBS设备, 其脉冲能量可达百mJ, 满足现场检测要求, 并实现对样品表面自动对焦以及元素的快速分析; 清华大学王哲[14]等采用必达泰克公司的手持式LIBS仪器, 提出一种基于主导因素的偏最小二乘法回归与光谱标准化的数据处理算法, 能够对钢铁中的微量元素进行分析。
近年来文献对土壤重金属检测的方法大多采用将1种土壤标样自制不同梯度的重金属样品结合机器学习方法对其进行定量分析, 对于不同类型不同地区的土壤分类方面以及多元素分析方面研究较少, 且对于现场LIBS检测而言由于野外环境恶劣以及性能的降低导致其检测更为困难, 针对此问题本文设计的分体式LIBS在便于携带的基础上减少降低其性能, 通过开启探测头侧端的微型高转速风扇能够解决在激发时产生的灰尘污染镜片造成光谱信号干扰影响激发效果, 并提出PCA-Kmeans++的方法对11种土壤进行聚类分析, 结合PLSR方法对相似基体土壤的重金属元素进行定量分析。
土壤分体式现场LIBS检测仪如图1所示, 主要由激光器、 光路采集和计算机组成, 整体的设计思路是将仪器分为探测头和机箱两部分并通过包塑管进行连接, 在LIBS probe(探测头)里主要放置激光器、 凸透镜、 微型风扇、 光纤调试架和光纤; 机箱内放置FPGA、 电源系统和光谱仪。
为解决传统LIBS检测仪存在着尺寸过大、 不方便携带等缺点、 当前便携式LIBS由激光器和光谱仪体积减小造成脉冲能量低、 稳定性变差以及光谱分辨率降低等性能问题, 本文研制的分体式LIBS检测仪采用微型二极管泵浦激光器, 脉冲能量可达100 mJ, 波长1 064 nm, 重复频率为1~10 Hz; 采用多通道高分辨率光谱仪, 波长范围为182.45~849.33 nm, 182.45~408 nm波长段内使用UE光栅, 2 400 lines· mm-1, 平均光谱分辨率0.09~0.13 nm; 405~849.33 nm波长段内使用VC光栅, 1 200 lines· mm-1, 平均光谱分辨率0.14~0.18 nm, 光谱仪的每个通道都配有一个4 096像素规格的7× 200 μ m的CMOS探测器, 该光谱仪能够提高分体式现场LIBS检测仪的分析性能; 由于在等离子体产生初期, 会造成连续背景光谱干扰影响定量分析, 为了减小此干扰, 该仪器利用FPGA实现μ s级延迟时间的功能, 以FPGA为主控芯片, 使延时信号的稳定性得到保证, 与STM32相比, 具有更简单、 更稳定的特点; 由于在现场检测激发时会产生大量灰尘污染镜片, 本检测仪在探测头侧端增加了微型高转速的风扇, 使腔体内气压大于外界气压, 在激发时产生的灰尘随着风扇持续的气流通过激发口通道迅速排出腔内, 从而避免了设备污染实现防尘功能; 由于探测头的空间很小不便于调节光纤角度、 固定等问题, 设计了金属光纤调试架, 完成光纤的固定、 高度调节、 角度调节以及聚焦点距离的调节, 将采集的光谱信号达到最佳。
在实验开始之前首先进行调试, 并优化实验参数, 通过光纤金属调试架使光纤采集效果达到最佳, 激光器的波长为1 064 nm, 脉冲能量设置为100 mJ, 延迟时间为1 μ s, 重复频率设置为1 Hz, 积分时间为2 ms。 当激光器产生激光束聚焦在样品表面时产生等离子体, 等离子体内的原子或离子发生能级跃迁, 释放出能量形成对应的谱线, 光纤采集器收集这些谱线传输到光谱仪中进行分光处理, 再传输至计算机中将光信号转换成电信号进行数据处理。
分体式现场LIBS检测仪的性能指标见表1。
![]() | 表1 分体式现场LIBS检测仪的性能指标 Table 1 Performance index of the split-type field LIBS tester |
实验样品是由山东中科睿普公司提供的11种标准土壤样品, 其编号、 地区及元素含量见表2, 质量分数为10-6。
![]() | 表2 土壤重金属元素含量 Table 2 Heavy metal element content in the soil |
样品制备中先将每种土壤样品均经过100目筛子进行筛选, 减小土壤颗粒度对光谱信号的影响增强光谱强度, 筛选后每种土壤称取3 g, 在10 MPa的压力下并持续三分钟用粉末压片机通过特殊模具压制成直径为10 mm的土壤薄片。 由于405a— 407a三种土壤为红壤, 其粘合性较强, 容易粘在模具上, 对其压片参数调整为3 g, 2 MPa, 持续时间1 min。 为了增强光谱信号的稳定性, 每种土壤光谱数据是每个位置激发20次, 测量10个位置, 每种土壤共200个光谱数据。 编号GBW07401a的光谱信号如图2所示, 波长范围为182.45~327.12 nm。
1.2.1 特征谱线
特征谱线的选择对元素的定标有较大影响, 图1实验平台光谱仪采集到的光谱信号波长范围为182.45~849.33 nm, 包含有很多待测元素的特征谱线, 选择原则是特征谱线强度较强且灵敏度较高的原则, 其元素分析谱线见表3。
![]() | 表3 元素特征谱线(nm) Table 3 Element characteristic spectral line (nm) |
1.2.2 基线校正
对LIBS光谱数据预处理是减少分析结果干扰, 本文采用基于稀疏矩阵技术的基线校正(Beads)算法对原始数据进行基线校正。 Beads算法实质上是一种分解算法, 将光谱数据分解为目标成分和基线成分, 其原理是通过抑制漂移和拟合分段局部信号来校正基线, 但Beads算法的效果依赖于对截止频率的选择, 本文将截止频率调整为0.04, 对GBW07402a土壤样品为例进行基线校正后如图3所示, 其中黑色线为原始信号, 红色线表示经基线校正后的基线信号。
经过Beads基线校正后, 整体谱图信号没有造成失真, 且基线兼顾了曲线极小值点、 峰值点与异常点的平衡, 拟合效果良好, 能够提高数据的准确性和可靠性。
1.2.3 PCA-Kmeans++
由于不同地区的土壤基体元素含量存在差异, 待测元素的特征光谱线强受基体影响程度差异较大, 基于此本文提出对不同类型不同地区的土壤先进行分类再对其进行定量分析。
聚类分析是一种将相似数据样本划分为同一类别的方法, 主成分分析(PCA)的是对数据进行降维[7], 其主要思想是将n维特征映射到k维上, 这k维是全新的正交特征也被称为主成分, 是在原有n维特征的基础上重新构造出来的k维特征。 PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴, 新的坐标轴的选择与数据本身是密切相关的。 只保留包含绝大部分方差的维度特征, 而忽略包含方差几乎为0的特征维度, 实现对数据特征的降维处理。
K-means++算法是一种改进的K-means聚类算法, 用于在初始时选择良好的聚类中心。 该算法的原理如下: 首先随机选择一个数据点作为第一个聚类中心; 对于每一个数据点, 计算它与已选择的聚类中心的最短距离; 根据每个数据点与已选择的聚类中心的最短距离的权重来选择下一个聚类中心。 重复上述步骤, 直到选择出k个聚类中心; 使用选定的k个聚类中心进行聚类。 通过K-means++算法选择聚类中心时, 更有可能选择到距离数据点更远的聚类中心, 从而能够更好地初始化聚类过程, 提高了聚类的效果。 这种改进能够避免传统K-means算法因初始聚类中心选择不佳而陷入局部最优解的问题, 使得K-means++算法更稳定且更具鲁棒性。
将两种方法结合起来是为了更准确地进行聚类, 在降维后进行聚类可以减少噪声和冗余信息的影响, 加快计算速度, 减少异常点对聚类效果的影响提高鲁棒性。 其思想是利用PCA主成分分析方法, 得到贡献率最大的几个主成分分量, 再通过Kmeans++算法对主成分分量进行聚类。 由于不同地区不同类型的土壤基体差异较大, 直接进行建模其存在较大误差, 故本文提出的建模思想是将同类型基体的土壤进行建模, 减小基体效应。
1.2.4 PLSR
偏最小二乘法(PLSR)是一种广泛应用于多元统计分析领域的预测建模方法。 与传统的多元回归方法不同, PLSR可以同时考虑多个自变量之间的相关性, 以及自变量与因变量之间的关系。 PLSR模型是一种多元线性回归模型, 其原理是在自变量和因变量之间选择一组新的变量, 使得原有变量群中信息方差的损失最小。 这样需要同时考虑自变量之间的相关性和自变量与因变量之间的关系, 从而得到有效的预测模型。 具体来说, PLS中的主要思想是将自变量和因变量映射到一个新的空间中, 使得在该空间中自变量和因变量之间的协方差最大。 在该过程中, PLS模型会输出一组维度较低的新变量(即因子), 这些变量包含了原变量的大部分信息。 最终, 基于这些因子建立的多元线性回归模型可以显著提高预测精度。
本文将同一聚类的土壤代入到偏最小二乘法(PLSR)中进行建模, 以其中一种样品作为预测样品, 这样有效减小土壤基体效应的影响。
本文研究了5种重金属元素, 对每种元素单独考虑, 将预处理后的数据代入PCA-Kmeans++模型当中, 得到贡献率最大的几个主成分分量, 再通过Kmeans++算法对主成分分量进行聚类, 前三个主成分的贡献率达到98.025 8, 说明前三个主成分足以代表大部分信息, 以Ni为例, 聚类后的效果图如图4所示, 将数据分为K值为3的簇, 对每个类别用不同的颜色表示, 横坐标是数据的第一维特征, 纵坐标是数据的第二维特征。
可以发现将11种土壤分为3类, 其中GBW07402a— GBW07406a、 GBW07408a、 GBW07560、 GBW07985, 这8种土壤为一类, 选择Ni元素252.45和341.42 nm两条谱线以及上下各十个点的光谱信息代入到PLSR模型中, 以其中一种样品为预测样品, 其拟合曲线如图5(b)所示, 图5(a)为未进行聚类分析直接代入PLSR模型所示。
结果表明, 与未进行聚类分析相比, 将同类型基体的土壤进行建模后, Ni元素的相关系数从0.989提高到0.999 5, 大大提高了其拟合度, 具有良好的线性关系, 能够减少基体效应带来的影响, 但还需要看其实际含量与预测含量的相对误差, 其实际含量、 预测含量与预测误差见表4。
![]() | 表4 Ni元素实际含量与预测含量 Table 4 Actual and predicted content of Ni elements |
表4可知, 虽然未进行聚类分析之前, Ni元素的相关系数已经达到0.989, 但通过观察其预测误差发现误差太大, 不满足实验要求。 经过聚类后将同一类的土壤进行PLSR建模后, 其预测误差有很大改善, 平均预测误差从22.94%降为0.89%, 未进行聚类分析之前, 其预测误差最大为62.17%, 预测效果非常差, 经过聚类分析后, 其预测误差达到0.625%, 降低了预测误差, 也提高了相关系数, 表明对于不同地区不同类型的土壤进行检测时, 先对其分类再定标是非常有必要的, 当待测样品与建模样品属于不同的类型时, 其预测浓度与真实浓度相差较大; 当待测样品与建模样品属于相同的类型时, 其预测浓度与真实浓度相差较小。 同样的方法对土壤中的Cu、 Cr、 Co、 Cd元素定量分析, 其拟合曲线分别如图6— 图9所示, 实际含量、 预测含量对比表分别见表5。
![]() | 表5 各元素的PLSR, PCA-Kmeans++-PLSR模型结果比较 Table 5 Comparison of PLSR, PCA-Kmeans++-PLSR model results for each element |
由图6— 图9所示, Cu、 Cr、 Co、 Cd四种元素的相关系数与未进行聚类分析相比, 都得到较大提高, 分别从0.953、 0.992、 0.982、 0.985提高至0.999、 0.998、 0.996、 0.992。 相关系数不错只能说明此方法可行, 还需要看预测误差, 由于五种元素的误差表过于繁琐, 故用汇总表来展示Cu、 Cr、 Co、 Cd、 Ni五种元素的相关系数与平均预测误差见表5。
通过表5预测误差的比较可知, 在未进行聚类分析之前虽然Cu元素的相关系数达到0.953, 但其预测误差太大达到83.45%, 在对其进行聚类分析之后, 再将相同基体的样品进行PLSR建模, 不仅相关系数得到提高, 其预测误差也降低为1.14%, 预测误差较低; Cr元素平均预测误差从16.03%降低为0.99%、 Co元素的预测误差从43.91%降低为1.88%、 Cd元素的预测误差从22.94%降低为0.985%, 有明显改善。 由此表明, 对于不同类型不同地区的土壤进行定量分析之前进行分类是很有必要的, 当待测样品与建模样品属于不同的类型时, 其预测浓度与真实浓度相差较大; 属于同一类型时其相对误差较小。
通过对Cu、 Cr、 Ni、 Co、 Cd五种元素的分析, 表明对待测样本进行含量预测之前, 要先对不同地区土壤进行分类, 不同类别的土壤样进行定标时, 其结果与实际含量之间存在很大的相对误差; 用PCA-Kmeans++结合的方法将待测样本和标定样本归类为同一类, 待测样本与土壤样本具有相近的基体, 再进行定量分析后预测浓度与真实浓度之间的相对误差很小。
设计的分体式LIBS满足在便于携带的基础上减少降低便携式LIBS的性能, 并解决在激发时产生的灰尘污染镜片造成光谱信号干扰, 将仪器分为探测头和机箱两部分并通过包塑管进行连接, 采用微型二极管泵浦激光器, 脉冲能量可达100 mJ, 波长1 064 nm, 重复频率为1~10 Hz; 此外采用多通道高分辨率光谱仪, 提高LIBS的分析性能; 为了减小辐射背景干扰, 利用FPGA实现μ s级延迟时间功能。 利用LIBS技术结合Beads算法基线校正、 PCA-Kmeans++对不同地区不同类型的土壤进行聚类分析, 再将相同类别的土壤代入PLSR进行建模, 对Cu、 Cr、 Ni、 Co、 Cd五种重金属元素进行定标, 与未进行聚类分析相比, 此方法可明显提高元素的拟合相关系数, 五种重金属元素的相关系数分别从0.953、 0.992、 0.989、 0.982、 0.99提高至0.999、 0.998、 0.999 5、 0.996 5、 0.993, 相关系数均达到0.99及以上满足LIBS线性分析要求, 其预测结果与实际含量之间的平均相对误差分别从83.45%、 16.03%、 22.94%、 43.91%、 125.768%提高至1.14%、 0.99%、 0.895%、 1.879%、 1.862%, 可以发现经过聚类分析后, 其预测误差大大降低, 均在5%以内, 具有较好的分析性能, 五种元素的相关系数和预测误差相比于直接进行PLSR方法均有提升, 能够满足分体式LIBS对土壤重金属元素的定标分析。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|