作者简介: 李伟艳,女, 1981年生,铜陵学院电气工程学院讲师 e-mail: 469143770@qq.com
电镀污泥等含重金属类危险废物的快速分类识别对区域生态环境质量监管至关重要。 采用课题组自研发的能量色散型X射线荧光光谱仪(EDXRF), 采集了东莞市100余家企业的八种不同类型电镀污泥的光谱信息。 对谱图信息进行降噪和标准化处理后识别出关键分类因子, 并将其作为输入变量; 对不同机器学习模型进行训练比较, 确定了含重金属电镀污泥X荧光快速分类识别的最佳方法体系。 结果表明, 铁、 铜、 镍、 锌、 铅、 钙6种金属元素的特征谱线信号可作为电镀污泥的关键分类因子, 尽管随机森林(RF)、 支持向量机(SVM)、 线性判别(LDA)三种机器学习模型经训练后均能实现X荧光光谱对电镀污泥的准确分类识别, 但只有RF模型的准确度、 精确度和灵敏度均可达到100%。 机器学习与EDXRF技术的结合, 能够有效解决传统含重金属类危险废物识别方法所存在的耗时长、 时效性差等关键问题。 在未来, 这一结合在土壤重金属污染快速溯源以及重金属危险废物快速鉴别等生态环境监测管理领域具有广泛的应用前景。
The rapid identification, classification, and pollution source tracing of hazardous wastes containing heavy metals is crucial to regional ecological and environmental quality supervision. This study used the energy-based X-ray fluorescence spectroscopy device (EDXRF) self-developed by the research group to collect spectral information of 8 different types of electroplating sludge from over 100 companies in Dongguan City. After spectral information noise reduction and data standardization, key classification factors were identified and used as input variables. The best method system for rapid X-fluorescence classification and identification of electroplating sludge containing heavy metals was determined through training and comparison of different machine models. The results show that the characteristic spectral line signals corresponding to the six metal elements of iron, copper, nickel, zinc, lead, and calcium can be used as a key factor to distinguish different types of electroplating sludge. Although random forest (RF), support vector machine (SVM), and linear discriminant (LDA) could achieve accurate classification and identification of electroplating sludge using X-ray fluorescence spectrum, only the RF model achieves 100% accuracy, precision, and sensitivity. The combination of machine learning and EDXRF technology can solve key problems such as the long, time-consuming, and poor timeliness of traditional chemical analysis methods for identifying hazardous wastes containing heavy metals. In the future, it will have broad application prospects in ecological environment monitoring and management such as rapid traceability of heavy metal pollution in soil and rapid identification of hazardous wastes containing heavy metals.
随着我国金属材料及电子信息产业的快速发展, 与之配套的电镀企业产生的含重金属废水排放量急剧增加, 每年排放约40亿m3, 与此同时处理电镀废水所产生的含重金属污泥每年约1 000万t[1, 2]。 电镀污泥成分复杂, 含有大量的铜、 锌、 镍、 铁、 银、 铂等有价金属, 也包含镉、 铬、 砷、 铅等高毒害重金属, 具有含水率高、 灰分高、 热稳定性高等特点, 是一种典型的危险废物[3]。 处理不当和堆积会危害人民生命健康, 甚至造成巨大的生态环境风险。 电镀污泥等含重金属危险固体废物的快速分类识别对区域生态环境的质量监控和管理有着至关重要的作用, 尤其针对解决区域土壤重金属污染的溯源、 非法倾倒等环境违法行为的司法鉴别取证等难题, 提供了创新性解决思路。
传统的复杂固体废物源识别方法有X射线衍射仪(X-ray diffraction, XRD)、 电感耦合等离子体原子发射光谱(inductively coupled plasma atomic emission spectrometry, ICP-AES)等, 这些方法可以准确地定量或定性分析出固体废物的化学组成, 然后根据其成分及形态进行分类识别, 但通常需要现场取样, 在实验室对样品进行预处理后再进行分析, 周期长, 实效性差[4], 无法满足固体废物污染与环境风险现场快速判别与精准溯源的要求。 能量色散型X射线荧光光谱(energy-dispersive X-ray fluorescence spectrometry, EDXRF)是一种现代常用的元素分析仪器, 具有实时检测和全谱分析的特征, 同时, 因其电源、 光管等零部件及结构较波长色散型X射线荧光光谱仪(wavelength dispersive X-ray fluorescence spectrometry, WDXRF)更为轻巧, 能够在线、 便携、 快速获取固体、 液体和粉末样品中从Na到U之间所有元素成分数据, 因此在合金、 矿石、 地质、 环保、 农业、 化工、 土壤元素在线检测方面应用广泛, 也是快速判别特定固体废物中关键元素信息及其生态环境毒性的有效手段[5, 6]。
近年来EDXRF技术的不断发展, 尤其是与人工智能、 深度学习等光谱数据处理方法的不断融合[7], 推动了EDXRF在不同领域样品快速精准分类识别的研究。 如Jalilov等[8]利用XRF光谱技术对Chovdar地区发现的晚青铜时代和早期铁器时代墓地的样品进行分析, 通过基本参数法从XRF谱图中获得成分并对八组考古样品进行了精准分类; Shugar等[9]将X射线荧光光谱法与卷积神经网络(convolutional neural networks, CNN)机器学习相结合, 对48个不同的木材标本进行了清晰地区分和鉴定, 准确率达99%。 针对不同类型固体废物的快速精准分类识别, Teng等[10]利用EDXRF光谱结合光学智能优化算法, 在对锌冶炼过程产生的9种不同固体废物光谱信息数据进行分析基础上, 精准识别了区分不同类型固废的关键谱图信号, 为固体废物的快速分类提供了方法基础。 然而, 由于EDXRF光谱技术存在着基体干扰、 检出限高等问题, 不同来源的同类型固体废物识别精度与效率往往较低。
随着人工智能技术的不断发展, 机器学习方法在分析化学中成为了一种新兴有效的光谱数据处理手段, 它与EDXRF结合能够提高分析结果的准确性。 并且机器学习与EDXRF相结合可以对各种类型的固体危险废物进行分类识别, 是电镀污泥固体废物检测、 提高环境检测效率的优良选择。
本研究利用EDXRF光谱分析和机器学习算法, 建立了一种含重金属危险废物快速识别的预测模型。 收集八种不同类型电镀污泥光谱数据, 根据固体废物分类和预测的准确性, 筛选了区分其不同属性的关键光谱因素, 确定了不同机器学习方法的性能。 并对环境监测的效率进行了比较和讨论, 为指导特定地区重金属电镀污泥的污染源追踪和预防以及快速识别生态环境质量损害提供了一种技术手段。
自研的在线EDXRF检测设备, 设备照片如图1所示。 该仪器外形尺寸为950 mm× 650 mm× 1 850 mm, 它包含了一个钼目标侧窗X射线管, 管电压0~50 kV, 管电流0~800 μ A, 管额定功率50 W, 该探测器为SDD半导体探测器。 实验中, 采集时间为129 s, 电流为200 μ A, 电压为50 kV。
电镀污泥样品来自东莞某污泥处置基地, 采用多批次、 多电点位、 多时段方式采集了来自8家不同公司(编号1#— 8#)的电镀污泥样品, 原始谱图如图2所示。
1#— 8#均为电镀混合污泥, 含有两种及以上的重金属元素。 由于含有多种化学元素, EDXRF光谱的X特征谱线强度易受到基体效应, 背景噪声的干扰, 这些干扰信号会造成分析结果再现性, 重复性差。 因此需要进行光谱预处理来提高模型的预测精度。
采用归一化方法预处理EDXRF光谱, 削弱X射线能量波动的影响, 再利用小波变换去噪去除EDXRF光谱噪声。 小波变换(wavelet transform, WT)是一种有效的EDXRF去噪方法, 使用信噪比(signal to noise ratio, SNR)和均方根误差(root mean squared error, RMSE)两个性能指标来评估去噪效果。 信噪比越大, 有效去噪信号的分量比例越大, 而均方根越小, 信号的振荡也就越小, 去噪效果也就更好, 其计算表示如式(1)和式(2)[11]
$\mathrm{SNR}=10 \lg \frac{ \ \ \sum_{k=1}^{M} \ \ f^{2}(k) \ \ }{ \ \ \sum_{k=1}^{M} \ \ \left|f(k)-y(k)^{2}\right| \ \ }$(1)
$\mathrm{RMSE}=\sqrt{\frac{1}{M}\left(\sum_{k=1}^{M}|f(k)-y(k)|\right)}$(2)
式(1)和式(2)中, f是原始能谱数据, y是去噪后的能谱数据, k是信道地址, M是采样点的数量。
利用Matlab2021b软件中的小波工具箱对所采集电镀污泥的谱图进行降噪处理, 通过计算降噪前后的信噪比(SNR)和均方根误差(RMSE), 在Coif2一阶分解时, 得到较大的信噪比和较小的均方根误差有最好的降噪效果, 所以选择其小波对光谱进行预处理。
主成分分析(principal component analysis, PCA)是一个无监督的学习方法, 可以调整多元数据信息的组合, 提取更少的集成变量特性来解释获得大部分信息的原始数据, 也可以在不严重丢失信息的情况下对有用的信息进行降维[12]。 主成分分析是强大的和广泛应用的化学计量学技术之一, 用于突出重要的分析信号, 为其他的化学计量学方法奠定了基础。 本研究采用PCA方法, 确定EDXRF光谱中电镀污泥分类的关键因素。
随机森林(random forest, RF)分类算法早在2001提出, 是一种基于决策树的机器学习算法[13]。 RF是以决策树作为弱分类的集成分类器, 多个决策树通过集成形成强分类器, 依次将每个决策树于待测样品进行预测分类。 支持向量机(support vector machine, SVM)是1995年Vapnik提出的机器学习方法, 是基于统计学理论, 以最小化结构风险为目标的分类器。 线性判别分析(linear discriminant analysis, LDA)是经典的分类算法, 把高维样本数据在最佳分类向量空间进行投影确保新子空间内, 类之间距离较大, 类内距离较小[14]。 SVM和LDA也都是用于分类常用的机器学习算法。 本研究采集EDXRF光谱信息, 采用RF、 LDA、 SVM三种监督学习模型, 对电镀污泥的分类效果进行评价和比较。
为了建立分类模型并验证其性能, 将每种电镀污泥样品采集50组EDXRF光谱数据共400组, 按照7∶ 3划分为训练集和测试集。 利用随机原则选取280组光谱数据用于建立判别模型, 优化模型参数, 并利用剩下的120组作为测试集光谱数据对模型的精度进行评价。
我们选用了准确度(Accuracy)、 精确度(Precision)、 灵敏度(Sensitivity)三个统计指标综合评价分类预测模型的性能, 这三个评价指标由混淆矩阵中的TP、 FN、 FP、 TN计算而来, 如式(3)— 式(5)
其中TP、 FN、 FP和TN分别为真正类、 假负类、 假正类及真负类样本的数量。 所有的分析均使用Matlab2021b和Origin2018进行。
电镀污泥含有多种化学元素, 其EDXRF光谱的X特征谱线包含多种冗余信息及噪声信息。 若直接作为RF、 LDA、 SVM模型的输入建立电镀污泥分类识别模型, 将导致算法寻优速率慢、 分类准确率低。 为了避免出现过拟合现象, 需将数据进行PCA降维处理。 采用PCA算法对八种电镀污泥光谱预处理后的全段光谱信号进行降维处理, 筛选关键分类因子。 PCA计算得到了PC1、 PC2、 PC3和PC4四个主成分对总数据集的解释能力, 如图3所示。 从图3可知, PC1、 PC2、 PC3、 PC4的独立方差解释率分别为44.66%、 43.99%、 13.17%、 4.43%, 四个主成分的累积方差解释率达到99.25%, 表明降维后的前四个主成分能够对来自不同公司的八种电镀污泥样品全段光谱数据进行较全面的解释。 因此, 拟选用前四个主成分作为RF、 LDA、 SVM模型的输入。
![]() | 图4 电镀污泥样品PCA聚类判别结果 (a): PC1和PC2; (b): PC3和PC4Fig.4 PCA clustering discrimination results of electroplating sludge samples (a): PC1 and PC2; (b): PC3 and PC4 |
以PC1和PC2两个主成分作为判别变量可以分出6个独立的集群, 2#、 4#、 6#、 8#电镀污泥样品分别聚集为一个集群并能明显区别于其他样品, 说明EDXRF光谱具有显著的不同特征。 而1#、 3#、 5#样品特征差异不显著无法准确区分, 未能彻底进行分离说明可能1#、 3#、 5#分析元素含量较为接近, 导致无法对不同类别的样品进行准确地分类。 8#样品中的部分样品出现在1#、 3#、 5#样品的集群中, 出现了个别样品错误分类的现象。 以PC3和PC4两个主成分作为判别变量仅能分出4个独立的集群, 其中1#、 4#电镀污泥样品分别聚集为一个集群并能明显区别于其他样品。 而7#、 8#样品和2#、 3#、 5#、 6#样品分别聚集为集群, 未能彻底进行分离, 8#样品中的部分样品出现在2#、 3#、 5#、 6#样品的集群中, 出现了个别样品错误分类的现象。 可能由于基体效应的影响, PCA-聚类判别方法对于电镀污泥样品不能进行完全正确的分类判别。
PC1、 PC2、 PC3、 PC4主成分的加载图如图5所示。 Fe-Kα 、 Fe-Kβ 和Zn-Kα 谱线对PC1图有极大贡献, 但Cu谱线呈负相关; Fe-Kα 、 Cu-Kα 和Pb-Lβ 对PC2具有较大的贡献, 但Zn谱线呈负相关; Zn-Kα 、 Zn-Kβ 、 Cu-Kα 和Ni-Kα 对PC3具有较大的贡献; Pb、 Ca-Kα 、 Ni-Kα 和Fe-Kα 对PC4具有较大的贡献, 其中Ca、 Ni、 Fe元素呈负相关。 从主成分加载图中所得特征元素射线, 选择较强的K系谱线作为判别因子。 Pb元素的Lα 与As元素的Kα 谱峰叠加, 所以对于Pb元素选择Lβ 作为判别因子。 表1中列出了元素谱线判别因子。 可以看出6种元素特征谱峰信号是区分八种电镀污泥的关键因素。 因此Ca-Kα 、 Ni-Kα 、 Fe-Kα 、 Zn-Kα 和Pb-Lβ 谱峰信号是识别不同种类的电镀污泥固体废物的关键因素。
![]() | 表1 元素谱线关键判别因子 Table 1 Key discriminant factors of element spectral lines |
采用RF、 LDA、 SVM三种模型对八种电镀污泥EDXRF光谱数据测试集进行分类识别。 为获得最优模型, 提前将光谱数据划分为训练集和测试集。 随机选取280组光谱数据作为训练集, 120组光谱数据作为测试集。 将120组测试集光谱数据作为RF、 LDA、 SVM三种模型的输入, 进行模型分类评估判别结果的混淆矩阵如图6所示。 通过混淆矩阵计算三个分类判别模型的准确度、 精确度和灵敏度结果如表2所示。
![]() | 图6 不同电镀污泥判别模型的混淆矩阵 (a): RF; (b): LDA; (c): SVMFig.6 Confusion matrices of different electroplating sludge discrimination models (a): RF; (b): LDA; (c): SVM |
![]() | 表2 RF、 LDA、 SVM分类判别模型测试集结果 Table 2 Test set results of RF, LDA and SVM classification and discrimination models |
由表2可知, 分类判别准确率RF模型> LDA模型> SVM模型; 分类判别精确率RF模型> LDA模型> SVM模型; 分类判别灵敏度RF模型> SVM模型> LDA模型。 1#— 8#电镀污泥RF模型的准确度、 精确度和灵敏度均达到100%, 表明RF对八种电镀污泥固体废物样品具有完美的分类能力。 RF本质上是多个弱分类通过集成形成强分类器, 依次将每个决策树应用于待测样品的预测分类中, 并以投票的方式决定类别, 得到票数最高的为待测样品的最终类别。 每个决策树的训练数据都经过对训练集有放回地随机抽取的, 每个决策之间的联系性不大, 因此RF模型不容易出现过拟合的现象, 且具有较高的鲁棒性和准确性。 而LDA模型平均准确率为94.92%, 平均精确度为97.25%, 平均灵敏度为96.82%, 存在部分识别分类不准确的情况, 这可能是因为LDA模型属于线性模型, 对部分元素含量比较接近、 特征X射线强度数据存在较强非线性的电镀污泥样品不使用, 所以分类判别的准确率较低。 与前两种模型相比较, SVM分类判别的准确率最低, 其平均准确率为94.69%, 平均精确度为94.69%, 平均灵敏度为96.94%。 虽然支持向量机(SVM)在处理小样本、 非线性以及高维模式识别问题时具有优势, 然而在面对大样本非线性数据的识别时, 其准确率较低。 特别是电镀污泥内部含有一定量的有机物, 会对特征X射线强度数据产生较强干扰, 因此SVM模型的分类准确率偏低。 整体来看, PCA-RF模型更适用于电镀污泥固体废物的分类识别。
研究了机器学习算法在X荧光固废分类识别上的应用, 使用EDXRF与机器学习相结合可以快速准确地识别不同类型的电镀污泥固体废物和描述其物理和化学性质, 同时克服一些相关干扰问题。 结果表明:
(1)采用自研的在线EDXRF检测设备采集大量光谱数据, PCA方法发现Fe、 Cu、 Ni、 Zn、 Pb、 Ca元素的6个特征信号是区分八种电镀污泥的关键因素。
(2)将这6个特征信号作为输入变量, 建立RF、 LDA、 SVM三种有分类判别模型, 这三种机器学习方法能够实现对电镀污泥样品EDXRF光谱的准确识别, RF模型的准确度、 精确度和灵敏度均为100%, 判别分类结果优于LDA模型、 SVM模型的判别结果。
(3)PCA-RF模型与EDXRF技术结合有助于电镀污泥等大宗固体废物的快速溯源、 污染源鉴别和远程分析等。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|