基于CARS和1D-CNN联合的XRF土壤重金属超标分析方法研究
杨婉琪1,2, 李智琪1,3, 李福生1,2,*, 吕树彬1,2, 樊佳婧1,2
1.电子科技大学自动化工程学院, 四川 成都 611731
2.电子科技大学长三角研究院(湖州), 浙江 湖州 313001
3.清华大学深圳国际研究生院先进制造学部, 广东 深圳 518055
*通讯作者 e-mail: lifusheng@uestc.edu.cn

作者简介: 杨婉琪, 女, 1998年生, 电子科技大学自动化工程学院博士研究生 e-mail: yangwanqi77777@163.com

摘要

随着社会现代化进程的迈进, 愈加频繁的人类活动加剧了土壤重金属污染。 当土壤中重金属元素含量超过风险筛选值时, 会经过食物链摄入人体, 过量的重金属累积对人体健康造成损害。 筛选出具有重金属污染风险的土壤是治理土壤污染的重要环节。 采用X射线荧光(XRF)光谱仪获取了59份国家标准土壤样品的光谱数据, 然后对其进行小波阈值去噪和迭代离散小波变换本底扣除等预处理; 运用基于竞争性自适应重加权采样(CARS)算法对土壤中的重金属元素进行谱线筛选; 将筛选后的结果作为模型的输入, 通过建立1D-CNN模型预测土壤样本是否具有重金属污染的风险。 实验结果显示, 通过CARS算法采样后的特征通道数大幅度减少, Ni、 Cu、 As、 Pb元素从原来的2048个特征点分别减少为37、 53、 37、 45个, 为原来通道数的1.81%~2.59%。 相较于不筛选和连续投影(SPA)筛选方法, 结合CARS算法的1D-CNN模型在判断土壤样品是否有Ni、 Cu、 As、 Pb元素污染风险时的准确率分别可以达到96.67%, 93.22%, 91.67%, 88.33%。 经CARS筛选, 1D-CNN比偏最小二乘回归(PLSR)方法在预测准确性方面有明显优势。 提出的CARS-1D-CNN算法在提高模型预测准确率的同时减少了模型的计算量, 对于XRF光谱土壤重金属元素污染风险筛选具有较好的理论指导和应用价值。

关键词: X射线荧光光谱; 重金属; 竞争性自适应重加权采样; 一维卷积神经网络
中图分类号:O434.13 文献标志码:A
A Combined CARS and 1D-CNN Method for the Analysis of Heavy Metals Exceedances in Soil by XRF Spectroscopy
YANG Wan-qi1,2, LI Zhi-qi1,3, LI Fu-sheng1,2,*, LÜ Shu-bin1,2, FAN Jia-jing1,2
1. School of Automation Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China
2. Yangtze River Delta Research Institute, University of Electronic Science and Technology of China (Huzhou), Huzhou 313001, China
3. Division of Advanced Manufacturing, Shenzhen International Graduate School, Tsinghua University, Shenzhen 518055, China
*Corresponding author
Abstract

The more frequent human activities with the modernization of the society intensify the soil heavy metal pollution. When the content of heavy metal elements in the soil exceeds its risk screening value, there may be risks to human health. Therefore, screening out the soil with the risk of heavy metal pollution is an important part of soil pollution control. The spectral data of 59 national standard soil samples were obtained by X-ray fluorescence (XRF) spectroscopy, and then pre-processed by wavelet soft threshold denoising and iterative discrete wavelet transform background deduction. Moreover, the competing adaptive reweighted sampling (CARS) algorithm was applied to screen the heavy metals in the soil. Finally, the screened results were input to the one-dimensional convolutional neural network (1D-CNN) model to predict whether soil samples were at risk of heavy metal contamination. The results showed that the number of feature channels sampled by the CARS algorithm was significantly reduced from 2048 to 37, 53, 37 and 45 for Ni, Cu, As and Pb respectively, which is 1.81%~2.59% of the original number of channels. Compared with the no screening (i. e. original data) and successive projections algorithm (SPA), the accuracy of the CARS-1D-CNN model can reach 96.67%, 93.22%, 91.67% and 88.33%, respectively in determining whether the soil samples are at risk of contamination with Ni, Cu, As and Pb. Based on CARS screening, 1D-CNN has a significant advantage over traditional partial least squares regression (PLSR) methods regarding predictive accuracy. Therefore, the CARS combined with the 1D-CNN method proposed in this paper improves the model prediction accuracy while reducing its computing complexity, which is a good theoretical guidance for soil heavy metal elemental contamination risk screening.

Keyword: X-ray fluorescence spectroscopy; Heavy metals; Competing adaptive reweighted sampling; One-dimensional convolutional neural network
引言

土壤中的重金属污染是世界上突出的环境污染问题之一。 随着社会城市化的快速发展, 燃料燃烧、 矿产开采、 农药使用等人类活动[1, 2]加剧着土壤中重金属的污染程度。 镍、 铜、 砷、 铅等重金属在人类生活和工业排放中通过大气沉降和农业灌溉等方式进入土壤, 并且长时间滞留难以降解。 这些累积在土壤中的重金属对生态环境影响大, 同时也对人类的健康构成了严重威胁。 我国南方红壤、 黄壤等多表现为酸性, pH值在5.0~6.5[3, 4]。 根据GB15618-2018《中国人民共和国国家标准土壤环境质量农业地土壤污染风险管控标准(试行)》, 当土壤中重金属元素含量超过其风险筛选值时, 可能会对人体健康造成威胁, 应该开展进一步的详细调查以评估该区域的土壤污染风险程度。

然而, 土壤重金属污染具有隐蔽性[5], 人们很难凭借肉眼分辨出土壤中是否存在重金属及其含量, 需要依靠相关检测技术对土壤中的元素含量进行测定及风险评估。 能量色散型X射线荧光光谱(ED-XRF)分析是一种常用的无损分析、 快速检测元素的方法, 因其制样简单、 快捷、 环保、 经济、 准确有效等优点被广泛用于土壤、 合金等的重金属检验[6, 7]。 由于通常需要检测的重金属含量很低, 元素特征峰会出现与其对应干扰元素特征峰发生谱线重叠, 从而导致元素检测分析结果的误差显著增加[8]。 随着人工智能算法进入成分分析领域, 解决土壤重金属污染风险测定出现了新思路。 何迎一[9]基于支持向量机建立土壤重金属污染评价模型, Hu[10]等利用随机森林算法来预测土壤重金属含量。

本工作以土壤重金属元素为研究对象, 采集国家标准土壤样品的XRF光谱数据, 通过小波阈值去噪、 迭代离散小波变换本底扣除对谱线进行预处理, 然后利用竞争性自适应重加权采样算法(CARS)结合一维卷积神经网络(1D-CNN), 将经过特征筛选后的一维光谱数据作为模型的输入, 对土壤中的重金属污染进行风险筛选。

1 实验部分
1.1 样品与仪器

实验样品采用59份国家标准土壤样品, 包含 GBW(E) 农业土壤成分分析标准物质、 GSD 水系沉积物成分分析标准物质、 GSS土壤成分分析标准物质三个系列样本。 实验使用了TecSonde生产的型号为TS-XH4000的手持便携式ED-XRF光谱仪, 实验土壤样品和仪器如图1(a, b)所示。 光谱仪工作电压为45 kV, 工作电流为25 μ A, 多道采集系统的成峰时间设置为0.8 μ s。 激发源为Ag靶x射线光管, 光子激发特定样品后, 通过SDD探测器接收特定样品被激发后的能量, 并通过采集板进行解析, 从而生成能谱。

图1 土壤样品和仪器的示意图
(a): 土壤标准样品; (b): 手持式ED-XRF光谱仪
Fig.1 Schematic diagram of soil samples and instruments
(a): Soil standard samples; (b): A handheld ED-XRF spectrometer

1.2 光谱获取

为保证光谱数据测量的准确性, 在室温下选择XRF光谱仪的土壤测量模式, 并调试仪器测试最优参数, 每个样品的测试时间设置为90 s。 将样品放置在光谱仪的检测窗口上进行测量, 对同一土壤样品进行三次测试, 并将三次测试结果取平均值作为该样品的最终光谱数据, 每份样品均获得2 048个通道数的光谱信息。 表1为59 份样本中研究的Ni、 Cu、 As、 Pb四种重金属元素的统计特征。 在土壤pH值呈酸性的条件下农用耕地、 草地等土壤中Ni、 Cu、 As、 Pb元素污染的风险筛选值分别为60、 50、 40、 70 mg· kg-1

表1 重金属元素统计特征(单位: mg· kg-1) Table 1 Statistics of the observed heavy metal concentration (unit: mg· kg-1)
1.3 数据分析方法及评价指标

1.3.1 CARS算法

CARS算法是一种特征变量选择方法, 将偏最小二乘(PLS)模型回归系数与蒙特卡罗采样技术相结合[11], 基本原理是用蒙特卡罗随机选择一定量样本进行模型校准, 去除PLS模型中回归系数权值较小的点, 最后在多次采样中选择交叉验证均方根误差(RMSECV)值最小的数据, 得到一系列最优子集。 CARS算法[12, 13]的主要步骤包括: (1)用蒙特卡罗采样一定数量的样本作为建模集和预测集, 建立PLS模型; (2)计算PLS模型回归系数的绝对值权重, 利用指数衰减函数去除回归系数绝对值权重较小的变量; (3)利用自适应加权算法, 使得有较大权重的变量将以较高的频率被选择, 得到最终特征点; (4)重复以上步骤N次, 计算特征点集的RMSECV, 选取RMSECV 最小的一组特征点, 得到最优采样结果, 即为CARS方法的最终结果。

1.3.2 1D-CNN模型

卷积神经网络(CNN)是带有卷积操作的深度前馈神经网络[14, 15]。 对于XRF光谱数据来说, 使用一维卷积神经网络(1D-CNN)可以不需要将原始一维向量转换为二维矩阵, 相较二维卷积神经网络能够减少计算复杂度。 通过构建一维卷积核, 提出土壤重金属元素含量超标检测的一维卷积神经网络X荧光光谱分析模型。

卷积神经网络通常由输入层、 卷积层、 池化层、 全连接层组成。 一维CNN的结构与二维CNN相似, 最主要的区别是在一维卷积层中将二维CNN中卷积核的大小修改为一维, 降低了网络的复杂程度, 1D-CNN模型结构如图2所示。 实验构造了一个10层一维CNN用于判断土壤中重金属元素是否存在污染风险, 包括输入层-卷积层1-池化层1-卷积层2-池化层2-卷积层3-池化层3-全连接层1-全连接层2-输出层, 使用筛选准确率作为评价指标。

图2 1D-CNN模型结构图Fig.2 Structure of one dimensional convolutional neural network

2 结果与讨论
2.1 光谱数据预处理

通过小波阈值法对光谱数据进行去噪处理, 分解层数为3层, 小波基为db4, 以土壤样品GBW(E)0070006为例, 去噪结果如图3(a)所示。 可以看出在未改变样本的光谱谱线波形的基础上, 150~680通道能量的光谱谱线更加平滑, 有着很好的去噪效果。 利用迭代离散小波变换对信号进行分解, 并与其主要分量比较取小更新信号, 经多次迭代, 可得到近似光谱本底的曲线[16]。 小波分解高层越高, 主要分量越能代表光谱谱线的主要信息, 与谱线本底越为接近, 但分解层数越高, 主要分量中也损失了更多的细节信息。 经过多次实验, 本底扣除过程中选择分解层数为7层, sym4为小波基, 迭代5次时得到的谱线本底与真实本底最为接近。 以样品GBW(E)0070006为例, 得到背景扣除后的光谱如图3(b)所示。

图3 预处理结果
(a): 小波阈值去噪结果; (b): 迭代离散小波变换本底扣除结果
Fig.3 Pre-processing results
(a): Wavelet soft threshold denoising result; (b): iterative discrete wavelet transform background deduction result

2.2 基于CARS算法的特征点采样

X射线荧光光谱中有2 048个通道(能量段)信息, 而许多通道不在研究目标范围内, 有必要进一步剔除区间能量中的无关变量, 有效的变量选择方法能够提高模型的预测性能。 采用CARS算法进行特征筛选, 在去除冗余信息的同时还提高了数据的可靠性, 参数设置如下: 迭代次数为20次, 蒙特卡罗采样时建模集与校正集的比例为0.8, 最大主成分数为20, 交叉验证数为10。 将59份经过预处理后的土壤样品作为输入, 大小为59× 2 048, 以单一目标元素的含量作为输出, 大小为59× 1。 以Pb为例, 图4为基于CARS算法Pb元素的能量段变量筛选过程。

图4 针对Pb元素光谱数据CARS采样过程Fig.4 Sampling process of spectral data for Pb by CARS method

由图4可知, 筛选出来的特征变量数呈指数函数下降趋势, 谱图的特征通道从原始的2048个急剧减少至400个通道, 然后逐渐缓慢减少并趋于稳定。 RMSECV变化趋势呈现先减小后增大的特点, RMSECV值减小则表明筛选过程中成功剔除了与Pb元素不相关的特征峰。 图中“ * ” 为RMSECV值最低点, 此时MCS采样次数为16, 所保留的45个变量数将作为土壤污染风险筛选模型的输入。 基于CARS算法对Ni, Cu, As和Pb元素的光谱数据筛选结果如表2所示。 经过CARS采样, 特征变量数出现大幅度减少, Ni、 Cu、 As、 Pb元素从原来的2 048个特征分别减少至37、 53、 37、 45个, 为原来通道数的1.81%~2.59%, 去除了XRF光谱能量区间中大量的无用信息。

表2 重金属元素在RMSECV值最小时对应的采样次数及最优变量子集包含的变量个数 Table 2 Sampling frequency and variable number in optimal variables subset of heavy metal elements when RMSECV is lowest
2.3 1D-CNN模型的建立与验证

在基于XRF光谱的土壤重金属元素污染风险筛选任务中, 对于1D-CNN模型则是一个“ 是” 或“ 否” 的二分类问题。 当土壤样品中的元素超过风险筛选值则意味着土壤中有该元素重金属污染的风险。 以Pb元素为例, 当Pb元素含量大于风险筛选值70 mg· kg-1时, 标签被设置为1, 小于等于风险筛选值时设置为0。 在网络输出层对两个标签进行独热码(One-hot)编码, 模型参数设置如表3所示。 1D-CNN模型在Pytorch框架下进行训练, 使用10折交叉验证, 设置epoch为5 000, batch size为32, 学习率为10× 10-6, 损失函数为MSEloss, 通过使用Adam训练。 实验中以经预处理及特征筛选后的特征峰计数值作为输入, 即输入大小为59× 45, 以经独热码编码的Pb元素是否有污染风险作为标签, 模型的输出即为模型对该数据属于这两种类别的分数, 筛选判断结果则为两者间分数高的一类。

表3 1D-CNN模型参数设置 Table 3 Parameter settings of 1D-CNN

采用CARS算法对原始光谱信息进行变量筛选, 并与连续投影算法(SPA)进行比较, 然后利用1D-CNN方法建立土壤重金属元素含量超标检测模型。 针对SPA 变量选择方法[17], 其利用矢量空间共线性最小化原理, 设置最小波长数为1, 最大波长数为50, 找到最小冗余信息的变量筛选结果, 将筛选后的结果输入到1D-CNN模型进行预测。

将1D-CNN模型与上述模型作对比, 表4为不同方法下元素含量风险筛选模型的准确率。 首先对比CARS和SPA筛选算法的有效性, 可以看出CARS算法在X射线荧光光谱的变量选择方面具有较明显优势, 可以筛选出更为有用的通道信息并去除冗余信息, 降低模型计算量。 在CARS算法基础上, 对比1D-CNN和PLSR模型的效果, 发现1D-CNN模型的预测准确率优于传统的PLSR模型, 可以提取到比PLSR方法更多更深层的有用光谱信息, 模型精度更高。 将CRAS筛选算法和1D-CNN方法结合可以很好地提取光谱特征信息, 大幅度提高了模型的准确性。

表4 十折交叉验证下基于不同风险筛选方法的元素含量超标预测结果准确率 Table 4 Comparison of predicted elemental content exceedances based on different risk screening methods under 10-fold cross-validation
3 结论

基于X荧光光谱分析, 建立CARS-1D-CNN模型对重金属元素进行土壤风险筛选判别与分析。 首先, 采用小波阈值去噪和迭代离散小波变换本底扣除对谱图进行预处理, 然后基于CARS 方法进行能量特征选择, 并将筛选后的数据作为1D-CNN模型输入, 判断是否有重金属污染风险。 与全能量段1D-CNN、 SPA-1D-CNN相比, CARS方法有效去除了冗余的干扰信息, 在降低模型计算量的同时还提高了风险筛选的效率。 在CARS筛选的基础上, 1D-CNN相比于传统的PLSR模型具有更优的预测精度和预测能力, Ni、 Cu、 As、 Pb的风险准确率分别为96.67%, 93.22%, 91.67%, 88.33%。 首次提出将CARS结合1D-CNN模型用于土壤风险筛选, 对XRF光谱土壤重金属元素污染筛选有一定的指导意义, 为深度学习在本领域应用提供新的思路。

参考文献
[1] YU Tao, JIANG Tian-yu, LIU Xu, et al(余涛, 蒋天宇, 刘旭, ). Geology in China(中国地质), 2021, 48(2): 460. [本文引用:1]
[2] Zwolak A, Sarzyńska M, Szpyrka E, et al. Water, Air, & Soil Pollution, 2019, 230(7) : 1. [本文引用:1]
[3] LI Xiao-ping(李晓平). The Farmers Consultant(农家参谋), 2014, (6): 10. [本文引用:1]
[4] DAI Wan-hong, HUANG Yao, WU Li, et al(戴万宏, 黄耀, 武丽, ). Acta Pedologica Sinica(土壤学报), 2009, 46(5): 851. [本文引用:1]
[5] WU Shi-meng(吴施萌). Ecological Environment and Protection(生态环境与保护), 2020, (3): 7. [本文引用:1]
[6] XING Yan, TIAN Wei-hua, LIU Jin-hua, et al(杏艳, 田渭花, 刘锦华, ). Environmental Chemistry(环境化学), 2022, 41(10): 3182. [本文引用:1]
[7] DOU Wei-quan, GAO Ming, XIA Pei-min, et al(豆卫全, 高明, 夏培民, ). Metallurgical Analysis(冶金分析), 2019, 39(9): 54. [本文引用:1]
[8] CHEN Ying, LIU Zheng-ying, XIAO Chun-yan, et al(陈颖, 刘峥莹, 肖春艳, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(7): 2175. [本文引用:1]
[9] HE Ying-yi(何迎一). Information & Communications(信息通信), 2020, (12): 122. [本文引用:1]
[10] Hu B F, Xue J, Zhou Y, et al. Environmental Pollution, 2020, 262: 114308. [本文引用:1]
[11] Kumar K. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 244: 118874. [本文引用:1]
[12] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[13] da Silva D J, Wiebeck H. Journal of Polymer Research, 2018, 25(5): 112. [本文引用:1]
[14] CUI Tong-tong, WANG Gui-ling, GAO Jing(崔彤彤, 王桂玲, 高晶). Computer Science(计算机科学), 2020, 47(9): 175. [本文引用:1]
[15] GAO Wen-qiang, XIAO Zhi-yun(高文强, 肖志云). Journal of Chinese Agricultural Mechanization(中国农机化学报), 2022, 43(7): 158. [本文引用:1]
[16] Li F S, Yang W Q, Ma Q, et al. Measurement Science & Technology, 2021, 32(10): 105501. [本文引用:1]
[17] Liang L, Wei L L, Fang G G, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 225: 117515. [本文引用:1]