典型铅锌矿区土壤重金属含量高光谱反演模型研究
吴艳花1, 赵恒谦1,2,*, 毛继华1, 金倩3,4, 王雪飞3,4, 李美钰1
1. 中国矿业大学(北京)地球科学与测绘工程学院, 北京 100083
2. 煤炭资源与安全开采国家重点实验室(中国矿业大学), 北京 100083
3. 河北省地质实验测试中心, 河北 保定 071051
4. 河北省矿产资源与生态环境监测重点实验室, 河北 保定 071051
*通讯作者 e-mail: zhaohq@cumtb.edu.cn

作者简介: 吴艳花, 女, 1996年生, 中国矿业大学(北京)地球科学与测绘工程学院硕士研究生 e-mail: wyx5481@163.com

摘要

矿区开采造成的土壤重金属污染严重影响作物产量、 引发人体疾病; 有效预防土壤重金属污染对健康的损害非常重要。 高光谱快速、 动态获取地物连续光谱信号的特点, 为发展基于遥感的土壤重金属含量监测提供了新的思路。 针对河北省涞源县典型铅锌矿区, 实地采集矿区及周边土壤样本, 基于SVC HR-1024i地物光谱仪(350~2 500 nm)获取土壤光谱反射率, 通过对光谱数据进行平滑、 一阶导数、 多元散射校正、 标准正态变换、 多元散射校正后一阶导数、 标准正态变换后一阶导数六种光谱数据组合变换, 使用差值指数、 比值和归一化方法从六种预处理数据中提取光谱指数, 通过实验室化学测试分析得到土壤重金属镉、 铅、 锌含量, 对不同重金属元素使用不同光谱变换方式进行预处理, 得到不同类型重金属元素的最优光谱变换方式。 采用差值指数、 比值指数和归一化植被指数, 提取不同光谱指数下的最优波段组合, 从而得到用于不同重金属元素建模使用的最优自变量。 基于随机森林和偏最小二乘回归法分别构建重金属元素反演模型。 研究表明, 通过对光谱数据预处理, 可以有效地降低噪声, 增强光谱特征。 从结果来看, 经过预处理后光谱数据与重金属含量相关性有所提高。 对不同重金属元素建模选择对其最优的光谱指数自变量, 增加了反演建模的有效特征。 对三种重金属镉、 铅、 锌利用随机森林算法和偏最小二乘回归法建立预测模型, 最优模型的 R2分别达到了0.90、 0.91、 0.84, 证实了该方法的有效性。 该研究可为铅锌矿区土壤重金属含量反演建模提供依据, 为矿区土壤重金属含量检测提供方法参考。

关键词: 矿区; 重金属污染; 光谱变换; 光谱指数; 反演模型
中图分类号:TP79 文献标志码:A
Study on Hyperspectral Inversion Model of Soil Heavy Metals in Typical Lead-Zinc Mining Areas
WU Yan-hua1, ZHAO Heng-qian1,2,*, MAO Ji-hua1, JIN Qian3,4, WANG Xue-fei3,4, LI Mei-yu1
1. College of Geoscience and Surveying Engineering, China University of Mining and Technology (Beijing), Beijing 100083, China
2. State Key Laboratory of Coal Resources and Safe Mining (China University of Mining and Technology), Beijing 100083, China
3. Hebei Provincial Geological Experiment and Testing Center, Baoding 071051, China
4. Hebei Provincial Key Laboratory of Mineral Resources and Ecological Environment Monitoring, Baoding 071051, China
*Corresponding author
Abstract

Soil heavy metal pollution caused by mining in mining areas seriously affects crop yield and causes human diseases. It is necessary to prevent soil heavy metal pollution from damaging health. Hyperspectral remote sensing can rapidly and dynamically acquire continuous spectra signals of ground objects, which provides a new idea for developing soil heavy metal content monitoring based on remote sensing. Aiming at the typical lead-zinc mining area in Laiyuan County, Hebei Province, soil samples from the mining area and surrounding areas are collected on-site, and the reflectance spectra of soil were obtained using SVC HR-1024i spectrometer (350~2 500 nm). Through the spectral data smoothing, first derivative (FD), multivariate scattering correction (MSC), standard normal variate transform (SNV), first derivative after multivariate scattering correction (MSC+FD), and first derivative after standard normal variatetransform (SNV+FD), six kinds of spectral transformations were performed. The difference index (DI), ratioindex (RI), and normalizeddifference index (NDI) methods were used to extract the spectral indices from the six pretreated data. The contents of heavy metals cadmium (Cd), lead (Pb) and zinc (Zn) in soil were obtained through laboratory chemical testing and analysis. Different spectral transformation methods pretreated different heavy metals. The optimal spectral transformation methods for heavy metal elements were obtained. The difference index, ratio index, and normalized vegetation index were used to extract the optimal band combination under different spectral indices to get the optimal independent variables for modeling different heavy metals. The inversion models of heavy metal elements were constructed based on random forest and partial least square method. The research indicated that the noise could be effectively reduced, and the spectral characteristics were enhanced by pretreatment of spectral data. The results showed that the correlation between the spectral data and the heavy metal content was improved after the pretreatment. The optimal independent variables for different heavy metal elements were selected to increase the practical features of inversion modeling. Random forest algorithm and partial least squares regression method were used to establish prediction models for three heavy metals: cadmium (Cd), lead (Pb), and zinc (Zn). The R2 of the optimal models reached 0.90, 0.91, and 0.84, respectively, which confirmed the validity of this research method. This study can provide a basis for the inversion modeling of soil heavy metal content in lead-zinc mining areas and a method reference for detecting soil heavy metal content in mining areas.

Keyword: Mining area; Heavy metal pollution; Spectral transformation; Spectral index; Inversion model
引言

采矿产生的废弃物会严重污染矿区附近的土壤、 植被和水源, 造成矿区周围的作物、 土壤、 水体中含有的有害重金属浓度过高。 过量摄入的重金属一旦经由食物链进入人体内、 就会直接导致各种疾病发生[1]。 为了有效地避免因重金属污染土壤危害健康, 必须充分了解土壤环境中各种重金属污染物的浓度分布与空间浓度分布规律[2]。 传统的方法是室外采集样品后在实验室内利用电感耦合等离子体质谱法测定重金属含量, 虽然精度高, 但由于成本和效率问题往往取样较少, 难以实现连续调查区域土壤重金属含量空间分布的需求、 同时也不利于开展周期性重复监测[3]。 高光谱遥感可以快速、 动态地获取地物的连续光谱信号, 其为研究基于遥感的土壤重金属含量反演提供新思路[4]。 利用高光谱遥感数据估算土壤重金属浓度具有重要意义。 基于高光谱数据反演土壤重金属浓度的关键是选择一种有效的方法建立土壤重金属浓度与土壤光谱反射率数据之间的相关性模型。 目前, 许多研究人员已经成功地应用传统的线性回归算法以及机器学习算法建立了基于土壤高光谱数据的土壤性质定量反演模型[5, 6]。 光谱数据受到噪声、 杂散光等因素干扰会影响建模精度[7], 对光谱数据进行一定的预处理可以减弱这种影响。 预处理方法有多种, 包括平滑、 基线校正、 散射校正[8]等。 有学者通过Savitzky-Golay平滑、 一阶微分、 二阶微分、 标准正态变换和连续介质去除等方法对土壤中重金属原始光谱进行预处理从而提高建模精度[9, 10]。 有学者[11, 12]基于土壤光谱数据进行特征提取同时结合线性回归及非线性回归方法对土壤重金属含量进行反演。 现有的大部分研究都是基于对光谱数据与重金属含量进行相关性分析确定敏感波段[13], 而针对基于光谱指数确定特征波段的研究较少, 且之前的大部分研究都是基于小样本数据进行土壤重金属含量反演建模研究。

基于此, 以河北省涞源县铅锌矿为研究区, 野外采集100个土壤样本, 基于便携式地物光谱仪(SVCHR-1024i)在室内测定土壤的光谱数据且通过化学测试分析方法得到土壤重金属含量数据, 建立矿区土壤重金属镉(Cd)、 铅(Pb)、 锌(Zn)含量的定量反演模型。 对光谱数据进行平滑、 一阶导数(first derivative, FD)、 多元散射校正(multivariate scatter correction, MSC)、 标准正态变换(standard normal variate transform, SNV)、 多元散射校正后一阶导数、 标准正态变换后一阶导数六种光谱数据预处理; 使用差值指数(difference index, DI)、 比值指数(ratio index, RI)和归一化指数(normalized difference index, NDI)方法从六种预处理数据中提取光谱指数, 将光谱指数与重金属含量关联, 通过划分波段范围, 选择可用于估计土壤重金属含量的光谱指数组合。 将组合光谱指数用做建模输入的自变量, 将土壤重金属含量用作因变量, 利用随机森林法(random forest, RF)和偏最小二乘回归法(partial least squares regression, PLSR)构建研究区土壤重金属元素Cd、 Pb、 Zn的估算模型, 最后利用R2、 RMSE、 MAE三个评价指标对模型的准确性进行验证。 通过研究揭示矿区土壤中重金属含量与光谱反射率之间的关系, 以期为土壤重金属监测和重金属含量动态监测提供方法参考。

1 实验部分
1.1 研究区概况

研究区为河北省涞源县铅锌矿区, 区域内金属矿产较为丰富, 主要以铅、 锌为主。 该区域位于涞源县城东北方向约30 km处, 研究区面积约 4.3 km2, 其中心地理坐标为: 东经 114° 55'16″, 北纬 39° 22'24″。 区域海拔高度600~1 032.89 m, 相对高差约432 m。 采矿区土壤的主要类型是棕壤土和褐土, 土壤受到重金属污染、 大多属于酸性土壤, 存在盐碱化, 从土壤质地来看, 以砾石和物理性砂粒为主, 土质通气性较好。 土壤中的重金属易迁移到斜坡和谷地中。 而采矿作业过程中所产生的尾矿、 废水、 废矿石等废弃物未得到及时有效的处理, 会使矿区周围土壤重金属含量增加, 同时影响植被的生长和居民健康。

图1 研究区地理位置及采样点位置图Fig.1 Geographical location of the study area and location of sampling points

1.2 样本采集与数据处理

实验样本来自河北省涞源县铅锌矿区, 共收集100个土壤样品。 根据现场实际位置及地理特点, 沿着两条研究区的沟谷, 布设条带状取样带采集土壤样本。 将样品研磨成100个粉末样品, 每个样品分为两部分, 分别用于化学分析和光谱实验。 使用美国SVC公司生产的SVC HR-1024i地物光谱仪(350~2 500 nm)获取土样品的光谱数据。 在实验室内利用电感耦合等离子体质谱法测定土壤中的镉、 铅和锌的含量。 地物光谱仪(SVC HR-1024i)光谱覆盖可见光-近红外波段, 光谱仪三个光电二极管对应三个衍射光栅分光计, 分别为1个硅(Si)(350~1 000 nm)和2个砷化钠(InGaAs)(1 000~1 850 nm和1 850~2 500 nm)的二极管阵列。 其中硅阵列(350~1 000 nm)有512个离散探测器, 砷化钠阵列(1 000~2 500 nm)各有256个离散探测器, 能够获取1 024个波段的光谱数据。 在实验室内对土壤样本进行光谱测量。 打开卤素灯源。 将光纤探头固定于铁架台上, 控制与样本之间的距离。 100个标样各测量2次, 取平均值作为最终土样本光谱。

由于土壤样本采集制备及化验测试过程中人为或系统误差的影响会出现异常值, 使用箱型图法对获取的研究区重金属数据进行异常值剔除。

箱型图法是一种比较常用的重金属含量异常值识别方法[14], 该方法的基本原理: 利用Box-plot工具对重金属含量异常值进行检测, 发现三种重金属元素化学测试结果存在不同程度的极端异常值和温和异常值, 利用箱型图的截距线Q3+1.5× IQR和Q1+1.5× IQR(其中Q3为上四分位数, Q1为下四分位数, IQR 为四分位数的间距)作为阈值范围对土壤重金属含量数据的极端异常值进行剔除。

样本在进行光谱数据采集时容易受到仪器和环境变化的影响。 获得的光谱包括噪声光谱数据和地物光谱数据。 通过光谱数据预处理和各种变换, 可以有效地降低噪声, 有利于土壤光谱数据的特征提取, 提高反演建模精度。

2 理论与方法
2.1 光谱数据预处理

2.1.1 Savitzky-Golay平滑法

Savitzky-Golay(SG)平滑算法是一种基本的平滑方法, 信号平滑处理可以除去高频噪声对数据信号的干扰, 是消除噪音最常用的一种方法。 相比于传统去除噪声的算法, 该算法更稳定、 误差更小, 同时不受样本数据的限制。 计算公式如式(1)所示

Xi* =-rrXi+jWjj=-rrWj(1)

式(1)中, Xi* 是平滑后的数据, Wj是移动窗口平滑中的加权因子。 该值是多项式的拟合系数, 窗口长度为2r+1。

2.1.2 光谱导数

光谱导数处理有助于减少低频噪声对目标光谱的影响[15], 一阶光谱导数可以显著增强光谱的细节变化信息, 减弱大气效应、 背景噪声对采集光谱的干扰, 同时能够反映研究对象的一些生物、 化学成分信息, 在植被、 土壤、 矿物等领域中有着广泛的应用[16]。 FD计算方法如式(2)

R'i=Ri-Ri-1ωi-ωi-1(2)

式(2)中, Ri为第i个波段光谱的反射率, ω i为第i个波段的波长

2.1.3 多元散射校正

MSC是常用的一种数据处理方法, 经过散射校正后得到的光谱数据可以增强与成分含量相关的光谱吸收信息。 MSC计算的具体过程如下:

计算待校正光谱的平均光谱

A̅=i=1nAin(3)

建立基于基准数据的一元线性回归, 确定每一个样本的回归系数及偏置

Ai=miA̅+bi(4)

对原始样本进行校正处理

Ai(msc)=Ai-bimi(5)

式中, Ai为校准光谱数据矩阵; A̅i, j是样品通过SG算法平滑后, 通过平均每个波长的近红外光谱获得的平均光谱矢量; mibi分别是与平均光谱进行一元线性回归后获得的相对偏移系数和平移量[17]

2.1.4 标准正态变换

SNV可去除光谱乘性噪声[18], 其实质是使原始光谱数据标准正态化, 计算方法如式(6)

Ri* =Ri-R̅σR(6)

式(6)中, Ri为第i个波段光谱的反射率, R̅为一个样本光谱反射率的均值, σ R为一个样本光谱反射率的标准差。

2.1.5 光谱指数构建

为了提高重金属含量反演的准确性, 构建了三个光谱指数: DI、 RI和NDI[19]。 利用建立的指标分析了样品的光谱特征与重金属含量之间的相关性。 各指标的计算方法如式(7)— 式(9)

RI=RλmRλn(7)

DI=Rλm-Rλn(8)

NDI=Rλm-RλnRλm+Rλn(9)

式中, λ m是对应于点m的波长位置; λ n是对应于点n的波长位置; Rλ m是波长λ m对应的反射率值, Rλ n是波长λ n对应的反射率值。

2.2 模型构建与精度评价

2.2.1 随机森林算法

RF通过自重法重采样技术, 随机抽取样本和特征, 建立多棵相互不关联的决策树, 通过并行的方式获得预测结果[20]。 每棵决策树都能通过抽取的样本和特征得出一个预测结果, 综合所有树的结果取平均值, 得到整个森林的回归预测结果。

2.2.2 偏最小二乘回归算法

PLSR是一种常用的非线性回归模型。 与早期的最小二乘回归模型相比, 可以得到偏最小二乘算法和综合变量。 基于综合变量模型, 样本空间太小, 输入和输出变量之间存在高度相关性[21]。 偏最小二乘算法模型分别从输入变量和输出变量中提取主成分t1u1, 其中t1是输入变量的线性组合, u1是输出变量的线性拟合。 算法必须满足以下要求:

(1)t1u1是变量和输出变量的最大变化信息;

(2)t1u1之间的相关性最大;

提取主成分时, PLSR模型的输入变量X将对t1进行回归分析, 而输出变量Y将对u1进行回归分析。 模型是否会继续提取主成分的标准是模型的测试精度。 如果精度满足要求, 则主成分的提取将停止。 否则, 重复这些步骤提取主成分, 直到模型精度满足要求[22]

2.2.3 精度评价方法

利用R2、 RMSE、 MAE对模型的精度进行综合评价[23]R2用来表征回归线与观测值的拟合程度, 其值在0和1之间。 R2越高, 模型拟合效果越好。 即光谱指数模型对重金属含量解释得越好, 参考值越大。 RMSE反映了样本离散程度, 可用于观察重金属含量真实值与预测值之间的偏差。 MAE是绝对误差的平均值, 可以更好地反映预测值误差的实际情况, R2越大, RMSE、 MAE越小为最优模型。 计算方式如式(10)— 式(12)

R2=1-i=1n(yi-y^i)2i=1n(yi-y̅i)2(10)

RMSE=1ni=1(yi-y^i)2(11)

MAE=1ni=1n|yi-y^i|(12)

式中, yi为要拟合的值, 其平均值为 y̅i, 拟合值为 y^i, n为实验次数。

3 结果与讨论
3.1 土壤重金属含量统计分析

土壤样品中重金属含量的描述性统计(表1)。

表1 土壤中重金属含量描述性统计 Table 1 Descriptive statistics of heavy metal content in soil

表1为土壤重金属Cd、 Pb、 Zn含量测定结果, 其中土壤背景值是参照《土壤环境质量农用地土壤污染风险管控标准》(GB 15618— 2018)中pH> 7.5对应数值。 研究区内土壤重金属Cd、 Pb、 Zn元素平均值分别为1.03、 104.49和183.49 mg· kg-1, 分别超过河北省土壤环境背景值13.73、 5.22和2.96倍, 表明矿区土壤重金属存在明显积累, 尤其是Cd元素。 变异系数可以反映样本受人为影响的程度和样本在所有样本中的平均变异程度, 有研究认为变异系数≤ 10%为弱变异, 10%~100%为中等变异, ≥ 100%为高度变异。 由表1可知, Cd、 Pb元素属于高度变异, 说明Cd、 Pb元素空间分异大, 其空间分布受外界干扰显著, Zn元素属于中等变异, 变异程度由大到小依次为Cd> Pb> Zn。

3.2 光谱特征分析

图2绘制了100个土壤样品的可见-近红外光谱反射曲线。

图2 土壤光谱反射曲线Fig.2 Soil reflectance spectral curves

光谱曲线大致相似, 光谱反射率为3%~50%; 在约1 950和2 200 nm波段的吸水特性更为明显, 并表现出一定的吸收谷。 在约400~650 nm范围内, 光谱反射率较低, 反射率随波长的增加而迅速增加。 在650~1 400 nm范围内, 反射率随波长的增加而增加, 但振幅的增加有所减小。 在2 100 nm处, 反射率开始降低。

3.3 异常值剔除

利用箱型图法(图3)对土壤样本重金属含量进行异常值剔除的结果(表2)。

图3 异常值剔除后箱型图Fig.3 Box plots after removing outliers

表2 重金属含量异常值剔除 Table 2 Removal of abnormal values of heavy metal content

表2可以看出, Cd、 Pb和Zn这三种重金属土壤样本化学测试结果存在一定程度的异常值, 其中在Zn元素异常值最多, 可能是在采矿运输过程中造成的局部异常。 基于剔除异常土壤样本后的数据集开展后续研究。

3.4 光谱指数

利用六种光谱预处理方法处理的数据构建了三个光谱指数(RI、 DI和NDI), 并分析了重金属含量与光谱指数之间的相关系数。 图4(a)— (f)展示了镉含量与原始光谱数据DI、 多元散射校正后DI、 标准正态变换后DI、 一阶导数后DI、 多元散射校正和一阶导数后DI以及标准正态变换和一阶导数后DI的相关分布。

图4 镉含量与差值指数的相关分布图
(a): 原始光谱; (b): MSC; (c): SNV; (d): FD; (e): MSC+FD; (f): SNV+FD
Fig.4 Correlation distribution between cadmium contents and difference indices
(a): Original spectra; (b): MSC; (c): SNV; (d): FD; (e): MSC+FD; (f): SNV+FD

图4中的水平和垂直坐标是样品的光谱波长。 图中的颜色表示光谱差值指数DI与该点样品镉含量之间相关系数的绝对值。 颜色从蓝色逐渐增加到红色, 这表明两个量之间的相关系数的绝对值从0增加到1。 深红色对应着光谱指数和重金属含量之间更强的相关性。 在图4中, 对于镉元素, 原始光谱、 经多元散射校正和标准正态变换后的光谱指数与镉含量相关系数小于0.5, 但经过一阶导数处理后的光谱数据与镉含量的相关性增大, 比原始光谱数据相关系数高。

图5(a)— (f)显示了铅含量与原始光谱数据RI、 多元散射校正后RI、 标准正态变换后RI、 一阶导数后RI、 多元散射校正和一阶导数后RI以及标准正态变换和一阶导数后RI的相关分布。

图5 铅含量与的比值指数的相关分布
(a): 原始光谱; (b): MSC; (c): SNV; (d): FD; (e): MSC+FD; (f): SNV+FD
Fig.5 Correlation distribution between lead contents and ratio indices
(a): Original spectra; (b): MSC; (c): SNV; (d): FD; (e): MSC+FD; (f): SNV+FD

图5中的颜色表示光谱比值指数RI与该点样品铅含量之间相关系数的绝对值。 如图5, 经过一阶导数处理后的光谱数据与重金属含量的相关性略增大, 比原始光谱数据效果强, 相关系数在0.5左右。

锌含量与原始光谱数据NDI、 多元散射校正后NDI、 标准正态变换后NDI、 一阶导数后NDI、 多元散射校正和一阶导数后NDI以及标准正态变换和一阶导数后NDI的相关分布分别在图6(a)— (f)。

图6 锌含量与归一化指数的相关分布
(a): 原始光谱; (b): MSC; (c): SNV; (d): FD; (e): MSC+FD; (f): SNV+FD
Fig.6 Correlation distribution between zinc contents and normalization indices
(a): Original spectra; (b): MSC; (c): SNV; (d): FD; (e): MSC+FD; (f): SNV+FD

图6中的颜色表示NDI与该点样品锌含量之间相关系数的绝对值。 经过一阶导数处理后的光谱数据与重金属含量的相关性增大, 比原始光谱数据效果强。 总体来看, 归一化指数与样品重金属含量的相关性低于差值指数和比值指数, 最大相关系数不超过0.5。

表3为对于不同重金属而言, 不同光谱指数下相关性最强的敏感性波段及对应的光谱变换形式。 Cd含量与光谱指数的相关性最高的是2 295和2 168.7 nm, 这是由SNV+FD预处理后光谱数据的DI形成的, Pb含量与光谱指数的相关性最高的是389.9和2 350.8 nm, 这是由FD预处理后光谱数据的DI形成的, Zn含量与光谱指数的相关性最高的是800.3和2 133.3 nm, 这是由MSC+FD预处理后光谱数据的RI形成的。 由表3可知, 重金属光谱数据与重金属含量的相关性最大可达0.57, 最小为0.45, 可以较好的建模与反演。

表3 不同光谱指数的重金属敏感波段和相关系数 Table 3 Heavy metal sensitive bands and correlation coefficients of different spectral indices
3.5 基于光谱指数的重金属含量模型构建

通过分析可知, 相较于原始光谱, 变换后的光谱对于重金属信息的表达能力显著增强, 光谱变换可以有效提升重金属含量与光谱的相关性, 对于模型效果具有一定提升作用。 各种数据处理方法增强了一些光谱特征, 以光谱数据与重金属含量相关性最大为原则选择表3的数据集作为输入数据, 利用偏最小二乘回归算法和随机森林算法建立重金属含量反演模型。 图7— 图9分别为Cd、 Pb和Zn含量的预测值和真实值的比较结果。

图7 不同算法预测Cd含量与实测Cd含量比较
(a): PLSR; (b): RF
Fig.7 Comparison of Cd contents predicted by different algorithms and measured Cd content
(a): PLSR; (b): RF

图8 不同算法预测Pb含量与实测Pb含量比较
(a): PLSR; (b): RF
Fig.8 Comparison of predicted Pb contents with different algorithms and measured Pb content
(a): PLSR; (b): RF

图9 不同算法预测Zn含量与实测Zn含量比较
(a): PLSR; (b): RF
Fig.9 Comparison of predicted Zn contents with different algorithms and measured Zn content
(a): PLSR; (b): RF

3.6 模型验证

表4为利用偏最小二乘回归算法以及随机森林算法对验证集的数据中Cd、 Pb和Zn元素的反演评价指标R2、 RMSE、 MAE的结果。 除Cd外, Pb和Zn的随机森林算法反演重金属含量的评价指标优于偏最小二乘回归算法。 这是因为随机森林具有对数据集适应性强、 抗干扰性能好、 拟合能力强的优点, 并且该算法在训练过程中可以根据重金属含量分布自动从样本特征集中提取样本特征的最优组合, 提高了模型的鲁棒性。

表4 镉、 铅、 锌反演精度评价对比 Table 4 Comparisons of inversion accuracy evaluation of Cd, Pb, and Zn
4 结论

以典型铅锌矿区土壤重金属元素为研究对象, 对土壤重金属含量高光谱反演模型进行研究, 得出以下结论:

(1)对不同重金属元素使用不同光谱变换方式进行预处理, 得到不同类型重金属元素的最优光谱变换方式;

(2)采用差值指数、 比值指数和归一化植被指数, 提取不同光谱指数下的最优波段组合, 从而得到用于不同重金属元素建模使用的最优自变量;

(3)基于随机森林和偏最小二乘回归法分别构建重金属元素反演模型, 三种重金属(Cd、 Pb、 Zn)最优模型的R2分别达到了0.90、 0.91、 0.84, 证实了本研究方法的有效性。

未来将利用本研究提出的方法推广应用于其他矿区土壤重金属反演建模中, 进一步验证模型方法的有效性, 为矿区土壤重金属含量检测提供方法参考, 也为及时制定相应治理方法提供依据。

参考文献
[1] Li G, Li M, Zhang X, et al. International Journal of Mining Science and Technology, 2022, 32(3): 563. [本文引用:1]
[2] YANG Li, BAI Zong-xu, BO Wen-hao, et al(杨雳, 白宗旭, 薄文浩, ). Environmental Science(环境科学), 2023, doi: DOI:10.13227/j.hjkx.202305253. [本文引用:1]
[3] DAI Heng-mei, YANG Li, GUO Zi-yu, et al(代恒美, 杨力, 郭子毓, ). Journal of Environment and Health(环境与健康杂志), 2023, https://link.cnki.net/urlid/12.1095.r.20230907.1344.004. [本文引用:1]
[4] Zhao R, Du S H. Remote Sensing, 2022, 14(9). [本文引用:1]
[5] ZHENG Miao, WANG Xiang, LI Si-jia, et al(郑淼, 王翔, 李思佳, ). Scientia Geographica Sinica(地理科学), 2022, 42(8): 1336. [本文引用:1]
[6] XU Yi, SHAO Guang-cheng, DING Ming-ming, et al(徐艺, 邵光成, 丁鸣鸣, ). Journal of Drainage and Irrigation Machinery Engineering(排灌机械工程学报), 2022, 40(11): 1159. [本文引用:1]
[7] YE Miao, ZHU Lin, LIU Xu-dong, et al(叶淼, 朱琳, 刘旭东, ). Environmental Science(环境科学), 2023, https://doi.org/10.13227/j.hjkx.202304100. [本文引用:1]
[8] CHEN Wei, XU Zhan-jun, GUO Qi(陈玮, 徐占军, 郭琦). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2022, 38(8): 98. [本文引用:1]
[9] NI Bin, HUANG Zhao-qiang, JIANG Miao, et al(倪斌, 黄照强, 江淼, ). Geology and Prospecting(地质与勘探), 2022, 58(6): 1307. [本文引用:1]
[10] GUO Yun-kai, CAO Xiao, XIE Xiao-feng, et al(郭云开, 曹骁, 谢晓峰, ). Bulletin of Surveying and Mapping(测绘通报), 2022, (1): 44. [本文引用:1]
[11] ZHONG Liang, QIAN Jia-wei, CHU Xue-yuan, et al(钟亮, 钱家炜, 储学远, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2023, 39(5): 265. [本文引用:1]
[12] Su Y, Guo B, Lei Y Z, et al. Water, 2022, 14(18): 2784. [本文引用:1]
[13] LIU Hong-jun, NIU Teng, YU Qiang, et al(刘泓君, 牛腾, 于强, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(11): 3552. [本文引用:1]
[14] DUAN Shi-xuan, LI Yan-jun, CAO Yu-yuan, et al(段仕轩, 李艳军, 曹愈远, ). Acta Armamentarii(兵工学报), 2022, 43(8): 1779. [本文引用:1]
[15] Yang H F, Xu H, Zhong X N. Bulletin of Environmental Contamination and Toxicology, 2022, 108(4): 745. [本文引用:1]
[16] Cheng G, Zhang H R, Li H, et al. Journal of Earth Science, 2023, 34(4): 1068. [本文引用:1]
[17] NI Zhen, HU Chang-qin, FENG Fang(尼珍, 胡昌勤, 冯芳). Chinese Journal of Pharmaceutical Analysis(药物分析杂志), 2008, 28(5): 824. [本文引用:1]
[18] ZHOU Yao, CHENG Yong-sheng, WANG Dan-ping, et al(周瑶, 成永生, 王丹平, ). The Chinese Journal of Nonferrous Metals(中国有色金属学报), 2023, https://link.cnki.net/urlid/43.1238.tg.20230822.1745.001https: //link. cnki. net/urlid/43. 1238. tg. 20230822. 1745. 001. [本文引用:1]
[19] LIU Hao, YANG Xi-zhen, ZHANG Bei, et al(刘浩, 杨锡震, 张蓓, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2023, 39(13): 131. [本文引用:1]
[20] Rhodes J S, Cutler A, Moon K R, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(9): 10947. [本文引用:1]
[21] Hou Y Y, Li J, Chen X B, et al. Laser Physics Letters, 2022, 19: 095204. [本文引用:1]
[22] Guan T Y, Lin Z H, Groves K, et al. Statistics and Computing, 2022, 32: 30. [本文引用:1]
[23] CHEN Rui-hua, WANG Yi-jing, ZHANG Jun-hua, et al(陈睿华, 王怡婧, 张俊华, ). Chinese Journal of Ecology(生态学杂志), 2023, 42(9): 2296. [本文引用:1]