作者简介: 蒋宇恒, 2001年生, 昆明理工大学信息工程与自动化学院硕士研究生 e-mail: 20232204148@stu.kust.edu.cn
传统的土壤重金属反演模型通常在预处理中使用整数阶微分方法(如1阶或2阶), 其忽略了与目标变量相关的分数阶光谱反射率。 分数阶微分(FOD)能通过灵活选定微分阶次, 有效增强光谱信号。 以云南省普洱市墨江哈尼族自治县的农田土壤为研究对象, 测量了61个土壤高光谱反射率和土壤重金属含量数据(锌和镍), 对高光谱反射率信息进行了0~2阶(间隔为0.05)分数阶微分预处理, 将分数阶微分预处理后的各阶次的光谱反射率输入到连续投影算法(SPA)中进行特征波段筛选; 分别建立了偏最小二乘回归(PLSR)、 随机森林(RF)和袋装法(Bagging)三种土壤重金属反演模型。 结果表明: 在经过0到2阶(以0.05为间隔, 共41个阶次)的分数阶微分处理, 整体光谱强度呈逐渐减弱的趋势, 伴随着分数阶阶次的增加逐渐趋向于零。 光谱吸收带逐渐收窄, 不同光谱曲线之间的差异逐渐减小, 随着微分阶次的提高, 产生了更为丰富的波峰和波谷。 基于分数阶微分的最好阶次模型均优于原始光谱模型和整数阶模型, 模型较好阶次大部分集中在低阶分数阶。 对于重金属锌, 预测模型精度最好的是0.75阶次的RF模型( R2=0.675, RMSE=6.149, RPD=1.755), 0.75阶次的Bagging模型次之( R2=0.633, RMSE=6.534, RPD=1.652), 0.25阶次的PLSR模型最低( R2=0.551, RMSE=7.230, RPD=1.493)。 对于重金属镍, 预测模型精度最好的是0.80阶次的RF模型( R2=0.854, RMSE=127.823, RPD=2.618), 0.80阶次的Bagging模型次之( R2=0.841, RMSE=133.304, RPD=2.510), 0.40阶次的PLSR模型最低( R2=0.762, RMSE=163.162, RPD=2.051)。 本研究基于FOD预处理和SPA降维后构建的非线性模型(RF和Bagging)在农田土壤重金属含量估测具有一定的适用性, 可以为类似区域的土壤重金属含量反演提供参考依据。
Integer-order derivative methods (such as 1st or 2nd order) are traditional preprocessing methods for soil heavy-metal inversion models, which ignore the fractional-order spectral reflectance information associated with the target variable. Fractional order derivative (FOD) can flexibly select the differential order to enhance the spectral signal effectively. This study focused on the farmland soil in Mojiang Hani Autonomous County, Pu'er City, Yunnan Province, China. Sixty-one soil hyperspectral reflectance information and soil heavy metal content data (zinc and nickel) were measured. The spectral reflectance information underwent 0 to 2 fractional-order derivative preprocessing with intervals of 0.05. The preprocessed spectral reflectance information at each order was input into the Successive Projections Algorithm (SPA) to select characteristic bands. Subsequently, three soil heavy metal prediction models were separately established using Partial Least Squares Regression (PLSR), Random Forest (RF), and Bagging methods. The results show that after the fractional order derivative processing from 0 to 2 orders (41 orders in total with an interval of 0.05), the overall spectral intensity gradually weakens and gradually approaches zero with the increase of fractional orders. The spectral absorption band gradually narrows, and the differences between different spectral curves gradually decrease. As the derivative order increases, more abundant peaks and valleys are produced. The best-order models based on fractional derivatives are better than the original spectral model and the integer order model, and most of the better orders of the model are concentrated in low-order fractional orders. For heavy metal zinc, the best prediction model accuracy was achieved by the RF model of 0.75 order ( R2=0.675, RMSE=6.149, RPD=1.755), followed by the Bagging model of 0.75 order ( R2=0.633, RMSE=6.534, RPD=1.652), and the lowest was achieved by the PLSR model of 0.25 order ( R2=0.551, RMSE=7.230, RPD=1.493). For the heavy metal nickel, the best prediction model accuracy was the RF model of order 0.80 ( R2=0.854, RMSE=127.823, RPD=2.618), the Bagging model of order 0.80 was the next best ( R2=0.841, RMSE=133.304, RPD=2.510), the PLSR model of order 0.40 lowest ( R2=0.762, RMSE=163.162, RPD=2.051). Visible, the nonlinear models (RF and Bagging) constructed based on FOD preprocessing and SPA dimensionality reduction in this study have certain applicability in estimating heavy metal content in farmland soil. They can be a reference for predicting heavy metal content in similar regions.
土壤是农业产出与植物生长的关键要素, 保障土壤环境的品质和安全是确保社会经济的稳定发展以及保护人类健康不可或缺的条件。 随着工业的快速发展和城市化进程, 土壤重金属污染问题日益突出[1]。 锌和镍作为土壤中常见的两大污染元素, 会随着食物链传递到人体中, 对人类身体健康带来重大威胁。 快速、 准确地探测土壤中重金属含量已成为当下待解决的问题。 传统的重金属污染检测方法需要进行复杂的化学实验分析, 繁琐耗时。 高光谱遥感技术具有快速、 成本低、 波段范围广等特点, 已被应用于定量预测土壤中各种物质的含量[2, 3, 4]。 对于土壤中的重金属, 有研究应用高光谱技术对其进行了反演研究。 Riedel等[5]通过室内反射光谱和实验室测量得到的Al、 As、 Ca、 Cu、 Fe、 K、 Mn等重金属的含量, 采用偏最小二乘法进行元素含量的估算, 实验结果表明高光谱技术可以对重金属含量值进行良好的定量估计。 Zhang等[6]以四川省古蔺县中部土壤为研究对象, 采用偏最小二乘回归和径向基函数神经网络对4种重金属(Cr、 As、 Ni、 Cd)的高光谱反演进行了研究, 结果表明, 连续小波变换与径向基函数神经网络相结合的方法获得了最好的反演效果。 Tan等[7]构建了偏最小二乘法、 岭回归、 Adaboost等模型对吉林省四平市土壤中重金属As含量进行了预测, 结果表明Adaboost具有最佳的预测准确性, 在测试集上的R2达到了0.624 2, RPD为1.563 4。
普洱市墨江哈尼族自治县在高原地区, 农田广泛分布于高度多变、 地形复杂的区域, 这种特殊的地理环境使土壤污染情况呈现出鲜明的地域特征。 县内设有一座集采矿、 选矿、 冶炼于一体的大型金矿, 长期的开采活动导致周边农田土壤受到一定程度的污染。 虽然高光谱技术在土壤重金属含量反演已取得显著成果, 但鉴于该区域独特的地理特性和污染状况的特殊性, 仍需对此区域的高光谱重金属反演进行深入的研究。
高光谱数据在采集的过程中, 受测量仪器和环境因素的影响, 所测得的土壤高光谱数据常常受到噪声干扰, 具有多重共线性。 在建立重金属含量的定量预测模型之前, 通常需要对土壤光谱数据进行预处理。 常用的预处理方法包括多元散射校正(MSC)、 Savizky-Golay平滑、 标准正态变换、 离散小波变换、 一阶微分和二阶微分等[8, 9, 10]。 近年来分数阶微分在土壤光谱信号分析领域得到了广泛应用。 相比于传统的整数阶微分, 分数阶微分(fractional order derivative, FOD)能够更全面地考虑位于分数阶微分处的高光谱反射率信息, 从而获得最优的分数阶微分预处理模型。 Wang等[11]应用分数阶微分对新疆艾比湖地区的土壤盐碱化问题进行检测, 结果表明最佳模型位于1.2阶微分处, 决定系数R2=0.66。 Zhang等[12]基于分数阶微分对新疆准噶尔盆地的土壤有机质含量进行反演, 结果在1.05阶至1.45阶间FOD光谱与土壤有机质的相关性更强。 王瑾杰等[13]采用无人机高光谱遥感技术, 基于分数阶微分对土壤含水量进行估算, 在0.4阶微分下获得了最优结果, 决定系数R2=0.874。 可见, 已有研究表明FOD能较为精确地获取土壤高光谱位于分数阶的细节信息, 基于分数阶构建的反演模型预测效果优于整数阶。
在土壤属性的定量反演中, 采用不同降维方法和建模方法会导致预测结果的差异。 采用ASD光谱仪采集的土壤高光谱数据具有波段数量多、 光谱信息重叠和数据冗余等特点, 在构建预测模型之前需要降低土壤高光谱的维度, 而连续投影算法(successive projections algorithm, SPA)是一种最小化向量空间共线性的前向变量选择算法, 其在高光谱领域进行特征波段筛选呈现出一定的优势, 而FOD与SPA的组合方式用于提取土壤重金属的特征波段的研究很少。
本研究将经FOD预处理后的各阶次光谱反射率数据输入到SPA中以筛选出特征波段, 在确定土壤锌和镊的特征波段后, 采用线性模型(偏最小二乘回归PLSR)和两种非线性模型(随机森林RF和袋装法Bagging)来构建土壤中重金属含量的预测模型, 并对各模型性能进行比较分析。 本研究目的: (1)研究分数阶微分对土壤光谱反射率的影响。 (2)探讨并比较整数阶模型与分数阶模型的性能。 (3)对基于FOD的PLSR、 RF和Bagging建立的土壤重金属锌和镍的反演模型进行分析比较。
以云南省普洱市墨江哈尼族自治县的农田土壤为研究对象。 据墨江县第二次土壤普查资料, 该区域土壤呈明显的垂直带普分布, 海拔从高到低依次分布着黄棕壤、 红壤、 赤红壤和砖红壤, 土壤分布以砖红壤、 赤红壤和红壤为主。 于2022年2月11日到15日之间共采集土壤样本61个, 每个采样点的深度范围在0~20 cm之间, 采集的土样经风干、 去除杂质和研磨后分为两份, 一份用于土壤重金属含量的测定, 一份用于光谱数据的测定。 所采61个样本的有机质含量范围在4.61~55.60 g· kg-1之间, 平均值为22.36 g· kg-1。 土壤光谱反射率采用ASD FieldSpe
分数阶微分(FOD)是数学中的重要概念, 将传统整数阶微分推广到任意阶, FOD可以更敏锐地捕捉光谱反射率细节的变化。 采用常用的Grunwald-Letnikov(G-L)形式进行FOD计算[15], 定义如式(1)
式(1)中, u为任意阶数; h为微分步长; b和a分别为微分的上限和下限; Γ 为Gamma函数, 表示为式(2)
由于FieldSpe
式(3)中, Γ 为Gamma函数; u为阶数, 当u=0时, 表示原始数据; 当u为整数时则为整数阶微分。
总体样本统计特征和经Kennard-Stone算法划分后的训练集和验证集统计结果见表1, 总体样本土壤锌含量在30.3~86.7 mg· kg-1之间, 变异系数为21.151%, 属于中等空间变异。 总体样本土壤镍含量在18.9~1 019 mg· kg-1之间, 变异系数达到了104.800%, 属于高度空间变异, 数据波动大。 使用Kennard-Stone算法对训练集和验证集的划分, 使划分的数据具有较好的代表性。 划分后的训练集和验证集上土壤锌含量的变异系数为21.610%和18.401%, 镍含量的变异系数为105.913%和94.825%。
![]() | 表1 两种重金属元素在整个数据集、 训练集和验证集上的统计描述 Table 1 Statistical description of the two heavy metal elements on the whole dataset, training set and validation set |
对土壤原始高光谱采用G-L分数阶微分预处理后如图1(a— h)所示。 原始高光谱(0阶)反射率波动较大, 光谱曲线相对平缓, 没有太多的波峰、 波谷。 经0~2阶(间隔为0.05, 共计41阶)分数阶微分预处理后, 光谱整体强度逐渐减弱, 并随分数阶次的增加趋近于零。 同时光谱吸收带逐渐收窄, 不同光谱曲线之间的差异减小。 随着微分阶次的提高, 产生了更多丰富的波峰和波谷。 说明分数阶微分具有增强光谱曲线波峰、 波谷和斜率等信息的能力, 能更有效地提取光谱数据的特征并去除无关信息, 对于后续特征波段的提取有着很大的帮助。
为确保模型的简洁性, 避免引入过多特征变量而增加噪声和冗余信息, 在进行分数阶微分预处理之后, 将各阶次(共41阶)的光谱数据分别输入到SPA算法中, 筛选了8个特征波段, 如表2所示(仅列出0阶、 0.25阶、 0.55阶、 0.75阶、 0.80阶、 1阶和2阶)。
![]() | 表2 使用SPA算法所挑选的波段数 Table 2 Number of bands selected using the SPA algorithm |
为了探究分数阶微分预处理对模型性能的影响, 分别以SPA算法筛选出的各阶次的特征波段作为自变量, 土壤重金属锌和镍的含量为因变量, 构建了PLSR、 RF和Bagging三种模型来估算土壤重金属锌和镍的含量。
土壤重金属锌和镍各项指标随微分阶次增加的变化趋势如图2和图3所示, 在大多数阶次下, 分数阶微分模型的预测性能都优于原始光谱模型(0阶)和整数阶模型(1阶和2阶)。 对于重金属锌, 如图2(a)— (i), 三个模型在0~0.80阶的大部分阶次的R2和RPD都大于1阶以后的大部分阶次, RMSE都小于1阶以后的大部分阶次, 表明随着分数阶求导阶次的增加, 不能明显提高重金属锌反演模型的性能, 模型性能较好的阶次集中在低阶。 对于重金属镍, 如图3(a)— (i)所示, 同样, 三个模型在0~0.80阶的大部分阶次的R2和RPD都大于1阶以后的大部分阶次。 然而相比于重金属锌, 三个模型在1.60阶时的R2和RPD都分别超过0.75和2.0。
![]() | 图2 重金属锌(Zn)在不同阶次下的各模型验证集评价指标Fig.2 The evaluation metrics of various models on the validation set for heavy metal zinc at different orders |
![]() | 图3 重金属镍(Ni)在不同阶次下的各模型测试集评价指标Fig.3 The evaluation metrics of various models on the validation set for heavy metal nickel at different orders |
表3和表4分别列出了重金属锌和重金属镍三个模型的最好微分阶次、 原始光谱(0阶)、 1阶和2阶的建模结果评价指标。 结果表明, 基于分数阶微分的最好阶次模型的性能均好于原始光谱模型、 1阶模型和2阶模型。 对重金属锌, PLSR在0.25阶次上获得了最好的模型性能(RPD=1.493), 相比于原始光谱在验证集上R2提高了0.272, RMSE降低了1.934, RPD提高了0.315。 RF和Bagging都在0.75阶次上获得了最好的模型性能(RPD分别为1.755和1.652), 相比于原始光谱RF和Bagging在验证集上的R2和RPD分别提高了0.258、 0.445和0.188、 0.309, RMSE分别降低了2.087和1.503。 对重金属镍, PLSR在0.40阶次上获得了最好的模型性能(RPD=2.051), 相比于原始光谱在验证集上的R2和RPD提高了0.193和0.529, RMSE降低了56.628。 RF和Bagging都在0.80阶次上获得了最好的模型性能(RPD分别为2.618和2.510), 相比于原始光谱, RF和Bagging在验证集上的R2和RPD分别提高了0.461、 1.334和0.317、 1.061, RMSE分别降低了132.805和97.630。
![]() | 表3 重金属锌(Zn)在不同建模方法下最好分数阶微分阶次和整数阶微分的模型预测精度对比 Table 3 Comparison of model prediction accuracies of heavy metal zinc under different modeling approaches with best fractional order differentiation order and integer order differentiation |
![]() | 表4 重金属镍(Ni)在不同建模方法下最好分数阶微分阶次和整数阶微分的模型预测精度对比 Table 4 Comparison of model qrediction accuracies of heavy metal nickelunder different modeling approaches with best fractional order differentiation order and integer order differentiation |
整数阶微分是常用的土壤高光谱数据预处理方法, 有许多研究已经使用一阶或二阶微分对土壤光谱进行预处理, 并显示出其有一定的应用潜力[19, 20]。 然而, 整数阶微分会忽略位于分数阶微分处的高光谱反射率, 无法捕捉到更详细的光谱信息, 从而影响反演模型的性能。 分数阶微分不仅是整数阶微分概念的扩展, 而且为选择更加灵活的阶次提供了可能, 从而拓宽了微分的应用范围。 本研究中使用了0.05的微分间隔对土壤光谱数据进行了0~2阶微分预处理。 与已有研究普遍选择0.1、 0.2、 0.25的微分间隔不同[21, 22, 23], 选择0.05的微分间隔能够获得更详细的光谱反射率信息, 从而更好地获得最好微分阶次模型。 如图1所示, 随着分数阶次的增加, 出现了更多的波峰和波谷, 基线漂移逐渐被消除, 光谱反射率强度逐渐降低, 与张俊华等[22]和Hong等[24]在基于分数阶微分的土壤光谱反演研究中观察到的变化趋势一致。
分数阶微分模型在大多数阶次下的反演性能均优于整数阶模型。 Hong等[24]基于分数阶微分对武汉市农田土壤中的重金属含量进行了反演, 指出重金属锌在0.5阶次的RF模型上获得了最好模型性能(R2=0.83), 重金属铅在0.25阶次的RF模型上获得了最好模型性能(R2=0.82); Cui等[21]以新疆阿勒泰地区的金铜矿区为研究区域, 采用分数阶微分对土壤重金属铜的含量进行估算, 结果显示0.8阶次的PLSR模型效果最好(R2=0.64); Chen等[25]采用分数阶微分和线性回归评估土壤重金属铬、 锌、 铅的含量, 铬和锌在0.75阶次上获得了最好的反演性能(R2分别为0.74和0.81), 铅在0.5阶次上获得了最好反演性能(R2=0.56)。 本研究建模结果表明, 对于土壤重金属锌, PLSR、 RF和Bagging分别在0.25、 0.75、 0.75阶次下获得了最好的反演精度(R2分别为0.55、 0.68、 0.63)。 对于土壤重金属镍, PLSR、 RF和Bagging分别在0.40, 0.80, 0.80阶次获得了最好的反演精度(R2分别为0.76、 0.85、 0.84)。 通过采用FOD+SPA的预处理和特征波段筛选方法, 成功获得了与前人研究相似甚至更为出色的建模效果。 还观察到在不同的区域和采用不同的建模方法时, 由于土壤的结构性质不同和各种建模方法有一定的差异性, 在采用分数阶微分进行建模时所得到最好阶次往往存在差异。
以土壤重金属含量的测量值作为横坐标, 预测值作为纵坐标, 图4和图5为三种建模方法下重金属锌和镍的最佳阶次散点图。 由图中看出, RF模型和Bagging模型的样本点相比于PLSR模型更接近1∶ 1线, 由此证明RF和Bagging具有更好的预测能力。 因为土壤光谱数据具有复杂性和非线性的特性, 无法通过简单的线性关系来准确表达。 考虑到RF和Bagging都是非线性模型, 而PLSR是线性模型, 在预测土壤重金属含量时, RF和Bagging表现出更强的预测能力。 RF和Bagging都属于集成学习模型, 集成学习通过整合多个模型的预测结果产生更强大的模型, 显著提高了模型的预测准确率和稳定性, 进一步证实了RF和Bagging相比于PLSR的优越性。
![]() | 图4 重金属锌(Zn)在不同建模方法下最好阶次散点图Fig.4 Scatter plots of the optimal orders for heavy metal zinc under different modeling approaches |
(1)经过0到2阶的分数阶微分预处理, 光谱反射率整体强度呈递减趋势。 随着分数阶次的增加, 光谱强度逐渐趋向于零, 光谱吸收带逐渐收窄, 不同光谱曲线之间的差异降低, 产生了更多的波峰和波谷, 更有利于提取特征波段。
(2)最好阶次的分数阶微分模型性能均优于原始光谱模型和整数阶模型, 大多数较好模型阶次集中在低阶。
(3)对比三种模型, 土壤重金属锌预测模型精度最好的是0.75阶次的RF模型(R2=0.676, RMSE=6.149, RPD=1.755), 其次是0.75阶次的Bagging模型(R2=0.633, RMSE=6.534, RPD=1.652), 最后是0.25阶次的PLSR模型(R2=0.551, RMSE=7.230, RPD=1.493); 对于重金属镍, 预测模型精度最好的是0.80阶次的RF模型(R2=0.854, RMSE=127.823, RPD=2.618), 0.80阶次的Bagging模型次之(R2=0.841, RMSE=133.304, RPD=2.510), 0.40阶次的PLSR模型最低(R2=0.762, RMSE=163.162, RPD=2.051)。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|