作者简介: 宁 京, 女, 1997年生, 中南大学地球科学与信息物理学院硕士研究生 e-mail: 1585034215@qq.com
为探究基于光谱指数反演土壤砷(As)含量的有效性和适用性, 选取河北省保定市某农田为研究区, 利用PSR-3500便携式地物光谱仪和电感耦合等离子发射光谱法测定42个土壤样品实验室及野外原位光谱信号和As含量; 基于实验室光谱、 野外原位光谱及野外原位-直接标准化校正(DS)光谱, 计算叶绿素指数(CI)、 差值指数(DI)、 和值指数(SI)、 比值指数(RI)和简化归一化指数(NDI和NPDI), 采用相关性分析提取强相关光谱指数参与土壤As含量随机森林回归建模。 在此基础上, 通过与相同光谱环境全波段建模方法的精度对比评估光谱指数的有效性; 对比不同光谱环境中各类光谱指数建模精度的稳定性以评估其适用性; 结合典型土壤组分的吸收特征波段尝试解析光谱指数提升土壤As含量反演性能的内在机制。 结果表明: (1)相较于全波段建模, 光谱指数法在“实验室光谱、 野外原位光谱、 野外原位-DS光谱”三种光谱环境中均能有效提升土壤As含量反演建模精度,$R_{p}^{2}$和RPD分别从0.243和1.2提升至0.730和2.009、 0.264和1.213提升至0.669和1.809、 0.334和1.279提升至0.678和1.841; (2)三种光谱环境中, DI、 RI、 NDI在野外原位光谱、 SI和NPDI在野外原位-DS光谱环境中的适用性较差, CI综合适用性最强, $R_{p}^{2}$>0.66, RPD>1.8; (3)指数特征波段表现出与铁氧化物、 粘土矿物和有机物吸收特征的相关性, 但部分指数特征波段缺乏可解释性, 无法揭示指数计算通过组合波段放大有效信息和消除噪声的统一规律。 该研究可为后续发展基于光谱指数的土壤重金属遥感反演应用甚至卫星有效载荷研制中的波段设计提供科学依据。
To explore the validity and applicability of the estimation of soil arsenic (As) content based on spectral indices, 42 soil samples were collected from a farmland in Hebei Province, China. The reflectance spectra and As content were respectively determined by using a PSR-3500 portable ground spectrometer and Inductively Coupled Plasma Atomic Emission Spectrometry. The chlorophyll index (CI), difference index (DI), sum index (SI), ratio index (RI) and simple normalized difference spectral indices (NDI and NPDI) were calculated based onlaboratory spectra, field spectra, and the direct standardization (DS) transferred field spectra. Random forest regression (RFR) models were used to estimate the soil As values using the strongly correlated spectral indices, and indices were evaluated according to the modeling accuracy. Compared with thecharacteristic absorption bands of typical soil components, the internal mechanism of spectral indices improving the inversion accuracy of soil As content was analyzed. The results show that the spectral indices method significantly enhances the correlation between spectra data and As content by combining some low-correlation band information. When compared with the full-band RFR model, the spectral indices method increased the $R_{p}^{2}$ and RPD from 0.243 and 1.2 to 0.730 and 2.009, 0.264 and 1.213 to 0.669 and 1.809, 0.334 and 1.279 to 0.678 and 1.841 in the lab spectra, field spectra, and field-DS spectra respectively, and CI has the best comprehensive performance ($R_{p}^{2}$>0.66 and RPD>1.8). However, some of the exponential characteristic bands of the optimal spectra indices lack interpretability and cannot reveal the band combination rules for exponentially amplifying effective information and eliminating noise. The research results can provide a scientific basis for estimating heavy-metal contamination in soil using remote sensing spectroscopy based on spectral indices and even the band design of satellite payloads.
砷(As)污染土壤是人体食物链As富集的主要源头, 农用地土壤存在的As累积现象使得土壤As污染监测问题不容忽视。 传统土壤As监测方法主要是对野外采集的土壤样品开展实验室化学分析测定其含量, 精度高但耗时费力。 相比, 新兴高光谱遥感技术具有非接触方式高效、 低成本探测目标物体的优势, 近年已逐渐被应用至土壤重金属污染监测领域[1, 2, 3]。 基于全波段构建的经验统计模型是目前土壤重金属遥感反演应用中的主要方法之一, 然而由于高光谱遥感数据具有波段连续、 光谱分辨率高的特点, 存在多重共线性、 相互吸收重叠和信息冗余等问题, 全波段反演模型的预测能力受到影响[4, 5]。
光谱指数在遥感领域中常用于表征如植被生长状况、 生物量、 土壤组分含量等物理研究参数, 其通过对两个或多个波段的光谱反射率数值进行线性或非线性组合运算, 放大波段之间的微弱关联信息, 消除部分大气环境相关的辐射误差, 能增强或揭示隐含有效光谱特征[4]。 在土壤重金属含量遥感反演研究领域中, 目前已有学者构建了差值指数(difference index, DI)、 和值指数(sum index, SI)、 比值指数(ratio index, RI)和简化归一化指数(simple normalized difference spectral indices, NDI和NPDI)等双波段光谱指数和基于上述指数构建的三波段指数, 采用多元线性回归、 偏最小二乘回归和随机森林回归等算法进行土壤Ni、 Hg、 Cd、 Zn、 Pb、 Cr、 Cu和As等含量反演建模, 其中随机森林建模精度表现良好[6, 7, 8, 9]。
然而已有研究仅基于测量环境可控的实验室光谱构建光谱指数, 能否成功应用于野外实际场景采集的野外原位光谱土壤重金属反演尚缺乏验证和讨论。 直接标准化校正(direct standardization, DS)转换算法通过关联实验室和野外原位光谱数据, 能有效减少野外环境噪声对光谱产生的影响, 实现野外原位光谱数据校正[10], 因而光谱指数应用至野外原位-DS光谱的建模效果值得探究。 在此背景下, 本研究基于实验室、 野外原位及野外原位-DS光谱计算叶绿素指数(chlorophyll index, CI)、 DI、 RI、 SI、 NDI和NPDI, 选择强相关指数作为自变量参与土壤As含量随机森林反演, 并对比全波段建模结果精度讨论各类指数在不同光谱环境中反演土壤As含量的有效性与适用性, 分析指数涉及的特征波段以进一步探究指数放大有效信息和消除噪声的规律。
样品采集于2017年9月河北省保定市某一农田。 采样前, 清除采样点周边平整区域表面的石块和草木, 采样过程中, 使用手持GPS测量仪记录采样点的WGS84框架下经纬度坐标, 采用铁锹以五点采样法收集表层(0~20 cm)土壤样品42个(见图1), 按编号用布袋分装取回。 土样经风干、 研磨和过100目尼龙筛处理后, 采用盐酸、 硝酸和高氯酸混合酸消解, 使用电感耦合等离子发射光谱法(USEPA 6010C: 2007)测定土壤As含量。
经化验分析, 土壤样本平均pH值为8.17, 整体呈弱碱性; As含量最低为3.77 mg· kg-1, 最大值为13.86 mg· kg-1, As浓度平均值为8.85 mg· kg-1, 小于农用地风险筛查值标准, 表明研究区土样整体As含量较低; As浓度标准差和变异系数分别为2.70和30.51%, 表明研究区土样As含量分布呈弱变异性。 土样As含量偏度系数和峰度都小于1, 且经过雅克-贝拉检验(Jarque-Bera test), 土壤As含量数据符合显著水平0.05下的正态分布, 适用于统计分析建模。
使用PSR-3500便携式地物光谱仪分别在野外采样过程和实验室环境中完成土样的野外原位和实验室全波段(350~2 500 nm)光谱反射率测量。 光谱数据处理包括光谱数据预处理和野外原位光谱数据DS转换校正。 光谱预处理包括: 剔除实验室光谱曲线异常的样品3个, 避免异常样品数据造成干扰; 去除野外原位光谱数据信噪较低的波段区间1 800~1 960和2 400~2 500 nm, 以减少水汽吸收等测量环境产生的随机噪声。 野外原位光谱DS转换校正中对实验室光谱反射率数据进行相同处理, 以保证转换过程中的波长范围一致。 将光谱波段内插至1 nm等间隔以增加后续光谱指数覆盖的波段组合方式, 充分挖掘光谱波段中的丰富信息。 选择Savitzky-Golay卷积平滑去噪, 设置三阶多项式, 移动窗口宽度11进行多项式最小二乘拟合, 以降低光谱测量环境和仪器产生的随机噪声影响; 通过光谱一阶微分变换, 消除因仪器背景或基线漂移产生的系统误差; 通过多元散射校正, 消除土样颗粒分布不均匀和粒径不同大小造成的线性散射干扰。
野外原位光谱DS转换的原理是建立实验室光谱Xlab与野外原位光谱Xfield的转换关系
式(1)中, B是转换矩阵; λ 是单位列向量;
对式(1)进行中心化处理后, 可得转换矩阵
式(2)中,
将式(2)代入式(1), 则可得
式(3)中,
则校正后的野外原位光谱可表示为
野外原位光谱DS转换过程基于Kennard-Stone(KS)算法确定最佳转换样本集, 具体实现过程如下: ①选择欧氏距离最大的两样本光谱作为初始转换集, 计算野外原位DS转换光谱反射率[式(4)]; ②计算光谱相似系数F作为评价因子检验光谱转换效果[式(5)]; ③选择剩余样本中到现有转换集样本的距离最大的样本, 作为新加入的转换集样本; ④循环步骤②③, 直至转换集样本数量到达总样本数, 根据F值确定最佳转换样本集, 得到最终的野外原位-DS光谱。
式(5)中, xL和xF分别为在波段i处的室内外光谱反射率值; n为波段数; F值越趋近于1, 则说明两条光谱曲线的拟合程度越好, 曲线相似度越高。
指数的计算方法如表1所示, DI、 RI、 SI和NDI指数以典型的光谱指数构造方式, 即差值、 比值、 和值和归一化等线性或非线性方式拉伸波段间的光谱反射特征差异, 可消除太阳高度角、 地形、 仪器标定误差等的影响, 被广泛应用作植被指数和土壤指数[6, 11]; CI能有效增强与叶绿素含量的线性关系, 被成功应用于叶绿素和土壤有机质含量反演[12, 13]; NPDI被成功应用于土壤As含量反演[14]。
![]() | 表1 光谱指数计算方法 Table 1 Calculation methods of spectral indices |
分别对实验室光谱、 野外原位光谱和野外原位-DS光谱预处理后的各波段反射率进行两两组合, 计算上述光谱指数, 并将指数结果与土壤As含量做相关性分析; 为减少建模自变量以提高建模效率, 选择通过显著性检验(p< 0.001), 且|r|> 0.7(|r|> 0.7为强相关性)的指数作为自变量参与土壤As含量随机森林建模。
随机森林算法属于机器学习的集成学习方法, 能有效处理高维样本数据, 具有抗噪能力强、 异常值容忍度高、 可解释性强的优点, 在土壤重金属光谱指数反演建模中表现良好[15, 16]。 以7∶ 3的比例随机选取训练集和验证集进行随机森林回归建模, 并经过多次试验选取保持模型误差稳定的ntree值为200。 算法的主要步骤为: ①对训练集D={(x1, y1), (x2, y2), …, (xm, ym)}进行t(t=1, 2, 3, …, T)次随机采样, 得到包含m个样本的子训练集Dt; ②用子训练集Dt训练出决策树模型Gt(x), 将T棵决策树得到的回归结果取平均作为最终的预测结果。
随机森林算法完成回归建模后, 采用变量Xj的Gini重要性[式(6)和式(7)]作为重要性评价指标对建模变量进行排序, 根据变量重要性值分布取VI
式(6)和式(7)中, n为随机森林中回归树的数量; m为每棵树的节点数; M为变量Xj在第i棵树中出现蹬次数; VI
采用简单交叉验证检验模型性能, 均以模型判定系数(determination coefficients, R2)、 均方根误差(root mean of squared error, RMSE)和相对分析误差(relative percent deviation, RPD)作为参数评价模型精度指标。 其中R2和RPD值越大, RMSE值越小, 表明模型的预测效果越好。 当RPD< 1.4, 模型无法对样本进行估测, 1.4< RPD< 2时, 模型可对样本进行粗略预估, RPD> 2时, 模型具有极好的样本预测能力。 本工作于Matlab R2018b和RStudio4.1.2环境完成。
土壤样品全波段原始和预处理后的光谱曲线为图2所示。 分析发现, 不同光谱环境中的原始光谱曲线总体形态特征相似, 400~2 000 nm整体呈上升趋势, 2 000~2 500 nm反射率缓慢下降, 其中在1 000 nm附近出现弱吸收峰, 为铁的氢氧化合物特征谱带, 在1 400、 1 900和2 200 nm附近出现明显的吸收带, 为土壤硅酸盐矿物中水分子羟基伸缩振动和Al—OH弯曲振动的合频谱带[17]。 经过预处理后的光谱曲线细节特征进一步突出, 在440、 560、 620、 650、 660、 710、 760、 990、 1 430和2 200 nm等处出现特征吸收峰, 有效分离了平行土壤背景光谱信息, 该波段范围与土壤中针铁矿、 赤铁矿、 羟基、 高岭石和氨基等组分的吸收特征有关[18]。 结合样品As含量分析发现, 不同As含量水平样品的光谱原始曲线形态相似但反射率分布区间不同, 且在预处理光谱曲线中660、 760和990 nm处光谱特征峰的吸收深度存在明显差异, 可能与As吸附的不同含量的针铁矿物对土壤反射率大小的影响有关[19]。
图3为参与随机森林建模的各类强相关光谱指数(p< 0.001, 且|r|> 0.7)的波段核密度曲线分布图。 如图3, 同一指数组合计算的两个波段的核密度分布曲线在不同光谱环境中具有波段分布差异显著的特征峰, 而在相同光谱环境中的各类指数特征峰所处波段存在部分重合, 各类指数在实验室光谱中的550、 1 600、 1 800和2 200 nm, 野外原位光谱中的550~620和750~850 nm, 野外原位-DS光谱中的1 390~1 510、 1 600和2 100 nm等波段表现出强相关特征, 该系列波段与土壤中铁氧化物、 粘土矿物和有机质等吸收特征相关[20, 21, 22]。 表2为实验室、 野外原位、 野外原位-DS光谱环境中相关性最强的光谱指数和波段及其对应的相关系数最大值(maximum absolute correlation coefficient, MACC)。 分析发现, 相较全波段, 各类光谱指数与土壤As含量的线性关系显著增强, 实验室、 野外原位、 野外原位-DS光谱环境中MACC分别由0.642提升至0.820, 0.665提升至0.786, 0.645提升至0.832, 且强相关指数波段涉及的884、 836和1 497 nm与土壤As含量相关性较低, r分别为0.06, 0.01和0.23, 表明指数计算通过组合部分相关性较低的波段放大了土壤As的隐含有效光谱特征。 究其原因, 土壤中的复杂组分存在重叠吸收且吸收特征波段不同, 各类指数的计算方式影响两波段信息的消长, 为消除背景干扰因素的影响, 指数计算的波段组合需综合考虑指数类型以及土壤各组分之间的复杂光谱吸收特征。
![]() | 表2 实验室、 野外原位和野外原位-DS光谱下相关性最强的光谱指数和波段 Table 2 The most correlated spectral indices and bands in laboratory, in-situ field and in-situ field-DS spectra |
表3为采用光谱指数与预处理后的全波段光谱进行土壤As含量随机森林反演的建模精度。 对比分析建模精度结果可知, 相较于全波段光谱建模精度, 通过光谱指数方法反演建模的精度皆得到大幅度提升:
![]() | 表3 光谱指数与全波段土壤As含量随机森林反演建模精度 Table 3 Modeling accuracies of soil As content random forest inversions based on spectral indices and entire spectra |
图4为建模精度较优的土壤As随机森林建模散点图。 训练集和校正集较为紧密地分布于1∶ 1线附近, 训练集基本位于95%的置信区间内, 表明模型性能较为稳定。 相较于实验室光谱模型, 野外原位光谱和野外原位-DS光谱模型中校正集与拟合线偏移量较大, 使得
铁氧化物、 粘土矿物和有机物是影响土壤光谱反射特征的主要组分, 且与土壤中As的赋存形态密切相关[24], 通过对比分析指数特征波段关联的土壤组分进一步探究指数放大有效信息和消除噪声的规律。 图5为土壤As含量预测效果较优的CI和NDI的重要指数波段核密度分布图及土壤铁氧化物、 粘土矿物和有机物的吸收波段覆盖范围, 表4为分布密度大于0.01的特征峰关联的土壤组分分析结果。 如图5和表4所示, 实验室光谱中NDI和CI在870~885 nm表现出明显的波段特征, 为Fe3+、 赤铁矿、 烷基的吸收带, 此外CI在1 405~1 415和1 810~1 815 nm分布集中, 为—OH和高岭石的吸收带。 野外原位光谱中CI在425~430, 475~480, 605~620和1 145~1 150 nm表现出Fe2+、 Fe3+、 Fe2O3、 针铁矿和赤铁矿等铁氧化物的光谱吸收特征。 野外原位-DS光谱中CI在1 395~1 400, 1 740~1 755和2 060~2 075 nm分别表现了—OH等粘土矿物、 烷基和氨基等有机物的吸收特征。 分析上述结果可以发现, 虽然指数特征波段表现出与铁氧化物、 粘土矿物和有机物吸收特征的相关性, 但部分指数特征波段缺乏解释性, 且随着数据采集环境和数据处理方法的不同, CI体现的指数特征波段也有所变化, 无法揭示指数计算通过组合波段放大有效信息和消除噪声的统一规律。 究其原因, 目前土壤组分光谱响应机理不明且吸收特征波段先验知识尚不统一, 可能使得分析过程中指数部分特征波段没有被凸显, 同时光谱数据采集环境和数据处理方法也对光谱数据所包含的光谱特征产生影响, 因而指数方法的改进关键是进一步加强土壤光谱响应机理研究。
![]() | 图5 CI和NDI重要指数的波段核密度曲线分布图及各土壤组分的吸收波段覆盖范围[19, 25, 26, 27] 蓝色、 橙色和绿色标识分别代表铁氧化物、 粘土矿物和有机物Fig.5 Kernel density distributions of bands with CI and NDI important indices and the ranges of absorption bands of each soil component Blue, orange and green represent iron oxides, clay minerals and organic matter, respectively |
针对光谱指数方法应用于野外原位光谱和野外原位-DS光谱土壤重金属反演尚缺乏验证和讨论, 本研究开展了CI、 DI、 RI、 SI、 NDI和NPDI应用于实验室、 野外原位及野外原位-DS光谱中土壤As随机森林回归建模研究, 通过对比全波段光谱建模结果实证了光谱指数应用于土壤As含量反演建模的有效性, 并讨论了各类指数在不同光谱环境中的适用性, 尝试探讨了指数方法增强或揭示隐含有效光谱特征的波段组合规律。 研究发现, 光谱指数方法通过组合部分相关性较低的波段放大了土壤As的隐含有效光谱特征, 显著增强了与土壤As含量的线性关系; 光谱指数方法能有效提升土壤As含量反演建模精度, 其中CI指数在“ 实验室、 野外原位及野外原位-DS光谱” 中综合表现最佳,
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|