深度森林DF21模型在土壤镉含量高光谱反演中的性能评价
张梓浩1, 郭飞3,4, 吴坤泽1, 杨馨玉2, 许镇1,*
1.汕头大学工学院电子信息工程系, 广东 汕头 515063
2.汕头大学工学院机械工程系, 广东 汕头 515063
3.中国地质科学院地球物理地球化学勘查研究所, 河北 廊坊 065000
4.中国地质调查局土地质量地球化学调查评价研究中心, 河北 廊坊 065000
*通讯作者 e-mail: xuzhen@stu.edu.cn

作者简介: 张梓浩, 2001年生, 汕头大学工学院电子信息工程系本科生 e-mail: 19zhzhang2@stu.edu.cn;郭 飞, 1991年生, 中国地质科学院地球物理地球化学勘查研究所工程师 e-mail: guofei@mail.cgs.gov.cn;张梓浩, 郭 飞: 并列第一作者

摘要

高光谱技术可提供近乎连续的地物光谱曲线, 对土壤组分定量反演具有极大的潜力。 针对受污染土壤, 通过综合分析实验室测定的土壤镉(Cd)含量和同期获取的高光谱数据, 提出了一种基于深度森林2021(Deep Forest 2021, DF21)算法的高光谱土壤Cd含量反演模型。 采用原始光谱数据(OS)和其经主成分分析(PCA)降维处理后的数据作为模型输入参数, 分别构建了基于原始光谱数据的DF21(OS-DF21)模型和基于PCA降维数据的DF21(PCA-DF21)模型。 随后, 基于相同训练样本, OS-DF21和PCA-DF21分别建立了土壤Cd含量和输入参量之间的关系, 并据此对检验样本土壤Cd含量进行了定量反演和对比分析。 选取决定系数( R2)、 均方根误差(RMSE)和相对分析误差(RPD)对模型反演性能进行了评估。 分析结果表明: OS-DF21模型反演精度最佳, 其 R2、 RMSE和RPD分别可达0.873、 0.120和2.892。 相比而言, PCA降维处理虽可降低光谱数据的冗余度, 但PCA-DF21模型的预测能力有所下降。 尽管如此, PCA-DF21模型仍表现出较好的土壤Cd含量反演能力, 其 R2、 RMSE和RPD分别为0.779, 0.159和2.190。 因此, DF21算法可作为研究区及类似环境区域的土壤重金属快速勘测的补充手段。

关键词: 土壤Cd含量; 深度森林DF21; 主成分分析(PCA); 高光谱技术; 反演模型
中图分类号:TP79 文献标志码:A
Performance Evaluation of the Deep Forest 2021 (DF21) Model in Retrieving Soil Cadmium Concentration Using Hyperspectral Data
ZHANG Zi-hao1, GUO Fei3,4, WU Kun-ze1, YANG Xin-yu2, XU Zhen1,*
1. Department of Electronic Information Engineering, College of Engineering, Shantou University, Shantou 515063, China
2. Department of Mechanical Engineering, College of Engineering, Shantou University, Shantou 515063, China
3. Institute of Geophysical and Geochemical Exploration, China Academy of Geological Sciences, Langfang 065000, China
4. Research Center of Geochemical Survey and Assessment on Land Quality, China Geological Survey, Langfang 065000, China
*Corresponding author
Abstract

Hyperspectral technology can provide nearly continuous spectral curves of ground objects, which has excellent potential for retrievingthe soil's components. This paper investigates components retrieval from contaminated soil by hyperspectral technology. By so doing, it analyzes thesoil cadmium (Cd) concentration measured in the laboratory and the corresponding hyperspectral curvature data obtained at the same period, following whichthe retrieval model for the soil Cd concentration from the hyperspectral data in light with the (Deep Forest 2021, DF21) model is developed. In this study, the original spectrum(OS) data and the data processed by the Principal Component Analysis (PCA) are used as the model's input parameters. Subsequently, two models, i.e., the OS-DF21 model based on the original spectral data and the PCA-DF21 model based on the PCA processed data, are established. The relationships between the input parameters and soil Cd concentration are respectively obtained by the OS-DF21 model and PCA-DF21 model. Then the soil Cd concentrationis estimated from the testing samples accordingly. To evaluate the retrieval performance, three indices, namely the coefficient of determination ( R2), Root Mean Square Error (RMSE), and Residual Predictive Deviation (RPD) applied in this study. It is found that the OS-DF21 model has the best performance for the retrieval of soil Cd concentration, whose R2, RMSE, and RPD are 0.873, 0.120, and 2.892, respectively. In contrast, the PCA-DF21 model has arelatively lower retrieval accuracy, with R2, RMSE, and RPD being 0.779, 0.159, and 2.190, though the PCA can reduce the dimensionality of the spectral data. In this regard, the DF21 shows good retrieval performance and can be an essential supplementary method for soil heavy metal surveys in the study area and similar environmental regions.

Keyword: Soil Cd concentration; DF21; Principal component analysis (PCA); Hyperspectral technology; Retrieval model
引言

矿物开采、 工业污染等人类活动会将导致土壤环境中的重金属含量增加, 从而破坏土壤质量, 降低土壤微生物活性[1]。 其中, 镉(cadmium, Cd)元素对土壤性质危害程度较高且难以自然降解; 其在土壤中的聚集可能会造成农作物污染, 严重时甚至会危害人体健康[2]。 因此, 有必要对土壤中Cd含量进行准确、 高效的测量, 从而为土壤污染治理提供参考。 传统土壤Cd含量的测定方法主要是基于实地采样和实验室分析实现的, 但此类方法往往需要耗费大量的人力物力, 不利于土壤Cd含量时空分布的快速监测[3]。 高光谱技术具有光谱波段多、 信息精细、 动态高效等优势, 因此, 其被广泛应用于土壤环境监测和土壤组分快速勘测中。

高光谱技术可实现对土壤重金属含量及其时空分布的高精度反演。 例如: 雷雨斌等利用高光谱组合技术对土壤中的Cd含量进行定量反演, 其模型决定系数R2可达0.82[4]。 兰淼等分析了9种光谱数据指标与Cd元素的相关性, 据此构建了高光谱反演模型[5]。 上述研究表明: 利用高光谱技术进行土壤Cd含量的定量反演具有极高可行性。 近年来, 随着深度学习的发展, 其在高光谱处理中的应用愈加广泛, 这为高光谱定量反演提供了新思路。 在高光谱反演中, 反演模型起着至关重要的作用; 而深度学习的优越性, 可以广泛引入到反演模型建立中。 例如: 刘慧敏等利用LSTM长短时记忆神经网络建立反演模型监测土壤氮的含量[6], 卢志宏等基于BP神经网络对草原矿区土壤的N/P含量进行反演预测[7]。 与传统方法相比, 深度学习算法具有更强大学习和表达能力, 将之用于高光谱定量反演具有极高可行性。

当前, 深度学习算法多是基于深度神经网络构建的。 周志华等于2017年提出的基于决策树森林集成模型的深度森林框架(grained cascade forest, gcForest)则是属于深度神经网络之外的自适应性深度模型[7]。 该框架每层通过梯度提升决策树作为构造块, 明确其表征的学习能力, 具备较强的自适应性。 在gcForest框架基础上提出的深度森林(Deep Forest 2021, DF21)算法具有更好的学习性能和训练效率, 并在大规模数据集的处理上具备显著效果。 面对海量数据、 信息冗余这一典型问题, DF21算法为高光谱处理提供了新思路。

选用黄石市矿场周边农田作为研究区域, 通过分析实测土壤Cd含量和同期获取的高光谱数据, 初步探索了利用DF21算法进行土壤Cd含量高光谱定量反演的可行性。 为探讨DF21算法适用性, 研究采用未作处理的原始光谱(original spectrum, OS)数据和其经主成分分析(principal components analysis, PCA)降维处理后的数据作为输入参量, 分别构建了基于原始光谱数据的DF21(OS-DF21)模型和基于PCA降维数据的DF21(PCA-DF21)模型。 利用两个模型分别建立了训练样本中土壤Cd含量与输入参量关系, 并在此基础上对训练样本中土壤Cd含量进行了定量反演。 此外, 进一步对比分析了OS-DF21和PCA-DF21模型反演精度, 以确定基于DF21模型进行土壤Cd含量反演的最佳输入参数, 从而为今后土壤污染快速监测提供一种有效的技术支撑。

1 实验部分
1.1 研究区概况

研究区域位于湖北省黄石市(114.50° — 115.50° E, 29.50° — 30.33° N), 地处长江中下游, 其海拔高度在120~200 m之间(见图1)。 研究区土壤以水稻土和红壤土为主, 由于该区域矿场较多, 采矿活动较为剧烈, 矿场周边受重金属污染风险较大。 采集研究区域土壤样品56件, 采集的土壤样品位于0~20 cm厚的表层土壤, 取样质量超过1 kg, 经过室内自然风干、 研磨处理后过10目(孔径为2 mm)的尼龙筛, 将样品分为两份, 其中一份用于实验室分析, 另一份用于室内光谱测试。 经实验分析测得: 土壤样本平均pH值为6.05, 土壤有机质含量在0.39%~4.41%之间。

图1 研究区位置及土壤采样点图Fig.1 Location of research area and sampling point of soil

1.2 光谱测定

采用FieldSpec4地物光谱仪、 卤素光源和标准白板对土壤样品进行了光谱测量。 FieldSpec4仪器在350~1 000 nm波段的光谱分辨率为1.4 nm, 在1 000~2 500 nm波段的光谱分辨率为2 nm, 对生成的光谱数据进行重采样处理(采样间隔1 nm)后可输出2 151个波段的光谱数据。 选用入射角为15° 卤素光源, 在暗室中对土壤进行光谱测量。 每个样本分别采集了10组光谱数据, 将测量值取平均后的光谱数据作为研究样本反射率。 此外, 高光谱数据的边缘波段还具有信噪比低的劣势; 因此, 选定400~2 400 nm 波段的样本作为研究数据, 其光谱曲线如图2所示。 由图可见, 光谱中的反射率在可见光区域(400~780 nm)呈上升趋势, 在800 nm后趋于平缓, 并在1 450、 1 900、 2 200 nm附近形成三个明显的吸收峰, 符合土壤中含有重金属元素的典型样本[9]

图2 土壤光谱曲线Fig.2 Spectral curves of soil samples

1.3 土壤Cd的统计分析

测量了上述56个土壤样本的Cd含量, 通过分析测定结果, 对研究区土壤Cd元素含量进行了统计描述, 其结果如表1所示。 统计分析结果表明: 研究区土壤Cd含量均值为0.645 mg· kg-1, 最小值仅为0.045 mg· kg-1, 最高值则可达2.108 mg· kg-1。 根据国家相关标准[9], 研究区域可能存在一定的土壤Cd污染风险。 从数据集分布情况看, 数据偏度为1.200, 峰度为2.260, 变异系数为0.623。 因此, 数据集远离正态分布, 标准差右侧数据更为分散, 这标志着研究区的土壤Cd元素含量存在空间分布不均的特性。

表1 土壤Cd含量统计描述 Table 1 Statistical description of the soil Cd concentration
1.4 研究方法与精度评定

1.4.1 模型建立

对上述样本数据随机进行了分割。 其中, 用于模型构建的训练样本为39个, 用于模型检验的验证样本17个。 研究流程如图3所示。 为探索DF21算法的适用性, 研究首先采用未作处理的原始光谱数据作为输入变量, 将训练样本用于对OS-DF21模型进行训练。 将剩下17个验证样本的光谱数据输入OS-DF21模型, 据此预测验证样本土壤Cd含量。 此外, 针对当前高光谱反演研究采用数据降维处理降低数据冗余度这一思路, 进一步分析数据降维对DF21算法反演精度的影响。 为此, 对光谱数据进行PCA降维处理(方法如下节所示), 选取若干主成分作为DF21模型(即PCA-DF21模型)的输入变量, 并采用上述方式利用PCA-DF21模型反演了验证样本的土壤Cd。 最后, 对比了PCA-DF21模型和OS-DF21模型的反演精度。

图3 DF21模型高光谱反演流程图Fig.3 Flow chart for the hyperspectral estimation based on DF21 model

1.4.2 PCA降维

PCA算法通过对原始数据进行正交变换, 在测量空间中寻找几组正交向量, 选取保留信息量最多的主成分, 实现高光谱数据降维的目的。 其主要步骤如下:

(1)设每个高光谱样本对象具有m个波段, 共有n组, 构成一个n× m数值矩阵, 设m维随机变量为X=(x1, x2, …, xm )T, 其中样本的均值为 X-1, X-2, …, X-n, 样本的标准差为S1, S2, …, Sn。 首先转化为标准化指标

X~ij=Xij-X-jSj(1)

式(1)中

Xj=1ni=1nXij(2)

Sj=1n-1i=1n(Xij-X-j)2(3)

(2)建立随机变量的相关系数矩阵R=(rij)m× m

rij=k=1nX~kiX~kjn-1, i, j=1, 2, , n(4)

式(4)中: rij=1; rij=rji, rij为第i个指标与第j个指标的相关系数。

(3)求R的特征根λ 1λ 2≥ …≥ λ m≥ 0与其对应的单位特征向量为 u~1, u~2, …, u~m, 其中 u~j=(u1j, u2j, …, umj)T, 定义由m维向量 X~=( x~1, x~2, …, x~m)Tm维向量Y=(y1, y2, …, ym)T的线性变换为

y1=u11x~1+u21x~2++um1x~my2=u12x~1+u22x~2++um2x~m    ym=u1mx~1+u2mx~2++ummx~m(5)

(4)定义每个主成分的信息贡献率为

aj=λjk=1mλk, j=1, 2, , m(6)

降维数据保留主成分的个数取决于其对原始数据的信息贡献率大小。

1.4.3 深度森林算法

采用了DF21算法进行土壤Cd含量定量反演。 该模型是一个基于决策树森林的算法。 DF21算法为了增强级识别效果, 还引入了多粒度扫描。 即利用滑动窗口扫描原始特征, 得到扫描后的特征向量, 并将提取的特征向量作为正/反实例, 用于生成类向量后将其作为变换后的特征进行连接。 不同大小尺寸的滑动窗口可生成不同粒度的特征向量, 极大增强了输入数据的差异姓。

为进一步提升输入数据的分类能力, DF21算法还利用级联森林结构(Cascade Forest Structure)构造多层结构, 即深度森林每一级都有不同类型的森林(即随机森林和完全随机森林[11])组成。 其中, 随机森林选择基尼系数最大的特征作为节点划分条件, 完全随机森林则令每个节点在完整的特征空间中随机选择特征作为判别条件生成子节点, 直到每个叶子节点只包含同一类别为止。 DF21算法结构不依赖于大量数据的生成, 具备较强的适应性。 因此, 即使训练数据较少, DF21算法也可获得较好的特征表示和学习性能。 DF21算法总体框架如图4所示。

图4 DF21算法总体框架Fig.4 Algorithm framework for the DF21 model

1.4.4 精度评估指标

为验证DF21模型进行高光谱反演的可靠性, 需对验证集数据的结果进行评估。 采用的精度评定指标为: 决定系数(coefficient of determination, R2), 均方根误差(root mean square error, RMSE)和相对分析误差(residual predictive deviation, RPD)。 三者计算公式如式(7)— 式(9)

R2=1-i=1n(xi-x~i)2i=1n(xi-x-i)2(7)

RMSE=1ni=1n(xi-x~i)2(8)

PRD=STDRMSE(9)

式中, n是验证样本的数量, xi为验证样本的测量值, x-i为验证样本平均值, x~i为验证样本预测值, STD为样本偏差。 高光谱模型反演结果精度与这三个参数有关, 其中, 模型预测精度越高, 则RMSE越小且R2越接近于1。 同时, 模型稳健性越好, 则RPD越大。

2 结果与讨论

选用PCA算法对高光谱数据进行降维处理, 经PCA处理后, 数据各主成分对原始光谱数据信息的累积贡献率如图5所示。

图5 各主成分对原始光谱信息的累积贡献率Fig.5 The cumulative contribution rate of the principal components for the original spectral information

可见, PCA第一主成分分量对原始数据的贡献率可达92%以上。 随主成分数的增加, 各主成分对光谱信息贡献率逐渐降低。 在第9个主成分后, 主成分分量对原始光谱信息的累计贡献率趋于收敛, 并在第12个主成分实现对光谱信息99.99%的累积贡献率。 因此, 为将光谱信息尽可能地输入到反演模型中, 选择前12个主成分作为模型的输入变量。

分别采用原始高光谱数据和PCA降维数据作为输入变量, 采用39个训练样本对DF21算法进行训练, 并将剩余17个样本用于土壤Cd含量反演, 以验证DF21算法可靠性。 基于原始高光谱数据和基于PCA降维数据的反演结果分别如图6(a)和(b)所示。 表2给出了本模型反演精度与之前研究模型精度的对比[12]

图6 土壤Cd含量高光谱反演结果
(a): OS-DF21模型; (b): PCA-DF21模型
Fig.6 The estimated results of the soil Cd concentration
(a): OS-DF21 model; (b): PCA-DF21 model

表2 不同高光谱模型反演土壤Cd含量精度对比 Table 2 Accuracy comparison of various hyperspectral models for Cd concentration estimation

从决定系数R2角度看, 相比其他模型, OS-DF21模型对土壤Cd含量的反演效果最佳。 然而, OS-DF21模型的RSME和RPD均低于PCA-RF模型, 这表明OS-DF21模型的稳健性相对弱于PCA-RF模型。 尽管如此, OS-DF21模型的稳健性仍在可接受范围内。 相对而言, PCA处理虽然可以降低原始光谱的数据冗余度, 但经过PCA处理后, DF21模型反演精度有所下降: 相比OS-DF21模型而言, PCA-DF21模型的R2下降了0.094, RMSE降低了0.065, PRD下降程度达0.7。 相比于PCA-RF模型外的其他模型, PCA-DF21模型依然表现出良好的反演性能。

根据上述结果可知, 针对土壤Cd含量高光谱反演, DF21模型表现出良好预测性能。 其中, 采用原始光谱数据的OS-DF21模型具有较高精度, 采用PCA降维数据的PCA-DF21模型精度相对较差。 但相比于其他高光谱反演模型, DF21模型反演精度相对较高。 此外, DF21模型不依赖于大量数据的生成, 具备高适应性和高训练效率的特点; 这意味着即使训练数据较少, DF21模型也有较好的特征表示和学习性能, 有利于提高研究区及类似环境区域土壤重金属含量的反演精度和反演效率。 基于DF21模型的特点, 可针对不同反演场景选取适当模型进行反演: 在数据量不高而对精度要求比较高的情景下, 可以采用OS-DF21模型。 反之, 当数据量较高时, 采用PCA-DF21模型可以在降低数据处理量的基础上获取较好的反演精度。

3 结论

以黄石矿区周边农用地为研究区域, 通过分析同期测定的高光谱数据和土壤Cd含量, 初步探索了利用DF21算法进行土壤Cd含量高光谱定量反演的可行性。 分别利用原始光谱数据和PCA降维数据作为输入参量, 分别构建了OS-DF21模型和PCA-DF21模型。 结果表明: OS-DF21模型具有良好的反演性能, 模型预测值与实测值的其决定系数为0.873, 其RPD可达2.892。 因此, OS-DF21模型具有较高稳定性和预测精度。 高光谱数据经PCA处理可以实现数据降维, 但处理后的数据用于DF21算法反演时的精度有所下降。 尽管如此, PCA-DF21模型相比其他基于PCA降维数据的反演模型仍具有较好的预测效果。 由此, DF21模型可用于快速勘测土壤重金属含量, 从而整体判定研究区及类似环境区域的重金属污染状况。

事实上, 地物光谱特性还会受到诸如土地利用类型、 土壤类型、 土壤理化性质、 重金属浓度等环境因素的影响。 换言之, 基于光谱特性的DF21模型反演精度会随上述环境参量变化而变动。 因此, 有必要在未来研究中开展DF21模型在不同环境下的反演性能对比分析, 从而明确DF21模型针对其他环境土壤Cd含量反演的迁移性。

参考文献
[1] Liao M, Xie X, Ma A, et al. Journal of Soils and Sediments, 2010, 10(5): 818. [本文引用:1]
[2] HU Qing-qing, NIE Chao-jia, SHEN Qiang, et al(胡青青, 聂超甲, 沈强, ). Journal of Agro-Environment Science(农业环境科学学报), 2019, 38(3): 534. [本文引用:1]
[3] XU Xi-bo, ZHANG Sen-lin, BO Fan-sheng, et al(徐夕博, 张森林, 卜凡升, ). Journal of Henan Agricultural Sciences(河南农业科学), 2018, 47(7): 77. [本文引用:1]
[4] LEI Yu-bin, LIU Ning, GUO Yun-kai, et al(雷宇斌, 刘宁, 郭云开, ). Engineering of Surveying and Mapping(测绘工程), 2018, 27(11): 71. [本文引用:1]
[5] LAN Miao, YANG Bin, SONG Qiang, et al(兰淼, 杨斌, 宋强, ). Journal of Anhui Polytechnic University(安徽工程大学学报), 2021, 36(5): 47. [本文引用:1]
[6] LIU Hui-min, ZHEN Jia-qi, LIU Yong, et al(刘慧敏, 甄佳奇, 刘勇, ). Journal of Chinese Agricultural Mechanization(中国农机化学报) , 2020, 41(9): 190. [本文引用:1]
[7] LU Zhi-hong, LIU Xin-yao, CHANG Shu-juan, et al(卢志宏, 刘辛瑶, 常书娟, ). Pratacultural Science(草业科学), 2018, 35(9): 2127. [本文引用:2]
[8] Zhou Z H, FENG J. Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia, AAAI Press, 2017: 3553. [本文引用:1]
[9] He Yong, Song Haiyan, Pereira A G, et al. Journal of Zhejiang University SCIENCE, 2005, 6(11): 1081. [本文引用:2]
[10] Ministry of Ecological Environment, State Administration for Market Regulatory(生态环境部、 国家市场监督管理总局). National Stand ard of the People's Republic of China GB 15618—2018 Soil Environment Quality-Risk Control Stand ard for Soil Contamination of Agriculture Land [中华人民共和国国家标准(GB 15618—2018土壤环境质量农用地土壤污染风险管控标准(试行))], 2018. [本文引用:1]
[11] Liu F, Ting K, Yu Y, et al. Journal of Artificial Intelligence Research, 2008, (32): 355. [本文引用:1]
[12] GUO Fei, XU Zhen, MA Hong-hong, et al(郭飞, 许镇, 马宏宏, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(5): 1625. [本文引用:1]