联合FOD-sCARS的土壤有机质高光谱机器学习估测模型
吴梦红1,2, 窦森1, 林楠2, 姜然哲3, 陈思2, 李佳璇2, 付佳伟2, 梅显军2
1.吉林农业大学资源与环境学院, 吉林 长春 130118
2.吉林建筑大学测绘与勘查工程学院, 吉林 长春 130118
3.吉林大学生物与农业工程学院, 吉林 长春 130115

作者简介: 吴梦红, 女, 1992年生, 吉林农业大学资源与环境学院博士研究生 e-mail: wumenghong@jlju.edu.cn

摘要

土壤有机质(SOM)含量是表征土壤质量的关键指标, 在全球碳循环系统中发挥重大作用。快速准确的SOM估算和空间制图对土壤碳库估算、 作物生长监测和耕地规划管理具有重要意义。利用传统方法监测区域性SOM含量耗时费力, 基于高光谱遥感影像建立SOM估测模型是现在较为合理有效的方法。为探索解决目前高光谱遥感影像建立SOM含量估测模型存在光谱数据冗余、 光谱数据特征提取精度低、 小样本模型泛化能力不强的问题, 选择位于青海省湟中县的研究区, 共采集67个土壤样本。获取资源1号02D(ZY1-02D)高光谱遥感影像并进行预处理得到样点像元光谱数据, 采用分数阶微分变换(FOD)方法挖掘与SOM含量具有响应关系的敏感波段, 以0.2为一个步长, 利用相关性阈值法对比分析不同阶次微分处理数据挖掘能力; 运用稳定性竞争性自适应重加权采样算法(sCARS)去除高光谱冗余数据获取建模特征波段, 选择随机森林(RF)、 极端梯度提升树、 极限学习机和岭回归机器学习作为建模算法, 以全波段和特征波段光谱数据分别作为模型输入变量构建SOM估测模型进行高光谱反演研究工作; 最后根据最优特征变量和建模算法, 基于ZY1-02D遥感影像进行了SOM空间分布制图。结果表明: 采用FOD变换相比整数阶可以大大提高波段与SOM含量间的相关性, 挖掘出更多细微的与SOM含量产生响应关系的光谱波段, 其中0.8阶微分变换效果最优, 较原始波段相比相关系数最大值提高了0.546; 相较于全波段光谱数据, 采用sCARS特征提取方法获取特征波段构建模型的估测精度得到较大提升, 说明sCARS可以有效提升建模数据的质量, 提升模型预测精度。建模算法中RF表现最优,Rp2(模型决定系数)达到0.766, RPD达到1.86, 较全波段建模结果Rp2提升约7.58%; 基于FOD-sCARS和RF实现了区域SOM含量估测制图。研究进一步验证利用星载高光谱遥感影像是实现区域SOM估测制图的可靠途径, 研究结果可为估测区域SOM含量提供新思路, 为利用星载高光谱遥感影像绘制SOM含量空间分布图提供了数据支持。

关键词: 高光谱遥感影像; 分数阶微分变换; 稳定性竞争性自适应重加权采样算法; 土壤有机质; 随机森林
中图分类号:S153.6+21 文献标志码:A
Hyperspectral Estimation of Soil Organic Matter Based on FOD-sCARS and Machine Learning Algorithm
WU Meng-hong1,2, DOU Sen1, LIN Nan2, JIANG Ran-zhe3, CHEN Si2, LI Jia-xuan2, FU Jia-wei2, MEI Xian-jun2
1. College of Resource and Environmental Science, Jilin Agricultural University, Changchun 130118, China
2. College of Surveying and Exploration Engineering, Jilin Jianzhu University, Changchun 130118, China
3. College of Biological and Agricultural Engineering, Jilin University, Changchun 130115, China
Abstract

Soil organic matter (SOM) content is a key index of soil quality and plays an important role in the global carbon cycle system. Rapid and accurate estimation and spatial mapping of SOM content are significant for soil carbon pool estimation, crop growth monitoring, cultivated land planning, and management. It is time-consuming and difficult to use traditional methods to monitor regional SOM content, and it is a reasonable and effective method to establish an SOM estimation model based on hyperspectral remote sensing images. However, the SOM content estimation model for hyperspectral remote sensing images has some problems, such as spectral data redundancy, low feature extraction accuracy, and weak generalization ability of a small sample model. In this paper, a total of 67 soil samples were collected in Huangzhong County, Qinghai Province. The ZY1-02D hyperspectral remote sensing image was obtained and preprocessed to obtain pixel spectral data of the sample points. The fractional-order differential transform (FOD) method explored the sensitive bands with a response relationship with SOM content. With 0.2 as a step, the correlation threshold method was used to compare and analyze different order differential processing data mining capabilities. The stable competitive adaptive reweighted sampling algorithm (sCARS) removes hyperspectral redundant data to obtain the modeling feature bands. Random forest (RF), extreme gradient lifting tree, extreme learning machine, and ridge regression machine learning are selected as modeling algorithms. The SOM estimation model is constructed using the spectral data of the full band and the characteristic band as input variables. The results show that the FOD transform can greatly improve the correlation between the band and the SOM content compared with the integer order, and more subtle spectral bands with a response relationship with SOM content can be mined. The 0.8th-order differential transform has the best effect, and the maximum correlation coefficient is increased by 0.546. Compared with full-band spectral data, the estimation accuracy of the model constructed with the sCARS feature extraction method is greatly improved, indicating that sCARS can effectively improve the quality of modeling data and the model’s prediction accuracy. In the modeling algorithm, RF performance is the best, withRp2 (determination coefficient) reaching 0.766 and RPD reaching 1.86, which is about 7.58% higher than theRp2 of the full-band modeling result. Regional SOM content estimation mapping was realized based on FOD-sCARS and RF. This study further verifies that space-borne hyperspectral remote sensing images are a reliable way to achieve regional SOM estimation mapping, and the research results can provide a new idea for estimating regional SOM content and provide data support for mapping spatial distribution map of SOM content using space-borne hyperspectral remote sensing images.

Keyword: Hyperspectral remote sensing images; Fractional-order differential transform (FOD); Stable competitive adaptive reweighted sampling algorithm (sCARS); Soil organic matter (SOM); Random forest (RF)
引言

土壤是人类生存环境的主要组成部分, 是生物圈的基本结构单位[1]。土壤有机质(soil organic matter, SOM)是指存在土壤中的各种含碳有机化合物的总称, 是衡量土壤肥沃度、 表征耕地质量的重要指标[2, 3], 是土壤碳库的重要组成部分[4], 因此, SOM含量的快速估测对土地规划管理、 作物生长监测、 土壤碳库估算具有重要的意义[5]。高光谱数据可以通过数千个紧密排列的波长记录可见光、 近红外和短波红外范围内与SOM含量相关的吸收特性。因此, 高光谱遥感技术能够利用反射光谱特征定量估测SOM含量, 具有传统检测技术无法比拟的优势, 因其快速、 便携和无损等特点, 已成为SOM含量估测的有效方法[6, 7]

为了快速实现大范围区域性SOM快速估测, 基于遥感影像开展SOM估测制图工作成为了研究热点[8]。Lin等基于107个土壤样本, 利用Sentinel卫星遥感影像实现了大区域SOM估测制图[9]。但是多光谱遥感卫星波段少, 无法实现精细制图, 随着科学技术发展, 高光谱遥感影像波段数量最高能达到300多个, 这为SOM遥感定量估测与制图提供了优质数据。机载高光谱可以快速实时获取高空间分辨率小区域尺度土壤光谱数据, 洪永胜等基于机载高光谱成功开展估测裸土地土壤有机碳研究, R2达到0.66[10], 但受限于价格成本和环境要求高, 机载高光谱应用还需要进一步探索。星载高光谱遥感影像探测面积大, 能够快速获取大范围区域的土壤光谱信息数据[11], 然而, 现有研究表明利用星载高光谱遥感影像构建有机质估测模型存在模型精度低和可靠性不稳定等问题, 原因可能是作为模型输入数据的星载高光谱影像像元反射值在获取的过程中极易受到外界因素影响, 如电磁干扰和信道间交叉混频、 自然光照、 地面地形条件等[12]。这些因素导致像元光谱反射率值有差异和削弱了光谱反射特征, 从而减弱了与SOM含量之间的响应关系。大量研究表明光谱微分变换可以有效提高光谱与地表物质的响应能力[13], 在一定程度上达到了光谱噪声去除和放大波峰波谷的目的, 从而得到更为精细的光谱信息; 例如一阶变换可以消除光谱噪声及外部因素的影响, 二阶变换可以通过消除基线漂移和背景信号增强光谱特征。近些年来基于整数阶理论提出的分数阶(fractional-order differential, FOD)被成功应用于土壤属性的估测, 可以表征出更多光谱特征的细微变化。FOD可以弥补整数阶微分在一定程度上丢失有效光谱信息的缺陷, 洪永胜等证实在探索土壤光谱研究中FOD表现优于整数阶[14], 经过FOD处理之后有机质估测模型精度得到提高[15], 孟祥添等人发现0.6阶分数阶变换有效提高了高光谱遥感影像反演黑土区SOM含量的精度[16]。迄今为止, FOD已经应用于很多研究领域中[17], 但是围绕星载高光谱数据开展的研究较少。本工作所选研究区SOM含量偏低, 为了深度挖掘SOM含量与光谱之间的响应关系, 尝试使用FOD进行光谱数据预处理。同时, 高光谱影像谱段通道众多, 波段光谱数据间共线性高、 信息冗余较多, 这也在一定程度上降低了输入端数据的质量。提取的影像光谱特征集进行降维处理计算, 可以避免因高维信息冗余而导致模型精度下降, 目前稳定性竞争自适应重加权采样(stable competitive adaptive reweighted sampling, sCARS)、 逐次投影算法、 核主成分分析等方法已广泛应用于光谱特征选择。本工作选择sCARS进行特征波段选取, 通过提出的FOD-sCARS方法期望提升模型输入光谱数据质量, 从而提高估测模型精度。

另外, 估测模型的精度也受限于模型的框架类型。最初利用光谱数据进行土壤养分估测大多是利用单一或多元回归模型[18], 并取得了一定进展, 但是估测模型精度普遍较低, 可能是建模数据的分布不呈现正态分布或者线性关系。随着对机器学习模型研究的不断深入, 发现其具备较强的非线性数据学习能力和出色的数据挖掘能力, 如k最近邻、 反向传播神经网络和支持向量机等[19]。洪永胜等基于地面光谱数据分别采用SVM和ELM进行SOM含量估测分析, 发现ELM可以成功估测SOM含量且结果优于SVM[20]; 张美薇等基于星载多光谱数据, 比较多种机器学习有机质反演估测模型, 发现随机森林(random forest, RF)模型估测精度最高[21], 在模型的泛化能力提升方面, 陈奕云等考虑了土壤湿度影响因素运用DS算法对光谱数据进行校正, 提高了模型传递性能[22], 虽然基于机器学习理论构建SOM含量估测模型已经取得了较好的成果, 但是目前基于小样本数据和星载高光谱遥感影像下的SOM含量估测模型研究较少, 值得深入探索。

现有研究围绕SOM含量估测所选研究区域大多是黑土区, 土壤条件较好。部分研究以矿区、 盐碱地等土壤条件较差区域为研究对象, 并证实了通过对光谱波段进行数学变换增强光谱特征, 依据相关性提取建模波段, 构建机器学习模型可以实现SOM含量估测。本工作所选研究区属于农牧业交错地带, 土壤条件较差, 受限于研究区域差异性, 构建一个适合农牧业交错带和小样本数据下的SOM高精度估测模型框架对于快速掌握该地区土壤质量情况具有重要意义。

研究目标是面向小样本土壤样品数据, 探索构建一个基于高光谱遥感影像和机器学习框架的高精度SOM含量估测模型。以青海省湟中县表层土壤和ZY1-02D高光谱遥感影像为研究对象, 利用全波段和FOD-sCARS算法提取的特征波段分别作为模型输入数据, 基于不同机器学习框架构建估测模型, 验证不同模型估测精度, 利用最优模型绘制研究区SOM含量空间分布图。研究成果为快速估算土壤成分含量提供了参考, 进一步拓宽了星载高光谱卫星遥感影像的应用性能, 为精准农业应用奠定了数据基础和技术支撑。

1 实验部分
1.1 研究区概况

研究区位于中国青海省西宁市湟中区, 地处湟水流域中游地带, 地理经纬度范围介于东经101° 09'32″—101° 54'50″, 北纬36° 13'32″—37° 03'19″(图1)。研究区属于高原干旱-半干旱大陆性气候, 常年高寒、 干旱, 地理环境上属于典型农牧交错带, 生态环境脆弱, 植被类型以温性草原为主, 主要土壤类型为栗钙土和灰钙土。受限于地理环境因素, 农业是区域经济发展的重要支柱产业。因此, 快速掌握耕地土壤养分空间分布情况对合理规划和管理耕地、 提高作物品质和产量具有指导作用, 对该地区的社会经济发展具有一定的现实意义。

图1 研究区采样点分布图Fig.1 The spatial distribution of soil samples

1.2 数据获取

1.2.1 土壤样品采集和处理

2021年5月在试验区内挑选典型耕地地块区域, 利用五点混合法进行土壤采样, 以采样点位置为中心, 在其周围5 m× 5 m范围内, 采集5份0~15 cm深度内表层土壤样本并充分混合放入密封袋, 共采集了67个耕地土壤样本, 采样过程中利用手持GPS记录了样品地理坐标信息。样本由密封袋装入带回实验室, 剔除杂物、 风干研磨过筛保存。参照《土壤农业化学分析方法》, 利用重铬酸钾容量法测定SOM含量。统计结果发现SOM含量值域在10.6 ~39.6 g· kg-1, 均值为24.16 g· kg-1, 总体数值偏低, 变异含量系数为22.94%, 属于中等变异。按照含量值将样品由高到低分为17组, 从每组中随机选择1个样品作为验证样本, 则验证集和训练集样本数量分别是17和50。

1.2.2 影像数据获取和处理

ZY1-02D卫星是中国自然资源部于2019年9月发射的首颗民用高光谱业务卫星。光谱覆盖范围为400~2 500 nm, 高光谱相机幅宽60 km, 空间分辨率30 m, 其中可见光-近红外76个波段, 光谱分辨率10 nm; 短波红外90个波段, 光谱分辨率20 nm。本次使用ZY1-02D高光谱影像过境时间为2021年5月8日, 临近样品采样时间, 并对影像进行了预处理。由于高光谱短波红外波段数据中条纹明显, 选择“ 全局去条纹” 方法进行了条纹修复。剔除掉重叠波段后, 可见光-近红外和短波红外波段合并共153个光谱波段数据, 最后利用GIS软件平台对影像进行了大气校正、 辐射校正和几何校正, 以获得地物真实反射率。

1.3 光谱数据预处理

微分是对函数局部变化率的一种表示, 在对影像像元进行微分计算时, 影像灰度值恒定的区域微分值为0, 灰度台阶或者斜坡低点处微分值不为0。FOD是对整数阶微分的扩展, 具体计算公式如式(1)[15]

daf(λ)=limh01ham=0t-s/h(-1)mΓ(α+1)m!Γ(α-m+1)f(λ-mh)(1)

式(1)中, λ 为高光谱波长; f(λ )为λ 的函数; α 是分数阶次, 当α 是整数的时候, 该公式可以计算整数阶, 是分数便可计算分数阶, h为步长, ts分别表示微分的上限和下限, Γ 是Gamma函数, 在本文研究中, h设置为1, st分别为起止波长(350 nm, 2 500 nm)。从公式中可以看出, λ 波长的导数值受到相邻波长反射率影响, 越近影响越大, 故选择影像高光谱反射率数据以0.2阶为间隔进行0~2阶的分数阶微分处理, 以期可以保留和放大更多的光谱特征。

1.4 特征波段提取

竞争性自适应重加权采样法(competitive adapative reweighted sampling, CARS)是一种变量优化选择算法, 可进一步去除光谱信息噪声与冗余的特征变量, 使得建模效果更优。该算法具有竞争性, 可以解决变量之间多重相关性的问题, 将蒙特卡洛采样和最小二乘模型回归系数结合用于特征波段选择[23]。算法过程是借助自适应重加权采样技术和指数衰减函数找出最小二乘模型中对应系数绝对值大的波长变量, 以回归系数和交互验证均方根误差(RMSECV)为指标, 将小回归系数值的波段删除, 通过十折交互检验获取到的RMSECV最小的变量子集即是对应的特征波段。

CARS算法在特征选择过程中存在采样的随机性导致算法的不稳定。变量的稳定性不能只考虑模型回归系数, 还要考虑回归系数的稳定性, 这个稳定性定义为回归系数的绝对值除以标准差。2012年提出的sCARS算法正是基于这个理论[24], 通过计算得到稳定性高的变量被认为是重要变量, 所以与CARS不同的是选择将变量的稳定替代回归系数的绝对值作为衡量变量选择的指标, 以此增加特征选择结果的稳定性。因此为了结果的稳定性选择采用sCARS算法进行特征波段提取。

1.5 机器学习模型

选择4种机器学习框架构建有机质反演估测模型, 分别是随机森林(random forest, RF)、 极端提升树(gradient boosting decision tree, GBDT)、 极限学习机(extreme learning machine, ELM)和岭回归(ridge regression, RR)算法。GBDT属于一种决策树与Boosting串行式集成学习思想相结合的算法, 是一种将多个弱学习器加权组合为强学习器的集成学习模型。RF是基于Bagging并行式集成学习思想开发算法, 全部决策树组合成随机森林, 预测结果取平均值作为回归值。决策树的生成过程体现两次随机选择, 一是分类树的特征点随机分裂生成决策树, 二是所有分类树随机有随机森林生成。ELM属于单隐层前馈神经网络学习训练模型, 算法结构由输入层、 隐含层和输出层组成, 通过神经元进行连接。RR属于多重共线性数据分析有偏估计线性回归算法, 以损失部分信息或降低拟合精度为代价, 舍弃了最小二乘法的无偏性, 使得到的估计结果更加稳定, 均方误差更小。

1.6 参数优化方法

利用随机搜索和网格搜索两种方法进行机器学习模型超参数优化, 网格搜索方法属于枚举遍历性质的搜索算法, 模型各个超参数进行组合配置后, 采用遍历的算法对每一个配置进行计算评估, 选择出最优的超参数组合方法; 随机搜索算法是对模型的超参数进行随机组合, 然后对组合的配置进行计算, 选出最优配置。

1.7 估测模型评价指标

均方根误差(RMSE)、 决定系数(R2)和相对分析误差(RPD)作为评价预测模型优劣的指标。RMSE代表模型预测精度, 其值越小说明模型估测效果越好。R2代表预测模型的拟合能力, 取值范围0~1, 越接近于1代表模型拟合效果越高, 性能越稳定。RPD数值大表示模型预测能力优秀, 如果RPD≤ 1.4, 表示模型不具备预测能力, RPD> 2.0, 表明预测效果极好[25]

2 结果与讨论
2.1 光谱特征分析

样本高光谱影像原始光谱曲线如图2所示, 图中可知所有样品光谱反射率最高不超过0.4, 所有光谱曲线走向趋势相似, 可见-近红外范围内反射率值一直增大; 受空气中水蒸气的影响, 短波红外处有两处明显的波谷, 分布在1 500和2 000 nm处, 光谱整体趋势呈现出先增长后下降的趋势。

图2 原始与微分处理后光谱反射曲线图Fig.2 The original and fractional-order differential transform reflectance spectra

以0.2为一个步长从0~2进行光谱微分变换, 以期达到放大光谱曲线波峰波谷和去噪的目的, 充分挖掘与有机质含量相关的潜在波段信息, 为后续反演模型的建立提供基础数据支持。原始光谱数据经过预处理后, 光谱变化特征均发生了明显变化, 结果如图2所示, 0.2阶微分处理后光谱曲线波峰波谷和反射率值变化较小, 其余微分处理后均发生了较明显的变化, 波峰波谷数量较多且反射率值有较大起伏, 较为明显的波峰波谷分布在1 000、 1 250、 1 500和2 000 nm, 经过一阶微分和二阶微分处理后, 在1 750~2 000 nm波段范围内, 光谱反射率值波动较大。

2.2 相关性分析

利用SPSS软件计算SOM含量与土壤光谱反射率的皮尔森相关系数, 利用Origin软件绘制系列图件。如图3所示, 随着波长的增加, 原始光谱反射率与有机质含量相关性大致呈现正相关, 曲线有轻微的波动, 但是相关性总体较低, 数值处于-0.3~0.3之间。经过不同阶次微分变换后的光谱与SOM含量进行相关性分析, 结果如图3所示, 除了0.2分数阶变换, 其余变换形式后光谱与SOM含量相关性较原始光谱数据比较均有了不同程度的提高(表1), 且部分分数阶变换后效果优于整数阶(一阶, 二阶)变换, 说明分数阶比整数阶展示出了更优越的数据挖掘能力。0.4阶和0.6阶微分变换相关性特征趋势大致相同, 数值上0.6阶微分变换稍高, 0.8阶微分变换相关性系数变化趋势和数值出现变化, 数值波动较大, 较高值位于500、 1 200、 1 600和2 400 nm处, 最高值达到了-0.783, 对于波段2 434 nm, 1.2阶、 1.4阶、 1.6阶和1.8阶微分变换可明显看出相关性系数趋势相近且数值波动更为频繁, 充分说明了微分变换可以发掘出更多与SOM产生响应关系的光谱信息, 相关性系数值较高出现在500、 700、 1 200和2 400 nm处, 且最高值均处于2 400 nm附近。不同变换形式下通过皮尔森相关系数阈值的敏感波段数目不一, 1.8阶微分处理后最高, 达到36个, 虽然0.8阶微分通过波段数小于其他变换形式(25个), 但是从相关性数值上看, 0.8阶变换后相关性系数普遍较高且具有最高值, 说明其可以有效增强SOM光谱特征。有文献指出可能受高光谱影像、 样本数量和有机质含量影响, 不同来源的影像高光谱反演有机质最优阶数小于1阶, 而地面高光谱反演最优阶数大于1阶。本研究反演最优阶数为0.8, 与已有研究成果一致[26]

图3 不同阶次微分处理后相关性计算结果图(剔除水蒸气影响波段)Fig.3 Soil spectral correlation coefficient curves of different fractional-order transformations(Removing bands affected by water vapor)

表1 不同阶次微分处理后相关性计算计算结果 Table 1 Maximum correlation coefficients and sensitive bands for different order fractional derivative processings
2.3 特征波段提取

高光谱数据波段存在冗余现象, 为了提升建模精度本研究选择使用sCARS算法进行波段筛选实验, 结果如图4所示。图4(a)从上往下依次是变量变化趋势、 十折交叉均方根误差和变量回归系数图。可以看到随着算法迭代次数的增加, 指数衰减函数使得算法保留的波段越来越少, 并且减少速度越来越慢。这也说明了sCARS算法在特征波长挑选变量过程中存在粗选和精选两个选择阶段。图中均方根误差随着迭代次数的变化有一定的波动, 当运行到24次的时候误差最小, 说明此时建模效果最优, 0~24次代表了模型在不断剔除较不敏感的波段, 以此来达到不断优化模型的目的。运行24次之后, 不断剔除波段后的结果却影响模型的精度, 表示此后删除的波段与有机质含量相关性较大。最小变量子集所对应回归系数如图4(a)所示, 子集包括波段15个, 图4(b)是sCARS算法筛选出的15个特征波段的分布情况。

图4 特征波段提取结果Fig.4 Result of feature band extraction

2.4 机器学习估测模型构建与分析

综合考虑准确性和差异性, 选择GBDT、 RF、 ELM和RR分别构建SOM估测模型。其中, GBDT和RF分别采用Boosting和Bagging的集成学习方式, 拥有出众的学习能力。ELM是单隐层前馈神经网络学习训练的新模型, 运行速度快, RR通过在损失函数中加入L2正则项来缓冲和防止样本个数少引起的过拟合现象, 参数简单, 训练速度快, 而且可以防止模型的过拟合现象。

2.4.1 机器学习模型参数优化

在利用机器学习模型进行回归预测时, 有效地确定机器学习的超参数意义重大。结合随机搜索和网格搜索进行超参数设置, 第一步是在较大范围内随机搜索最优点, 属于粗选, 第二步是在最优点附近运用网格搜索法细选出最优结果。通过计算各模型在测试集上的均方根误差来确定各模型的最优超参数组合, 计算结果如表2所示。

表2 不同机器学习模型超参数优化计算 Table 2 Predictive index results for different machine learning models

2.4.2 模型构建与分析

将经过FOD-sCARS方法提取特征波段的像元光谱和全波段光谱作分别作为模型输入变量, 样品SOM含量作为输出端, 选择随机搜索和网格搜索优化计算得到的超参数值作为各学习器超参数设定值, 为了对比分析不同模型输入因子和不同机器学习估测模型的预测性能, 对各模型在训练集和验证集的各项评价指标进行了计算(表3)。

表3 不同机器学习估测指标结果 Table 3 Estimation index results for different machine learning models

各项评价指标计算结果表明, 将全波段光谱作为模型输入变量所构建的模型估测结果普遍低于特征波段光谱变量估测模型, 说明FOD-sCARS方法所提取的特征波段可以大大提高模型估测效果。4种机器学习模型均能达到预测SOM含量的目的, ELM和RR预测精度相对较低, RF和GBDT两种集成学习模型预测精度较高, 其中RF预测效果最优, Rp2为0.766, PRD为1.86。RR可以解决多重共线问题, 但由于本研究中样本数量较少, 可能使得预测效果低于其他模型, ELM在运行过程中由于权重初始值是随机的, 使得模型运算速度快, 但同时也令模型性能不稳定, 在预测效果上低于其他模型。拟合效果图可以验证不同模型拟合结果(图5), 从拟合图上可以看出RF预测模型样点预测值与真实值分布更接近于1∶ 1拟合线, 且分布较为均匀。

图5 不同模型预测结果拟合图
(a): RF; (b): GBDT; (c): ELM; (d): RR
Fig.5 Scatter plots of the predicted values against measured values of different inversion models
(a): RF; (b): GBDT; (c): ELM; (d): RR

2.5 土壤有机质含量高光谱制图

结合特征光谱波段选择, 以ZY1-02D高光谱影像数据为输入数据, 采用RF机器学习模型对研究区裸土区域SOM含量进行估测, 并基于GIS软件平台, 绘制研究区SOM含量空间分布图(图6)。为了提高研究区SOM含量估测及制图的精度, 采用裸土指数方法提取影像裸土像元。从反演结果图可以看出, 研究区耕地部分有机质含量呈现中等水平, 从空间分布来看, 研究区东北部有机质含量较西南部略低, 有机质含量值最高的地方处于研究区西南部。

图6 基于RF模型土壤有机质含量空间分布图Fig.6 Spatial distribution of SOM based on RF model

3 结论

基于高光谱遥感影像, 针对土壤样品数量少的特点, 结合光谱预处理方法和机器学习所构建估测模型有效地提高了SOM含量的预测精度和稳定性, 基于高光谱遥感影像实现了区域有机质反演制图。主要结论如下:

(1)对高光谱影像进行微分变换可以有效减弱测量环境和噪声的影响, 剔除部分噪声信息, 突出光谱曲线峰谷, 更加清晰地反映和挖掘光谱数据与土壤有机质含量的相关关系。经过不同阶次分数阶处理结果对比分析, 发现0.8阶微分变换是最优变换, 其挖掘出了更多与有机质相关的波段, 与整数阶相比提高了波段与有机质含量的相关性。

(2)与全波段输入数据相比, 采用sCARS特征提取方法获取的有机质估测模型输入数据大大提高了有机质含量估测精度, 波段数量降至15个, 特征波段分布范围与已有其他研究相似, 可见光和近红外波长内均有分布[27]

(3)对比分析RF、 GBDT、 ELM和RR算法所构建的有机质估测模型, 发现RF模型估测效果最好, Rp2为0.766, RPD为1.86, RF可以避免小样本引起的过拟合问题, 并且具有一定的泛化能力和高鲁棒性。郭恒亮等基于ZY1-02D构建RF模型估测耕地SOM含量, Rp2达到0.921, 分析其预测效果可能是由于土壤样本数量多(539个)且样本变异性小, 将在以后的研究工作中进一步探讨[28]

(4)在农牧业交错地带, 基于高光谱遥感影像可以实现区域性快速有机质含量空间分布制图工作。

参考文献
[1] DOU Sen, LI Kai, GUAN Song(窦森, 李凯, 关松). Acta Peological Sinica(土壤学报), 2011, 48(2): 412. [本文引用:1]
[2] LIU Zhan-feng, FU Bo-jie, LIU Guo-hua, et al(刘占锋, 傅伯杰, 刘国华, ). Acta Ecologica Sinica(生态学报), 2006, 26(3): 901. [本文引用:1]
[3] XU Ming-gang, YU Rong, WANG Bo-ren(徐明岗, 于荣, 王伯仁). Soil and Fertilizer Sciences in China(中国土壤与肥料), 2000, (6): 3(doi: 10.11838/sfsc.20000601). [本文引用:1]
[4] CHEN Qing-qiang, SHEN Cheng-de, YI Wei-xi, et al(陈庆强, 沈承德, 易惟熙, ). Advances in Earth Sciences(地球科学进展), 1998, 13(6): 555. [本文引用:1]
[5] Chen Y, Wang J, Liu G, et al. Forests, 2019, 10: 217. [本文引用:1]
[6] Angelopoulou T, Chabrillat S, Pignatti S, et al. Remote Sensing, 2023, 15: 1106. [本文引用:1]
[7] Wu M, Dou S, Lin N, et al. Remote Sensing, 2023, 15(19): 4713. [本文引用:1]
[8] YAN Xiang-zhao, YAO Yan-min, ZHANG Xiao-yu, et al(颜祥照, 姚艳敏, 张霄羽, ). China Agricultural Informatics(中国农业信息), 2019, 31(3): 13. [本文引用:1]
[9] Lin C, Zhu A-X, Wang Z, et al. International Journal of Applied Earth Observation and Geoinformation, 2020, 89: 102094. [本文引用:1]
[10] Hong Y, Guo L, Chen S, et al. Geoderma, 2020, 365: 114228. [本文引用:1]
[11] YAN Xiang-zhao, YAO Yan-min, ZHANG Xiao-yu, et al(颜祥照, 姚艳敏, 张霄羽, ). Soil and Fertilizer Sciences in China(中国土壤与肥料), 2021, (5): 10. [本文引用:1]
[12] ZHENG Guang-hui, WANG Ming-jiang, JIAO Cai-xia, et al(郑光辉, 王明江, 焦彩霞, ). Journal of Nanjing University of Information Science & Technology(Natural Science Edition)[南京信息工程大学学报(自然科学版)], 2013, 5(6): 481. [本文引用:1]
[13] Wu M, Lin N, Li G, et al. Environment Pollutants and Bioavailability, 2022, 34(1): 308. [本文引用:1]
[14] Hong Y, Liu Y, Chen Y, et al. Geoderma, 2019, 337: 758. [本文引用:1]
[15] Hong Y, Chen S, Liu Y, et al. Catena, 2019, 174: 104. [本文引用:2]
[16] Meng X, Bao Y, Ye Q, et al. Remote Sensing, 2021, 13: 2273. [本文引用:1]
[17] Hong Y, Chen Y, Yu L, et al. Remote Sensing, 2018, 10: 479. [本文引用:1]
[18] Lu Y, Bai Y, Yang L, et al. New Zealand Journal of Agricultural Research, 2007, 50(5): 1169. [本文引用:1]
[19] Song S, Yu H, Zhang Q, et al. Ecological Indicators, 2023, 155: 110964. [本文引用:1]
[20] Hong Y, Chen S, Zhang Y, et al. Science of the Total Environment, 2018, 644: 1232. [本文引用:1]
[21] Zhang M, Zhang M, Yang H, et al. Remote Sensing, 2021, 13: 2934. [本文引用:1]
[22] CHEN Yi-yun, QI Kun, LIU Yao-lin, et al(陈奕云, 漆锟, 刘耀林, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(6): 1705. [本文引用:1]
[23] Zhao M, Wang T, Lu Y, et al. PLOS ONE, 2023, 18(6): e0286825. [本文引用:1]
[24] Zheng K, Li Q, Wang J, et al. Chemometrics & Intelligent Laboratory Systems, 2012, 112: 48. [本文引用:1]
[25] Li H, Wang J, Zhang J, et al. Agronomy, 2022, 12: 638. [本文引用:1]
[26] Xu X, Chen S, Xu Z, et al. Remote Sensing, 2020, 12: 3765. [本文引用:1]
[27] Liu J, Dong Zh, Xia J, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 258: 119823. [本文引用:1]
[28] Guo H, Zhang R, Dai, W, et al. Agronomy, 2022, 12: 2111. [本文引用:1]