滨海湿地土壤质地高光谱估测模型对比分析
李想1, 张永彬1, 刘明月1,2,3,6,*, 满卫东1,2,3,6, 孔德坤4, 宋利杰1, 宋敬茹1, 王福增5
1.华北理工大学矿业工程学院, 河北 唐山 063210
2.河北省矿区生态修复产业技术研究院, 河北 唐山 063210
3.矿产资源绿色开发与生态修复协同创新中心, 河北 唐山 063210
4.黑龙江外国语学院, 黑龙江 哈尔滨 150025
5.河北地质职工大学, 河北 石家庄 050081
6.唐山市资源与环境遥感重点实验室, 河北 唐山 063210
*通讯作者 e-mail: liumy917@ncst.edu.cn

作者简介: 李 想, 1997年生,华北理工大学矿业工程学院硕士研究生 e-mail: lixiang@stu.ncst.edu.cn

摘要

土壤质地影响着植被分布、 水土保持能力、 微生物活动等多种物理、 化学、 生物和水文特性和过程。 准确地获取土壤质地对湿地生态修复和保护具有重要意义。 基于天津市滨海湿地57个实测表层土壤质地和可见光-近红外高光谱数据, 对土壤样品进行S-G平滑以及一阶微分(FD)、 倒数(RT)、 倒数一阶微分(RTFD)、 平方根(SR)、 平方根一阶微分(SRFD)、 倒数之对数(LR)和倒数之对数一阶微分(LRFD)八种变换, 分析不同土壤质地类别的光谱曲线特征及土壤粒径含量与八种变换之间相关性。 通过竞争性自适应重加权算法(CARS)优选特征波段, 结合偏最小二乘(PLSR)、 随机森林(RFR)和支持向量机(SVR)三种回归算法, 对比不同光谱变换后的土壤粒径含量建模效果。 结果表明: (1) 湿地土壤质地类别主要为粉壤土和粉土, 粉土在400~2 400 nm波段光谱反射率最高, 砂土在400~2 000 nm波段光谱反射率最低, FD、 RTFD和SRFD变换后波段反射率与土壤粒径含量的相关性明显提高, 最大相关系数绝对值均达到0.58以上, 最高达到0.70。 (2) CARS算法筛选八种光谱变换的特征波段数为全波段数的1.05%~6.15%, 有效降低光谱数据的信息冗余。 (3) 对比三种粒径含量估测模型, SRFD和RTFD光谱变换的SVR模型精度最好, 优于其他两种模型, 黏粒(SRFD)测试集( R2=0.72, RMSE=1.86%, nRMSE=11.33%)、 粉粒(SRFD)测试集( R2=0.72, RMSE=2.82%, nRMSE=7.30%)和砂粒(RTFD)测试集( R2=0.71, RMSE=5.75%, nRMSE=5.91%)。 研究结果可为高光谱数据准确监测滨海湿地土壤质地提供依据与技术支撑。

关键词: 滨海湿地; 土壤质地; 光谱变换; 竞争性自适应重加权算法; 机器学习
中图分类号:S155 文献标志码:A
Comparative Analysis of Hyperspectral Estimation Models for Soil Texture in Coastal Wetlands
LI Xiang1, ZHANG Yong-bin1, LIU Ming-yue1,2,3,6,*, MAN Wei-dong1,2,3,6, KONG De-kun4, SONG Li-jie1, SONG Jing-ru1, WANG Fu-zeng5
1. College of Mining Engineering, North China University of Science and Technology, Tangshan 063210, China
2. Hebei Industrial Technology Institute of Mine Ecological Remediation, Tangshan 063210, China
3. Collaborative Innovation Center of Green Development and Ecological Restoration of Mineral Resources, Tangshan 063210, China
4. Heilongjiang International University, Harbin 150025, China
5. Hebei Geological Workers' University, Shijiazhuang 050081, China
6. Tangshan Key Laboratory of Resources and Environmental Remote Sensing, Tangshan 063210, China
*Corresponding author
Abstract

Soil texture affects many physical, chemical, biological, and hydrological characteristics and processes, such as vegetation distribution, soil and water conservation capacity, and microbial activity. Accurate acquisition of soil texture is of great significance for wetland ecological restoration and protection. Based on 57 measured surface soil texture and visible-near-infrared hyperspectral data in Tianjin coastal wetland, the soil samples were smoothed by S-G and transformed by first derivative (FD), reciprocal transformation (RT), reciprocal first derivative (RTFD), square root (SR), square root first derivative (SRFD), logarithm of reciprocal (LR) and logarithm of reciprocal first derivative (LRFD),the characteristics and correlations of spectral curves of different soil texture categories were analyzed. A competitive adaptive reweighting algorithm (CARS) was used to select the characteristic bands, and partial least square regression (PLSR), random forest regression (RFR), and support vector machineregression (SVR) algorithms were combined to compare the modeling effects of different spectral transformations. The results show that: (1) The texture categories of wetland soil are mainly silty loam and silt. The spectral reflectance of silt is the highest in the 400~2 400 nm band, and the spectral reflectance of sandy soil is the lowest in the 400~2 000 nm band. The correlation between the spectral reflectance of FD, RTFD, and SRFD and the soil particle size content has significantly increased. The absolute value of the maximum correlation coefficient is above 0.58, and the highest is 0.70. (2) The feature band number of eight spectral transforms screened by the CARS algorithm is 1.05%~6.15% of the total band number, effectively reducing the information redundancy of spectral data. (3) Compared with the three estimation models for particle size content, the SVR model of SRFD and RTFD spectral transformation had the best accuracy and was superior to the other two models, the clay (SRFD) test set ( R2=0.72, RMSE=1.86%, nRMSE=11.33%), the silt (SRFD) test set ( R2=0.72, RMSE=2.82%, nRMSE=7.30%) and the sand (RTFD) test set ( R2=0.71, RMSE=5.75%, nRMSE=5.91%). The results of this study can provide a basis and technical support for the accurate monitoring of soil texture in coastal wetland areas with hyperspectral data.

Keyword: Coastal wetland; Soil texture; Spectral transformation; Competitive adaptive reweighted sampling; Machine learning
引言

土壤质地由黏粒、 粉粒和砂粒三种颗粒级别组成, 是土壤十分稳定的物理和自然属性之一, 对土壤性质和生态功能有显著影响。 黏粒含量高的土壤具有较强的抗侵蚀能力、 保水能力以及重金属吸附能力, 有利于植物根系生长和微生物活动, 有机质更容易富集, 进而提高土壤的固碳能力并减少重金属对植被和环境的污染[1]。 而粉粒含量高的土壤具有良好的通透性, 促进气体交换和排水, 但持水能力相对较弱。 相反, 砂粒含量高的土壤排水能力强, 保水能力弱。 土壤质地的不同特性直接影响着湿地生态系统, 包括其中的动植物群落和土壤生物多样性, 而这些因素也是土壤修复的重要考量因素[2]。 同时, 土壤质地作为生态、 气候、 水文及其他环境模型的重要因子[3], 如何快速准确获取土壤质地尤为重要。

传统土壤质地的测定依赖于操作复杂的实验室物理分析, 虽能得到精准的结果, 但耗时且成本高, 难以获取空间连续的分布数据[4]。 土壤质地光谱反演是一个相当复杂的过程, 高光谱技术的发展为实现快速、 准确估测土壤各类理化性质提供了新的手段[5], 其高分辨率和丰富信息可全面揭示土壤属性, 包括含水率[6]、 有机质[7]、 有机碳[3]等, 但可见光-近红外(VIS-NIR)光谱易受外部环境干扰, 光谱数据复杂, 存在共线性、 细节噪声、 基线漂移等问题, 增加了光谱反演的难度。 为了消除或减弱以上问题对光谱反演的影响, 处理方法有平滑去噪、 一阶微分、 筛选特征波段等, 以增强土壤属性在某些波段的吸收或反射特征, 减少原始光谱数据的冗余, 从而提高模型的定量分析和预测能力[8]。 Bahrami等[9]采用光谱缩减法、 Savitzky-Golay(S-G)平滑和一阶微分算法结合偏最小二乘回归(partial least squares regression, PLSR)方法估测砂粒含量, 验证样本的决定系数(coefficient of determination, R2)为0.68, 均方根误差(root mean squared error, RMSE)为8.68%。 Zhang等[10]在土壤属性预测应用中, 发现竞争性自适应重加权采样(competitive adaptive reweighted sampling, CARS)在PLSR算法中表现最好。 现有研究表明恰当的光谱变换和特征筛选能够有效地提升模型精度和建模效率。

土壤光谱特征在空间和时间上存在异质性, 需要适应性强的模型来处理[11]。 高光谱数据估测土壤质地中的黏粒、 粉粒和砂粒含量多采用多元逐步回归、 PLSR等线性模型[12]。 Lazaar等[13]采用PLSR评估预测土壤质地的能力, 发现预测砂粒组分性能优异, 验证集的R2为0.93, RMSE为3.72%。 土壤质地与土壤其他属性关系密切, 受多种因素影响, 与高光谱波段关系复杂, 不一定呈现简单线性关系[14]。 随机森林回归(random forest regression, RFR)、 支持向量机回归(support vactor regression, SVR)等机器学习算法具有出色的非线性拟合能力和精准的估测精度, 逐渐被应用于土壤属性信息的监测[15]。 Shahrayini等[16]对比PLSR、 主成分回归、 SVR和RFR四种模型, 发现RFR模型有更精准的预测结果, 砂粒、 黏粒含量的验证集R2达到0.70和0.73, RMSE分别为12.97%和0.14%。 不同地域土壤粒径含量组成不同, 其光谱特征差异明显, 选择合适的模型可以确保土壤质地反演的准确性。

滨海湿地土壤受人类活动和海洋环境干扰较大, 改善和保持土壤质地对于滨海湿地的生态可持续性至关重要。 以天津市滨海新区湿地土壤为研究对象, 基于实测土壤质地和VIS-NIR光谱数据, 将S-G平滑后光谱进行不同的变换处理, 再选用CARS算法提取特征波段, 以减少噪声、 数据冗余与共线性等干扰。 对比分析PLSR、 RFR和SVR三种模型在不同光谱变换处理下的建模效果, 确定适用于滨海湿地土壤粒径含量的最优高光谱估测模型, 以期为滨海湿地生态保护和土壤质地快速监测提供参考。

1 实验部分
1.1 研究区概况

天津滨海新区位于华北平原北部, 环渤海地区的中心地带(38° 40'— 39° 00'N, 117° 20'— 118° 00'E), 气候属于暖温带半湿润大陆季风型气候, 并具有海洋性气候特点, 年均气温12 ℃, 年降水量500~800 mm。 滨海新区拥有丰富的湿地资源(图1), 包括北大港湿地自然保护区、 天津市海洋牧场示范区、 蓟运河营城段芦苇湿地、 天然淤泥滩涂湿地以及黄港一库、 黄港二库、 北塘水库、 水产养殖场、 盐田等湿地[17]。 土壤母质以河流冲积物为主, 区内湿地土壤类型主要为潮土、 滨海盐土、 草甸盐土和盐化湿润土。

图1 研究区及采样点分布示意图Fig.1 Distribution diagram of the study area and sampling points

1.2 土壤采集与测定

于2021年10月开展湿地土壤采集, 综合考虑湿地分布与交通可达性等因素布设采样点, 样点间直线距离约为1 km, 通过5点混合法收集0~20 cm的表层土壤样品, 装入密封袋保存, 记录采样点环境状况并使用GPS获取坐标信息, 共计得到57个湿地土壤有效样本(图1), 每个样本分成两份, 分别用于土壤光谱测量和土壤粒径分析。 土壤样品经室内自然风干、 剔除杂质和研磨后过2 mm细孔筛, 采用H2O2-HCl-(NaPO3)6法对土壤样本预处理。 土壤质地采用NKT6100-D激光粒度仪测定, 其原理为激光衍射/散射测量技术, 根据衍射散射光强度分布和接受散射光强度信号计算出颗粒粒径和所占总数的体积百分含量[18], 测量粒径范围为0.012~2 000 μ m, 得到土壤粒径体积分数, 根据美国土壤粒径分级标准分级: 黏粒(< 2 μ m)、 粉粒(2~50 μ m)、 砂粒(50~2 000 μ m)。 测试发现研究区湿地表层土壤质地类别主要分布在粉土、 粉壤土、 壤土、 砂质壤土、 壤质砂土和砂土的区域范围内, 其中以粉壤土和粉土为主(图2)。

图2 土壤质地三角图Fig.2 Soil texture triangle plots

1.3 光谱测定及预处理

土壤光谱采用美国ASD公司生产的便携式地物光谱仪(FieldSpec 4)测定, 光谱范围为350~2 500 nm。 在室内避光环境中进行, 将适量待测土壤样品放入器皿内并刮平表面, 每个土壤样品测量前进行白板校正, 重复采集10条光谱曲线, 取平均值作为土壤样品的原始光谱反射率。 因土壤光谱反射率中350~399和2 401~2 500 nm噪声较大、 信噪比较低, 仅选取400~2 400 nm范围内的光谱反射率数据进行分析建模, 经1 nm间隔的重采样后得到2 001个波段。

为减少细节噪声、 基线漂移等干扰, 提高土壤粒径含量对光谱的敏感程度, 采用S-G平滑(阶数为2)对原始光谱平滑去噪(reflectivity, R), 进行一阶微分(first derivative, FD)、 倒数(reciprocal transformation, RT)、 平方根(square root, SR)、 倒数之对数(logarithm of reciprocal, LR)、 倒数一阶微分(RTFD)、 平方根一阶微分(SRFD)和倒数之对数一阶微分(LRFD)八种形式光谱变换, 分析不同光谱变换对三种粒径含量估测的影响。 将三种粒径含量与不同光谱变换波段反射率之间进行Pearson相关系数分析。

1.4 竞争性自适应重加权算法(CARS)

本文获取的可见光-近红外高光谱数据具有波段连续性强, 光谱信息冗杂, 且各波段之间存在多重共线性, 通过CARS算法进行特征优选, 以减弱波段之间的多重共线性和降低数据冗余。 CARS算法是基于蒙特卡罗(monte carlo, MC)采样法和PLSR模型的一种特征波长选择方法[10]。 模拟生物进化论中的“ 适者生存” 法则, 通过使用指数衰减函数(exponentially decreasing function, EDF)和自适应加权采样来计算回归系数绝对值的权重, 去除掉权重较小的波长变量, 保留权重较大且共线性小的波长变量组合成新的变量子集, 分别建立PLSR模型, 选取交叉验证均方根误差(root mean square error of cross validation, RMSECV)最小的PLSR模型所对应的波段作为最终的特征波段。

1.5 模型构建及验证

采用偏最小二乘、 支持向量机与随机森林三种机器学习算法进行不同粒径含量估测, 通过R语言pls包、 e1071包、 randomForest包实现。

偏最小二乘回归(PLSR)融合了主成分分析、 典型相关性分析和多元线性分析方法于一体, 提取和筛选对因变量解释性强的主成分变量, 能够简化数据结构和分析变量之间相关性, 在处理自变量之间高度相关性问题和样本数量小于变量的情况, 具有良好的鲁棒性[9]

随机森林回归(RFR)模型采取随机采样方式建立大量回归树, 将不同决策树的加权平均值作为最终的预测结果。 RFR模型能够识别自变量与因变量之间复杂的非线性关系, 对数据要求低, 能够处理高维数据, 具有很好的抗噪声能力, 不易出现过拟合现象[16]。 整体模型的结果具有较高的精确度和泛化性能, 与参数回归方法相比较, 实现比较简单, 也不需要考虑多变量的共线问题。 通过调整决策树的数量(ntree)和分裂特征数量(mtry)来获取最优模型。

支持向量机回归(SVR)是一种小样本数据的监督学习算法, 通过结构风险最小化原则, 避免了对数据量的高度依赖[15]。 SVR将非线性的数据映射到高维数据特征空间中, 使自变量与因变量在高维空间中具有良好的线性回归特征, 进而实现原始空间中的非线性回归[16]。 选取径向基函数为核函数, 根据均方根误差最小原则优化惩罚系数(C)和核参量(gamma)构建最优SVR模型。

采用分层随机抽样方法对57个土壤样本进行训练集与测试集的划分, 训练集样本数量约占总体样本的72%, 共41个样本, 剩余16个样本为测试集样本, 保证训练集模型建立和测试集验证的合理性与可靠性, 所有训练模型选用留一法交叉验证(leave-one-out cross-validation, LOOCV)。 模型精度评价指标选用决定系数(R2)、 均方根误差(RMSE)和归一化均方根误差(normalized root mean squared error, nRMSE)。 R2取值范围在0~1之间, R2越接近于1, 说明该模型的稳定性越好、 拟合程度越高。 RMSE和nRMSE用来检验模型的估测能力, 数值越小, 模型估测精度越高。 nRMSE的计算公式如式(1)

nRMSE=RMSE(ymax-ymin)(1)

式(1)中, RMSE为均方根误差, ymax集样本最大值, ymin集样本最小值。

2 结果与讨论
2.1 光谱曲线特征及相关性分析

图3(a)和(b)显示了所有土壤样品和不同质地土壤的光谱经S-G平滑后的反射率变化趋势。 土壤原始光谱S-G平滑曲线变化规律大致相同, 反射率变化范围在0.05~0.5之间, 土壤反射光谱曲线存在相交现象, 交点主要集中于可见光波段。 在400~750 nm波段范围, 土壤的光谱反射率较低但变化率较快, 在400~1 300 nm范围, 光谱反射率随波长的增加而增加, 随后1 380 nm波段附近出现一个小吸收峰, 在1 400~2 300 nm波断之间, 有多个吸收峰和反射峰, 在2 150 nm波段附近反射率达到整体的最大值。 吸收峰和反射峰的位置几乎一致, 在1 400、 1 900、 2 200和2 350 nm波段附近存在不同强度的吸收带, 1 400和1 900 nm波段附近的吸收带是由于水中羟基(— OH)团的伸缩振动和矿物质中的水分子引起的, 而2 200 nm波段附近吸收带则是与黏土或者黏土矿物(AL-OH)的结构有关, 2 350 nm附近的吸收特征可能是有碳酸盐或者伊利石的存在[图3(a)]。

图3 土壤高光谱反射率曲线
(a): 全部土壤样本原始光谱S-G平滑; (b): 不同质土壤样本原始光谱S-G平滑; (c): 一阶微分; (d): 倒数; (e): 倒数一阶微分; (f): 平方根; (g): 平方根一阶微分; (h): 倒数之对数; (i): 倒数之对数一阶微分
Fig.3 Soil hyperspectral reflectance curves
(a): Spectral of all soil samples after S-G smoothing; (b): Spectra of different soil textures after S-G smoothing; (c): First derivative; (d): Reciprocal transformation; (e): Reciprocal transformation first derivative; (f): Square root; (g): Square root first derivative; (h): Logarithm of reciprocal; (i): Logarithm of reciprocal first derivative

图3(b— i)为原始光谱与不同光谱变换下的不同土壤质地光谱曲线。 在400~2 400 nm波段范围内粉土反射率最高, 砂土或壤质砂土反射率最低, 该现象与土壤颗粒表面粗糙程度有关, 随着土壤颗粒的增大, 导致土壤反射率一定程度的降低[图3(b)]。 对比图3(b— i)发现, 一阶微分变换光谱曲线[图3(c, e, g, i)], 土壤质地在可见光波段(400~760 nm)的区分程度更加明显, 在1 400、 1 900、 2 200和2 350 nm波段附近的吸收峰也得到增强。 图3(c, g)FD和SRFD变换在550、 680、 1 430、 1 930和2 220 nm波段附近粉土反射率最高, 在1 400、 1 900、 2 200和2 350 nm波段附近粉土反射率最低, 砂土在405和470 nm附近反射率最低, 在2 350 nm附近反射率最高。 图3(e)RTFD变换在430、 510和2 350 nm附近砂土差异突出, 反射率最低。

三种粒径含量与不同光谱变换后波段反射率的相关系数如图4所示, 黏粒含量和粉粒含量在不同光谱变换下的相关性总体表现一致, 砂粒含量呈现相反的趋势。 三种粒径含量不同光谱变换的强相关系数所在波段区间大致相同, 经过一阶微分光谱变换(FD、 RTFD和SRFD)后, 大部分波段相关性得到明显提升, 相关系数绝对值达到0.5以上的波段明显增加并且在可见光部分(400~760 nm)有所增强。 黏粒含量在FD变换中最大相关系数为-0.62(2 348 nm), RTFD变换和SRFD变换最大相关系数分别为-0.58(2 251 nm)和-0.60(2 348 nm), 粉粒含量在FD变换中最大相关系数为0.67(779 nm), RTFD变换和SRFD变换最大相关系数分别为0.63(2 348 nm)和0.70(730 nm), 砂粒含量在FD变换中最大相关系数为0.68(2 348 nm), RTFD变换和SRFD变换最大相关系数分别为-0.64(2 348 nm)和-0.70(760 nm)。 综合比较, 一阶微分变换是一种有效的处理高光谱数据的方法, 能够去除背景噪声和基线漂移, 解决光谱重叠问题, 进而提高光谱反射率与不同粒径含量之间的相关性。 高光谱数据具有丰富的波段信息, 但往往受到细节噪声和共线性等干扰。 为了克服这些干扰, 通常采用S-G平滑方法来减少噪声和不规则性, 同时利用一阶微分变换突显不同波段间的变化情况, 突显数据中凸起和凹陷的特征, 充分挖掘光谱信息[8]。 FD、 RTFD和SRFD变换与粒径含量的最大相关系数绝对值达到0.58以上, 最高达到0.70, 结果证实了一阶微分变换在消除细节噪声干扰和解决光谱重叠问题上的有效性, 提高了光谱分辨率和灵敏度, 突显土壤光谱特征。

图4 三种粒径含量与不同光谱变换的相关性热图
(a): 黏粒含量; (b): 粉粒含量; (c): 砂粒含量
Fig.4 Heat maps of the correlation between three particle size contents and different spectral transforms
(a): Clay content; (b): Silt content; (c): Sand content

2.2 CARS特征波段筛选

CARS算法设置的蒙特卡罗(MC)采样次数为100, 随着采样次数的增加, 样本选取的波段数、 RMSECV和各波段回归系数变化结果如图5(a)所示。 在指数衰减函数(EDF)作用下, 前10次采样变量快速减少, 随后逐渐减慢, 表明算法在变量选取中具有“ 粗选” 和“ 精选” 两个阶段。 采样次数达到44次时为最佳(OPT), 对应RMSECV达到最低点, 提取的特征波段数(N)为100, 仅为原始光谱波段数的5%, 极大压缩了数据量。 八种光谱变换的最佳采样次数和提取的特征波段数如表1所示, 筛选特征波段数为全波段数的1.05%~6.15%, Sand-SR提取的特征波段数最多为123个, Sand-LRFD提取的特征波段数最少为21个, 均可有效地降低了数据的冗余。 八种不同光谱变换下, CARS算法提取下不同粒径含量对应特征波段的位置如图5(b— i)。 不同光谱变换筛选出的特征波段数及位置存在差异。 R、 RT、 SR和LR变换所选的特征波段主要集中在800~1 200和1 600~2 400 nm范围, FD、 RTFD、 SRFD和LRFD变换选出的特征波段主要分布在400~700、 900~1 300、 1 500~1 700和2 200~2 400 nm范围, 所选波段的位置多集中在曲线拐点处。 一阶微分变换扩展了400~700 nm范围内的光谱有效信息, 减少了噪声干扰和无效信息的冗余。 不仅拓宽了CARS算法可选择波段的范围, 还能更充分地利用高光谱信息。

图5 不同光谱变换的CARS算法特征波段提取
(a): CARS筛选结果; (b): 原始光谱; (c): 一阶微分; (d): 倒数; (e): 倒数一阶微分; (f): 平方根; (g): 平方根一阶微分; (h): 倒数之对数; (i): 倒数之对数一阶微分
Fig.5 Feature band extraction using CARS algorithm with different spectral transformations
(a): CARS screening results; (b): Reflectivity; (c): First derivative; (d): Reciprocal transformation; (e): Reciprocal transformation first derivative; (f): Square root; (g): Square root first derivative; (h): Logarithm of reciprocal; (i): Logarithm of reciprocal first derivative

表1 三种粒径含量下八种光谱变换的最佳采样次数和特征波段数 Table 1 Optimal sampling times and number of characteristic bands of eight spectral transforms for three particle size contents
2.3 估测模型的建立与评价

基于CARS算法筛选八种光谱变换的特征波段, 结合PLSR、 RFR和SVR三种模型, 分别进行黏粒、 粉粒和砂粒含量的估测。 共产生72种不同的结果, 如图6所示。 三种模型中, SVR模型估测三种粒径含量的效果最佳, 黏粒(SRFD-SVR)的训练集和测试集R2分别为0.83和0.72, RMSE分别为1.03%和1.86%, 粉粒(SRFD-SVR)的训练集和测试集R2分别为0.85和0.72, RMSE分别为2.74%和2.82%, 砂粒(RTFD-SVR)的训练集和测试集R2分别为0.73和0.71, RMSE分别为5.72%和5.75%。 八种光谱变换对比发现, 经FD、 SRFD、 RTFD和LRFD变换后, 模型精度均得到不同程度的提升, 其中SRFD和RTFD变换表现出色, 相较于黏粒(SR-SVR)训练集(R2=0.53, RMSE=2.64%)和测试集(R2=0.45, RMSE=3.47%)的结果, 黏粒(SRFD-SVR)训练集和测试集R2分别提升了0.3和0.27, 同时RMSE降低了1.61%, 测试集的nRMSE降低了9.8%。 一阶微分变换在提升土壤粒径含量估测模型的精度和稳定性方面起着关键性作用。

图6 八种光谱变换结合三种回归模型估测三种粒径含量结果Fig.6 Eight spectral transformations combined with three regression models for estimating three particle size contents

图7为三种粒径含量估测模型中最优光谱变换形式的实测值与预测值散点图。 其中, PLSR和RFR模型出现明显的偏移现象, 导致数据较为离散, 容易出现高估或低估现象。 相比较下, SVR模型测试集的R2较高, RMSE更低, 样点数值接近于1∶ 1线, 数据较为集中, 离散程度低, 表现出良好的估测效果。

图7 不同粒径含量的PLSR、 RFR和SVR最优模型实测值与预测值比较
(a1)— (a3): 黏粒含量; (b1)— (b3): 粉粒含量; (c1)— (c3): 砂粒含量
Fig.7 Comparison of the measured and predicted values of the optimal models of PLSR, RFR and SVR for different particle size contents
(a1)— (a3): Clay content; (b1)— (b3): Silt content; (c1)— (c3): Sand content

Shahrayini等[16]采用RFR模型估算的砂粒含量R2为0.70, 黏粒含量R2为0.73, 黏粒含量估算的精度高于砂粒含量的精度, 并且均达到0.70以上, 与本研究的结果一致。 机器学习算法的应用为光谱建模提供了更为优越的解决方案, 显著提升了估测模型的精准度和稳定性水平[19]。 土壤质地光谱反演过程中, 不同方法在构建模型时精度差别较大, Hobley等[4]研究结果表明不同预测模型对不同粒径含量的估测精度的差异性, PLSR模型对黏粒和砂粒预测效果最好, RFR模型对粉粒预测效果较好。 Ludwig等[20]比较了PLSR、 PLSR结合遗传算法(GA-PLSR)和SVR在印度班加罗尔耕地土壤属性估测中的有效性, PLSR对黏粒含量和砂粒含量的估测是有效的, 对粉粒含量的估测是无效的, 其中发现随机验证样本对黏粒含量的估测精度顺序为SVR> PLSR> GA-PLSR。 土壤属性存在时空上的异质性, 模型的适用性可能存在差异[11]。 SVR和PLSR两种方法对噪声和异常数据影响较小, 并且在少量样本数据的情况下表现出更好的鲁棒性和泛化能力, 而RFR则需要更高的样本量来达到好的性能[21]。 因此, SVR和PLSR模型精度总体高于RFR模型, 表现出良好的建模效果。 但由于样本数量较少的限制, 在模型适用性和研究结果等方面可能受到一定影响。

3 结论

通过分析天津市滨海湿地范围内土壤质地类别和含量, 对比不同土壤质地光谱反射率差异, 基于S-G平滑的原始光谱R及其FD、 RT、 RTFD、 SR、 SRFD、 LR和LRFD变换光谱, 分析三种粒径含量与不同光谱变换所得反射率之间的相关性, 并采用CARS算法优选特征波段, 结合PLSR、 RFR和SVR分别建立三种粒径含量估测模型。 主要结论如下:

(1)天津市滨海湿地土壤的粉粒含量较高, 在400~2 400 nm范围粉土反射率最高, 在400~2 000 nm范围砂土反射率最低, 在可见光波段(400~760 nm)以及1 400、 1 900、 2 200和2 350 nm波段附近, FD、 RTFD、 SRFD和LRFD变换后能更明显区分, 降低背景噪声和基线漂移干扰, 提高光谱反射率与粒径含量的相关性。

(2)采用CARS算法筛选特征波段, 所提取的特征波段数量占全波段数量的1.05%~6.15%, 减少了无效信息的冗余。

(3)三种结果均可有效反演土壤粒径含量, 但对不同粒径含量反演有区别, 总体SVR更稳定, PLSR次之。 其中SRFD和RTFD变换后的SVR模型效果较好, 黏粒(SRFD)测试集(R2=0.72, RMSE=1.86%, nRMSE=11.33%)、 粉粒(SRFD)测试集(R2=0.72, RMSE=2.82%, nRMSE=7.30%)和砂粒(RTFD)测试集(R2=0.71, RMSE=5.75%, nRMSE=5.91%)具有最优的估测能力, 充分发挥了SRFD、 RTFD、 CARS和SVR的优势。

参考文献
[1] Hossain M S, Rahman G K M M, Alam M S, et al. Soil Research, 2018, 56(4): 421. [本文引用:1]
[2] Leone D, Mirabile M, Altieri G M, et al. Ecological Indicators, 2023, 153: 110428. [本文引用:1]
[3] Swetha R K, Chakraborty S. Geoderma, 2021, 382: 114775. [本文引用:2]
[4] Hobley E U, Prater I. European Journal of Soil Science, 2019, 70(1): 83. [本文引用:2]
[5] QIAO Tian, Cheng-wen, XIAO Wen-ping, et al(乔天, 吕成文, 肖文凭, ). Chinese Journal of Soil Science(土壤通报), 2018, 49(4): 773. [本文引用:1]
[6] Gou Y, Wei J, Li J, et al. Journal of Mountain Science, 2020, 17(9): 2214. [本文引用:1]
[7] Ba Y, Liu J, Han J, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 229: 117863. [本文引用:1]
[8] DIWU Peng-yao, BIAN Xi-hui, WANG Zi-fang, et al(第五鹏瑶, 卞希慧, 王姿方, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(9): 2800. [本文引用:2]
[9] Bahrami A, Danesh M, Bahrami M. Infrared Physics & Technology, 2022, 122: 104056. [本文引用:2]
[10] Zhang X, Xue J, Xiao Y, et al. Remote Sensing, 2023, 15(2): 465. [本文引用:2]
[11] ZHENG Yu-zhen, CHEN Yi-yun, CHEN Min, et al(郑嵛珍, 陈奕云, 陈敏, ). Hubei Agricultural Sciences(湖北农业科学), 2021, 60(10): 38. [本文引用:2]
[12] Ge Y, Morgan C L S, Wijewardane N K. Soil Science Society of America Journal, 2020, 84(5): 1495. [本文引用:1]
[13] Lazaar A, Pradhan B, Naiji Z, et al. Kuwait Journal of Science, 2021, 48(1): 127. [本文引用:1]
[14] Nawar S, Buddenbaum H, Hill J, et al. Soil and Tillage Research, 2016, 155: 510. [本文引用:1]
[15] SHI Wen-jiao, ZHANG Mo(史文娇, 张沫). Acta Geographica Sinica(地理学报), 2022, 77(11): 2890. [本文引用:2]
[16] Shahrayini E, Noroozi A A, Eghbal M K. Eurasian Soil Science, 2020, 53: 1760. [本文引用:4]
[17] YIN De-jie, JING Rui, GUAN Hai-yan, et al(尹德洁, 荆瑞, 关海燕, ). Journal of Beijing Forestry University(北京林业大学学报), 2018, 40(8): 103. [本文引用:1]
[18] JIANG Jian-ping, ZHU Han-hua, WU Li-jian(蒋建平, 朱汉华, 吴立键). Yangtze River(人民长江), 2020, 51(7): 89. [本文引用:1]
[19] Veloso M F, Rodrigues L N, Fernand es Filho E I. Geoderma Regional, 2022, 30: e00569. [本文引用:1]
[20] Ludwig B, Murugan R, Parama V R R, et al. Journal of Plant Nutrition and Soil Science, 2018, 181(5): 704. [本文引用:1]
[21] Sakhaee A, Gebauer A, Ließ M, et al. Soil, 2022, 8(2): 587. [本文引用:1]