基于变量筛选的典型三江平原耕地土壤肥力属性光谱预测
姚成硕1,2, 王昌昆1,2,*, 刘杰1,2, 郭志英1,2, 马海艺1,2, 袁自然1,2, 王晓盼1,3, 潘贤章1,2
1.中国科学院南京土壤研究所土壤与农业可持续发展国家重点实验室, 江苏 南京 210008
2.中国科学院大学现代农业科学学院农业资源与环境系, 北京 100049
3.南京林业大学南方现代林业协同创新中心, 江苏 南京 210037
*通讯作者 e-mail: ckwang@issas.ac.cn

作者简介: 姚成硕, 2000年生,中国科学院南京土壤研究所及中国科学院大学现代农业科学学院农业资源与环境系硕士研究生e-mail: yaochengshuo@issas.ac.cn

摘要

三江平原是东北黑土地的重要粮食产区, 自开垦以来区域耕地土壤肥力下降明显。 传统化学测量方法效率低, 难以满足快速精准监测需求。 光谱技术具有土壤肥力预测潜力, 而已有研究中较少同时针对多种土壤肥力属性, 且部分土壤肥力属性的预测精度偏低。 本研究以三江平原典型耕地区域——友谊农场为研究区, 采用可见光-近红外光谱, 结合SG(Savitzky-Golay)光谱平滑、 一阶微分、 标准正态变换和多元散射校正四种光谱预处理方法及竞争性自适应重加权(CARS)波段筛选算法, 采用偏最小二乘回归模型同时针对有机质(SOM)、 全氮(TN)、 全磷(TP)和全钾(TK)四种土壤关键肥力属性进行预测, 探讨光谱预测多种土壤肥力属性的潜力, 并探索变量筛选在精度提升中的作用。 结果表明: (1)未经变量筛选使用全波段(400~2 400 nm)时, SOM和TN的预测精度较高, 交叉验证R2在不同光谱预处理方法间差异不大, 分别介于0.85~0.89和0.86~0.89之间, TK的预测精度也相对较高, R2介于0.63~0.72, 而TP的预测精度较低, R2介于0.08~0.34; (2)经CARS波段筛选后四种土壤肥力属性预测精度均有所提升, TP的提高幅度最大, SOM、 TN、 TP、 TK的最优交叉验证 R2分别为0.97、 0.96、 0.82、 0.92; (3)CARS变量筛选方法能够识别出SOM和TN相关特征官能团对应的波段, TN的预测同时采用其与SOM之间的关系和自身特征波段信息, TP的预测主要采用了土壤光谱信息, 而TK则同时采用土壤光谱以及其与SOM和TN之间的关系。 本研究证实了光谱技术在三江平原典型耕地区域同时进行多种土壤关键肥力属性预测的潜力, 发现变量筛选能够显著提高不具备明显光谱特征土壤属性(TP)的预测精度, 为黑土地土壤肥力快速监测提供参考。

关键词: 三江平原; 土壤肥力属性; 可见光-近红外光谱; 变量筛选
中图分类号:S151.9 文献标志码:A
Spectral Prediction of Soil Fertility Attributes in Typical Croplands of Sanjiang Plain Based on Band Selection
YAO Cheng-shuo1,2, WANG Chang-kun1,2,*, LIU Jie1,2, GUO Zhi-ying1,2, MA Hai-yi1,2, YUAN Zi-ran1,2, WANG Xiao-pan1,3, PAN Xian-zhang1,2
1. State Key Laboratory of Soil and Sustainable Agriculture, Institute of Soil Science, Chinese Academy of Sciences, Nanjing 210008, China
2. College of Advanced Agricultural Sciences, Department of Agricultural Resources and Environment, University of Chinese Academy of Sciences, Beijing 100049, China
3. Collaborative Innovation Center of Sustainable Forestry in Southern China of Jiangsu Province, Nanjing Forestry University, Nanjing 210037, China
*Corresponding author
Abstract

The Sanjiang Plain is an important grain production area in the black soil region of Northeast China. However, since its reclamation, the soil fertility of cultivated lands has declined significantly. Traditional chemical measurement methods are inefficient and difficult to meet the needs of rapid and accurate monitoring of soil fertility attributes. Spectral technology has the potential to predict soil fertility. Still, few existing studies have targeted multiple soil fertility attributes simultaneously, and the prediction accuracy of some soil fertility attributes is relatively low. Therefore, this study took the typical cropland area of the Sanjiang Plain, Youyi Farm, as the study area. We utilized visible and near-infrared spectroscopy, combined with four spectral preprocessing methods, including SG (Savitzky-Golay) spectral smoothing, first-order derivation, standard normal variate transformation, and multiplicative scatter correction, as well as the competitive adaptive reweighted sampling (CARS) band selection algorithm. The partial least squares regression model was employed to simultaneously predict four key soil fertility attributes: soil organic matter (SOM), total nitrogen (TN), total phosphorus (TP), and total potassium (TK). The study aimed to explore the potential of spectral prediction for multiple soil fertility attributes and investigate the role of variable selection in improving prediction accuracy. The results showed that: (1) When using the full spectral range (400~2 400 nm) without variable selection, the prediction accuracy of SOM and TN was relatively high, with cross-validation R2 values ranging from 0.85 to 0.89 and 0.86 to 0.89, respectively. The prediction accuracy of TK was also relatively high, with R2 ranging from 0.63 to 0.72, but the prediction accuracy of TP was lower, with R2 ranging from 0.08 to 0.34. (2) After CARS band selection, the prediction accuracy of all four soil fertility attributes improved, with the largest improvement found in TP. The optimal cross-validation R2 was 0.97, 0.96, 0.82, and 0.92 for SOM, TN, TP, and TK, respectively. (3) The CARS variable selection method identified the spectral bands corresponding to the characteristic functional groups related to SOM and TN. The prediction of TN utilized both its relationship with SOM and its intrinsic characteristic bands. The prediction of TP mainly relied on soil spectral information, while the prediction of TK utilized both soil spectral information and its relationship with SOM and TN. This study demonstrated the potential of spectral technology for simultaneously predicting multiple key soil fertility attributes in the typical cropland area of the Sanjiang plain and found that variable selection can significantly improve the prediction accuracy of soil attributes(TP) that do not have obvious spectral characteristics, providing a methodological reference for rapid monitoring of soil fertility in black soil regions.

Keyword: Sanjiang plain; Soil fertility attributes; Visible and near-infrared spectroscopy; Band selection
引言

三江平原自20世纪50年代中期以来, 大量湿地被开垦成农田, 现已成为重要的国家商品粮基地[1]。 有研究表明与黑龙江其他区域相比, 当前三江平原的生境处于相对较低水平[2]。 由于长期的重用轻养, 土壤肥力下降显著[3]。 区域内潜育草甸土经过25年开垦后土壤肥力状况发生明显改变, 表层土壤有机质(soil organic matter, SOM)由开垦前的98.97 g· kg-1下降到21.26 g· kg-1, 土壤氮和磷的含量也有降低趋势[1]。 为有效保护三江平原宝贵的土壤资源, 促进可持续农业的发展, 亟需针对区域土壤肥力状况开展有效监测。

土壤有机质及氮、 磷、 钾是决定土壤肥力高低的重要指标。 SOM能够显著影响土壤的物理、 化学和生物属性, 同时通过矿化作用可以提供多种作物生长所需的养分元素, 包括氮、 磷、 钾等。 土壤氮、 磷、 钾是作物生长所必需且最重要的三种元素, 对作物正常生产及作物产量等具有显著影响。 通过向农田土壤施加无机肥料可以显著提升植物可利用的土壤速效氮、 磷和钾含量, 而不合理的化肥使用容易导致系列生态环境问题, 例如由于过量氮肥及磷肥的施用导致的农业面源污染和水体富营养化等。 土壤有机质和全氮(total nitrogen, TN)、 全磷(total phosphorous, TP)及全钾(total potassium, TK)含量分别反映了土壤基础肥力水平和对作物氮、 磷和钾的持续供给能力, 对其准确监测能够有效反映土壤的肥力状况。

传统土壤肥力化学分析方法的成本较高, 效率也相对较低, 分析过程中使用到和产生的化学物质容易对环境造成风险。 如重铬酸钾氧化法是SOM测定的标准方法之一, 该方法首先使用过量的重铬酸钾溶液氧化SOM后, 再用标准硫酸亚铁溶液滴定剩余的重铬酸钾, 通过测定消耗的重铬酸钾含量计算出土壤有机质含量。 土壤可见光-近红外(350~2 500 nm)光谱测量速度快, 不需要复杂的样品前处理, 仅需要研磨、 过筛处理即可获得高质量的土壤光谱数据, 被成功用于多种土壤属性的预测。 SOM和TN在350~2 500 nm光谱范围内存在较为明确的光谱吸收机制, 属于具有活性光谱特征的土壤属性, 因此这两种属性的预测精度通常较高。 Soriano-Disla等[4]针对国际相关研究的统计结果, 基于实验室测量光谱的SOM和TN的预测R2中值均为0.86。 TP和TK缺少显著的光谱特征, 其精准预测需要借助于其与具有活性光谱特征土壤属性之间的关系, 因此它们的预测精度在不同区域和土壤类型中表现出较大差异[5]。 例如Malley等[6]基于近红外光谱的TP和TK的预测表明, 两种土壤肥力参数预测值与实测值相关性均较高。 有研究在三峡库区王家沟小流域针对TP的预测精度较低, 预测值与真实值的相关系数为0.498。 已有针对土壤肥力参数的光谱预测研究中, 多数研究是针对单一或者少数土壤肥力属性, 较少同时针对SOM、 TN、 TP和TK四种土壤属性开展研究。 因此提升土壤肥力参数的监测能力, 需要进一步探索光谱技术在多种肥力属性中的预测潜力。

可见近红外光谱波段数量众多, 波段间具有一定的多重共线性, 直接采用测量光谱预测土壤属性有模型过拟合的风险[7]。 尽管许多常用的土壤属性光谱预测模型(如偏最小二乘回归方法, PLSR)具有处理多重共线性、 降低模型过拟合的潜力, 而有研究表明预测模型构建中对土壤光谱变量筛选可以进一步提升土壤属性预测精度。 例如, 李冠稳等[8]在针对SOM的光谱预测中发现, 与直接采用土壤光谱全波段(400~2 400 nm)预测结果相比, 使用竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)筛选光谱变量后, 基于PLSR的有机质模型预测R2由0.835提升到0.868, RMSE由9.069 g· kg-1降低为8.12 g· kg-1。 有报道在黑龙江省讷河市的研究表明, 通过相关系数方法进行敏感波段筛选后, TP和TK都获得了相对较高的精度, R2分别为0.808和0.761。 李学兰等[9]针对贵州省土壤未进行光谱变量筛选时, TP和TK的预测精度较低, R2分别为0.09和0.58。 通过变量筛选有可能提升TP和TK的光谱预测精度。 为获取高精度的SOM、 TN、 TP和TK预测结果, 有必要进一步探索光谱变量筛选在提升土壤属性光谱预测中的潜力。

本研究以三江平原典型耕地区域— — 友谊农场为研究区, 结合波段筛选方法与PLSR对SOM、 TN、 TP和TK进行预测, 以探究光谱预测多种土壤肥力属性的潜力, 并探索变量筛选在精度提升中的作用。 本研究旨在为黑土地土壤肥力监测提供更有效的方法和工具, 以促进黑土地土壤资源利用与保护。

1 实验部分
1.1 研究区概况

三江平原位于中国黑龙江省东北部, 由松花江、 黑龙江和乌苏里江汇流冲积而成的沼泽化低平原[10]。 地处湿润、 半湿润、 中温带大陆性季风气候, 夏季多雨潮湿, 冬季寒冷干燥, 年平均气温在1~4 ℃, 年平均降水量在450~650 mm。 土壤类型主要包括黑土、 草甸土和白浆土[12]。 该地区耕地面积达667.79万hm2, 占三江平原总面积的55.28%, 是中国北方主要商品粮基地[11]。 选择了三江平原典型耕地区域— — 友谊农场, 位于三江平原中部(图1)。 该农场始建于1954年, 2013年场区总面积1 684.28 km2, 其中耕地面积占比达80.67%, 为1 358.66 km2[12]。 友谊农场作为中国最大的机械化国营农场, 除西南少数区域外, 地势相对平缓, 土地接连成片, 适合大面积机械化生产。 该地区主要种植农作物包括玉米、 大豆和水稻, 作物一年一熟[13]

图1 友谊农场土壤采样点空间分布Fig.1 Distribution of sampling points in Youyi Farm

1.2 土壤样品采集及土壤肥力属性测定

为保证样本的空间代表性, 考虑土壤类型和土地利用类型, 并考虑道路可达性限制, 于2021年10月作物收获后, 在友谊农场农田内共采集103个表层(0~20 cm)土壤样品(图1), 其中旱地土壤样品46个, 水田土壤样品57个。 每个土壤样品由5 m范围内采集的3~5个土壤子样混合而成。 在去除作物秸秆、 根系等非土壤物质后, 将土壤样品保存在密封袋中。 土壤样品采集时, 同时记录了采样点的经纬度。 野外采集土壤样品运送至实验室后, 进行室内风干然后进行土壤样品研磨过筛, 用于土壤光谱和肥力属性测量。 SOM的测定采用重铬酸钾容量法, TN采用半微量凯式定氮法测定, TP的测定采用酸消化和比色法, TK采用酸解和原子吸收光谱法测定[14]

1.3 光谱测量及光谱预处理

采用ASDFieldSpec4便携式光谱仪进行土壤光谱测量, 光谱仪波长范围为350~2 500 nm, 光谱分辨率为3 nm(350~1 000 nm)和8 nm(1 000~2 500 nm)。 土壤样品放置在直径为5.6 cm、 深0.8 cm的样品盒中。 光谱测量在暗室中进行, 采用75 W的卤素光作为照明光源, 光源的天顶角为45° , 其与土壤样品表面的距离为20 cm。 采用8° 视场角的光谱探头进行光谱测量, 测量时探头垂直于土壤表面, 距土壤样品表面为18 cm。 每个土壤样品通过90° 旋转测量四个方向的光谱, 取四个方向测量光谱的平均值作为该样品土壤光谱。 每隔30 min, 采用标准Spectrolon参考板对光谱仪进行校正。

由于光谱仪在波段首尾部分的信噪比相对较低, 本研究去除350~399和2 401~2 500 nm噪声较大的波段, 保留400~2 400 nm范围内的波段进行模型构建。 为进一步降低噪声的影响, 对测量光谱采用Savitzky-Golay(SG)平滑算法进行平滑处理, 并采用标准正态变换(standard normal variate, SNV)和多元散射校正(multiplicative scatter correction, MSC)进行基线校正和散射影响的消除; 通过一阶微分变换(first derivative, FD)处理突出土壤光谱吸收特征。 本研究将探讨这四种光谱处理方法在土壤肥力属性预测中的表现。

1.4 CARS特征波段筛选

采用土壤光谱范围为400~2 400 nm, 共计2 001个波段, 土壤样品共计103个, 属于小样本高维数据, 且不同波段间存在一定共线性。 直接采用所有波段构建模型容易产生过拟合问题, 通过波段筛选可以过滤无效波段, 提升模型构建效率和精度。 采用CARS算法结合偏最小二乘回归(partial least square regression, PLSR)模型(CARS-pls)分别针对各预测土壤肥力属性进行变量筛选。 算法执行步骤: (1)采用蒙特卡罗(Monte Carlo, MC)方法随机选择一定数量的土壤样本作为建模集, 使用该建模集构建PLSR模型; (2)采用PLSR模型中波段系数的绝对值, 采用指数递减函数(exponentially decreasing function, EDF)确定的变量个数选择有效波段; (3)采用自适应重加权采样(adaptive reweighted sampling, ARS)方法进一步去除不重要波段; (4)计算所选择波段下基于交叉验证(CV)的均方根误差值(RMSE)[15]。 CARS-pls的初始主成分数为15, MC随机选择土壤样本的次数为50, 每次均可生成一个RMSE, RMSE为最小值时的波段集合为筛选出的波段, 用于模型构建。

1.5 模型构建及评价方法

以CARS算法筛选出的波段, 采用PLSR算法分别构建SOM、 TN、 TP和TK的预测模型。 由于土壤样本数量相对较少, PLSR模型训练过程中, 通过留一交叉验证进行主成分个数寻优并进行模型评价。 主成分的最大个数设为20。 采用决定系数(R2)、 均方根误差(RMSE)、 相对分析误差(RPD)以及性能与四分位间隔距离的比率(RPIQ)评价模型预测效果。 与RPD相比, RPIQ不容易受到变量分布的影响。 当R2、 RPD和RPIQ越大, RMSE越小时, 模型预测效果越好。 见式(1)— 式(4)

$R^{2}=1-\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}$(1)

$\mathrm{RMSE}=\sqrt{\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-y_{i}\right)^{2}}{n}}$(2)

RPD=SD/RMSE(3)

RPIQ=IQRMSE(4)

上述中, n为土壤样本个数, yi为实测值, ŷi为预测值, y̅为均值, SD为标准差, IQ是第三和第一四分位数之间的差值。

针对PLSR的最佳预测模型, 采用变量投影重要性(variable importance in projection, VIP)[16]衡量土壤肥力属性预测中各波段相对重要性。 一般认为VIP大于1的波段为重要波段, VIP得分越高说明该波段在土壤肥力属性预测中所发挥的作用越强[17]

2 结果与讨论
2.1 土壤肥力属性统计分析

四种土壤肥力属性: SOM、 TN、 TP和TK的描述性统计结果见图2。 SOM含量范围为2.27%~6.84%, 平均值为4.18%, 采集土壤样本SOM主要分布在2.50%~5.00%之间, 属于较高水平; TN含量范围为0.12%~0.34%, 平均值为0.20%, 以TN含量在0.15~0.25%的土壤样本较多; TP含量范围为388.22~884.99 mg· kg-1, 平均值为647.52 mg· kg-1, 较多样本TP含量在550~700 mg· kg-1; TK含量范围为1.95%~3.08%, 平均值为2.39%, 以含量在2.20%~2.60%的采集土壤样本居多。 尽管经过50多年的农业开垦利用, 根据第二次全国土壤普查的土壤养分分级标准[18], SOM、 TN、 TK和TP分别为一级、 二级、 三级和二级标准, 土壤肥力整体仍处于较高水平。 这四种土壤肥力属性整体上符合正态分布(图2), 因此构建光谱预测模型时无需对土壤肥力属性值进行转换处理, 直接采用测量值进行预测模型构建。

图2 土壤肥力属性直方图Fig.2 Histogram of soil fertility attributes

2.2 土壤光谱与土壤肥力属性间的关系

图3为四种不同光谱预处理后的土壤光谱。 结果表明, 在整个波段范围内SG平滑光谱的反射率在0.05~0.50之间, 小于750 nm时, 由于SOM含量较高, 反射率小于0.2。 在1 400、 1 900和2 200 nm附近存在明显的吸收谷。 其中1 400和1 900 nm附近是土壤矿物中水的吸收特征, 而2 200 nm是土壤中矿物的吸收特征。 经FD变换后, 土壤光谱的吸收特征更为明显。 与SG光谱相比, FD光谱中1 400、 1 900和2 200 nm附近的吸收特征明显增强。 在可见光波段410和430 nm附近出现了2个小的吸收峰, 在2 000 nm后也可见较多小吸收峰。 因此通过FD处理可以更好突出土壤的光谱特征。 SNV和MSC处理后的土壤光谱曲线较为相似, 而且光谱曲线上的光谱特征也与SG土壤光谱相近。 与SG光谱相比, 不同土壤样品间SNV和MSC光谱的变异范围更小。

图3 不同光谱预处理土壤光谱(平均值和± 标准差)Fig.3 Soil spectra (mean and± standard derivation) with different spectral processing methods

将经不同预处理的土壤光谱与土壤肥力属性进行相关分析, 结果如图4所示。 SG光谱在整个波段范围内与土壤肥力属性间的相关系数在-0.50~0.50之间, SOM和TN与光谱反射率间主要呈负相关关系, SOM的相关系数绝对值的最大值出现在775 nm, 为-0.47, TN的相关系数绝对值的最大值出现在798 nm, 相关系数为-0.41。 与SOM和TN相比, TP与光谱反射率间的相关性相对较弱, 在1 364 nm前呈负相关关系, 之后呈较弱的正相关关系, 相关系数绝对值的最大值出现在678 nm, 但仅为-0.25。 与之类似, TK与光谱反射率间的相关性也相对较弱, 多呈正相关关系, 仅在558 nm前呈负相关关系, 相关系数绝对值的最大值也在此区间, 仅为-0.36(405 nm处)。 FD处理后的土壤光谱与土壤肥力属性间的相关性均有了一定程度的提升, SOM、 TN、 TP和TK的相关系数绝对值的最大值分别为0.81(1 378 nm处)、 0.79(1 376 nm处)、 0.46(2 239 nm处)、 0.64(2 228 nm处)。 SOM和TN的相关系数曲线在600和1 400 nm附近存在负值峰, 在1 300、 1 700、 2 200和2 300 nm附近存在明显正值峰。 与SG土壤光谱相比, SNV和MSC光谱与各土壤肥力属性间的相关性均得到了明显提升, SOM和TN相关系数绝对值的最大值接近0.75, 而TP和TK的最大值接近或超过了0.50。 上述分析说明, 与SG土壤光谱反射率相比, 经FD、 SNV和MSC处理可以增强土壤光谱与土壤肥力属性间的相关性。 需要指出的是, 尽管各土壤肥力属性与不同光谱预处理间的相关性大小有差异, 而不同土壤肥力属性相关系数曲线间的关系在不同预处理光谱之间较为一致。 在四种预处理光谱中, SOM和TN的相关系数曲线十分接近, 而TP和TK的相关系数曲线呈现一定的对称性。

图4 不同预处理土壤光谱与土壤肥力属性间的相关性Fig.4 Correlation between soil spectra with different spectral processing methods and soil fertility attributes

2.3 土壤肥力属性光谱预测

使用全波段与CARS算法筛选波段、 采用不同预处理光谱的土壤肥力属性交叉验证结果如表1所示。 使用未经变量筛选全部光谱波段时(400~2 400 nm), SOM和TN的预测精度相对较高, SOM的预测R2在0.85~0.89之间、 RPD在2.60~2.98之间, TN的预测R2在0.86~0.89之间、 RPD在2.68~3.00之间。 TP的预测精度较低, R2仅在0.08~0.34之间、 RPD小于1.40。 与TP相比, TK的预测精度相对较高, 但低于SOM和TN, 预测R2在0.63~0.72之间、 RPD在1.65~1.89之间。 使用CARS算法筛选波段的四种土壤肥力属性预测精度均得到了一定程度提升。 不同光谱预处理方法SOM和TN的预测精度均较高, SOM的最佳预测精度来自FD处理光谱, R2、 RMSE、 RPD和RPIQ分别为: 0.97、 0.19%、 5.54和8.11, TN的最佳预测精度同样来自FD光谱, R2、 RMSE、 RPD和RPIQ分别为: 0.96、 0.01%、 4.75和7.56。 TP的预测精度得到了明显提升, 最佳预测精度时R2、 RMSE、 RPD和RPIQ分别为: 0.82、 44.48 mg· kg-1、 2.39和3.49。 但不同光谱预处理方法的TP预测精度差异明显, SG光谱的预测精度最低, R2、 RMSE、 RPD和RPIQ分别为: 0.49、 75.25 mg· kg-1、 1.41和2.06, 该预测精度已经优于全波段时SNV光谱得到的最佳预测结果。 TK的预测精度也得到了一定提升, 最佳预测精度时R2、 RMSE、 RPD和RPIQ分别为: 0.92、 0.06%、 3.66和5.52。 不同光谱预处理方法间的TK预测精度也存在一定差异, 而CARS筛选波段时得到的最低预测精度(SG光谱时)仍高于全波段时得到的最佳预测结果(SNV光谱时)。 以上结果表明, 经CARS算法进行波段筛选后各土壤肥力属性的预测精度均有一定提升, 其中TP的提升幅度最大。

表1 不同光谱预处理土壤肥力属性预测结果 Table 1 Estimation results of soil fertility attributes based on different spectral processing methods

各土壤肥力属性基于全波段和CARS筛选波段最优预测模型的预测散点图(图5)表明, 对于SOM、 TN和TK, 使用全波段时的预测值和实测值已经较为接近, 而经CARS变量筛选后的预测值和实测值更为接近, 基本都分布于1∶ 1线附近, 拟合线与1∶ 1线偏差更小, 因此预测精度更高。 使用全波段时, TP的预测值与实测值间的差异较大, 经CARS变量筛选后预测值与实测值间的关系明显改善, 大部分预测值和实测值都紧密分布于1∶ 1线附近, 而且拟合线与1∶ 1线间的偏差明显降低, 低值区预测值偏高和高值区预测值偏低的情况也得到了显著改善。 CARS算法能够显著改善土壤肥力属性预测精度, 特别是TP的预测精度得到了明显提高。

图5 基于全波段和CARS筛选波段最优预测模型的土壤肥力属性预测散点图Fig.5 Scatter plot of soil fertility attributes based on full bands and selected bands by CARS algorithm, respectively

针对各土壤肥力属性最佳预测模型, 采用CARS算法筛选波段计算的VIP值如图6所示。 结果表明, 经CARS筛选后SOM、 TN、 TP、 TK的特征波段数分别为: 137、 278、 90、 90, 占全部光谱数的比例分别为: 6.85%、 13.89%、 4.50%、 4.50%, 有效减少了输入波段数量。 SOM与TN使用的波段在整个光谱范围内均有分布, 而更多集中在近红外光谱区域内(大于1 000 nm), 其中610、 1 390、 1 890和2 211 nm附近波段在SOM的预测中发挥了更大作用; 775 nm附近波段对于TN的预测也很重要。 与SOM和TN相比, TP和TK筛选出的波段相对较少, 其中750~1 000 nm范围内的波段几乎没有被选择。 与SOM和TN在1 000~2 500 nm范围的选择波段类似, TP的主要波段也集中在1 390、 1 890和2 240 nm附近, 560、 2 366和2 390 nm附近波段也具有重要作用; 与SOM、 TN和TP不同, 910 nm附近波段在TK的预测中具有较大作用, 大于2 200 nm的波段中, TK的预测中具有较大作用的波段集中在2 350 nm附近。

图6 基于CARS算法筛选的土壤肥力属性最优预测模型特征波段的VIP值
VIP: 变量投影重要性
Fig.6 VIP values in characteristic bands selected by CARS algorithm for the optimal prediction models of the four soil fertility attributes
VIP: Variable importance in projection

2.4 讨论

采用CARS算法筛选波段, 并结合不同光谱预处理方法进行土壤肥力属性光谱预测。 结果表明, 与使用全波段相比, 经CARS变量筛选后SOM、 TN、 TP和TK的预测精度均有所提升, 其中TP的提升幅度最大, TK的提升幅度次之, SOM和TN的提升幅度最小。 SOM和TN的预测精度最高(R2≥ 0.95, RPD≥ 4.70), TK的预测精度次之, TP的预测精度相对较低, 而R2也大于0.80, RPD高于2.00。 与已有研究结果相比(已发表结果SOM和TN的预测统计中值R2=0.86[4]), 本研究经CARS变量筛选后SOM和TN的预测精度更高。 TP和TK的预测精度在不同研究中存在较大差异。 李学兰等[9]在针对贵州省土壤肥力属性的光谱预测中发现, TP的预测精度较低, R2仅为0.09, TK的精度也不高, R2为0.58。 乔璐等[19]在黑龙江大庆市区和四县(肇源县、 肇州县、 杜蒙、 林甸县)的检测结果, TP和TK的精度较高, R2分别达0.687和0.832。 与SOM和TN相比, TP和TK缺少明确的光谱吸收特征, TP和TK的预测精度很可能受到与其他具有明确光谱特征的土壤属性之间的关系强弱影响, 体现出一定的区域性或者受到土壤类型等因素的影响[5]。 与已有研究结果相比, 本研究TP和TK经变量筛选后的预测精度相对较高, 具有实际预测的潜力。

光谱吸收特征是土壤属性稳定精确预测的基础。 本研究针对SOM预测筛选的波段中, 1 890 nm附近波段可以归为SOM中C— H和/或C═O键的倍频与谐频振动, 2 211 nm可能为土壤粘土矿物中的Al— OH引起[20]。 SOM中的C— H键在825 nm附近的波段并未被选择, 可能是由于CARS算法的变量筛选机制中仅考虑了被预测土壤属性的精度; 也可能是由于土壤本身组成的复杂, 导致了不同土壤物质吸收特征重叠, 进而难以识别出相应的吸收波段。 土壤中的氮主要是有机态, 有机氮中的N— H键在751、 1 000、 1 500和2 060 nm附近存在吸收特征[5], 本研究中筛选出的775 nm附近波段可能与N— H的振动有关。 Matin等[21]认为TN的光谱预测会受到其与SOM之间的关系影响, 本研究中SOM和TN之间的相关系数为0.96, 因此TN的高精度预测结果可能同时利用了其自身的光谱吸收特征以及其与SOM之间的关系。 与SOM和TN预测用到的波段不同, 560、 2 366和2 390 nm附近波段在TP预测中起到了较大作用, 同时考虑到TP与SOM和TN之间的相关系数不高(分别为0.37和0.40), 因此TP的较高精度预测可能由于CARS变量筛选方法筛选出了TP的有效预测波段。 与SOM和TN相比, 910和2 350 nm附近波段在TK的预测中也具有较大作用, 而与TP不同, TK与SOM和TN之间的相关系数相对较高(分别为-0.61和-0.63), 因此TK的高精度预测可能利用了其与SOM和TN之间的关系。

本研究发现光谱预处理方法能够影响土壤肥力属性的预测精度。 SOM和TN预测受到的影响相对较小, TP受到的影响最大, TK受到的影响介于两者之间。 对于TP, SG光谱的预测精度最低(R2仅为0.49), 使用FD处理光谱后预测精度有了明显提升(R2可达0.82)。 对于SOM、 TN和TK, 同样是SG光谱的预测精度最低, FD光谱的预测精度最高。 Hou等[22]在针对黄土高原花椒林(乡镇尺度)的研究中也发现, 与MSC和对数倒数等预处理方法相比, FD处理在SOM和TN的光谱预测中具有更好的表现。 史舟等[23]发现FD预处理方法在基于全国尺度土壤光谱的SOM预测中也具有良好表现。 本研究与其他三种光谱预处理方法相比, FD处理更能突出土壤光谱特征, 因此与CARS变量筛选方法结合可以提升土壤肥力属性预测精度。 勾宇轩等[24]在进行SOM的光谱预测时发现, 与原始光谱、 倒数对数和连续统去除方法相比, 采用连续小波变换处理光谱并与CARS波段筛选结合可以提升不同类型土壤SOM预测精度。 在将来研究中可以探索小波变换与CARS算法结合在其他土壤肥力属性中的预测效果。 有研究表明模型构建方法在土壤属性预测中也具有重要影响[9, 20, 25], 本研究中仅使用了PLSR一种方法, 在将来的研究中将结合其他机器学习算法进一步提升土壤肥力属性的预测精度。

3 结论

本研究采用CARS变量筛选算法, 结合不同光谱预处理方法, 探讨光谱技术在友谊农场四种土壤肥力属性: SOM、 TN、 TP和TK中的预测表现。

(1)未进行波段筛选时, SOM和TN已经具有较高的预测精度, TK也能获得相对较高的预测精度, 采用光谱技术可以实现这三种土壤属性的预测, TP的预测精度较低, 难以用于实际预测。

(2)CARS变量筛选方法能够提升SOM、 TN、 TP和TK的预测精度, 其中TP的提升精度最为显著, 光谱技术结合CARS变量筛选算法可以实现更高精度SOM、 TN和TK的预测, 以及较高精度TP的预测。

(3)CARS变量筛选方法能够识别出SOM和TN相关特征官能团对应的波段, TN的预测同时采用了其与SOM之间的关系和自身特征波段信息, TP的预测主要采用了土壤光谱信息, 而TK则同时采用了土壤光谱以及其与SOM和TN之间的关系。

本研究为三江平原区域土壤肥力属性的快速监测提供了参考方法, 为不具备明显光谱特征的土壤属性光谱预测提供了参考, 考虑到本研究仅针对农场尺度, 未来还需针对该方法在更大尺度或是不同土壤类型、 气候条件下的其他区域进行评价。

参考文献
[1] LIU Xing-tu, MA Xue-hui(刘兴土, 马学慧). Scientia Geographica Sinica(地理科学), 2000, 20(1): 14. [本文引用:2]
[2] LIANG Xiao-yao, YUAN Li-hua, NING Li-xin, et al(梁晓瑶, 袁丽华, 宁立新, ). Journal of Beijing Normal University (Natural Science)[北京师范大学学报(自然科学版)], 2020, 56(6): 864. [本文引用:1]
[3] HAN Xiao-zeng, ZOU Wen-xiu(韩晓增, 邹文秀). Acta Pedologica Sinica(土壤学报), 2021, 58(6): 1341. [本文引用:1]
[4] Soriano-Disla J M, Janik L J, Rossel R A V, et al. Applied Spectroscopy Reviews, 2014, 49(2): 139. [本文引用:2]
[5] Stenberg B, Rossel R A V, Mouazen A M, et al. Advances in Agronomy, 2010, 107: 163. [本文引用:3]
[6] Malley D F, Yesmin L, Wray D, et al. Communications in Soil Science and Plant Analysis, 1999, 30(7-8): 999. [本文引用:1]
[7] Zheng G H, Wang A S, Zhao C Y, et al. Geoderma, 2023, 429: 116258. [本文引用:1]
[8] LI Guan-wen, GAO Xiao-hong, XIAO Neng-wen, et al(李冠稳, 高小红, 肖能文, ). Chinese Journal of Luminescence(发光学报), 2019, 40(8): 1030. [本文引用:1]
[9] LI Xue-lan, LI De-cheng, ZHENG Guang-hui, et al(李学兰, 李德成, 郑光辉, ). Acta Pedologica Sinica(土壤学报), 2024, 61(3): 687. [本文引用:3]
[10] Zhang M, Han J L, Jiao J, et al. Agronomy, 2023, 13(10): 2533. [本文引用:1]
[11] XU Ying-de, PEI Jiu-bo, LI Shuang-yi, et al(徐英德, 裴久渤, 李双异, ). Chinese Journal of Soil Science(土壤通报), 2023, 54(2): 495. [本文引用:1]
[12] YU Xiao, WU Ke-ning, YUN Wen-ju, et al(于潇, 吴克宁, 郧文聚, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(8): 253. [本文引用:2]
[13] Luo C, Zhang W Q, Zhang X L, et al. Catena, 2023, 231: 107336. [本文引用:1]
[14] Yang M H, Mouazen A, Zhao X M, et al. European Journal of Soil Science, 2020, 71(4): 615. [本文引用:1]
[15] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[16] Hong Y S, Chen Y Y, Yu L, et al. Remote Sensing, 2018, 10(3): 479. [本文引用:1]
[17] QI Hai-jun, LI Shao-wen, KARNIELI A, et al(齐海军, 李绍稳, KARNIELI A, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2018, 49(2): 166. [本文引用:1]
[18] ZHOU Wei, WANG Wen-jie, ZHANG Bo, et al(周伟, 王文杰, 张波, ). Acta Ecologica Sinica(生态学报), 2017, 37(4): 1211. [本文引用:1]
[19] QIAO Lu, CHEN Li-xin, DONG Cheng-ming(乔璐, 陈立新, 董诚明). Forest Engineering(森林工程), 2018, 34(6): 25. [本文引用:1]
[20] Rossel R A V, Behrens T. Geoderma, 2010, 158(1-2): 46. [本文引用:2]
[21] Martin P D, Malley D F, Manning G, et al. Canadian Journal of Soil Science, 2002, 82(4): 413. [本文引用:1]
[22] Hou M J, Ai Z M, Li X H, et al. Ecological Informatics, 2024, 79: 102429. [本文引用:1]
[23] SHI Zhou, WANG Qian-long, PENG Jie, et al(史舟, 王乾龙, 彭杰, ). Scientia Sinica(Terrae)(中国科学: 地球科学), 2014, 44(5): 978. [本文引用:1]
[24] GOU Yu-xuan, ZHAO Yun-ze, LI Yong, et al(勾宇轩, 赵云泽, 李勇, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2022, 53(3): 331. [本文引用:1]
[25] Wang Y X, Yang S, Yan X B, et al. Journal of Soils and Sediments, 2023, 23(2): 634. [本文引用:1]