近红外光谱的北方寒地土壤含水率预测模型研究
石文强1, 许秀英1,*, 张伟1, 张平2, 孙海天1,3, 胡军1
1.黑龙江八一农垦大学工程学院, 黑龙江 大庆 163319
2.黑龙江八一农垦大学理学院, 黑龙江 大庆 163319
3.中国热带农业科学院南亚热带作物研究所, 广东 湛江 524091
*通讯作者 e-mail: xxy_byau@163.com

作者简介: 石文强, 1997年生,黑龙江八一农垦大学工程学院硕士研究生 e-mail: 1050703925@qq.com

摘要

我国北方寒地温差大, 土壤温差对近红外光谱测量土壤墒情有较大影响。 针对这一问题, 以北方寒地土壤为研究对象, 探究大范围温度胁迫下(-20~40 ℃)土壤的近红外光谱与土壤不同含水率之间的关系预测模型方法。 选取黑龙江八一农垦大学农学院试验基地中的黑土, 经烘干、 过筛等操作处理后配置含水率范围在15%~50%内八种不同湿度的土壤样品, 建立北方寒地土壤大范围温度胁迫下土壤的近红外光谱信息与含水率之间的定量预测模型。 在全波段光谱数据的基础上, 结合五种不同光谱信号预处理方法, 采用BP神经网络算法、 优化支持向量机算法(SVM)、 高斯过程算法(GP)三种智能算法建立北方寒地土壤近红外光谱与含水率的预测模型并验证模型的效果。 利用69组数据进行训练建模, BP神经网络相关参数设置为学习速率0.05, 最大训练次数设置为5 000, 隐层单元数确定为20; SVM采用径向基函数, 并利用leave-one-out cross validation确定了最佳惩罚参数为0.87, 使模型预测的准确性提高; 高斯过程算法内部采用马顿核。 模型的定量评估采用决定系数( R2)和均方根误差(RMSE)。 结果表明, 在建立的全部BP神经网络模型中, 效果最佳的为S_G-BP神经网络模型, 模型的 R2为0.960 9, RMSE为2.379 7; 在SVM模型中SNV-SVM模型的效果最好, 模型的 R2为0.991 1, RMSE为1.081 5; 在GP模型中S_G-GP模型的效果最好, 模型的 R2为0.928, RMSE为3.258 1, 综上基于SNV预处理的SVM模型训练效果最优。 利用剩余的35组光谱数据作为预测集验证模型性能, 经模型对比分析发现基于SVM算法的预测模型效果优于其他两种算法, 其中基于S_G的SVM模型效果最优, 其预测模型的 R2和差RMSE分别为0.992 1和0.736 9。 综合建模集与预测集的参数最终确定基于S_G的SVM模型为最佳模型。 此模型可以作为大范围温度胁迫条件下(寒地)的土壤含水率有效预测方法, 为设计优化适宜寒地便携式近红外土壤含水率快速测量仪提供科学依据。

关键词: 近红外光谱; 北方寒地; 温度胁迫; 土壤含水率; 预测模型
中图分类号:O433.4 文献标志码:A
Prediction Model of Soil Moisture Content in Northern Cold Region Based on Near-Infrared Spectroscopy
SHI Wen-qiang1, XU Xiu-ying1,*, ZHANG Wei1, ZHANG Ping2, SUN Hai-tian1,3, HU Jun1
1. College of Engineering, Heilongjiang Bayi Agricultural University, Daqing 163319, China
2. College of Science, Heilongjiang Bayi Agricultural University, Daqing 163319, China
3. South Subtropical Crops Research Institute of Chinese Academy of Tropical Agriculture Sciences, Zhanjiang 524091, China
*Corresponding author
Abstract

There is a large temperature difference between summer and winter in northern China. Soil temperature difference greatly influences the measurement of soil moisture by NIR (Near-Infrared). A prediction model for soil NIR spectrum and soil moisture content under a wide range of temperature stress (-20~40 ℃) was introduced. Soil samples were collected in the experimental field of Heilongjiang Bayi Agricultural University. After drying and sieving, soil samples were dampened to moisture content ranging from 15% to 50%. Prediction model for NIR and soil moisture content under different temperature stress was built. 69 groups of spectral data was used as training set to build model based on the full-band spectral data and five different spectral signal preprocessing methods. BP (Back-propagation) neural network, optimized support vector machine (SVM) algorithm and Gaussian process algorithm (GP) were used to establish the prediction model of soil near-infrared spectrum and moisture content in northern cold areas,and verify the effect of the model. The learning rate for BP neural network was 0.05, the maximum training time was 5 000, and the number of hidden layer units was 20. SVM used the radial basis function and Leave-One-Out Cross-Validation to determine the optimal penalty parameter (0.87), which improved the accuracy of the model prediction. Marton kernel internally was used for the GP model. GP model was evaluated by the coefficient of determination ( R2), and root mean square error (RMSE). Results show that the S_G-BP neural network model has the best performance among the BP neural network models, with R2 of 0.960 9 and RMSE of 2.379 7. The SNV-SVM model has the best performance among the SVM models with R2 of 0.991 1 and RMSE of 1.081 5. The GP models, S_G-GP model has the best performance among GP models, with R2 of 0.928 and RMSE of 3.258 1. In conclusion, the SVM model based on SNV preprocessing has the best training performance. 35 groups of spectral data were used as a prediction set to verify the model performance. According to the model comparison and analysis, the prediction model based on the SVM algorithm is better than the other two algorithms, among which the S_G-based SVM model has the best performance. R2 and RMSE are 0.992 1 and 0.736 9, respectively. Combining the parameters of modeling set and prediction set, the SVM model based on S_G has the best performance in this study. This model can predict soil moisture content under a wide range of temperature stress in cold regions, providing a theoretical foundation for the design and optimization of portable NIR soil moisture rapid measurement instruments in the cold region.

Keyword: Near-infrared spectroscopy; Cold northern region; Temperature stress; Soil moisture content; Prediction model
引言

土壤含水率是土壤属性关键的表征参数之一, 同时也是土壤团粒结构和养分的关键因素, 在农业、 水文、 生态环境、 气象等领域起着十分重要的作用[1, 2]。 土壤含水率的快速准确获取是农业生产中的一项重要任务。 近红外光谱技术(NIRS)具有无损、 在线、 速度快等优点, 近年在各个领域内应用广泛[3, 4]。 一些学者研究发现在近红外区土壤的含水率反射光谱最为敏感。 因此利用近红外反射光谱实现对土壤含水率无损快速测定具有十分重要的意义[5]。 当温度改变时, 分子间的作用力将会发生改变, 进而会影响光谱的变化[6]。 所以近红外光谱仪在检测样品时, 检测结果易受温度变化的影响, 随着温度的升高, 羟基官能团处的光谱移向较低的波长并且变得更窄, 因此温度对于土壤含水率的理化性质影响较大。 梁秀英等[7]利用LS-SVM建立了全光谱范围内的近红外光谱预测模型, 首先探讨了土壤含水量在零摄氏度以上不同土壤温度对最终预测结果的影响。 结果显示, 温度对不同水分含量土壤的近红外光谱模型的精度有一定影响。 通过结合多尺度小波特征和多波长法可以降低其影响; 但该实验设置的温度范围比较小, 只有5~30 ℃; 李小昱等[8]制备了5%~35%的土壤含水率样本, 采用傅里叶法提取了相关特征信息, 然后结合土壤含水率利用偏最小二乘法建立预测模型, 预测模型的R2较高达到了0.988, 证明该方法的可行性与准确性, 但该研究未考虑温度对于土壤含水率的光谱影响。 Thamasopinkul[9]等研究了温度对蜂蜜近红外光谱的影响, 利用偏最小二乘回归方法建立的三个恒温(25, 35和45 ℃)定标模型的R2达到了0.95。 综上所述, 部分学者研究了温度对土壤水分近红外光谱的影响, 但对于温度胁迫的影响范围比较小(多为0 ℃以上), 对于温度范围大以及低温环境下的预测模型还有待研究和提升。

基于近红外光谱, 针对北方寒地土壤, 研究不同温度(-20~40 ℃)胁迫下土样近红外光谱与土壤含水率间的关系, 并进行基于近红外光谱的温度胁迫对土壤含水率预测模型方法的探究。 对全波段原始数据, 结合多元散射校正法(MSC)、 标准正态变量校正法(SNV)、 一阶导数法(D1)、 二阶导数法(D2)和平滑处理(S_G)五种方法, 建立了不同温度胁迫下土壤水分的BP神经网络算法、 优化支持向量机算法(SVM)和高斯过程算法(GP), 对比分析了18种模型的建模效果和预测效果, 选出了最优模型。 可针对北方寒地为设计优化便携式近红外土壤含水率快速测量仪提供科学依据。

1 实验部分
1.1 样品

土壤样品为黑龙江八一农垦大学农学试验基地中的黑土, 其亚类为普通黑土(ordinary chernoze), 供试土壤的有机质含量为52.8 g· kg-1, pH值为5.75, 碱解氮含量为190 mg· kg-1, 有效磷含量为41.5 mg· kg-1, 速效钾含量为182.6 mg· kg-1。 采样深度为垄上除表层土壤后1~15 cm。 将采取的土壤烘干处理, 并利用粉碎机打碎, 然后手工研磨, 最后利用50目网过筛处理, 得到直径大小为0.355 mm的土壤粉末进行下一步处理。 将得到的土壤粉末放置容器中并逐步加入纯净水稀释, 充分搅拌均匀, 依次配置成不同湿度的实验样品。 将配置好的土壤样品依次放入到相同规格的铝制样品盒中并镇压刮平, 使得不同湿度的土壤样品能够保证在样品盒中表面平整、 体积一致。 依据田地实际条件以5%为间隔制备了15%~50%共8种不同湿度的土壤样品。 将制备好的样品分别置于土壤样品恒温保存控制箱中, 将其分别置于以5 ℃为间隔大小的-20~40 ℃共13种温度环境下, 使其温度达到相应温度。 制备的土壤样本湿度基本信息如表1所示。

表1 土壤样本湿度基本信息 Table 1 Basic information of soil moisture
1.2 仪器

选择德国Bruker公司所制造的TANGO型近红外光谱仪获取光谱数据。 仪器分辨率为8 cm-1, 光谱波数范围为11 520~4 000 cm-1, 配备了一个IN311/C型号的旋转台和直径为50 mm的IN311-S材料样品杯, 测量方式为漫反射。 恒温装置采用BYAU-2019-1型号的土壤样品恒温保存控制箱, 控制精度为± 0.5 ℃。 土壤湿度测量装置采用德国IMKO公司的TRIM-PICO的土壤水分仪, 分析软件采用UnscramblerX10.3(64位)和Matlab2019b。

1.3 光谱数据预处理

土壤样本的原始光谱如图1所示。

图1 土壤原始近红外光谱图Fig.1 Original near infrared spectra of soil

土壤原始光谱数据受差异化光谱散射信息及光谱曲线间的基线偏移和倾斜等噪声的影响。 为提高光谱信噪比, 对于在不同温度条件下收集的不同水分近红外光谱数据, 采用多种方法进行预处理。 包括可以消除光谱散射效应的多元散射校正方法[10, 11](MSC); 可以消除因实验样品颗粒大小产生的影响及减少实验样品表面散射现象的标准正态变量校正(SNV); 可以消除基线漂移和平缓背景引起的干扰的一阶导数处理; 能够提高分辨率和光谱灵敏度并能克服背景颜色或其他因素引起的误差的二阶导数处理; 以及可以消除光谱信号中随机噪声的平滑处理方法。 处理后的光谱如图2(a—e)所示。

图2 经过预处理的土壤近红外光谱图
(a): MSC预处理; (b): SNV预处理; (c): 一阶导数预处理; (d) 二阶导数预处理; (e): 平滑预处理
Fig.2 Preprocessed near infrared spectra of soil
(a): Preprocessed by MSC; (b): Preprocessed by SNV; (c): Preprocessed by first derivative; (d): Preprocessed by second derivative; (e): Preprocessed by smoothing

1.4 建模方法

将104个样本数据按照2:1的比例进行随机划分。 69个样本数据做为建模集数据, 35个样本作为验证集数据。 利用具有分类和映射功能的BP网络、 能够有效地解决数据分析中高维特征回归的问题支持向量机(SVM)、 适用低维数场景以及小样本的回归问题中且具有平滑的特性的高斯过程(GP)三种方法进行建模及预测验证[12, 13]

2 结果与讨论
2.1 不同模型建模集训练效果

2.1.1 BP神经网络模型训练效果

首先利用MATLAB建立基于BP, MSC-BP, SNV-BP, D1-BP, D2-BP, S_G-BP的6种预测模型, 为了加快求解速度和准确性, 将数据标准化。 将104组实验数据中的三分之二(69组)用作建模数据。 对BP神经网络相关参数进行设置, 其中模型的学习率、 目标误差和最大训练次数分别为0.05, 0.000 1和5 000。 经过对比试验, 确定神经网络内隐层单元的个数为20个时模型的效果最佳, 建立的六种BP模型的R2分别为0.958 7, 0.958 2, 0.958 9, 0.950 9, 0.958 1和0.960 9, RMSEC分别为2.356 0, 2.372 9, 2.429 0, 2.563 0, 2.425 5和2.379 7。 经BP神经网络训练的最佳模型为基于S_G的BP神经网络模型, 效果如图3(a)所示, 模型的R2为0.960 9, RMSE为2.379 7。

图3 基于不同算法的最佳训练效果
(a): S_G-BP模型; (b): SNV-SVM模型; (c): S_G-GP模型
Fig.3 The best training effects based on different algorithms
(a): S_G-BP model; (b): SNV-SVM model; (c): S_G-GP model

2.1.2 SVM模型训练效果

将69组土壤样本分别在SVM, MSC-SVM, SNV-SVM, D1-SVM, D2-SVM和S_G-SVM六种模型中训练, 径向基函数(高斯核)可以将每一个特征映射到一个无穷维的特征空间, 有利于参数的选择, 因此以径向基函数作为核函数做训练, 并利用leave-one-out cross validation优化了惩罚参数, 确定了最佳参数为0.87, 提高了模型的预测精度。 建立的六种SVM模型的R2分别为0.989 8, 0.990 0, 0.991 1, 0.988 2, 0.988 4和0.989 5, RMSEC分别为1.166 2, 1.143 6, 1.081 5, 1.221 2, 1.218 2和1.202 7。 最终经SVM训练的最佳模型为基于SNV的SVM模型, 效果如图3(b)所示, 此模型的R2为0.991 1, RMSE为1.081 5。

2.1.3 GP模型训练效果

建立基于高斯过程的GP, MSC-GP, SNV-GP, D1-GP, D2-GP和S_G-GP的六种模型, 各模型的R2分别为0.920 7, 0.907 3, 0.912 2, 0.919 1, 0.907 1和0.920 8, RMSEC分别为3.300 1, 3.509 5, 3.433 8, 3.348 6, 3.314 4和3.258 1。 相较来说基于S_G的GP模型的效果最好, 模型的R2为0.928, RMSE为3.258 1。 训练效果如图3(c)所示, 从图中可以看出, 没有达到理想建模结果, 其效果弱于BP神经网络和SVM训练模型。

2.2 不同模型预测集验证效果

为检验所建立模型的稳定性和可靠性, 利用剩余的三分之一(35组)的土壤样品数据来进行各模型的精度与预测效果验证。 在所建立的BP, MSC-BP, SNV-BP, D1-BP, D2-BP, S_G-BP, SVM, MSC-SVM, SNV-SVM, D1-SVM, D2-SVM, S_G-SVM, GP, MSC-GP, SNV-GP, D1-GP, D2-GP和S_G-GP共18种土壤水分含量预测模型中, 代入35组土壤样本数据, 各算法的最佳模型验证效果分别如图4(a—c)所示, 从图中可以发现, SVM预测模型的效果要比BP神经网络和高斯过程好得多, 其中基于S_G的SVM预测模型效果最好。 其决定系数和均方根误差分别达到了0.992 1和0.736 9。

图4 基于不同算法的最佳预测拟合效果
(a): S_G-SVM模型; (b): BP模型; (c): MSC-GP模型
Fig.4 The best prediction fitting effects based on different algorithms
(a): S_G-SVM model; (b): BP model; (c): MSC-GP model

2.3 不同模型性能比较分析

如图5所示, 对比分析不同算法模型的预测值与实际的测定值, 结果表明, 基于原始数据以及五种不同预处理方法的SVM模型整体的预测结果较其他两种方法更加准确。

图5 预测结果对比图
(a): 基于原始数据的各模型预测结果; (b): 基于MSC预处理的各模型预测结果; (c): 基于SNV预处理的各模型预测结果; (d): 基于一阶导数预处理的各模型预测结果; (e): 基于二阶导数预处理的各模型预测结果; (f): 基于平滑处理的各模型预测结果
Fig.5 Comparison of prediction results
(a): Based on original data; (b): Based on MSC preprocessing; (c): Based on SNV preprocessing; (d): Based on first derivative preprocessing; (e): Based on the preprocessing of second derivative; (f): Based on smoothing preprocessing

依据图3和图5模型预测效果, 结合表2R2和RMSE参数发现, 无论在基于各算法的建模集还是预测集中, 基于SVM的模型表现最佳, 其中基于SNV的SVM模型为建模集中的最佳模型。 在各算法的预测集中, 基于S_G的SVM模型相较于本组其他模型预测效果最佳, 基于原始数据的BP神经网络模型相较于本组其他模型预测效果最佳, 基于MSC的GP模型预相较于本组其他模型预测效果最佳。 最终预测结果表明支持向量机模型的拟合效果均优于其他两种模型, 因此综合建模集与预测集指标最终确定基于S_G的SVM模型为北方寒地土壤含水率最佳预测模型。 三种模型参数如表2所示。

表2 不同模型参数对比 Table 2 Comparison of different model parameters

王璨[14]等利用卷积神经网络在常温状态下对土壤含水率进行了预测, 其预测模型的决定系数为0.981。 梁秀英[7]等在5~30 ℃范围内的温度胁迫下利用最小二乘支持向量机建模, 建立的最终模型的预测集相关系数最高为0.988 7, 均方根误差最小达到0.901 1, 但研究的温度胁迫范围较小, 不能满足低温胁迫下的实际情况。 董桂梅[3]等在常温环境下对含水率在0%~17%的土壤利用偏最小二乘法进行建模预测, 得到最佳模型的决定系数为0.978 7, 预测均方根误差为1.021。 本研究最佳模型决定系数达到0.992 1, 且温度胁迫测量范围更大, 因此所确定的最佳模型精度有所提高、 实用性更强。

综上所述, 本研究所得最优方法精度得到了提高, 并且温度胁迫范围以及土壤湿度范围相对来说更大, 弥补了现有的近红外土壤含水率快速测量仪的缺陷。

3 结论

利用近红外光谱针对北方寒地土壤对大范围温度胁迫下(-20~40 ℃)土壤的含水率的变化进行研究。 以全波段原始数据为基础, 结合不同的近红外光谱预处理方法, 建立了不同温度胁迫下土壤含水量的定量预测模型, 包括BP神经网络、 支持向量机(SVM)和高斯过程(GP)共18种预测模型。 最终选出基于S_G的SVM模型为最佳模型, 基于S_G的SVM预测模型的决定系数R2和均方根误差RMSE分别达到了0.992 1和0.736 9, 优于其他模型。 此模型可以作为大范围温度胁迫条件下(北方寒地)土壤含水率的有效预测方法, 有效的弥补了现有的近红外土壤含水率快速测量仪工作环境范围与精度的缺陷, 为设计优化便携式近红外土壤含水率快速测量仪提供参考。

参考文献
[1] Kumar S V, Dirmever P A, Peters-Lidard C D, et al. Remote Sensing of Environment, 2018, 204: 392. [本文引用:1]
[2] CAI Qing-kong, TAO Liang-liang, JIANG Rui-bo, et al(蔡庆空, 陶亮亮, 蒋瑞波, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2020, 51(7): 202. [本文引用:1]
[3] LIU Jin-ming, GUO Kun-lin, ZHEN Feng, et al(刘金明, 郭坤林, 甄峰, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2020, 36(18): 188. [本文引用:2]
[4] GUO Wen-chuan, ZHU De-kuan, ZHANG Qian, et al(郭文川, 朱德宽, 张乾, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2020, 51(9): 350. [本文引用:1]
[5] YIN Zhe, SHAN Zhi-jie, YU Yang, et al(殷哲, 单志杰, 于洋, ). Forestry and Environmental Science(林业与环境科学), 2020, 36(3): 121. [本文引用:1]
[6] REN Dong, QU Fang-fang, LU An-xiang, et al(任东, 瞿芳芳, 陆安详, 等). Near Infrared Spectroscopy and Its Application(近红外光谱分析技术与应用). Beijing: Science Press(北京: 科学出版社), 2016. 51. [本文引用:1]
[7] LIANG Xiu-ying, LI Xiao-yu(梁秀英, 李小昱). Journal of Transduction Technology(传感技术学报), 2011, 24(8): 1228. [本文引用:2]
[8] LI Xiao-yu, XIAO Wu, LI Pei-wu, et al(李小昱, 肖武, 李培武, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2009, 40(5): 64. [本文引用:1]
[9] Thamasopinkul C, Ritthiruangdej P, Kasemsumran S, et al. Journal of Near Infrared Spectroscopy, 2017, 25(1): 36. [本文引用:1]
[10] Mou Y, You X G, Xu D Q, et al. Chemometrics and Intelligent Laboratory Systems, 2014. 132: 168. [本文引用:1]
[11] WANG Zhan, WANG Ke, WANG Wei-chao(王展, 王可, 王伟超). Laser & Optoelectronics Progress(激光与光电子学进展), 2019, 56(2): 217. [本文引用:1]
[12] SUN Xiao-xiang, WANG Fang-dong, ZHAO Xiao-min, et al(孙小香, 王芳东, 赵小敏, ). Journal of China Agricultural Resources and Regional Planning(中国农业资源与区划), 2019, 40(3): 35. [本文引用:1]
[13] Majdar R, Ghassemian H. International Journal of Remote Sensing, 2017, 38(15): 4265. [本文引用:1]
[14] WANG Can, WU Xin-hui, LI Lian-qing, et al(王璨, 武新慧, 李恋卿, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(1): 36. [本文引用:1]