基于可见/近红外光谱和数据驱动的机器学习方法测量土壤有机质和总氮
章海亮1, 谢潮勇1, 田彭1, 詹白勺1, 陈再良1, 罗微1,*, 刘雪梅2,*
1.华东交通大学电气与自动化工程学院, 江西 南昌 330013
2.华东交通大学土木建筑学院, 江西 南昌 330013
*通讯作者 e-mail: 475483235@qq.com; weil_ecjtu@163.com

作者简介: 章海亮, 1977年生,华东交通大学电气与自动化工程学院教授 e-mail: hailiang.zhang@163.com

摘要

土壤养分直接关系到作物产量与品质状况, 然而传统化学方法检测存在化学试剂消耗大、 耗时费力等问题, 不能满足精细农业的需求。 快速获取土壤养分信息是发展精细农业、 绿色农业的关键, 想要了解土壤肥力状况, 必须先了解有机质和总氮的含量状况。 许多研究表明, 长波近红外光谱被广泛应用于土壤检测领域, 然而短波可见/近红外光谱在土壤有机质和总氮的研究上却非常罕见。 以江西省吉安市安福县和南昌市新建区的四个村庄作为研究区, 根据2×2网格法采集了深度为10~30 cm的棕壤、 红壤和水稻土三种最为典型的土壤样品共180份。 经过研磨、 风干等处理后用四分法均匀划分为两份, 用于测定样品光谱信息和理化信息。 将土壤样品按照2∶1(120∶60)划分为建模集和预测集。 考虑到首尾端波段噪声较大, 故去除325~349和1 051~1 075 nm波段, 将350~1 050 nm波段用于光谱分析。 通过连续投影算法(SPA)筛选出有机质12个特征波长点, 总氮11个特征波长点, 考虑到土壤光谱信息与土壤理化性质之间可能存在非线性联系, 建立全波段与特征波长的线性偏最小二乘回归(PLSR)模型和非线性最小二乘支持向量机(LS-SVM)模型对土壤有机质和总氮进行研究, LS-SVM模型采用两步网格搜索法优化了两个超参数 γ σ2。 研究结果表明: (1)土壤的光谱反射率随波长增加反射率升高, 反射率曲线中460、 550、 580、 740和900 nm处有较为明显的吸收特征。 (2)从PLSR模型和LS-SVM模型结果分析可知, 非线性模型LS-SVM具有更好的预测精度, 分析认为土壤光谱信息与土壤理化性质之间存在一些非线性关系。 (3)通过连续投影算法筛选的特征波长提高了模型精度, 优化了模型运行效率。 SPA-LS-SVM模型是所有模型中最优的预测模型, 其中有机质模型的Rpre2为0.884 7, RMSEp为0.104 8, RPD为2.945 0, 总氮模型的Rpre2为0.901 8, RMSEp为0.010 4, RPD为3.191 1。 (4)本研究说明可见/近红外光谱能够用于测量不同类型的土壤有机质和总氮含量, 并且达到较好的预测效果。 可见/近红外光谱在土壤检测领域具有巨大潜力。

关键词: 土壤有机质; 总氮; 连续投影算法; 偏最小二乘回归; 最小二乘支持向量机
中图分类号:S151.5+5 文献标志码:A
Measurement of Soil Organic Matter and Total Nitrogen Based on Visible/Near Infrared Spectroscopy and Data-Driven Machine Learning Method
ZHANG Hai-liang1, XIE Chao-yong1, TIAN Peng1, ZHAN Bai-shao1, CHEN Zai-liang1, LUO Wei1,*, LIU Xue-mei2,*
1. School of Electrical and Automation Engineering, East China Jiaotong University, Nanchang 330013, China
2. School of Civil Engineering and Architecture, East China Jiaotong University, Nanchang 330013, China
*Corresponding authors
Abstract

Soil nutrient status is directly related to crop yield and quality. However, traditional chemical methods have problems such as large consumption of chemical reagents, being time-consuming and labor-intensive, and cannot meet the needs of precision agriculture. Quickly obtaining soil nutrient information is the key to developing precision and green agriculture. To understand soil fertility, one must first understand the content of organic matter and total nitrogen. Many studies have shown that near-infrared spectroscopy is widely used in soil detection, but visible/near-infrared spectroscopy is very rare in the study of soil organic matter and total nitrogen. Taking four villages in Anfu County, Ji'an City, Jiangxi Province, and Xinjian District, Nanchang City as the study areas, the three most typical soil samples, brown soil, red soil and paddy soil, with a depth of 10~30 cm were collected according to the 2×2 grid method180 share. After grinding, air-drying, etc., the samples were divided into two parts by the method of quartering, which was used to determine the samples' spectral and physicochemical information. The soil samples were divided into modeling set and a prediction set according to 2∶1 (120∶60). Considering the large noise in the first-end band, the 325~349 nm and 1 051~1 075 nm bands were removed the remaining 350~1 050 nm band was used for spectral analysis. 12 wavelength points of OM and 11 wavelength points of TN were screened out by successive projections algorithm. Considering the possible nonlinear relationship between soil spectral information and soil physical and chemical properties, a full-band, the linear partial least squares regression (PLSR) model of characteristic wavelengths and the nonlinear least squares support vector machine (LS-SVM) model were used to study soil organic matter and total nitrogen. The LS-SVM model was optimized by a two-step grid search method. Two hyperparameters γ and σ2. The results show that: (1) The spectral reflectance of soil increases with the increase of wavelength, and the reflectance curve has obvious absorption characteristics at 460, 550, 580, 740 and 900 nm. (2) From the analysis of the results of the PLSR model and the LS-SVM model, it can be seen that the nonlinear model LS-SVM has better prediction accuracy, which may be due to the nonlinear relationship between soil spectral information and soil physical and chemical properties. (3) The characteristic wavelength screened by the continuous projection algorithm improves the model accuracy and optimizes the model operation efficiency. The SPA-LS-SVM model was the best predictive model among all the models, among which theRpre2 of the organic matter model was 0.884 7, the RMSEp was 0.104 8, and the RPD was 2.945 0. TheRpre2 of the total nitrogen model was 0.901 8, the RMSEp was 0.010 4, and the RPD was 3.191 1. (4) This study shows that visible/near-infrared spectroscopy can measure different types of soil organic matter and total nitrogen content, achieving better prediction results. Visible/NIR spectroscopy has great potential in the field of soil detection.

Keyword: Soil organic matter; Total nitrogen; Successive projections algorithm; Partial least squares regression; Least-squares support vector machine
引言

土壤作为大多数陆地生命的基础, 具有无与伦比的复杂性和动态性。 土壤中的有机质、 总氮等营养物质为陆生生物和其他生物提供了生存必需品, 对维持生态平衡、 发展自然提供了保障[1]。 土壤养分状况直接关系到作物产量与品质状况, 然而传统化学方法存在化学试剂消耗大、 耗时费力等问题, 不能满足精细农业的需求。 快速获取土壤养分信息是发展精细农业、 绿色农业的关键, 想要了解土壤肥力状况, 必须先了解有机质和总氮的含量状况。

许多研究表明, 将近红外光谱用于探究土壤有机质、 总氮具有巨大潜力, 近红外光谱技术凭借其快速、 便携等优点成为国内外学者研究土壤状况的热点。 Shupei等[2]利用近红外光谱探究了不同土壤粒径下的反射率规律, 研究了不同粒径时近红外光谱检测土壤氮的影响。 结果表明, 土壤粒径对土壤氮的检测精度具有很大影响, 土壤粒径差距越大, 测量精度也就越差。 Guindo等[3]研究了粒子群优化结合堆叠泛化的新型框架, 改进了有机质和氮在可见/近红外区域的检测。 Ahmad等[4]采用近红外光谱分析了森林土的有机碳、 总氮和PH值, 达到较好的预测效果。 光谱波长区域可划分为: 紫外区域200~400 nm, 可见光范围400~800 nm, 近红外范围900~1 700 nm。 现有研究结果表明: 土壤养分含量在光谱领域主要是对350~2 500 nm可见/长波近红外区域的研究[5], 但是对于325~1 075 nm可见/短波近红外区域的研究却非常罕见。

近年来, 机器学习成为研究领域的热门话题, 其中偏最小二乘回归(partial least squares regression, PLSR)[6]和最小二乘支持向量机(least squares-support vector machine, LS-SVM)[7]在线性与非线性土壤检测方面表现出良好的预测效果。

本研究调查了江西南昌市和吉安市最为典型的三种土壤类型——棕壤、 红壤和水稻土作为本研究对象, 采用可见/近红外光谱结合机器学习算法研究其有机质和总氮的含量状况。 为采集地精细施肥提供理论与技术参考。

1 实验部分
1.1 样品采集与处理

样品获取地位于中国江西省南昌市和吉安市, 整个区域属华东地区(南纬24°29'—30°04', 东经113°34'—118°28'), 处于亚热带季风气候。 该区域降雨量充沛(平均年降水量约1 600 mm)、 地质资源丰富、 环境污染较少, 适合测量土壤所含有的有机质、 总氮等。

棕壤、 红壤和水稻土是该地区最为典型的三种土壤类型。 实验选取了如图1(a)所示的吉安市的安福县(水稻土和棕壤)和南昌市的新建区(水稻土和红壤)所在的四个村庄作为样品采集地。 采集时按照2×2网格确定采样点, 采样深度为垂直剖面10~30 cm, 如图1(b)和图1(c)所示。 采集过程中, 剔除采集区内的石子、 植物根茎等杂质, 按照对角的两个区域均匀采集100 g样品并混合均匀。 每个地区采集45份样品, 共180份样品作为本研究对象。

图1 样品采集示意图
(a): 采集地; (b): 采样网格; (c): 采样深度
Fig.1 Schematic diagram of sample collection
(a): Collection places; (b): The net of collection; (c): The deep of collection

1.2 样品的实验室分析

将采集到的样品放置在常温实验室内, 用电风扇风干48 h。 充分研磨风干后的土样, 碾碎并用2 mm筛子过筛。 根据四分法均分每份样品至两份, 一份用于光学检测, 一份用于化学检测。

1.2.1 化学分析

化学分析主要是对样品中有机质和总氮含量的测定, 分别采用重铬酸钾氧化法和杜马斯燃烧法进行测量。 实验所测得的样品有机质和总氮含量见表1

表1 土壤样品中有机质和总氮的含量 Table 1 Statistics of OM and TN in soil samples

1.2.2 光谱测定

研究中光谱采集采用手持式地物光谱仪, 光谱检测范围是325~1 075 nm, 光谱分辨率为1 nm, 探头视场角为5°。 考虑到仪器本身与环境光等影响, 检测时将光源探头深插土壤样品内, 每份样品采集光谱10次, 其平均值作为该样品的反射光谱, 反射曲线如图2所示。

图2 光谱反射曲线Fig.2 Spectral reflectance curve

1.3 筛选特征波长

在多元分析中, 合理地选择特征波长可以有效地减少甚至消除非信息因素的影响, 降低高维、 冗余数据矩阵的维数。 降维后的数据可以有效缩短模型运行时间, 提高模型运行效率, 通常还可以改善模型的预测效果。

连续投影算法(successive projections algorithm, SPA)通过前向迭代找到光谱信息中包含最小冗余信息的变量组, 使变量之间的共线性最小。 SPA被广泛用于光谱信息的数据降维。

1.4 校正模型

将所采集的180份样品按照2∶1划分为建模集和预测集。 其中120份作为建模集, 60份作为预测集建立校正模型。 本研究建立了PLSR和LS-SVM模型。 PLSR是典型的多元线性回归方法。 大量研究表明, PLSR能够很好地从土壤光谱信息估测土壤的理化信息[8]。 LS-SVM是支持向量机(support vector machine, SVM)的一个修改版本, 在SVM基础上在训练误差函数中应用最小二乘误差, 能够快速解决一些线性以及非线性校准的问题。

模型的评价指标包括决定系数(coefficient of determination, R2)、 预测均方根误差(root mean square error of prediction, RMSEp)和相对分析误差(relative percent deviation, RPD)。 通常RMSEp越小, R2越接近真值1, 模型性能越好、 精度越高。 RPD常用于描述模型稳定性, RPD计算公式如式(1)

RPD=i=1n(ŷi-y¯i)2i=1n(ŷi-yi)2(1)

式(1)中, yi是样品的真实值,y¯iŷi分别是样品的平均值和模型预测值。

当RPD<1.4时, 认为模型不可靠; 1.4<RPD<2.0时, 模型较为可靠; 2.0<RPD<2.5时, 模型具有较高的可靠性, 可用于建模分析; RPD>2.5时, 模型非常可靠, 模型性能好。

2 结果与讨论

从图2反射曲线可以看出, 所有样品的反射率大致相同, 整个光谱波段反射率呈现上升趋势。 具有明显土壤特征吸收峰较少, 在整个可见光/近红外区域的光谱反射率可能由于土壤颜色、 有机成分和矿物成分的能量吸收所决定。 在近红外区域的吸收峰被验证与分子和原子的合频与倍频吸收信息密切相关。 在460和740 nm可见光范围的吸收峰与450 nm的蓝色区域和750 nm的近红外区域相关。 在短波近红外区域的吸收特性可能是由氧化物所引起的。 据报道, 在450 nm处的吸收带可以由单个或者成对的Fe3+电子跃迁到更高能态时所引起。 在460、 550、 580、 740和900 nm可以观察到较为明显的吸收特征, 这些吸收特性与C—H+C—H、 C—H+C—C、 C—H+N—H的结合有关。 这一研究结果与Liu等的研究结果一致[9]

分析光谱时, 去除325~349和1 051~1 075 nm首尾端噪声较大的波段, 将350~1 050 nm的波段进行数据分析。

2.1 特征波长筛选

采用了SPA算法对原始数据波段进行了筛选, SPA运行过程如图3所示。 图3(a)和(b)分别是有机质和总氮经过SPA筛选的结果。 图中红色菱形表示被选取的特征波长点, 并采用数字进行标识。 将特征波长数值范围设置为1~30。 通过图3可知: 有机质被挑选出12个特征波长点, RMSE为0.166。 总氮被挑选出11个波长点, RMSE为0.107。

图3 SPA运行过程
(a): 有机质; (b): 总氮
Fig.3 SPA running process
(a): OM; (b): TN

2.2 模型建立与分析

在模型分析时, 绝大多数模型属于线性模型, 线性模型只能处理各变量之间的线性联系。 本研究中引入了一种非线性模型LS-SVM来优化模型预测结果。 LS-SVM中引入了两个超参数γσ 2, 采用两步网格搜索方法对这两个参数进行了优化, 可以有效地处理线性与非线性问题。

将SPA得到的特征波长与原始光谱建立线性回归模型PLSR和非线性模型LS-SVM。 如表2和3所示。 模型结果表明: LS-SVM的模型效果优于PLSR模型, 其RPre2均达到了0.875 0以上, RMSEp也显著减小。 这一现象说明土壤光谱与有机质和总氮之间存在非线性联系, LS-SVM能够很好地预测土壤有机质和总氮含量。 基于SPA提取的特征波长建立的校正模型优化了原始数据模型的精度, 缩短了模型运行时间, 提高了模型的稳定性。 所有模型中, SPA-LS-SVM是最优模型, 其中有机质模型的Rpre2为0.884 7, RMSEp为0.104 8, RPD为2.945 0, 总氮模型的Rpre2为0.901 8, RMSEp为0.010 4, RPD为3.191 1。 模型预测有机质和总氮散点图如图4所示, 图4(a)和(b)分别是SPA-PLSR模型预测有机质和总氮含量的散点图, 图4(c)和(d)分别是SPA-LS-SVM模型预测有机质和纵氮含量的散点图。 从图中可以看出: 两种模型可以精准测量土壤有机质和总氮的含量, 且SPA-LS-SVM预测效果更好。

表2 PLSR模型预测效果 Table 2 Predictive effect of PLSR models
表3 LS-SVM模型预测效果 Table 3 Predictive effect of LS-SVM models

图4 SPA-PLSR模型和SPA-LS-SVM模型含量预测散点图
(a): 有机质; (b): 总氮; (c): 有机质; (d)总氮
Fig.4 The SPA-PLSR models and SPA-LS-SVM models predicted scatter plots
(a): OM; (b): TN; (c): OM; (d): TN

本研究建立了数据驱动的机器学习模型, 通过连续投影算法大大缩短了模型运行时间、 提高了模型性能。 相比于Liu等[9]在同光谱范围(325~1 075 nm)下预测土壤有机质和总氮, 模型所表现出更佳的性能, 优化了前人的研究成果。 这项研究成果能够为采集地精细农业的发展提供理论基础。

3 结论

为了实现可见/近红外区域土壤有机质和总氮的含量信息的快速获取, 研究了江西两地最为典型的三种土壤类型, 分析了样品的有机质和总氮能够被光谱信息估测其含量的机理。 建立了分析模型, 包括线性PLSR模型和非线性LS-SVM模型, 为了比较模型效果, 将原始数据与通过SPA筛选的特征波长两种数据矩阵作为模型输入数据。 研究结果表明:

(1)土壤的光谱反射率随波长增加反射率升高, 反射曲线中在460、 550、 580、 740和900 nm处有较为明显的吸收特征。

(2)从PLSR模型和LS-SVM模型结果分析可知, 非线性模型LS-SVM具有更好的预测精度, 分析认为由于土壤光谱信息与土壤理化性质之间存在一些非线性联系。

(3)通过连续投影算法筛选的特征波长提高了模型精度, 优化了模型运行效率。 SPA-LS-SVM模型是所有模型中最优的预测模型, 其中有机质模型的Rpre2为0.884 7, RMSEp为0.104 8, RPD为2.945 0, 总氮模型的Rpre2为0.901 8, RMSEp为0.010 4, RPD为3.191 1。

(4)本研究说明可见/近红外光谱能够用于测量不同类型的土壤有机质和总氮含量, 并且达到较好的预测效果。 可见/近红外光谱在土壤检测领域具有巨大潜力。

参考文献
[1] Guo P, Li T, Gao H, et al. Remote Sensing, 2021, 13(19): 4000. [本文引用:1]
[2] Shupei X, Yong H. Molecules, 2019, 24(13): 2486. [本文引用:1]
[3] Guindo M L, Kabir M H, Chen R, et al. Sensors, 2021, 21(14): 4882. [本文引用:1]
[4] Ahmad J H F, Meder R, Hamid H A, et al. Journal of Near Infrared Spectroscopy, 2021, 29(3): 148. [本文引用:1]
[5] RodríguezFebereiro M, Dafonte J, Fand i?o M, et al. Remote Sensing, 2022, 14(6): 1326. [本文引用:1]
[6] Vestergaard R, Vasava H B, Aspinall D, et al. Sensors, 2021, 21(20): 6745. [本文引用:1]
[7] Liu X, Liu J. Measurement, 2013, 46(10): 3808. [本文引用:1]
[8] WANG Si-nan, LI Rui-ping, WU Ying-jie, et al(王思楠, 李瑞平, 吴英杰, ). Transactions of the Chinese Society of Agricultural Engineering(农业机械学报), 2022, 53(5): 332. [本文引用:1]
[9] Liu X, Liu J. Spectroscopy Letters, 2014, 47(10): 729. [本文引用:2]