一种新的光谱参量预测黑土养分含量模型
张东辉, 赵英俊, 秦凯
核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室, 北京 100029

作者简介: 张东辉, 1985年生, 核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室高级工程师e-mail: donghui222@163.com

摘要

我国东北黑土富含养分, 随着土壤数字制图、 精确农业和土壤资源调查等研究的深入, 引入航空高光谱数据并提供科学的预测结果成为研究热点。 数据源为CASI-1500航空高光谱成像系统, 光谱范围380~1 050 nm, 空间分辨率1.5 m。 在黑龙江建三江地区采集59个土壤样本, 化验获得有机质、 全氮、 全磷和全钾含量数据, 选择eps-regression支持向量机模型, BP神经网络和PLS1最小二乘回归模型, 建立光谱与含量的机器学习模型。 通过评价3种模型的预测精度, 选用支持向量机方法, 对航空高光谱数据进行全氮、 全磷和全钾的信息提取, 采用神经网络方法, 反演了有机质信息。 研究表明: 以光谱统计量、 光谱特征值和光谱信息量为大类指标, 所选取的18个子指标, 能够反映土壤光谱的综合情况, 是一种新的土壤光谱数据处理方法。 有机质和全钾信息提取精度最高的算法是神经网络法, 误差分别为1.21%和0.81%, 而支持向量机算法在提取全氮和全磷信息时, 验证样本的实测均值和预测均值完全吻合, 精度最高。 评价航空高光谱提取土壤养分的综合精度, 有机质、 全氮、 全磷和全钾提取误差分别为5.25%, 6.05%, 2.74%和8.90%, 在全磷反演中精度最高。

关键词: 机器学习; 航空高光谱; 支持向量机; 神经网络; 黑土养分
中图分类号:O433.4 文献标识码:A
A New Model for Predicting Black Soil Nutrient Content by Spectral Parameters
ZHANG Dong-hui, ZHAO Ying-jun, QIN Kai
National Key Laboratory of Remote Sensing Information and Imagery Analyzing Technology, Beijing Research Institute of Uranium Geology, Beijing 100029, China
Abstract

In the field of soil digital mapping, precision agriculture and soil resource investigation, the study of aerial hyperspectral data to provide scie.pngic prediction results by aerial hyperspectral have become the focus of research, especially in the case of black soil rich in nutrients in Northeast China. The data source is CASI-1500 aerial hyperspectral imaging system with a spectral range of 380~1 050 nm, and spatial resolution of 1.5 m. 59 soil samples were collected from the Jiansanjiang area in Heilongjiang, and the contents of organic matter, total nitrogen, total phosphorus and total potassium were obtained. In addition, the eps-regression support vector machine model, BP neural network and PLS1 least square regression model are selected to establish the machine learning model of spectrum and content. A support vector machine (SVM) method is used to extract the total nitrogen, total phosphorus and total potassium in aerial hyperspectral data by evaluating the prediction accuracy of the 3 models. The information of organic matter is retrieved by neural network. The results revealed that the date computed by the spectral statistic, spectral characteristics and spectral values is a kind of effective spectrum of training data, which can reflect the soil comprehensive reflectance situation. The neural network method is the most accurate method for the extraction of organic matter and total potassium. The errors are 1.21% and 0.81% respectively. The accuracy is the highest in the extraction of total nitrogen and total phosphorus information by support vector machines (SVM). The comprehensive accuracy of aerial hyperspectral extraction of soil nutrients was evaluated. The extraction errors of organic matter, total nitrogen, total phosphorus and total potassium were 5.25%, 6.05%, 2.74% and 8.90%, respectively, and the total phosphorus retrieval accuracy was the highest.

Key words: Machine learning; Aerial hyperspectral; Support vector machines; Neural networks; Black soil nutrients
引 言

土壤养分指的是土壤中能直接或经转化后被植物根系吸收的矿质营养成分, 一般包括氮、 磷、 钾、 钙、 镁、 硫、 铁、 硼、 钼、 锌、 锰、 铜和氯等元素。 我国东北黑土中所含碳的有机物质, 也是泛义的土壤养分[1]。 近年来, 高光谱遥感技术以其光谱分辨率高、 波段连续性强和空间分辨率高等特点, 在土壤成分定量遥感监测中, 发挥越来越大的作用。 在多种数学模型的支持下, 通过建立土样光谱与含量的相关关系, 定量计算养分含量。 郑光辉等采用FieldSpec光谱仪, 揭示了土壤反射光谱估算全氮含量的机理[2]; 薛利红等研究了高光谱反演有机质和全磷的方法, 得出不同土地利用方式对有机质反演精度影响可以忽略, 但全氮需要区分建模的结论[3]; 沈掌泉等应用田间行走式设备, 解决了土壤红外光谱反演土壤碳含量反演时的特征选择和变换问题[4]; Glenn通过小麦叶片光谱碳含量指数, 研究了估算全氮含量的综合方法, 证明了间接法的可行性[5]

在获取数据的基础上, 模型的建立需要解决高光谱数据量大, 波段间冗余度高的问题。 机器学习技术是将现有知识输入计算机, 探寻新知识发现的一系列过程, 将机器学习理论引入这一领域成为研究热点, 支持向量机[6]、 流形学习[7]、 萤火虫算法[8]、 神经网络[9]、 随机森林[10]、 决策树[11]等机器学习方法, 应用于土壤分类、 含量估算、 模型优化、 自动解译、 地物识别等方面。 常规方法是, 将光谱数据或其变化形式, 与化验数据一一对应起来, 输入计算机中得到信息发现的模型, 以此计算未知光谱所代表的土壤成分含量。

由于土壤光谱为点状采用, 不能全面反映研究区整体情况。 此外模型参数设置有较大的随机性, 难以平衡局部最优和全局最优的问题[12]。 以我国东北建三江地区黑土地为例, 提出一种新的基于航空高光谱数据的预测模型, 不直接反演光谱或变换数据, 而将光谱数据深度处理为光谱统计量、 光谱特征值和光谱信息量3大类指标, 涵盖18子类指标, 作为机器学习训练数据。 研究了支持向量机、 神经网络和偏最小二乘回归3种机器学习算法的预测方法, 得出黑土有机质、 全氮、 全磷和全钾的预测值, 实现了航空高光谱黑土养分含量提取。

1 实验部分
1.1 仪器及参数

数据由CASI-1500航空高光谱成像系统(加拿大ITRES)获取。 光谱范围为380~1 050 nm, 空间分辨率为1.5 m, 连续光谱通道数72, 光谱带宽2.3 nm, 总视场角40° , 瞬时视场角0.028° , 每行像元数1 470, 绝对辐射精度小于< 2%。 数据于2017年4月10日采集, 面积70 km2, 飞行高度3 km, 图1红框为航空数据获取区域。 地面测量铺设黑白布, 采用ASD Field Spec光谱仪获取定标光谱, 光谱范围为350~2 500 nm, 采集光谱分辨率为1 nm。

图1 航空数据采集区域及采样点分布图Fig.1 Aerial data area and sampling point distribution map

1.2 测定方法

采样点59个, 样本1的坐标为132° 54'13.24″E, 47° 8'23.49″N, 样本59的坐标为133° 0'3.83″E, 47° 21'28.72″N, 按2 km间隔采集土样。 测区表层为黑色腐殖质层, 厚30~60 cm, 最厚可达1 m以上, 多具圆柱状或粒状结构。 其下为质地粘重的淀积层, 棕色铁锰结核一般较多, 再下为棕黄色粘性母质层。 当天同步采集表层0~20 cm的土样, 剔除大的植物残茬、 石砺等杂物, 置于实验室风干研磨, 过0.15 mm筛选用于含量测定。 有机质采用重铬酸钾容量-外加热法测定, 全氮、 全磷和全钾含量分别采用凯氏定氮法、 NaOH碱熔钼锑抗比色法和钾火焰原子吸收分光光度法测定含量。 土壤养分含量测定结果见表1, 样本1~49用于训练集, 其余10个样本用于预测集。

表1 不同样本点土壤养分含量信息表 Table 1 Soil nutrient content table of different sampling points
1.3 算法实现

选用R语言klap包实现支持向量机模型, AMORE包实现BP神经网络的建立, 利用unsramble 9.7 软件建立最小二乘回归模型, 航空高光谱波段运算由ENVI 5.3的bandmath实现。

2 结果与讨论
2.1 光谱数据预处理

辐射校正将CASI获得的辐射亮度DN值转换为反射率值, 航拍飞机飞行过境时, 实地利用手持式光谱辐射计同步测量已知反射率的黑、 灰和白布光谱数据, 计算CASI传感器在相同波谱范围内的光谱响应值。 几何校正利用机载POS 510系统实现, 记录了每一个GPS时间的姿态数据和位置数据, 通过与基站数据差分后得到每一个像元的六方位元素(X, Y, Z和Roll, Pitch, Heading), 几何位置精度达到米级。 通过异常光谱筛选、 平滑、 去噪、 重采样、 归一化和包络线去除等预处理, 得到采样点反射率数据(图2)。

图2 59个样本航空光谱Fig.2 59 samples of aeronautical spectra

2.2 建立光谱与土壤养分训练数据集

常规方法是将光谱数据或其变化形式, 如导数、 倒数、 对数等作为因变量, 含量数据作为自变量, 建立训练数据集。 这种方法突出典型吸收峰的特征量, 对于有机质等特征吸收峰不显著的养分含量数据, 不能全面反映航空高光谱数据的规律, 容易出现过拟合现象。 鉴于此, 选择光谱统计量、 光谱特征值和光谱信息量作为因变量(表2)。 光谱统计量通过对全波段进行数理计算, 反映了土壤光谱的相对变化幅度, 计算均值、 中值、 反差、 方差、 标准差和离散系数等6个统计量; 虽然土壤光谱强度和反射率之间存在一定的振幅, 但是养分含量所体现的吸收谷和反射峰位置基本不变, 因此计算其蓝边、 绿边、 黄边、 红边、 近红外和红外等6个光谱特征值, 作为第二类参量; 针对具体土壤特征吸收峰, 计算斜率、 吸收指数、 吸收深度、 吸收宽度、 积分和信息熵等6个光谱信息, 反演光谱吸收所代表的信息量大小。 信息熵选择美国Chavez(1984)提出的最佳指数(OIF), 即

OIF=i=1nσi/j=1nRij(1)

式(1)中, σ i为第i波段的标准差, Ri, ji, j波段的相关系数。 OIF值越大, 波段组合的信息量越大。

表2 不同样本点土壤光谱参量统计表 Table 2 Spectral parameters of soil samples at different sampling points

计算18个参量后, 采用min-max归一化处理, 建立光谱与土壤养分训练数据集。

2.3 三种机器学习模型训练

2.3.1 支持向量机

支持向量机属于黑盒算法, 从输入数据到输出结果的过程难以解释, 算法核心是通过定义核函数将输出数据映射到高维特征空间上, 在空间上构建一个最优分类超平面, 因此, 算法能够计算土壤养分预测的全局最优结果。 模型类别选eps-regression, 核函数选linear线性, 采用试错法计算最佳gamma和惩罚因子, gamma设置为10-5~10-1, 惩罚因子选10, 50和100, 根据20遍交叉检验方式评价每次组合的错误偏差。 以全氮预测模型为例, 通过svm.tune函数计算得出, gamma和惩罚因子为10-2和100时, 模型预测精度达到0.922 5, 性能最优。

2.3.2 神经网络模型

将土壤光谱参量视为一组互联的节点, 元素含量作为输出, 经过神经网络训练, 生成一个多层感知器, 达到回归分析的目的。 选择具有任意模式分类和多维函数映射能力的BP神经网络, 采用梯度下降法来计算目标函数的最小值, 建立土壤含量神经网络模型(图3)。 图3显示了神经网络的拓扑结构, 及预测的权值、 截距和训练信息。 构建一个4层神经网络, 即18-5-3-1, 含有2个隐层, 完成土壤养分预测模型的建立。 神经元学习率为4, 采用最小均方根误差法设置训练误差函数, 隐藏层神经元激励函数为传递函数tansig, 输出层神经元激励函数为线性函数purelin, 训练权值更新方法为含有动量的自适应梯度下降法ADAPTgdwm。

图3 有机质含量神经网络模型图Fig.3 Neural network model of organic matter content

2.3.3 偏最小二乘回归模型(PLS)

利用PLS建立回归模型。 第一步采用主成分分析, 提取土壤养分含量与光谱参量相关性最大的因子, 选取最大7个主成分建模; 第二步采用最小二乘法建立回归方程, 保证了因子间多重共线性的去除, 稳定性较好; 第三步对模型预测结果的均方根误差进行评价, 分析回归效果。 有机质、 全氮、 全磷、 全钾训练结果与原始数据均方根误差分别为0.232, 0.199, 0.055 7, 0.090 5。

2.4 预测结果分析

将土壤样本编号为50~59的结果进行分析, 对比三种机器学习模型的含量提取精度(图4)。 统计10个样本的实测均值、 算法预测均值, 并计算二者的相对误差(表3), 结果表明, (1)在有机质定量提取方面, 三种方法的误差接近, 分别为2%, 1.21%和2.04%, 神经网络算法相对精度最高, 更适宜提取研究区的有机质信息; (2)提取全氮信息时, 支持向量机算法的提取均值与实测均值完全吻合, 为通过航空光谱信息反演土壤氮含量提供了理论依据, 相反, 偏最小二乘回归算法误差达到了4.4%, 不适宜全氮信息提取; (3)支持向量机不仅在全氮信息提取方面精度高, 而且在全磷信息提取时, 均值误差也为0%, 神经网络和偏最小二乘回归算法的误差都是1.37%; (4)三种方法在全钾提取时, 误差分别是0.81%, 6.49%和1.60%, 支持向量机算法提取精度最高, 偏最小二乘方法次之, 神经网络模型误差最高; (5)将三种方法提取各类含量的精度相加, 得出航空高光谱提取土壤养分的综合精度, 有机质、 全氮、 全磷和全钾提取误差总计分别为: 5.25%, 6.05%, 2.74%和8.90%, 说明航空高光谱在全磷和有机质提取方面, 精度较高, 与实验室化验结果误差在6%以内。 而在全氮和全钾提取方面, 误差超过了6%。

图4 不同方法实测值与预测值对比Fig.4 Comparison between measured and predicted values of different methods

表3 不同方法预测精度对比 Table 3 Prediction accuracy comparison of different methods
3 结 论

由于土壤湿度、 秸秆含量等因素干扰, 目前土壤养分典型光谱吸收特征难以从机理上获得解释, 研究创新性地将光谱数据处理为18个参量, 综合反映了光谱统计值、 特征值和信息量, 以此建立土壤光谱与元素含量的相关关系, 证明了这种处理方法具有高精度、 高效率的特点。 航空高光谱遥感为土壤含量估算提供了一种高效的数据获取手段, 将原有的点状光谱测量扩展为面状全区的含量估算, 避免了插值方法带来的二次误差, 反演的科学依据得到进一步提升。 将机器学习在航空高光谱信息提取的效果进行了验证, 但是由于数据量大(本文研究区原始数据量高达240 G), 使得处理过程受限于计算机的性能和软件计算效率, 成为大面积信息提取的制约因素, 航空高光谱数据降维、 特征快速集成和高效信息提取算法的研究, 将是进一步的研究方向。

The authors have declared that no competing interests exist.

参考文献
[1] Liu S, Coyne M S, Grove J H. Applied Soil Ecology, 2017, 120: 121. [本文引用:1]
[2] ZHENG Guang-hui, JIAO Cai-xia, SHANG Gang, et al(郑光辉, 焦彩霞, 赏刚, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(10): 3222. [本文引用:1]
[3] XUE Li-hong, ZHOU Ding-hao, LI Ying, et al(薛利红, 周鼎浩, 李颖, ). Acta Pedologica Sinica Chem. (土壤学报), 2014, 51(5): 993. [本文引用:1]
[4] SHEN Zhang-quan, YE Ling-bin, SHAN Ying-jie, et al(沈掌泉, 叶领宾, 单英杰). Acta Pedologica Sinica Chem. (土壤学报), 2014, 51(5): 1011. [本文引用:1]
[5] Glenn F, Daniel R, Garry O. Field Crops Research, 2010, 116(3): 318. [本文引用:1]
[6] Liu Tielin, Wei Zhong. Soil Dynamics and Earthquake Engineering, 2017, 99: 137. [本文引用:1]
[7] Jin Xiuliang, Song Kaishan, Du Jia, et al. Agricultural and Forest Meteorology, 2017, 244: 57. [本文引用:1]
[8] CAI Yue, SU Hong-jun, LI Qian-nan(蔡悦, 苏红军, 李茜楠). Journal of Geo-Information Science(地球信息科学), 2015, 17(8): 986. [本文引用:1]
[9] Chi-Chin Tsai, Hsing-Wen Liu. Soil Dynamics and Earthquake Engineering, 2017, 102: 124. [本文引用:1]
[10] GU Hai-yan, YAN Li, LI Hai-tao, et al(顾海燕, 闫利, 李海涛, ). Geomatics and Information Science of Wuhan University(武汉大学学报信息科学版), 2016, 41(2): 228. [本文引用:1]
[11] ZHAO Dan-ping, GU Hai-yan, JIA Ying(赵丹平, 顾海燕, 贾莹). Science of Surveying and Mapping(测绘科学), 2016, 41(10): 181. [本文引用:1]
[12] Jin Xiuliang, Jia Du, Liu Huanjun, et al. Agricultural and Forest Meteorology, 2016, 218: 250. [本文引用:1]