等效水厚度梯度的玉米叶片氮素反演模型研究
王希1, 陈桂芬1,2,*, 曹丽英1, 马丽1
1. 吉林农业大学信息技术学院, 吉林 长春 130118
2. 长春人文学院, 吉林 长春 130117
*通讯作者 e-mail: guifchen@163.com

作者简介: 王 希, 1982年生, 吉林农业大学信息技术学院硕士研究生 e-mail: xwangjlau@163.com

摘要

针对玉米生产中叶片氮素快速、 无损检测的实际需求, 使用叶级高光谱数据(400~2 500 nm), 依据等效水厚度梯度划分叶片样本, 建立了梯度连续的叶片氮素反演模型, 初步探索了含水量因素对叶片反射率特性及反演模型精度的影响。 首先获取叶级高光谱数据, 再根据等效水厚度数值大小对样本进行排序及滑动划分, 建立了子集集合。 父集除原光谱数据之外还采用了三大类: (1)基线矫正类、 (2)散射校正类和(3)平滑处理类光谱变换方法, 而子集未使用任何光谱变换方法。 建立全波段的PLSR反演模型, 对比模型精度, 初步定量评价了等效水厚度因素对建模精度的影响。 研究结果表明: (1)四组数据中有三组父集反演精度低于最优子集的反演精度, 另外一组持平(2018大田低氮: (父)RCV2=0.48<(子)RCV2=0.57, (父)RPDCV=1.38<(子)RPDCV=1.52; 2018大田高氮: (父)RCV2=0.48<(子)RCV2=0.7, (父)RPDCV=1.39<(子)RPDCV=1.8; 2019大田高氮: (父)RCV2=0.59<(子)RCV2=0.68, (父)RPDCV=1.57<(子)RPDCV=1.77); (2)四组数据的最优子集反演精度都达到甚至超过了定性模型水平, 而父集只有两组; (3)制作反演数据集时在样本筛选问题上需要考虑等效水厚度因素, 以避免过于宽泛的样本选择而导致整体反演精度的损失。 综上, 等效水厚度因素对玉米叶片氮素建模精度存在显著影响, 不可忽视。 在考虑该因素后, 使用叶级高光谱数据对玉米叶片氮素进行快速无损检测的技术方法会更加可信、 可行。

关键词: 叶片氮浓度; 等效水厚度; 高光谱; 光谱变换技术; PLSR; 数据集滑动划分
中图分类号:S131.3 文献标志码:A
Study on Maize Leaf Nitrogen Inversion Model Based on Equivalent Water Thickness Gradient
WANG Xi1, CHEN Gui-fen1,2,*, CAO Li-ying1, MA Li1
1. College of Information Technology, Jilin Agricultural University, Changchun 130118, China
2. Changchun Humanities and Sciences College, Changchun 130117, China
*Corresponding author
Abstract

According to the actual need for rapid and non-destructive testing methods for nitrogen in maize production. Samples were divided according to the equivalent water thickness gradient, and a gradient continuous leaf nitrogen inversion model was established. The influence of water content on leaf reflectance characteristics and the accuracy of the inversion model is preliminarily explored. Firstly, the hyperspectral data of leaf-level are obtained, and then the samples are sorted and sliding divided according to the value of equivalent water thickness, and the subset set is established. In addition to the original spectral data, the parent set also adopts (1) baseline correction; (2) Scattering correction; (3) Smoothing methods, three categories of spectral transformation methods, while subsets do not use any spectral transformation techniques. A full band PLSR inversion model is established, the model accuracy is compared, and the influence of equivalent water thickness on modeling accuracy is preliminarily quantitatively evaluated. The experimental results show that: (1) among the four groups of data, the inversion accuracy of three parent sets is lower than that of the optimal subset, and the other group is the same (2018 field-N: (parent set)RCV2=0.48<(subset)Rcv2=0.57, RPDCV=1.38<RPDCV=1.52; 2018 field +N:RCV2=0.48<RCV2=0.7, RPDCV=1.39<RPDCV=1.8; 2019 field +N:RCV2=0.59<RCV2=0.68, RPDCV=1.57<RPDCV=1.77); (2) The inversion accuracy of the optimal subset of all the four groups reaches or even exceeds the level of the qualitative model, while the parent set has only two groups; (3) In the problem of sample selection of inversion data set, the factor of equivalent water thickness needs to be fully considered to avoid the loss of overall inversion accuracy caused by too wide sample selection. In conclusion, the factor of equivalent water thickness significantly impacts the accuracy of nitrogen modeling in maize leaves, which should not be ignored. After this factor is considered, the method of rapid, nondestructive detection of nitrogen in maize leaves using leaf hyperspectral data will be more reliable and feasible.

Keyword: Foliar nitrogen concentration; Equivalent water thickness; Hyperspectral; Spectral transformation techniques; PLSR; Sliding datasets partition
引言

使用高光谱数据对作物叶片氮素含量进行反演的实验已不少见。 但不少实验对叶片水分因素并未给予相应的重视。 目前已知植物叶片光谱特性主要由水分、 色素、 干物质等的光吸收和散射的特性所决定[1]。 从新鲜叶片的反射光谱估算氮的准确性低于植株或地上的干叶[2]。 叶片水分因素对叶片光谱特性的主要影响是水分对入射光辐射的吸收, 比如975, 1 200, 1 450和1 950 nm等水分子振动的倍频或合频处的光谱吸收特征[3]; 次要影响是叶片细胞因含水量的变化而膨胀/收缩, 从而改变光在叶片内部的多次散射特性, 并影响叶片近红外波段的光谱反射率[4, 5]。 不难看出, 如果不充分评估叶片水分因素对反演精度的影响, 相关实验很有可能存在整体偏差。

国内外在此领域的相关研究已有一些报道, 如: Ramoelo等采用了Gao和Goetz最初提出的一种除水技术[6], 以消除吸水分带来的影响, 从而改进了对氮含量的估计[7]。 Pacheco-Labrador等提到氮素的一些吸收特征被水分吸收所掩盖, 因此在新鲜叶片的SWIR反射光谱中无法清晰可见, 从而导致整个光谱中氮素的信号较弱[8]。 Li将连续小波分析(CWA)与水分去除技术相结合, 通过减少水分吸收的影响和增强SWIR区域的吸收信号, 提高了N含量和LMA的估计[9]。 邓来飞等以梭梭作为研究对象, 设置了三个水分梯度; 使用原始光谱、 红边位置参数, 结合植被指数及二维相关光谱研究其叶片光谱特征以及在不同水分胁迫作用下的梭梭叶片光谱反射率差异[10]

使用玉米叶级高光谱数据, 依据等效水厚度梯度, 对叶片叶绿素含量进行了对比反演, 以期定量探索等效水厚度因素对叶片反射率特性及反演建模精度的影响。 实验对比了使用原光谱与参考等效水厚度因素大小滑动划分后的子光谱的模型的反演精度, 并对相关模型进行了验证和评价, 希望能对探索更加贴合实际的无损、 稳健叶片叶绿素高光谱反演技术做出一定贡献。

1 实验部分
1.1 高光谱数据集

数据集延用美国林肯大学Schnable实验室报道中的数据, 其中包含高光谱数据1 210条。 分为温室及大田两种氮肥施用制度下(大田和大田高氮)的共5种情况。 大田数据于2018和2019年采集于美国内布拉斯加州林肯大学哈夫洛克研究农场(45° 51'49″N, 96° 31'09″W), 温室数据于2018年采集于林肯温室创新中心。 数据集详情见表1

表1 数据集明细表 Table 1 Datasets details

此次实验并未使用温室组数据, 这是因为其他四组数据(2018大田低氮, 2018 Field -N; 2019大田低氮, 2019Field -N; 2018大田高氮, 2018 Field +N; 2019大田高氮, 2019 Field +N)更贴近实际农业生产。

1.2 数据集滑动划分

首先构建等效水厚度(equivalent water thickness, EWT)参数,

EWT=(LFW-LDW)/LA(1)

式(1)中, LFW是叶鲜重, LDW是叶干重, LA是叶面积。 然后根据数据集中样本的EWT数值按从小到大进行排序。 滑动窗口宽度取值范围是40~80, 步进长度都是10, 对排序后的数据集进行滑动划分。 实验使用的具体划分情况见表2

表2 数据集滑动划分明细表 Table 2 Datasets sliding partition detail
1.3 光谱预处理方法

常见的光谱预处理方法一般有基线矫正类, 散射校正类和平滑处理类。 基线校正是为了消除仪器背景或漂移对信号的影响, 常见方法包括一阶导、 二阶导等。 散射校正是为了消除由于颗粒分布不均匀及大小不同导致的散射光对光谱的影响, 常见方法包括MSC和SNV等。 平滑处理是为了消除光谱信号中的随机噪声, 提高样本信号的信噪比。 Savitzky-Golay(SG)平滑法是使用多项式对移动窗口内的原始光谱进行多项式分解并用最小二乘法进行拟合, 其实质是一种移动加权平均法。

1.4 模型及其评价指标

PLSR是一种线性建模技术, 在响应变量和潜在变量(PLS latent variables)之间进行回归[11]。 潜在变量是原始波段的线性组合, 可以实现: (1) 高光谱数据的最大可变性, (2) 与响应变量间的最大相关性[12]

在模型训练中采用10倍交叉验证来平衡模型复杂度和预测精度(即避免过拟合)。 将数据集分成10份, 轮流将其中9份作为训练集, 1份作为测试集进行试验, 每次试验会获得对应的结果, 再将10次结果的平均值作为对模型精度的估计值。

对模型的评价指标有R2(coefficient of determination), RMSE(root mean squared error)和RPD(ratio of performance to deviation)。

RMSE基本公式如式(2)

RMSE=1ni=1n(y̅i-yi)2(2)

式(2)中, yi为实测值, y̅i为预测值。

RPD基本公式为

RPD=SD/RMSE(3)

式(3)中, SD为标准差。

根据文献[13, 14]中的一些指导原则, 我们将RPD值的评价标准划分为4级: RPD> 3.5, 甚至达到代替化学实验水平; 3.5> RPD> 2.5, 模型具有定量测量水平; 2.5> RPD> 1.5, 模型具有定性测量水平; RPD< 1.5, 模型无效。

1.5 实验环境

实验在Python语言环境下完成, 核心依赖库有Scikit-Learn, SciPy, NumPy, Pandas和Matplotlib。

2 结果与讨论
2.1 参数优化

PLSR模型中需要优化的参数是n_components, 其数量在1~30范围内遍历。 当RMSECV数值最小时对应的n_components数就是建模所需的最优参数。 在光谱预处理方法中, SG平滑法的窗口宽度也是需要优化的参数。 窗口宽度取值从3开始, 只取奇数。

2.2 实验结果

表3可知, (1) 2018大田高氮组, 父集最优反演结果为 RCV2=0.48, RPDCV=1.39, 而当窗口宽度为50时的子集最优反演结果为 RCV2=0.7, RPDCV=1.8; (2) 2019大田高氮组, 父集最优反演结果为 RCV2=0.59, RPDCV=1.57, 而当窗口宽度为50时的子集最优反演结果为 RCV2=0.68, RPDCV=1.77; (3) 2018大田低氮组, 父集最优反演结果为 RCV2=0.48, RPDCV=1.38, 而当窗口宽度为60时的子集最优反演结果为 RCV2=0.57, RPDCV=1.52; (4) 2019大田低氮组, 父集最优反演结果为 RCV2=0.89, RPDCV=3, 而当窗口宽度为70时的子集最优反演结果为 RCV2=0.89, RPDCV=3.01。 综合而言, 除2019组之外, 其他组的子集最优反演结果都明显优于全集最优反演结果。 需要说明的是, 各子集均未使用任何光谱预处理方法处理过。

表3 氮素反演结果 Table 3 Nitrogen inversion model results
2.3 分析与讨论

由图1可知, 2018和2019大田低氮两组EWT均值分别为0.016 6和0.016 5, 差值较小; 2018和2019大田高氮两组EWT均值分别为0.019和0.018, 差值也不大。 但若对比同一年度高低氮两组的EWT均值则会发现, 2018大田高氮组的EWT均值出现了14.46%的提升, 而2019大田高氮组的EWT均值出现了9.09%的提升。 这说明在保障氮肥供应条件下, 叶片的单位面积含水量也出现了明显提升。

图1 父集EWT数值分布图Fig.1 EWT distribution curves of parent sets

由图2可知: (1)随着EWT的梯度变化全部4组数据都表现出各个子集的反演精度差异明显: 2018大田低氮组最高和最低 RCV2分别为0.57和0.09, 而最高和最低RPDCV分别为1.52煌1.05; 2019大田低氮组最高和最低 RCV2分别为0.89和0.72, 而最高和最低RPDCV分别为3.01和1.88; 2018大田高氮组最高和最低 RCV2分别为0.7和0.002, 而最高和最低RPDCV分别为1.8和1; 2019大田高氮组最高和最低 RCV2分别为0.68和0.14, 而最高和最低RPDCV分别为1.77和1.08。 (2)4组数据中有3组出现有子集反演精度超越父集的现象, 2019大田低氮组是持平。 (3)施加氮肥的两组(2018和2019大田高氮), 均出现有子集超越了父集的反演精度, 且其RPDCV> 1.5, 达到定性模型水平。 实际农业生产普遍是要施加氮肥的, 所以这个结果特别有实际意义。 (4)在今后制作叶片光谱反演数据集时需要充分考虑EWT因素, 以避免过于宽泛的样本选取导致整体反演精度的损失。

图2 变窗口宽度反演精度分布图Fig.2 Inversion accuracy distribution curves with variable window widths

由图3, 借助PLSR模型中的coef_参数观察一下各个频率(400~2 500 nm)对模型反演水平的贡献情况。 最明显的差异在近红外区域(750~2 500 nm)出现, 2 200 nm一带父集相应频率有较高贡献值出现, 而子集对应频率贡献值则偏低。 但考虑到父集反演水平整体是低于最优子集的, 这也许是在表明2 200 nm一带出现的高贡献值其实意义有限。 而在可见光, 红边和近红外水分吸收峰区域, 整体趋势未见特别明显差异。

图3 频率贡献值分布图Fig.3 Frequency distribution curves of contribution value

3 结论

使用叶级高光谱数据, 依据等效水厚度梯度划分样本, 建立了梯度连续的全波段氮素PLSR反演模型, 初步定量探索了等效水厚度因素对反演精度的影响。 实验结果表明: (1)等效水厚度对于氮素建模精度存在显著影响, 该因素应该引起相应重视; (2)四组数据最优子集的反演精度均达到甚至超过定性模型水平; (3)存在一个最优子集区域, 本实验中该区域的反演精度比使用全样本反演时附加任何一种光谱变换方法所得的精度都要高, 以效果而论这种子集的划分方法堪比光谱变换方法; (4)在今后制作反演数据集时需要将等效水厚度因素纳入考虑, 以避免过于宽泛的样本选取导致整体反演精度的损失。

据检索, 我们尚未发现依据EWT梯度划分子集的方式来分析水分含量因素对叶级高光谱氮素反演建模精度影响的实验。 对比前人的比如水去除技术(water removed technique), 我们的方法不存在机理不明的顾虑, 且反演精度提升明显。 当然, 这次实验使用的数据毕竟有限, 所进行的探索也还很初级。 希望能对探索更加实用的无损、 连续监测玉米叶片养分的反演方法做出一定贡献。

参考文献
[1] Gates D M, Keegan H J, Schleter J C, et al. Applied Optics, 1965, 4: 11. [本文引用:1]
[2] Kokaly R F, Clark R N. Remote Sensing of Environment, 1999, 67(3): 267. [本文引用:1]
[3] Palmer K F, Williams D. Journal of the Optical Society of America, 1974, 64: 1107. [本文引用:1]
[4] Cater G A. American Journal of Botany, 1991, 78(7): 916. [本文引用:1]
[5] Liu L, Wang J, Huang W, et al. International Journal of Remote Sensing, 2003, 25(17): 1688. [本文引用:1]
[6] Gao B C, Goetz A F H. Remote Sensing of Environment, 1994, 47(3): 369. [本文引用:1]
[7] Ramoelo A, Skidmore A K, Schlerf M, et al. ISPRS Journal of Photogrammetry and Remote Sensing, 2011, 66(4): 408. [本文引用:1]
[8] Pacheco-Labrador J, González-Cascón R, Martín M, et al. International Journal of Applied Earth Observations & Geoinformation, 2014, 26(2): 105. [本文引用:1]
[9] Li D, Xue W, Zheng H, et al. Plant Methods, 2018, 14(1): 1. [本文引用:1]
[10] DENG Lai-fei, ZHANG Fei, ZHANG Hai-wei, et al(邓来飞, 张飞, 张海威, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(1): 216. [本文引用:1]
[11] Ge Y, Atefi A, Zhang H, et al. Plant Methods, 2019, 15(1): 166. [本文引用:1]
[12] Helland I. Partial Least Squares Regression. New York: John Wiley & Sons, 2004. [本文引用:1]
[13] Ge Y, Bai G, Stoerger V, et al. Computers and Electronics in Agriculture, 2016, 127: 625. [本文引用:1]
[14] Neilson E H, Edwards A M, Blomstedt C K, et al. J. Exp. Bot. , 2015, 66(7): 1817. [本文引用:1]