不同生育期小麦冠层SPAD值无人机多光谱遥感估算
周琦1,2, 王建军1,2,*, 霍中洋1,2,*, 刘畅1,2, 王维领1,2, 丁琳3
1. 江苏省作物遗传生理重点实验室/江苏省作物栽培生理重点实验室, 江苏 扬州 225009
2. 江苏省粮食作物现代产业技术协同创新中心/扬州大学农学院, 江苏 扬州 225009
3. 中国科学院空天信息创新研究院, 北京 100094
*通讯作者 e-mail: wangjianjun@yzu.edu.cn; zyhuo@yzu.edu.cn

作者简介: 周琦, 女, 1997年生, 扬州大学农学院硕士研究生 e-mail: mz120201238@yzu.edu.cn

摘要

随着长江中下游稻麦轮作区水稻成熟期的推迟, 冬小麦播期的推迟已经成为影响产量的主要障碍, 因此在迟播小麦中筛选抗性较好的品种很有必要。 该研究旨在监测冬小麦生长早期冠层叶片的相对叶绿素含量, 用于迟播冬小麦品种筛选。 为探讨利用无人机多光谱影像监测冬小麦叶绿素含量的可行性, 基于多光谱无人机获取的5个单波段光谱反射率和15个植被指数作为自变量, 经过递归特征消除法(RFE)特征变量筛选, 去除冗余变量, 利用后向神经网络(BP)回归算法构建冬小麦相对叶绿素含量(SPAD)值遥感反演模型。 根据2020年—2021年江苏省扬州市广陵区实验点冬小麦越冬期、 拔节期两个生育期的实测叶片SPAD值, 结合同步获取的多光谱无人机影像, 分析了这两个生育期遥感变量和SPAD值之间的相关性。 并结合遥感变量之间的特征重要性排序进行特征变量筛选, 筛选出的变量作为模型的输入, 构建并筛选出各生育期最佳的反演模型。 比较岭回归(Ridge)和梯度提升树(GBD)算法, 以 R2和RMSE作为模型评价指标, 在验证集上分析了各生育期3种模型的自学习能力和泛化能力。 结果表明, 经过了最优光谱信息筛选而建立的BP神经网络模型在此两个生育期的数据集上均表现出了最强的回归预测能力。 R2和RMSE在越冬期分别为0.806和1.861, 拔节期分别为0.827和0.507。 通过对无人机多光谱数据进行变量筛选, 构建的优选模型BP神经网络具有较高估算精度, 且表明在冬小麦的早期监测中, 拔节期比越冬期效果好。 利用无人机多光谱在估算迟播冬小麦SPAD值进行品种抗性筛选的方法是有价值的。

关键词: 品种筛选; 无人机; 小麦SPAD值; BP神经网络; 特征选择
中图分类号:S127 文献标志码:A
UAV Multi-Spectral Remote Sensing Estimation of Wheat Canopy SPAD Value in Different Growth Periods
ZHOU Qi1,2, WANG Jian-jun1,2,*, HUO Zhong-yang1,2,*, LIU Chang1,2, WANG Wei-ling1,2, DING Lin3
1. Jiangsu Key Laboratory of Crop Genetics and Physiology/Jiangsu Key Laboratory of Crop Cultivation and Physiology, College of Agriculture, Yangzhou University, Yangzhou 225009, China
2. Jiangsu Grain Agricultural Crop Modern Industry Technology Collaborative Innovation Center, Yangzhou University, Yangzhou 225009, China
3. Institute of Space and Space Information Innovation, Chinese Academy of Sciences, Beijing 100094, China
*Corresponding authors
Abstract

With the delay of rice maturity in rice-wheat rotation areas in the middle and lower reaches of the Yangtze River, the delay of the sowing date of winter wheat has become the main obstacle affecting the yield, so it is necessary to screen better resistant varieties in late sowing wheat. This study was designed to monitor the relative chlorophyll content of canopy leaves during the early winter wheat growth for late-sowing winter wheat variety screening. In order to explore the feasibility of monitoring chlorophyll content in winter wheat, this study used five single-band spectral reflectance and 15 vegetation indices obtained by UAV as the independent variables. Through recursive feature elimination (RFE) feature variables screening, redundant variables were removed. A remote sensing inversion model of winter wheat's relative chlorophyll content (SPAD) was established using the BP neural network regression algorithm. Based on the measured leaf SPAD values of winter wheat in the experimental site of Guangling District, Yangzhou city, Jiangsu Province, during 2020—2021, the correlation between remote sensing variables and SPAD values in the two growth stages was analyzed combined with multi-spectral UAV images obtained simultaneously. In addition, feature variables were screened based on the ranking of feature importance among remote sensing variables, and the selected variables were used as the input of the model to construct and screen out the best inversion model for each growth period. Using Ridge regression (Ridge) and Gradient Boosting Decision Tree (GBD) algorithms as a comparison, and R2 and RMSE as model evaluation indexes, the three models' self-learning ability and generalization ability were analyzed on the validation set. The results showed that the BP neural network model based on optimal spectral information screening showed the strongest regression prediction ability in the two growth periods. R2 and RMSE were 0.806 and 1.861 in the overwintering stage and 0.827 and 0.507 in the jointing stage, respectively. In this paper, the variable selection of UAV multi-spectral data was carried out, and the BP neural network of optimization model constructed had high estimation accuracy. It showed that the effect of early monitoring of winter wheat was better in the elongation stage than in the overwintering stage. It is valuable to use UAV multi-spectrum to estimate the SPAD value of late-sowing winter wheat for variety resistance screening.

Keyword: Variety screening; UAV; Wheat SPAD values; BP neural network; Feature selection
引言

小麦是我国种植面积最大的粮食作物之一。 江苏省位于长江中下游, 是我国主要的小麦产区之一。 近年来长江中下游稻麦轮作区水稻成熟期不断推迟, 致使小麦播期大幅度推迟, 迟播已成为小麦高产稳产的主要障碍[1]。 为了减少小麦迟播的不利影响, 除了栽培措施应对外, 根本措施是培育适合迟播的小麦品种, 即在迟播的情况下减产较少或不减产的小麦品种。 优良的小麦品种应当在低温霜冻等不利天气状况下也具有较强的抗性[2], 即使在越冬阶段也应该能够保持一定的生长和分蘖发生量。 因此, 准确监测小麦在越冬和拔节阶段的早期生长状态是晚播冬小麦品种筛选的关键。

相对叶绿素含量SPAD(soil and plant analyzer development)值(arbitrary units)是作物生长过程中重要的衡量长势的指标之一, 作为光合作用的重要色素, 对植物与外部环境交换物质和能量的能力具有重要的影响, 可以指示作物的生长状况、 初级生产力和氮利用效率, 对其监测有助于衡量作物光合能力和生理损伤状况, 从而有效地评估作物的长势以及为水肥管理提供农事决策。 因此, 快速准确的获取冬小麦的SPAD值是评估迟播小麦品种耐受能力的重要指标。

目前, 冬小麦SPAD值的监测方法主要有人工测量法和遥感反演监测。 人工测量法以手持式叶绿素仪应用最为广泛, 但存在着测量工作量繁琐, 测量面积有限, 数据代表性差等不足, 远远不能满足大面积长势监测的管理需求。 随着遥感技术的发展, 给作物SPAD值的实时, 动态, 宏观监测提供了新思路, 一定程度上弥补了传统人工测定方法的缺点。 通过遥感技术获取SPAD值, 是基于地面遥感数据, 以及少量的人工实测数据, 通过分析建立起基于光谱反射率或光谱植被指数的反演估算模型来反演SPAD值。 光谱指数可定性或定量地反映和评估作物生长的各项指标, 在光谱指数与叶绿素含量之间建立起定量模型, 也是田间和实验室对叶绿素含量进行验证的有效估算方法[3]。 王丽爱[4]等利用环境减灾卫星(HJ-1)遥感技术分析了2010年— 2013年江苏地区稻茬小麦不同生育期叶片SPAD值与8种植被指数的相关关系, 建立的回归方程能够较好地估算SPAD值; 高小梅[5]等基于高光谱遥感影像, 通过分析常用的15个高光谱特征指数和14个数字图像特征指数与受渍冬小麦叶绿素相对含量的相关关系, 构建了基于最优监测特征指数的BP神经网络模型, 对受渍冬小麦的SPAD进行估算, 且基于高光谱特征指数的BP神经网络模型的估算结果较好。 上述研究方法中, 卫星遥感技术虽然能够实现宏观监测, 但存在成本高, 分辨率相对较低, 重访周期长等缺点, 无人机遥感平台不仅能在一定程度上克服人工测量的繁琐, 又具有时效性强, 成本低, 分辨率高的优点。 目前, 将无人机遥感技术应用于田间作物长势监测也已经比较广泛。 周敏姑[6]等基于多光谱的无人机数据, 在冬小麦的全生育时期提取反射率特征参数, 建立SPAD值的反演模型, 通过多种机器学习回归模型的对比, 结果表明SPAD值反演效果显著; 魏青[7]等利用多光谱无人机获取的影像和田间实测冠层的叶绿素含量数据, 选取16种光谱指数, 建立起冬小麦各时期和全生育期的SPAD估测模型, 能够达到很好的监测冬小麦SPAD值动态变化的效果。

上述的研究均是基于地面实测的SPAD值和利用无人机影像的光谱信息构建起反演估算模型, 主要针对单一品种进行单一生育期或全生育期的监测。 但对于迟播冬小麦的早期抗性监测和品种筛选实验还鲜有报道, 且利用光谱无人机的遥感技术获取的多反射率因素对冠层叶片SPAD值进行反演的高效模型仍然值得进一步优化。 众多学者利用主观选择计算的植被指数等遥感变量进行相关性分析并建模。 而对于不同品种的研究对象, 因其生长环境、 生育期等因素的不同, 导致光谱特征不同。 这时再使用相同的光谱指数建立反演模型, 可能会导致光谱信息的冗余和损失, 模型精度也会在一定程度上受到制约[8]

综上, 为解决上述问题, 采用多光谱的无人机遥感平台结合田间实测数据, 选取冬小麦的各越冬期和拔节期, 基于递归特征消除法进行光谱信息的筛选, 使特征变量与冬小麦SPAD的实测值重要度最高。 分析研究光谱反射率或一系列光谱植被指数与冠层叶片SPAD值的关系, 建立并筛选出冬小麦前两个生育时期的SPAD值反演估算模型, 为迟播小麦的早期长势监测和抗性品种筛选提供技术支持和决策。

1 实验部分
1.1 研究区概况与试验设计

试验区位于江苏省扬州市广陵区沙头镇试验基地(32° 24'N, 119° 26'E), 属亚热带温润气候, 年平均气温14.8 ℃, 光热条件丰富, 土质为沙壤土, 以小麦和水稻轮作为主。 如图1所示, 该试验区按照四个施氮水平NO、 N14、 N18、 N22(N0: 0 kg· ha-1, N14: 210 kg· ha-1, N18: 270 kg· ha-1, N22: 330 kg· ha-1), 和24个品种处理(如表1)被划分为96个小区, 小区大小为3 m× 3 m。 每个小区都接受了相同的灌溉和田间管理。

图1 冬小麦试验区位置
(a): 试验地块位置; (b): 冬小麦试验田可见光无人机图像
Fig.1 Location of the research area of winter wheat
(a): Location of the research area; (b): UAV RGB images of the winter wheat research fields

表1 本研究所涉及24个小麦品种 Table 1 The 24 types of winter wheat involved in this study
1.2 数据获取

根据江苏省冬小麦生长发育期观测资料分析, 本试验的无人机多光谱影像数据采集以及田间实测冠层叶片SPAD值的采集时间选择为2021年1月13日和3月7日, 分别对应冬小麦的越冬期和拔节期。 在无人机数据采集时, 同时进行田间实测SPAD数据的采集。

田间实测叶片冠层SPAD数据的采集使用Konica Minolta SPAD-502plus型手持式叶绿素测量仪, 对试验田内96个小区进行测量。 在每个小区中, 随机选择10张顶层叶片。 在每张选择的叶片上等间距测量3个点的SPAD值, 求得平均值作为该植株的SPAD值, 5株小麦的平均值作为该小区的SPAD值。 每个生育期各有96个样本。

试验用的多光谱无人机遥感平台采用深圳大疆创新公司生产的精灵4多光谱版。 该无人机搭载6个镜头, 包括1个用于可见光成像的彩色传感器和5个用于多光谱成像的单色传感器(蓝(B): 450 nm; 绿(G): 560 nm; 红(R): 650 nm; 红边(RE): 730 nm; 近红外(NIR): 840 nm)。 使用该多光谱无人机能够采集农作物的光谱信息, 并且快速、 精准地判断作物的生长情况及健康水平等情况。 该无人机具有观测面积大的优点, 无论是针对单株植物还是整片农田, 均可高效完成数据采集。 影像的采集选择晴朗无风的时刻, 利用大疆创新公司的GS PRO软件进行常规航线的任务设置, 设置飞行高度为15 m, 飞行速度为3 m· s-1, 航向和旁向重叠度均为80%。 无人机开始拍摄前, 在获取影像范围内按顺序摆放10组标准灰度梯度板, 以进行后续无人机影像的辐射定标[9]

1.3 无人机影像预处理及冠层反射率提取

1.3.1 辐射校正

获取的多光谱无人机数据利用大疆创新公司的大疆智图产品进行二维多光谱合成, 然后利用标准灰度梯度板对各波段图像进行辐射校正, 得到反射率数据。 辐射校正的过程是将DN值转化为实际物理意义的大气顶层辐射亮度或反射率, 它的原理是建立数字量化值与对应视场中辐射亮度值之间的关系, 以消除传感器本身产生的误差。 对获取的多光谱无人机影像进行辐射校正的主要过程是, 在视场中按顺序摆放10组梯度灰度板, 即稳定反射辐射特征的像元, 并且可以测得在相同天气状况下的反射率数据, 这一系列灰度梯度板在不同时相下的反射率和遥感图像之间存在的某种线性关系, 就可以通过波段运算对遥感图像进行辐射校正。

1.3.2 植被指数阈值法剔除土壤背景

处于生长早期的冬小麦由于叶片在图像中占比较小, 所以在遥感图像中多以土壤背景为主, 因此在进行冠层反射率提取时要消除土壤背景的影响。 本研究采用植被指数阈值法[10], 通过计算整景图像的NDVI, 划分出土壤和小麦的阈值。 利用决策树分类和掩膜提取来剔除非冠层部分的信息(如图2)。 然后在ENVI中对各波段经过波段运算的图像进行感兴趣区构建和像元统计, 提取各小区的反射率均值作为样本在该波段的光谱反射率。

图2 剔除土壤背景
(a): 原始图像; (b): NVDI阈值划分; (c): 剔除背景
Fig.2 Removing soil background
(a): Original image; (b): Threshold partition of NDVI; (c): Removing background

1.4 植被指数的计算

对不同波段反射率的进行组合, 可对地表植被冠层进行定性和定量的分析, 从而反映作物长势。 根据各植被指数的适用性, 利用Excel对提取的小区各波段反射率数据, 并选择15种植被指数进行计算, 一共得到20种遥感变量, 如表2。 为充分利用多光谱无人机平台能够获取植被红边信息的特点, 其中包含了6种红边参数的指数。

表2 遥感变量及其计算公式 Table 2 Vegetation indices and calculating formulas
1.5 冬小麦SPAD值的反演算法

BP神经网络是一种后向反馈网络, 相较于多层感知机, 优化了模型中的系数和偏移量, 对非线性数据具有更强的映射、 自适应和泛化能力[19]。 近年来, 在模式识别, 函数逼近、 分类、 数据挖掘、 数据压缩等领域都有较好的表现。

BP神经网络是一种有监督学习的算法。 它的核心思想是将每次根据训练得到的结果与预想结果进行误差分析, 进而修改权值和阈值, 逐步缩小误差, 得到输出和预想结果相对一致的模型。 以三层神经网络为例, BP神经网络是包含输入、 隐含和输出层三层结构的算法。 输入层接收数据, 输出层输出数据, 前一层神经元连接到下一层神经元, 收集上一层神经元传递来的信息, 经过“ 激活” 把值传递给下一层。 常用的激活函数有Sigmoid、 Tanh、 ReLu等。 其输出结果采用前向传播, 误差采用反向(Back Propagation)传播方式进行。 反向传播的基本思想就是利用梯度下降法原理, 通过计算输出层与期望值之间的误差来调整网络参数, 从而使得误差变小。

在构建BP神经网络过程中, 有数个较为关键的训练参数( 如训练函数、 目标函数、 激活函数种类和学习率等) 成为神经网络结构的超参数。 引入激活函数的目的是在模型中引入非线性。 一般来说, 在神经网络的中间层更加建议使用ReLu函数, 主要有两个原因。 一是ReLu函数计算简单, 可以加快模型速度; 二是避免当层数比较多的时候可能会造成梯度消失的现象, 从而模型无法收敛。

岭回归是一种线性模型, 它以最小二乘法为理论基础进行改良, 通过降低精度和损失部分信息为代价, 从而获得更可靠回归系数。 梯度提升树是以决策树为基函数的集成学习算法, 它的思想是弱学习器的合并, 通过提升模型的复杂度, 来使模型有更多机会纠正去训练集上的错误, 具有占用的内存小, 预测速度快的特点。

1.6 模型评价指标

采用决定系数R2(coefficient of determination)和均方根误差RMSE(root mean squared error)来综合评价冬小麦SPAD值的反演模型精度。 R2越接近于1, RMSE越小, 说明模型精度越高, 反演估算能力越好。 计算公式如式(1)和式(2)。

R2=i=1n(xi-x¯)2(yi-y¯)2i=1n(xi-x¯)2i=1n(yi-y¯)2(1)

RMSE=i=1n(xi-yi)2n(2)

其中, xi是冬小麦SPAD的实测值, x̅是SPAD的实测值的平均值; yi为估算模型的SPAD估算值, y̅为SPAD估算值的平均值; n是样本的数目。

2 结果与讨论
2.1 冬小麦SPAD值与光谱变量的相关性分析

本研究基于Python3.8, 利用数学分析包Numpy和Pandas库进行数据分析, 计算出了各变量与实测SPAD值之间的Pearson相关性系数(表3)。 结果表明, 在越冬期, 相关性较低的遥感变量较多, 其中蓝波段反射率与SPAD的相关性最低, 红边重归一化植被指数(RERDVI)的相关性最高, 达到0.81。 在拔节期, 其中大部分相关性绝对值都在0.6以上, 相关性较好, 核心红边三角植被指数(RTVI core)、 近红外波段和SPAD值的相关性最大, 相关性绝对值在0.84以上。 整体上遥感变量和SPAD值相关性呈极显著关系, 拔节期的光谱指数与SPAD值的相关性整体上优于越冬期。

表3 冬小麦SPAD值与遥感变量的相关系数 Table 3 Correlation between spectral indices and SPAD in different growth periods of winter wheat
2.2 最优遥感变量筛选

对冬小麦的越冬期、 拔节期的20个遥感变量分别进行特征重要性排序, 为模型构建之前的特征筛选提供参考依据。 如图3所示, 按照特征重要性的阈值对排序中的特征进行筛选, 确定0.05为重要性阈值。 在越冬期, 得到7个最优的遥感变量, 分别是RTVIcore、 NDRGI、 Red、 SRrededge、 NGBDI、 NIR和MTCI; 在拔节期, 得到了6个最优的遥感变量, 分别是RTVIcore、 NIR、 GOSAVI、 CIrededge、 RERDVI和MTCI。 在两个生育期, RTVIcore(核心红边三角植被指数)均是与SPAD值最重要的特征, 体现了利用多光谱无人机监测小麦长势的有效性。

图3 特征重要性排序
(a): 越冬期; (b): 拔节期
Fig.3 Feature importance sort
(a): Overwinter stage; (b): Jointing stage

2.3 冬小麦SPAD值遥感反演模型构建与验证

提取冬小麦两个生育期的多光谱反射率数据与之对应的小区地面实测数据, 作为训练样本数据集, 每个波段共得到96组数据, 随机选取80%的数据作为训练集, 构建冬小麦SPAD值反演模型, 20%作为测试集, 用于模型评价。

为了提升回归预测模型的表现, 通常采用减少特征数量的方法, 称为特征变量筛选或降维。 这里采用基于交叉验证的递归特征消除法(recursive feature elimination CV)。 递归特征消除法是一种寻找最优特征子集的贪心算法[20]。 评估器选择随机森林(Random Forest), 根据特征重要性属性排序, 以特征重要性平均值0.05作为阈值, 选择此时期与因变量(SPAD值)的特征重要性在此阈值之上的遥感变量作为自变量, 进行建模。

在特征筛选之后, 选择岭回归(ridge), 梯度提升树(gradient boosting decision tree)和BP神经网络(back propagation)等3种机器学习算法, 建立冬小麦SPAD回归预测模型。

在模型构建时, 通过调节模型参数可以提升模型的泛化能力。 在岭回归算法中, 影响模型表现最大的因子是正则化系数alpha, 绘制岭迹图可以确定最佳正则化系数。 梯度提升树是迭代的决策树算法, 在树模型中, 最重要的是对n_estimators和max_depth参数的搜寻, 采用交叉验证和网格搜索的方式, 来绘制学习曲线来确定最优参数。

BP算法采用3层神经网络结构, 以各时期筛选的遥感变量作为输入层节点, 小麦叶片SPAD值为输出层, 建立包括输入层、 隐藏层和输出层的 BP 网络。 输入向量首先经过了归一化处理, 初始权重和阈值为任意值。 BP 网络的具体参数见表4

表4 BP神经网络超参数设置 Table 4 Parameters of BP algorithm
2.4 模型比较分析

将两生长期筛选的光谱信息通过三种机器学习算法建模, 并在测试集上验证模型表现, 结果如表5表6和图4。 结果表明, 适应在训练集上建立的三种估算模型, R2和RMSE的结果基本都在合理范围内, 说明这些模型对于监测冬小麦SPAD值是可行的。 其中, 基于随机森林算法的递归特征消除筛选得到的遥感变量, 再经BP神经网络训练的反演模型(RF-RFE-BP)在两个生育期都表现出最佳的学习和预测能力。

表5 冬小麦冠层叶片SPAD值估算反演模型比较 Table 5 Comparison of inversion model of SPAD in winter wheat
表6 模型验证结果 Table 6 Model validation results

图4 验证模型分析散点图
(a): 越冬期小麦叶片SPAD实测值与模型预测值关系; (b): 拔节期小麦叶片SPAD实测值与模型预测值关系
Fig.4 Scatter plot used for model verification
(a): Relationship between measured SPAD and prediction values for wheat leaves in overwinter stage; (b): Relationship between measured SPAD and predicted values for wheat leaves in jointing stage

其中, 从单一生育期来看, BP神经网络算法的预测结果最优, 在越冬期, 在测试集上的效果R2达到了0.806, 相较于比岭回归提升了35%, 比梯度提升树提升了24%; RMSE为1.861, 比岭回归降低了30%比梯度提升树降低了32%; 在拔节期, 测试集的R2达到了0.827, 相较于比岭回归提升了21%, 比梯度提升树提升了40%; RMSE为0.507, 比岭回归降低了13%, 比梯度提升树降低了32%。 实测值和预测值之间的回归曲线与零误差线的偏角也是最小的。 整体来看, 三种机器学习算法构建的模型, 在拔节期都比越冬期的模型效果要更好, 预测的准确率更高。 由表4可知, 拔节期输入的参数量比越冬期少, 但反演模型的精度和稳定性略有提高, 说明, 输入模型训练的特征并不是越多越好, 经过了最优遥感变量筛选减少了冗余的特征, 保留了信息含量大且重要性较高的特征参数。

综上, BP神经网络构建的估算模型更适合用于多光谱无人机遥感估测冬小麦冠层SPAD值。 相较于传统的对冬小麦SPAD值的反演研究, 只涉及到单一或很少的品种[21, 22, 23], 不适合用于品种筛选实验。 RF-RFE-BP模型对不同施氮水平和不同品种均取得了较好的估测效果, 因为模型的训练是在品种筛选的前提下进行的, 此模型可以用于所有涉及的小麦品种。

2.5 特征变量筛选后建模的优势分析

在遥感变量选择方面, 应用到的方法有逐步回归法, 或直接根据自变量和SPAD值之间的相关性系数高低进行筛选[6, 7]。 逐步回归是最常用也是最简单的特征选择方法, 它能够比较直接地删除回归过程中的冗余特征, 但是往往通过逐步回归分析得到的反演精度并不是很高, 回归方程也不是最优解。 若直接根据自变量与因变量之间的相关性进行特征选择, 就需要考虑变量之间是否存在多重共线性。 在通过遥感手段获取特征参数的过程中, 特征数量越多, 影响预测精度。 前人在对森林生物量的估算研究中提出一种后向迭代的特征选择方法, 这与本研究的变量筛选原理一致。 首先从数据特征预处理的角度出发, 利用递归特征消除法(RFE), 选择随机森林(RF)作为评估器, 通过计算特征重要度, 采用后向迭代的方法逐步简化特征数量, 对20种遥感变量进行特征筛选。 进行特征变量筛选的目的, 一是为了剔除相关性不高的冗余变量, 二是为了提升模型表现和建模速度。 光谱信息过少的模型容易导致模型受到背景因素的干扰而缺乏稳定性, 光谱信息过多的模型会导致模型复杂且易用性低, 因此需要平衡两者之间的关系[23], 因为所选择计算的植被指数具有一定的主观性, 并不是所计算的遥感变量与SPAD值之间都具有非常重要的指示作用。

2.6 BP神经网络在遥感估测冬小麦SPAD值的优势分析

现有的研究中, 对作物冠层叶片的SPAD值进行遥感反演的算法有很多, 如随机森林、 偏最小二乘、 多元线性回归等[4, 24, 25], 均得出了相应的结论。 结果表明, BP在两个生育期对于冬小麦SPAD值的估测能力同其他两种算法来说, 具有很好的优势。 经过对比发现, 在受土壤背景影响较大的越冬期, 该模型仍然具有估算精度高, 容错能力强的特点, 对于越冬期之后的一段生育时期的SPAD值预测, 也具有很好的可用性。

其中, 岭回归在两期数据集上的表现能力都较为稳定, 但线性模型对于该问题的预测, 准确率较低[26], 它的应用范围有限, 难以处理复杂的数据之间的映射关系。 以往基于小麦近地多光谱图像对山农15和泰农18两个品种的越冬期数据进行SPAD估测, 结果显示在越冬期构建的线性模型的决定系数为0.705 3。 以集成学习为代表的梯度提升树算法, 在预测准确度上, 相比于本研究所选用的线性模型岭回归, 集成学习模型的预测表现有所提升。 这与马文君[27]等在棉花冠层SPAD值预测研究中的结果一致。 在两个生育期, BP都达到了最佳的效果, 其原因可能是, 其一, 经过特征筛选后, 遥感变量数量较少, 其他两种模型的稳定性发生了显著变化。 其二, 这得益于神经网络算法对于非线性问题的映射能力更强的优点。 BP神经网络构建的SPAD值估算模型在各生育期上的效果都是最好的, 当特征变量数较少时, 模型仍然具有很强的泛化能力, 在训练集和测试集上的效果相差不大。

3 结论

通过采集冬小麦前两个生育期冠层叶片的SPAD值, 和无人机多光谱影像, 提取到各小区对应的反射率, 植被指数等光谱信息, 为最大程度减少土壤、 水分等背景干扰, 采用植被指数阈值法剔除了土壤背景。 经过递归特征消除法, 按照随机森林的重要性排序, 筛选出重要度最高的遥感变量, 建立BP神经网络模型来反演该生长阶段的叶绿素含量, 并结合岭回归(Ridge)和梯度提升树(GBD)算法进行效果对比。 得出以下结论:

(1)拔节期的遥感变量与SPAD值的相关性优于越冬期。

(2)基于遥感变量筛选建立的BP网络的精度和稳定性都高于另外两种机器学习算法, R2和RMSE在越冬期分别为0.806和1.861, 拔节期分别为0.827和0.507。 在冬小麦生长的拔节期, 模型的精度和稳定性都要优于越冬期。

(3)在品种筛选的前提下, 基于多品种进行样本训练的模型, 因此模型可以适用于所有涉及的品种。 可为迟播小麦的早期长势监测和抗性品种筛选提供技术支持和决策。

BP算法在冬小麦SPAD值遥感预测的应用中提供了有效的依据, 但还有许多需要进一步研究和完善。 首先是关于如何改善BP神经网络出现的过拟合现象和样本依赖性问题, 网络模型的逼近和推广能力与学习样本的典型性密切相关, 而从问题中选取典型样本实例组成训练集是一个很困难的问题。 现有的针对BP网络缺点的改进方式, 包括附加动量法、 自适应学习速率和弹性BP算法等。 后续考将改进的BP算法应用到冬小麦SPAD值的遥感反演应用中来。

最后, 基于随机森林的递归特征消除法只是从单变量的角度出发, 对每一个光谱特征计算重要度, 而忽略了特征之间存在的相关性, 因此既要立足于光谱特征之间的高度相关性, 且达到特征重要性排序的目的将是下一步研究的重点。

致谢: 感谢江苏高校优势学科建设工程资助项目资助, 感谢庄亭暄、 丁俊杰、 尹权参与测量工作。

参考文献
[1] GAO De-rong, WANG Hui, LIU Qiao, et al(高德荣, 王慧, 刘巧, ). Scientia Agricultura Sinica(中国农业科学), 2019, 52(14): 2379. [本文引用:1]
[2] GAO De-rong, ZHANG Xiao, KANG Jian-peng, et al(高德荣, 张晓, 康建鹏, ). Journal of Triticeae Crops(麦类作物学报), 2014, 34(2): 279. [本文引用:1]
[3] Bekele F, Korecha D, Negatu L. Journal of Agrometeorology, 2017, 19(2): 125. [本文引用:1]
[4] WANG Li-ai, MA Chang, ZHOU Xu-dong, et al(王丽爱, 马昌, 周旭东, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2015, 46(1): 259. [本文引用:2]
[5] GAO Xiao-mei, LI Yan-li, LU Bi-lin, et al(高小梅, 李燕丽, 卢碧林, ). Chinese Journal of Applied Ecology(应用生态学报), 2021, 32(3): 959. [本文引用:1]
[6] ZHOU Min-gu, SHAO Guo-min, ZHANG Li-yuan, et al(周敏姑, 邵国敏, 张立元, ). Transactions of the Chinese Society of Agricultureal Engineering(农业工程学报), 2020, 36(20): 125. [本文引用:2]
[7] WEI Qing, ZHANG Bao-zhong, WEI Zheng, et al(魏青, 张宝忠, 魏征, ). Journal of Triticeae Crops(麦类作物学报), 2020, 40(3): 365. [本文引用:2]
[8] LIU Shuang, YU Hai-ye, ZHANG Jun-he, et al(刘爽, 于海业, 张郡赫, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(6): 1912. [本文引用:1]
[9] Shi Peihua, Wang Yuan, Xu Jianmin, et al. Computers and Electronics in Agriculture, 2021, 180: 105860. [本文引用:1]
[10] ZHANG Zhi-tao, ZHOU Yong-cai, YANG Shuai, et al(张智韬, 周永财, 杨帅, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2021, 52(4): 197. [本文引用:1]
[11] Rondeaux G, Steven M, Baret F. Remote Sensing of Environment, 1996, 55(2): 95. [本文引用:1]
[12] Verrelst J, Schaepman M, Koetz B, et al. Remote Sensing of Environment, 2008, 112(5): 2341. [本文引用:1]
[13] Gitelson A A, Vina A, Cigand a V, et al. Geophysical Research Letters, 2005, 32(8): L08403. [本文引用:1]
[14] Gitelson A A, Gritz Y, Merzlyak M N. Journal of Plant Physiology, 2003, 160(3): 271. [本文引用:1]
[15] Chen J M. Canadian Journal of Remote Sensing, 2014, 22(3): 229. [本文引用:1]
[16] WANG Zheng-xing, LIU Chuang, HUETE Alfredo, et al(王正兴, 刘闯, HUETE Alfredo, ). Acta Ecologica Sinica(生态学报), 2003, 23(5): 979. [本文引用:1]
[17] Dash J, Curran P J. Advances in Space Research, 2007, 39(1): 100. [本文引用:1]
[18] Huete A, Didan K, Miura T, et al. Remote Sensing of Environment, 2002, 83(1): 195. [本文引用:1]
[19] SHI Duan-yang, LIN Qiang, HU Bing, et al(施端阳, 林强, 胡冰, ). Journal of Ordnance Equipment Engineering(兵器装备工程学报), 2021, 42(10): 79. [本文引用:1]
[20] DU Ya-juan, ZHAO En-fa, ZHANG Yu-shun, et al(杜亚娟, 赵恩法, 张玉顺, ). Chinese Heart Jorunal(心脏杂志), 2020, 32(5): 471. [本文引用:1]
[21] Liu N, Liu G, Sun H. Sensors, 2020, 20(12): 3430. [本文引用:1]
[22] Liu Y, Hatou K, Aihara T, et al. Remote Sensing, 2021, 13(4): 686. [本文引用:1]
[23] TIAN Ming-lu, BAN Song-tao, CHANG Qing-rui, et al(田明璐, 班松涛, 常庆瑞, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(21): 102. [本文引用:2]
[24] LI Yan-li, XIONG Qin-xue, LU Bi-lin, et al(李燕丽, 熊勤学, 卢碧林, ). Journal of Irrigation and Drainage(灌溉排水学报), 2020, 39(12): 41. [本文引用:1]
[25] CHEN Xiao-na, ZHAO Geng-xing, ZHOU Xue, et al(陈晓娜, 赵庚星, 周雪, ). Tianjin Agriculture Science(天津农业科学), 2018, 24(2): 60. [本文引用:1]
[26] ZHOU Xue, WANG Fang, ZHAO Geng-xing (周雪, 王芳, 赵庚星). Shangdong Agriculture Science(山东农业科学), 2016, 48(6): 138. [本文引用:1]
[27] MA Wen-jun, CHANG Qing-rui, TIAN Ming-lu, et al(马文君, 常庆瑞, 田明璐, ). Agricultural Research in the Arid Areas(干旱地区农业研究), 2017, 35(5): 42. [本文引用:1]