基于时序影像及不同模型的玉米早期估产研究
刘照1,2, 李华朋1, 陈慧1,2, 张树清1,*
1.中国科学院东北地理与农业生态研究所, 吉林 长春 130102
2.中国科学院大学, 北京 100049
*通讯作者 e-mail: zhangshuqing@neigae.ac.cn

作者简介: 刘 照, 1991年生, 中国科学院东北地理与农业生态研究所博士研究生 e-mail: liuzhao@iga.ac.cn

摘要

针对目前粮食产量定量评估模型泛化能力不足、 预测时间滞后以及早期估产时间窗口难以确定等问题, 以Sentinel-2遥感数据和实测玉米产量作为数据源, 开展县域尺度玉米估产及早期最优估产时间窗口确定研究。 基于玉米生长期内的时序影像数据集, 通过玉米产量实测数据与影像植被指数建立相关关系, 并采用MLRM(多元线性回归模型), GPR(高斯过程回归模型), LSTM(长短期记忆人工神经网络模型), 建立玉米时序估产模型。 实验结果表明, 基于LSTM在NDVI、 GNDVI、 以及GN(NDVI与GNDVI组合)这三种植被指数作为参数建立的时序估产模型中, 无论在估产精度, 模型可靠性、 产量异常值捕捉、 以及早期最优估产时间窗口确定等方面均优于基于GPR、 MLRM建立的时序估产模型。 同时基于LSTM时序估产模型, 采用截止到抽雄期的NDVI时序影像数据作为参数, 其结果的决定系数 R2可达0.83、 均方根误差RMSE为0.26 t·ha-1、 相对分析误差RPD为3.52; GNDVI时序影像数据作为参数, 其结果的决定系数 R2为0.79、 均方根误差RMSE为0.30 t·ha-1、 相对分析误差RPD为2.87; 以GN时序影像数据作为参数, 其结果决定系数 R2为0.83、 均方根误差RMSE为0.27 t·ha-1、 相对分析误差RPD为3.05; 以NDVI作为LSTM模型参数的估产效果最优, 相较于玉米收获期可提前2个月就能预测当年的玉米产量, 对于县域尺度玉米产量预报具有一定的现实意义, 同时也为类似作物的估产研究提供相关参考。

关键词: 产量预测; 玉米生育期; 植被指数; Sentinel-2; 长短期记忆人工神经网络模型
中图分类号:TP79 文献标志码:A
Maize Yield Forecasting and Associated Optimum Lead Time Research Based on Temporal Remote Sensing Data and Different Model
LIU Zhao1,2, LI Hua-peng1, CHEN Hui1,2, ZHANG Shu-qing1,*
1. Northeast Institute of Geography and Agroecology, Chinese Academy of Sciences, Changchun 130102, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author
Abstract

For the inadequate generalization ability of the quantitative evaluation model of crop yield, the lag of forecasting time and the difficulty of establishing the optimum lead yield estimation time, this paper takes Sentinel-2 remote sensing data and the measured maize yield as the data source to research the establishment of county-scale maize yield estimation and optimum lead yield estimation time. Based on the time-series image data of maize growth-satges, through building the correlation between maize yield measured data and vegetation index, the time-series maize yield estimation model was established by MLRM (multivariable linear regression model), GPR (Gaussian process regression model) and LSTM (Long short-term memory artificial neural network model). The experimental results show that LSTM is superior to GPR and MLRM in terms of the accuracy, and reliability of the yield prediction model, the capture of the abnormal yield value, and the optimum lead yield estimation time in the time series yield estimation model established with NDVI, GNDVI and GN ( NDVI and GNDVI combination ) as parameters. At the same time, based on the LSTM estimation model, the NDVI time-series image data up to tasseling stage were used as parameters and the yield prediction results showed that the R2(determination coefficient) was 0.83, RMSE(root mean square error) was 0.26 t·ha-1, RPD(relative percent deviation) was 3.52; The GNDVI time-series image data up to tasseling stage were used as parameters, and the yield prediction results showed that the R2 was 0.79, RMSE was 0.30 t·ha-1, RPD was 2.87; The GN time-series image data up to tasseling stage were used as parameters, and the yield prediction results showed that the R2 was 0.83, RMSE was 0.27 t·ha-1, RPD was 3.05. Using the NDVI time-series image data as the LSTM model parameter has the optimal yield estimation, and the maize yield could be predicted 2 months in advance compared with the maize harvest stage. As a result, we developed a crop yield forecasting method in this study to predict crop yield for county-scale. It has practical significance for maize yield forecasting and provides a relevant reference for similar crop yield estimation research.

Keyword: Yield forcasting; Maize growth-satges; Vegetation Index; Sentinel-2; LSTM
引言

东北地区是我国粮食主产区之一, 粮食产量占全国的1/5以上, 是我国最大的商品粮基地, 是维护国家粮食安全重要的“ 压舱石” [1]。 东北地区粮食作物主要包括玉米、 水稻和大豆, 其他粮食作物还包括薯类、 小麦等。 东北地区耕地要素潜力与产粮能力定量评估分析, 对于保障国家粮食安全、 指导农业生产、 保持农业可持续发展具有重要意义。 遥感技术相比于传统作物产量地面调查方法, 具有数据获取覆盖范围广、 获取及时、 更新速度快等特点, 使其在农作物估产方面具有独特优势。 国内外学者基于遥感技术在粮食产量预测方面开展了大量工作, 并取得了丰富且有成效的研究成果[2, 3, 4, 5, 6]。 在这些方法中, 都利用到遥感技术的连续观测能力对作物生长的整个时期进行观测, 而作物产量跟作物前期生长状况密切相关, 将作物前期生长状态与遥感数据相结合, 有可能提前实现作物产量预测, 该项工作十分有利于国内粮食产量预判、 粮食保险、 灾害评估、 以及国际贸易谈判, 为国家和相关决策部门提供重要参考信息。

然而相关工作开展十分有限, 主要由于受到使用估产模型方法能力的限制。 目前采用的作物估产模型主要包括经验回归模型、 遥感数据与作物生长协同模型, 以及基于机器学习的估产模型[7, 8]。 如经验回归模型, 是基于各类植被指数与作物产量数据之间建立回归关系, 其中应用最广泛的指数为归一化植被指数(normalized difference vegetation index, NDVI)和增强植被指数(enhanced vegetation index, EVI)[9, 10]。 研究表明植被条件指数(vegetation condition index, VCI)、 温度条件指数(temperature condition index, TCI)、 植被温度条件指数(vegetation temperature condition index, VTCI)和叶面积指数(leaf area index, LAI)与作物产量关系密切, 也可用于作物生长状况的监测和产量估算[11, 12]。 靳华安等[5]基于作物生长和遥感数据同化模型, 以LAI作为耦合作物生长模型和植被冠层反射率的关键参数, 估算吉林省榆树市玉米产量。 任建强等[6]以黄淮海粮食主产区夏玉米为研究对象, 在区域尺度利用全局优化的复合形混合演化算法进行了遥感信息与作物生长模型的作物单产模拟, 并模拟验证其作物单产精度。 在采用机器学习方法建立估产模型中, 相关学者在此方面也做了大量研究, 王鹏新等[13]通过随机森林模型确定玉米主要生育时期VTCI和LAI的权重, 构建加权VTCI和LAI与玉米单产的单变量和双变量估产模型, 对河北省中部平原地区进行玉米估产, 提高了玉米单产估测精度。 于海洋、 陈圣波等[14]将生长期内玉米遥感影像所提取的多种植被指数和实地采样点的测产数据作为训练值, 采用BP(back propagation)神经网络和遗传算法组合得到GA-BP神经网络估产模型, 得出玉米产量预测值。 随着深度学习的发展及其在农业遥感领域的广泛应用, 其与传统方法相比遥感数据和深度学习算法的集成为作物产量预测提供了可靠性和准确度更高的方法。 特别是LSTM(long short term memory network)长短期记忆神经网络模型, 其近年来在农业领域, 如地下水位深度预测, 农田分类等方面得到广泛关注和研究[15, 16, 17]。 在产量预测应用方面, 已有学者开展相关研究, Lin等[18]基于LSTM、 AT(attention)、 MTL(multi-task learning)深度学习模型, 开发了产量预测深度学习框架, 实现了县域尺度玉米估产研究。 Tian等[19]基于遥感数据和气象数据并结合LSTM神经网络模型开展关中小麦产量预测。 LSTM模型能够表达深层次的网络结构, 其被证明能够适应不同类型数据, 识别长时间跨度的序列模式, 并捕获复杂的非线性关系, 处理大容量数据。 本工作以吉林省德惠市为研究区, 基于sentinel-2号光学卫星影像数据作为数据源并结合实测玉米产量采样数据, 开展玉米估产研究, 分别选择MLRM(multivariable linear regression model) 多元线性回归模型, GPR(Gaussian process regression)高斯过程回归模型, 以及LSTM长短期记忆人工神经网络深度学习模型进行多时序玉米估产模型建立与分析, 同时确定玉米早期估产时间, 对于县域尺度玉米估产具有一定的现实意义。

1 实验部分
1.1 研究区概况

研究区选择吉林省德惠市(县级市), 地处吉林省中北部、 松辽平原腹地, 地理范围为北纬44° 02'— 44° 53', 东经125° 14'— 126° 24', 是全国产粮大县。 德惠市属于温带大陆性季风气候区, 四季分明。 受季风影响, 春季干燥多风, 夏季炎热多雨, 秋季温和凉爽, 冬季漫长寒冷。 玉米是德惠市的主要粮食作物, 其播种面积和产量均居吉林省首位。

1.2 玉米产量数据获取

玉米产量数据来源于实地采样。 2021年10月6日至9日, 在德惠市实地采样55个点。 实地采样点采集的玉米棒, 经过脱粒、 烘干、 测水分含量和湿重、 干重、 千粒重等一系列处理, 最后计算出采样点处玉米产量值, 单位为吨/公顷(t· ha-1), 采样点分布位置如图1所示。

图1 德惠市玉米采样分布图Fig.1 Sampling distribution map of maize in Dehui

1.3 Sentinel-2号数据获取与预处理

Sentinel-2环境监测卫星是欧盟委员会和欧洲航天局发射的多光谱成像卫星, 分为2A和2B两颗卫星, 一颗卫星的重访周期为10 d, 两颗互补, 重访周期为5 d。 Sentinel-2影像是新一代多光谱影像, 具有高时间、 高空间分辨率等优势, 包括从可见光、 近红外到短波红外, 具有不同的空间分辨率, 各波段详细信息如表1所示。 研究区玉米四月中旬至五月初播种、 十月初收获[23], 主要分为五个生长阶段, 即出苗期、 拔节期、 抽雄期、 乳熟期和成熟期, 各生长阶段时间范围及获取的Sentinel-2遥感影像数据详细信息如表2所示。

表1 Sentinel-2号卫星传感器光谱带 Table 1 Spectral band of the Sentinel-2 sensors
表2 德惠市玉米生长期及影像覆盖 Table 2 Maize growth period and image coverage in Dehui
1.4 玉米种植面积提取

提取作物种植面积是实现县域尺度作物估产的前提条件。 文献[20]指出, 东北地区7月底是不同农作物生长的高峰期, 作物的各个生理参量在该时期到达顶峰(例如, 绿度、 含水量等), 是进行作物分类的最佳时间窗口, 同时该研究还通过对比多种主流机器学习方法(包括随机森林分类方法、 支持向量机分类方法、 决策树分类方法), 验证得到随机森林分类方法的最优性。 即本研究采用7月27日Sentinel-2遥感影像, 采用随机森林分类方法, 提取德惠市玉米种植面积, 结果如图2所示, 其分类精度可达90%以上。 由于玉米种植面积提取不是本文研究重点, 这里不详细叙述。

图2 德惠市玉米种植面积分布图Fig.2 Distribution map of maize planting area in Dehui

1.5 方法

围绕时序影像及不同模型的玉米早期估产研究, 1.4节主要介绍研究区及数据部分, 本节主要介绍研究的方法, 本研究的整体技术路线如图3所示。

图3 本研究技术路线图Fig.3 The whole flow chart of our research

1.5.1 玉米单产与影像植被指数相关性分析

监测作物长势和产量的有效方法是采用多光谱数据的植被指数, 由于绿色植被的叶绿素a 和叶绿素b 对遥感数据各个波段的光谱吸收不同, 因此植被指数与绿色植被的生长状况、 生物量、 产量密切相关, 选择4种植被指数参与估产研究, 这些植被指数已被证明在估产研究中的有效性, 其计算公式和具体含义如表3所示。

表3 植被指数计算公式及含义 Table 3 Calculation formula and meaning of vegetation index

基于2021年德惠市玉米实测产量与玉米生长期内时序影像的植被指数建立玉米遥感估产单时序一元线性回归模型, 其公式如式(1)

Y=a×VIt+b(1)

式(1)中, t为时间序列, VItt时刻影像像元的植被指数值, Y为实测玉米像元尺度单产值, ab为线性回归方程系数。 建立从2021年6月7日到2021年9月17日玉米估产一元线性回归模型如表4所示, 并采用相关系数r来判断玉米单产与各类植被指数的相关性, 相关系数是研究变量之间线性相关的量, r值的绝对值介于[0-1]之间, r值的绝对值越接近1, 表示xy两个变量之间的相关程度越强, 反之越接近于0, 表示xy两个变量之间的相关程度就越弱, 计算方法如式(2)所示。

r=j=1n(Oj-O-j)(yj-y-j)j=1n(Oj-O-j)2j=1n(yj-y-j)2(2)

式(2)中, Oj为预测产量; O-j为预测产量的平均值; yj为实测产量; y-j为实测产量的平均值; j为采样点编号; n为采样点个数。

表4 不同植被指数与玉米单产线性模型在玉米不同生长时期的相关性系数|r|值 Table 4 The correlation coefficient |r| value of linear relationship between different vegetation index and maize yield in Maize Growth Period

在玉米生长周期内, 各时序影像的植被指数值与玉米实测采样点产量之间的相关关系从图4的相关性分析热度图可以得出, 从玉米的关键生长阶段, 即抽雄期和乳熟期, 各类植被指数均与产量有很强的相关性, 尤其以NDVI, GNDVI表现最好, 同时各类植被指数和产量相关性均从玉米整个生长周期呈现了|r|值不断提高, 之后下降的趋势, 因此选择NDVI、 GNDVI植被指数作为建立玉米产量估算模型的参数值。

图4 不同植被指数与玉米单产相关系数|r|值在玉米生长期内变化情况热度图
1.5.2 基于MLRM、 GPR、 LSTM建立玉米时序估产模型
Fig.4 The changes heatmap of different vegetation index and maize yield correlation coefficient |r| value in maize growth period

通过建立玉米单时序估产线性回归模型, 得到在玉米的不同生育期植被指数与单产存在一定的相关关系, 但考虑到玉米产量是一个有机物不断积累的结果, 单时序植被指数并不能全面反映玉米产量情况, 为了更好地体现作物生长机理, 减少偶然误差, 采用MLRM, GPR、 LSTM建立玉米时序估产模型。 其中MLRM模型是常用的时序估产模型[23], GPR模型是使用高斯过程对数据进行回归分析的非参数机器学习模型方法, 在时间序列分析、 图像处理和自动控制等领域有着广泛的应用[25]。 LSTM模型已被证明其能够适应不同类型数据, 识别长时间跨度的序列模式, 并捕获复杂的非线性关系, 可以对作物产量进行预测, 并能提高预测精度[18, 19]。 以上三种模型均能较好地识别时序数据, 故采用以上三种模型建立玉米时序估产模型。

MLRM多元线性回归模型, 设因变量为y, k个自变量分别为x1, x2, …, xk, 描述因变量y如何依赖于自变量x1, x2, …, xk和误差项ε 的方程称为多元线性回归模型。 其一般形式可表示为: y=B0+B1x1+B2x2+…+Bkxk+ε , 式中, B0, B1, B2, …, Bk是模型的参数; ε 为误差项。 GPR高斯过程回归模型, 构建模型时, 参数范围n_restarts_optimizer[1, 5, 10, 100, 200], alpha[1× 10-10, 1× 10-8, 1× 10-6, 1× 10-4, 0.01, 0.1]。 通过不断实验比较, 最终本模型参数设置为n_restarts_optimizer=10, alpha=0.01。 LSTM长短期记忆人工神经网络模型, 其结构如图5所示, LSTM通过增加额外的细胞状态Ct和使用门来引入或者去除细胞状态中Ct的信息传递, LSTM主要包括三个不同的门结构即遗忘门、 记忆门和输出门。 这三个门用来控制LSTM的信息保留和传递, 最终反映到细胞状态Ct和输出信号ht, 解决了传统循环神经网络模型(recurrent neural network, RNN)中存在的长期依赖传递过程中出现的“ 梯度爆炸” 和“ 梯度消失” 等问题。 LSTM模型程序编写语言为Python3.6, 开发框架为TensorFlow 1.14, 模型采用自适应梯度下降优化算法, 选择sigmoid作为激活函数, 并以均方误差作为模型的损失函数, 输入层为对应参与运算的各时序影像像元的植被指数值, 隐藏层设置为10, 输出层为影像对应像元的产量值, 通过不断实验进行模型调整, 学习率设为0.000 6, batch_size为11, 在经过500个epoch训练后模型处于稳定状态, 同时采用K折交叉算法, 降低模型选择中的方差, 提高模型可靠性。

图5 LSTM网络结构图Fig.5 LSTM network structure diagram

1.5.3 K折交叉算法进行模型验证

当数据集的数据不够多的时候, 如果把所有的数据都用于训练模型容易导致模型过拟合, 通过交叉验证对数据划分以及对评估结果进行整合, 可以降低模型选择中的方差, 提高模型的可靠性。 K折交叉验证具体指将数据集等比例划分成K个子部分, 从K组中, 选择一组作为验证数据, 其余K-1组作为训练数据, 该过程重复K次, 直到每组数据均参与验证和训练为止, 模型的最终精度是通过获取K折模型验证数据的平均精度来计算, K的取值一般在[2, 10]之间[26]。 本研究玉米采样点数据共55个, 为平均划分样本, K取值为5, 即将玉米采样点平均划分5等份, 其中1份作为测试数据集, 剩余4份作为训练集, 并建立MLRM、 GPR和LSTM时序估产模型。 在估产模型中, 采用判定系数R2、 均方根误差RMSE和相对分析误差RPD评价估产模型的预测可靠性和解释力。 其中判定系数R2判断估产模型的解释力, 统计量R2表示在统计学中用于度量因变量的变异中可由自变量解释部分所占的比例, R2越接近于1, 模型的拟合优度越高, 式(3)为R2的计算公式, R2的通常范围为[0-1]。 式(3)、 式(4)和式(5)中Oj表示预测产量; yj表示实测产量; y-j表示实测产量的平均值; j表示采样点编号; n代表采样点个数。

R2=1-j=1n(yj-Oj)2j=1n(yj-y-j)2(3)

RMSE是预测值与真实值偏差的平方与观测次数n比值的平方根, 体现预测值与真实值的偏差, 反映了模型的稳定性, 单位为t· ha-1, 见式(4)

RMSE=1nj=1n(yj-Oj)2(4)

RPD为实测值标准差与均方根误差的比值反映模型的可靠性, RPD越高, 则模型的可靠性越强。 见式(5)

RPD=j=1n(yj-y-j)2j=1n(yj-Oj)2(5)

对于RPD而言, 当RPD< 1.5, 说明模型不具备预测能力; 当1.5≤ RPD< 2.0, 说明模型只能粗略的预测; 当2.0≤ RPD< 2.5, 说明模型预测能力较好; 当2.5≤ RPD< 3.0, 说明模型能较精确地预测, RPD≥ 3.0, 说明模型预测能力极为出色[27, 28]

1.5.4 估产方法验证

基于MLRM、 GPR以及LSTM建立的玉米时序估产模型, 选择最优的玉米时序估产模型进行2021年德惠市玉米产量预测, 同时下载2021年之前年份的Sentinel-2号同时期影像数据, 将提取的植被指数影像代入最优估产模型进行产量预测, 并与预测年份德惠市统计局发布的玉米产量数据进行对比, 以验证模型的可行性。

2 结果与讨论
2.1 基于MLRM、 GPR、 LSTM模型的玉米时序估产模型结果分析

由1.5.1节建立的各时序影像的植被指数值与玉米实测采样点产量之间的线性模型可以看出NDVI、 GNDVI与产量之间相关性较好, 因此采用NDVI、 GNDVI、 GN(以NDVI和GNDVI组合)植被指数为参数建立基于MLRM、 GPR和LSTM的时序估产模型, 其各模型的R2、 RMSE、 RPD值结果如表5表6表7所示; 不同估产模型中R2、 RMSE、 RPD值的时序变化情况如图6所示。

表5 NDVI, GNDVI, GN作为参数在不同时序估产模型的R2 Table 5 The R2 values of NDVI, GNDVI, GN as parameters in different time series yield estimation
表6 NDVI, GNDVI, GN作为参数在不同时序估产模型的RMSE值 Table 6 The RMSE values of NDVI, GNDVI, GN as parameters in different time series yield estimation
表7 NDVI, GNDVI, GN作为参数在不同时序估产模型的RPD值 Table 7 The RPD values of NDVI, GNDVI, GN as parameters in different time series yield estimation

图6 NDVI, GNDVI, GN作为参数在不同估产模型中R2值(a, b, c)、 RMSE值(d, e, f)、 RPD值(g, h, i)的时序变化情况Fig.6 Time series changes of R2 values (a, b, c), RMSE values (d, e, f), RPD values (g, h, i) in different yield estimation models with NDVI, GNDVI, GN as parameters

如图6结果可以看出, 无论是基于NDVI、 GNDVI以及GN植被指数作为参数建立的MLRM、 GPR, 以及LSTM时序估产模型, 其R2值整体结果均呈现LSTM模型优于GPR模型以及MLRM模型。 截止到8月8日建立的LSTM模型在三种植被指数作为参数建立的模型中, 均达到了极大值点, 在8月初期后, 也就是玉米生长进入抽雄期, 预测模型的R2值趋于平稳, 没有明显波动[如图6(a, b, c)蓝色曲线所示], 说明在这一时期之后模型能很好进行产量预测, 对于LSTM预测模型的RMSE值, 在9月2日之后, 也就是玉米生长在乳熟期的末期, 进入成熟期之后, 呈现明显上升趋势, 说明在这一时期, 模型产量预测的精度和准确性在下降[如图6(d, e, f)蓝色曲线所示], 而LSTM模型的RPD值, 在NDVI、 GNDVI作为参数的模型中, 在9月2日之后也呈现明显的下降趋势[如图6(g, h)蓝色曲线所示], 说明LSTM模型的可靠性也在下降, 而在组合植被指数GN作为参数的LSTM模型中RPD值, 在9月2日之后没有直接下降, 下降趋势延迟[如图6(i)蓝色曲线所示], 说明组合植被指数作为参数的模型中, 提高了这一时期模型预测的可靠性。 相比于LSTM模型, GPR模型与MLRM模型的R2值、 RPD值明显小于LSTM模型, RMSE值明显大于LSTM模型, 其中MLRM模型R2值在8月初期后到9月初期明显高于其他时期, 但在玉米进入成熟期之后, 其R2值下降明显[如图6(a, b, c)绿色曲线所示], 说明MLRM模型预测解释性与可靠性下降, 其RMSE与RPD在整个玉米生长阶段走势与LSTM模型类似[如图6(d, e, f; g, h, i)绿色曲线所示], 结果相比于LSTM模型, MLRM估产模型对时间序列数据的捕捉, 以及预测模型的精度及可靠性均明显弱于LSTM估产模型。 GPR模型在NDVI、 GNDVI以及GN植被指数作为参数中, 在7月27日后, 也是就是从玉米抽雄期一直到成熟期, 估产模型的R2、 RMSE、 RPD的值均趋于稳定, 波动不大[如图6(a— i)红色曲线所示], 从结果可以看出, 本文的GPR时序估产模型对长时间序列数据捕捉稳定性优于MLRM估产模型, 但估产精度和准确度不如MLRM模型, 其与LSTM模型估产结果相比相差较大。

为验证三种模型在单个采样点尺度上的玉米估产效果, 选取截止到2021/09/02的NDVI时序影像、 截止到2021/09/02的GNDVI时序影像, 以及截止到2021/09/05的GN时序影像作为参数, 选取该三组时序影像植被指数, 是因为此时GPR估产模型与MLRM估产模型R2值、 RMSE值、 RPD值均达到极值点, 估产效果最优, 而LSTM估产模型并未最优。 将这三种模型预测的采样点产量结果与实测产量相比较, 如表8所示, 除了用R2和RMSE来评价各模型单点产量预测结果与实际测产结果, 还采用MRE平均相对误差来评价模型精度, 其中MRE计算如式(6)所示, 公式各参数含义与式(5)相同

MRE=1nj=1n|yj-Oj|yj(9)

表8 采用截止到2021/09/02-NDVI, 2021/09/02-GNDVI, 2021/09/05-GN植被指数作为参数在不同时序估产模型预测产量与实测产量的R2、 MRE、 RMSE值 Table 8 The R2, RME, RMSE values in different time series yield estimation models by the end of 2021/09/02-NDVI, 2021/09/02-GNDVI, 2021/09/05-GN vegetation index as parameters

表8可以看出, 在不同的时间序列及不同植被指数作为参数的模型中, 均得出LSTM估产模型产量预测单点结果比GPR模型与MLRM模型相关性高, 估产精度和准确性更优。 如图7箱线图和散点图所示, 其中箱线图中的黑色圈圆点为产量异常值, 散点图中的黑色斜线的斜率为1, 明显得出LSTM模型估产结果的预测产量与实测产量具有最好的一致性, 以及对产量异常值的捕捉效果更优。

图7 采用截止到2021/09/02-NDVI, 2021/09/02-GNDVI, 2021/09/05-GN植被指数作为参数在不同估产模型中预测产量与实测产量箱线图和散点图Fig.7 The boxplot and scarrer diagram in different time series yield estimation models comparison of pridiction yield and measured yield by the end of 2021/09/02-NDVI, 2021/09/02-GNDVI, 2021/09/05-GN vegetation index as parameters

综上所述, LSTM模型无论在产量整体预测还是单点产量预测方面, 均优于GPR模型及MLRM模型, 模型具有较好的时序数据捕捉能力以及在单点产量预测异常值的捕捉能力, 同时LSTM模型在[08/08— 09/02]时间区间其估产结果的稳定性及预测可靠性, 在三种植被指数作为参数的模型中, 均优于其他时间序列如图6(a、 b、 c)红色虚线之间所示, 其该时间区间正好落在玉米生长的抽雄期及乳熟期, 其抽雄期包括玉米抽穗期和开花期是玉米生殖生长的关键时期, 是决定玉米产量的关键时期, 玉米进入乳熟期后是玉米籽粒形成的关键时期, 叶片合成的大量营养物质不断地向籽粒内输送, 同样也是玉米产量形成的关键时期。 同时针对玉米估产早期时间窗口分析研究, 如图6(a、 b、 c)紫色虚线相交的红色圆圈区域所示, 其详细数据信息如表9所示, 从结果可以看出基于NDVI的植被指数作为参数的LSTM估产模型捕捉到最优早期估产时间窗口[08/02— 08/08], 在该时间段模型的估产决定系数在0.8以上, 其RMSE值在0.26~0.27 t· ha-1之间, 其RPD在3.5以上, 估产结果最稳定, 整体结果优于以GNDVI及GN组合植被指数作为参数的LSTM估产模型。 同时从结果中可以看出GN组合作为参数的LSTM估产模型, 只有在决定系数R2值稍优于以NDVI作为参数建立的LSTM估产模型, 但在其他估产模型判断指标并没有明显提升, 分析认为GNDVI是NDVI的修改版本, 对作物中叶绿素含量的变化更加敏感, GNDVI比NDVI更能识别植物中叶绿素的不同含量率, 两种植被指数具有较强的相关性, 使其组合植被指数作为参数的估产模型提高不明显。 以NDVI作为参数的估产效果优于以GNDVI作为参数的估产模型效果, 其原因是GNDVI更加适用于研究地区植被量为高饱和状态, 其估产效果更优。 综上所述采用NDVI作为参数的LSTM玉米时序估产模型, 采用截止到8月8日的时序影像进行德惠市玉米产量预测。

表9 NDVI, GNDVI, GN作为参数在LSTM模型中早期估产最佳时间窗口结果分析 Table 9 The result analysis of the early optimum time window for yield estimation in LSTM model with NDVI, GNDVI, GN vegetation index as parameters
2.2 德惠市玉米产量预测及本方法验证

采用截止到8月8日的NDVI时序影像建立估产模型, 其决定系数R2可达0.83, 采用该模型估算德惠市2021年玉米产量, 将经过玉米种植面积裁剪的NDVI时序影像输入LSTM模型, 即从6月7日到8月8日共5景影像数据, 进行逐像元玉米产量计算, 最终得到德惠市2021年玉米产量预测结果分布图, 如图8所示。

图8 基于LSTM估产模型德惠市2021年玉米产量预测图Fig.8 Prediction Map of Maize Yield in Dehui, 2021 Based on LSTM Model

为验证本方法, 下载2017年sentinel-2号同时期影像数据进行处理, 由于Sentinel-2号数据2017年之后才有完整的时序影像数据, 同时2018年、 2019年、 2020年的影像数据存在云覆盖较多的情况没有合适的影像, 故选取2017年作为验证。 采用随机森林分类方法, 提取德惠市2017年玉米种植区, 得到面积为154 958 ha, 基于本文LSTM时序估产模型得到玉米产量预测结果为1 216 056 t, 其中2017年德惠市统计局发布的农业数据玉米种植面积为158 658 ha, 玉米产量为1 201 223 t, 玉米估产误差为1%, 辅助证明该方法具有一定的可行性。

2.3 讨论

通过建立不同估产模型估算玉米产量和确定早期最优估产时间窗口, 与MLRM模型与GPR机器学习模型相比, LSTM在时序估产模型中表现更优, 相比于机器学习模型和回归模型, 深度学习模型能够从大量数据中获得更多数据特征, 模型的鲁棒性更强, 更加适应数据中的非线性关系。 同时LSTM模型, 解决了RNN存在的长期依赖问题, 实现对时间序列信息的选择性记忆, 保留重要信息, 忘记不重要信息, LSTM模型这种能力使其在作物产量预测的早期时间窗口确立以及对产量异常值的捕捉更有优势, 提高了作物产量预测精度和稳定性, 同时在今后的工作中, 在LSTM估产模型中引入注意力机制模型, 给予影响产量估算关键物候期遥感信息更大的权重, 构建精度更高, 算法及机理性更强的估产模型。

作物产量是作物在整个生育期间累积的过程, 各个生育期对最后产量的结果贡献是不同的。 同时在不同生育期, 作物的光谱反射率随着作物的生长而变化, 通过波段计算得到相关植被指数很好地反映了作物生长在不同生育期内的相关特征, 为通过植被指数进行作物估产奠定了理论基础。 以本研究作物玉米为例, 拔节期为茎基部生长的主要时期, 该时期的玉米生长并不能反映后期产量器官对于有机质的积累, 同时该时期玉米叶片相对较小, 地表存在裸露情况, 影响光谱的反射信息, 所以采用到拔节期的玉米估产模型精度较低; 抽雄期是营养生长和生殖生长旺盛的并进阶段, 该时期玉米干物质积累速度加快并达到顶峰; 乳熟期, 玉米在该时期植株果穗中子粒体积基本形成, 是子粒干重迅速增加的关键时期, 这两个关键生育期是决定玉米产量形成最关键时期, 所以采用截止到这两个时期的植被指数信息估产效果最佳, 同时在这两个玉米关键的生长时期无论是倒伏、 水分胁迫, 以及光照对最后玉米产量形成的影响都很大。 在玉米生长进入成熟期之后, 叶片中的叶绿素含量下降, 基于不同波段的植被指数和作物产量的相关性下降, 这也就解释为什么在玉米进入成熟期后的估产模型精度在不断下降的原因。 本文在玉米主要生育期对估产精度影响的分析中与国内外等学者在玉米生育期对估产影响的结果中结论相似[13, 29, 30, 31]

本文优势是基于遥感技术的连续观测能力对作物生长的整个时期进行观测与数据获取, 根据作物不同生育期与时序影像数据相结合, 并建立相关关系。 随着深度学习模型的发展, 及其在农业遥感领域广泛应用, 以及模型对时序数据的捕捉能力, 采用LSTM建立的玉米时序估产模型及确定的早期最优估产时间窗口, 该项工作为粮食产量判断, 粮食保险提供相关依据。

同时本研究仍存在不足之处, 云层的干扰对Sentinel-2号数据的分析和数据处理造成一定影响, 不利于作物估产模型更加准确的建立, 同时估产结果缺少在县域尺度的时空分布分析, 在今后的研究中考虑结合多源数据开展估产模型的建立, Sentinel-1号数据在生成的过程中不受云层的影响, 可以补正云层的干扰, 同时Sentinel-1号数据作为雷达数据, 有利于土壤水分的反演, 利于玉米产量时空格局的分布分析, 同时在模型参数选择方面除了以上提及的植被指数, 同时可以引入LAI、 叶绿素、 土壤水分等更多参数参与模型的建立, 提高产量估算的准确性和可靠性。 同时玉米产量的准确估算与玉米种植面积提取具有重要的相关性, 本方法得到县域尺度估产结果是存在种植面积提取与产量估算精度误差“ 正负抵消” 的效果, 因此选择更加准确合适的作物分类方法, 准确提取作物种植面积, 对县域尺度作物估产也是十分重要的工作。

3 结论

在仅使用公开的Sentinel-2号影像数据和地面实测产量数据的情况下, 采用MLRM、 GPR、 以及LSTM建立时序估产模型, 通过模型构建及结果分析, 基于深度学习LSTM构建的时序估产模型无论在估产模型的整体稳定性以及玉米单产尺度上都优于GPR模型和MLRM模型, 同时基于LSTM时序估产模型在研究区进行玉米估产研究, 其决定系数可达0.83, 均方根误差为0.26 t· ha-1, 相对分析误差RPD为3.52, 并采用玉米生育阶段抽雄时期的影像, 就能较准确的预测当年玉米产量, 可为相关决策部门的玉米产量预报、 灾害评估和政策制定提供有价值的信息, 以降低生长季结束前产量损失的风险。

参考文献
[1] HAN Dong-hui, ZHAO Jin-yuan, HU Qi, et al(韩冬荟, 赵金媛, 胡琦, ). Journal of China Agricultural University(中国农业大学学报), 2021, 26(3): 188. [本文引用:1]
[2] Sergio M, Vicente-Serrano, Jose M, et al. International Journal of Remote Sensing, 2006, 27(3): 511. [本文引用:1]
[3] Liu L Y, Wang J H, Bao Y S, et al. International Journal of Remote Sensing, 2006, 27(4): 737. [本文引用:1]
[4] Pan H, Chen Z, Wit A D, et al. Sensors (Basel, Switzerland ), 2019, 19(14): 3161. [本文引用:1]
[5] JIN An-hua, WANG Peng-xin, QI Xuan, et al(靳安华, 王鹏新, 齐璇, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2012, 28(6): 162. [本文引用:2]
[6] REN Jian-qiang, CHEN Zhong-xin, TANG Hua-jun, et al(任建强, 陈仲新, 唐华俊, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2011, 27(8): 257. [本文引用:2]
[7] Araya A, Hoogenboom G, Luedeling E, et al. Agricultural and Forest Meteorology, 2015, 214: 252. [本文引用:1]
[8] Anothai J, Soler C M T, Green A, et al. Agricultural and Forest Meteorology, 2013, 176: 64. [本文引用:1]
[9] Becker-Reshef I, Vermote E, Lindeman M, et al. Remote Sensing of Environment, 2010, 114(6): 1312. [本文引用:1]
[10] Sun J, Lai Z, Di L, et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 5048. [本文引用:1]
[11] Huang J, Tian L, Liang S, et al. Agricultural and Forest Meteorology, 2015, 204: 106. [本文引用:1]
[12] Xie Y, Wang P, Bai X, et al. Agricultural and Forest Meteorology, 2017, 246: 194. [本文引用:1]
[13] WANG Peng-xin, QI Xuan, LI Li, et al(王鹏新, 齐璇, 李俐, ). Journal of Agricultural Machinery(农业机械学报), 2019, 50(7): 237. [本文引用:2]
[14] YU Hai-yang, CHEN Sheng-bo, YANG Bei-ping, et al(于海洋, 陈圣波, 杨北萍, ). Global Geology(世界地质), 2020, 39(1): 208. [本文引用:1]
[15] Zhang J, Zhu Y, Zhang X, et al. Journal of Hydrology, 2018, 561: 918. [本文引用:1]
[16] Jiang H, Hu H, Zhong R, et al. Global Change Biology, 2020, 26(3): 1754. [本文引用:1]
[17] Greff K, Srivastava R K, Koutník J, et al. IEEE Transactions on Neural Networks and Learning Systems, 2016, 28(10): 2222. [本文引用:1]
[18] Lin T, Zhong R, Wang Y, et al. Environmental Research Letters, 2020, 15(3): 034016. [本文引用:2]
[19] Tian H, Wang P, Tansey K, et al. Agricultural and Forest Meteorology, 2021, 310: 108629. [本文引用:2]
[20] Zhang H, Kang J, Xu X, et al. Computers and Electronics in Agriculture, 2020, 176: 105618. [本文引用:1]
[21] Ren J Q, Chen Z X, Zhou Q B, et al. Journal of Remote Sensing, 2015, 19(4): 568. [本文引用:1]
[22] Shanahan J F, Schepers J S, Francis D D, et al. Agronomy Journal, 2021, 93(3): 583. [本文引用:1]
[23] AN Qin, CHEN Sheng-bo, SUN Shi-chao (安秦, 陈圣波, 孙士超). Geospatial Information(地理空间信息), 2018, 16(3): 14. [本文引用:2]
[24] Cao Q, Miao Y, Shen J, et al. Agronomy Journal, 2016, 17(4): 136. [本文引用:1]
[25] KANG Jun-feng, HUANG Lie-xing, ZHANG Chun-yan, et al(康俊锋, 黄烈星, 张春艳, ). China Environmental Science(中国环境科学), 2020, 40(5): 1895. [本文引用:1]
[26] WANG Teng-jun, FANG Ke, YANG Yun, et al(王腾军, 方珂, 杨耘, ). Bulletin of Surveying and Mapping(测绘通报), 2021, (11): 92. [本文引用:1]
[27] Saeys W, Mouazen A M, Ramon H. Biosystems Engineering, 2005, 91(4): 393. [本文引用:1]
[28] WANG Hai-jiang, JIANG Tian-chi, Yunger John A, et al(王海江, 蒋天池, Yunger John A, ). Journal of Agricultural Machinery(农业机械学报), 2018, 49(5): 263. [本文引用:1]
[29] HAN Wen-ting, PENG Xing-shuo, ZHANG Li-yuan, et al(韩文霆, 彭星硕, 张立元, ). Journal of Agricultural Machinery(农业机械学报), 2020, 51(1): 148. [本文引用:1]
[30] Li L, Wang B, Feng P, et al. Agricultural and Forest Meteorology, 2021, 308-309(4): 108558. [本文引用:1]
[31] WANG Lai-gang, XU Jian-hua, HE Jia, et al(王来刚, 徐建华, 贺佳, ). Journal of Maize Science(玉米科学), 2020, 28(6): 88. [本文引用:1]