基于长短期记忆网络的冬小麦连续时序叶面积指数预测
龙泽昊1, 秦其明1,2,3,*, 张添源1, 许伟1
1. 北京大学地球与空间科学学院遥感与地理信息系统研究所, 北京 100871
2. 地理信息基础软件与应用工程技术研究中心, 北京 100871
3. 空间信息集成与3S工程应用北京市重点实验室, 北京 100871
*通讯联系人 e-mail: qmqinpku@163.com

作者简介: 龙泽昊, 1994年生, 北京大学遥感与地理信息系统研究所硕士研究生 e-mail: longzehao@pku.edu.cn

摘要

连续时序的叶面积指数(LAI)可反映冬小麦长势的变化情况, 预测冬小麦未来时段的LAI对指导田间管理决策具有重要作用。 以WOFOST(World Food Studies)为代表的作物生长模型可通过模拟冬小麦的生长发育过程对未来LAI曲线进行预测, 但其预测过程依赖于未来的气象数据等难以获取的输入参数。 由于冬小麦的LAI时序变化具有连续性和规律性的特点, 可通过深度学习方法仅以历史LAI为输入参数对未来LAI进行预测, 但深度学习方法需要大量样本参与训练, 训练样本的稀缺性限制了其在LAI预测方面的实际应用。 针对上述问题, 通过数据同化方法将遥感数据与WOFOST模型相结合, 采用SCE(Shuffled Complex Evolution)算法最小化校正后的MODIS LAI产品与模型模拟LAI之间差值来优化作物模型初始参数, 从而构建出京津冀地区15年的逐日冬小麦LAI数据集。 在该数据集基础上, 利用长短期记忆网络(LSTM)分别建立了不同输入历史LAI天数的多个冬小麦预测模型, 探究了不同预测模型表达冬小麦生育期中LAI变化规律的能力。 结果表明: 基于LSTM网络的预测模型都能较好进行冬小麦LAI未来曲线变化的预测, 其中当模型输入LAI长度为20时, 预测冬小麦从返青到成熟阶段的LAI精度最高, 其决定系数( R2)、 均方根误差(RMSE)值分别为0.986 5和0.183 6。 对于冬小麦生长各个阶段, 预测模型对于返青至开花期的预测精度高, 开花至成熟期的预测精度稍有降低。 总体而言, 构建训练数据集的方法对于深度学习方法在相似问题中的应用具有借鉴意义, 建立的预测模型验证了LSTM网络对于冬小麦时序LAI曲线具有较好的预测能力, 为预测作物未来时序LAI提供了一种有效的方法。

关键词: 叶面积指数; 长短期记忆网络; WOFOST模型; 数据同化; MODIS LAI遥感影像
中图分类号:TP79 文献标志码:A
Prediction of Continuous Time Series Leaf Area Index Based on Long Short-Term Memory Network: a Case Study of Winter Wheat
LONG Ze-hao1, QIN Qi-ming1,2,3,*, ZHANG Tian-yuan1, XU Wei1
1. Institute of Remote Sensing and Geographical Information System, School of Earth and Space Science, Peking University, Beijing 100871, China
2. Geographic Information Foundation Software and Application Engineering Technology Research Center, Beijing 100871, China
3. Beijing Key Lab of Spatial Information Integration and 3S Application, Beijing 100871, China
*Corresponding author
Abstract

The continuous time series of Leaf Area Index (LAI) can reflect the growth of winter wheat, and the prediction of future LAI is important for guiding agricultural production. The crop growth models, such as the World Food Studies (WOFOST), can predict the future LAI by simulating the growth and development of winter wheat. But the simulation depends on numerous input parameters, such as future meteorological data, which is difficult to obtain. Due to the continuity and regularity of LAI variations of winter wheat, the future LAI can be predicted with historical LAI through deep learning methods. However, deep learning methods require a large number of samples with labels to build training dataset. The scarcity of training dataset limits the application of deep learning methods in practice. To solve the above problems, we used data assimilation framework to combine remote sensing data with WOFOST model and constructed 15-year time series dataset of winter wheat LAI in Hebei province. Shuffled Complex Evolution (SCE) algorithm was applied to minimize difference between corrected MODIS LAI and simulated LAI for optimizing initial parameters of WOFOST. Based on the dataset, multiple LAI prediction models with different input lengths of historical LAI were established by using the Long Short-Term Memory (LSTM). The abilities of different prediction models to delineate LAI variations of winter wheat were evaluated. Results showed that the LSTM-based models can predict the future LAI of winter wheat effectively. The prediction model with an input length of 20 days achieved the highest accuracy. and RMSE of the prediction model were 0.986 5 and 0.183 6 after winter wheat returned green. For different stages of winter wheat growth, the accuracy was higher before winter wheat bloomed and reduced slightly after winter wheat bloomed. Therefore, it could be concluded that the method of constructing training dataset proposed in this study could be a reference for the application of deep learning methods in similar problems. The prediction models built in this study also verified the effectiveness of the LSTM, which provided a helpful way for predicting the future LAI of crops.

Keyword: Leaf area index; Long short-term memory; World food studies; Data assimilation; MODIS LAI remote sensing image
引 言

叶面积指数(leaf area index, LAI)是描述植被形态结构的重要参数, 其定义为单位地表面积上单面叶片的总面积[1]。 由于LAI与植被的光合作用、 生物量积累等生理过程密切相关, 因而在农业生产中常被用于评价作物长势与估算作物产量[2, 3, 4]。 预测作物未来LAI曲线变化情况, 可以掌握作物未来的生长趋势, 对于估计作物未来的长势状况、 制定田间管理决策具有重要意义。

时序LAI数据可通过作物生长模型模拟以及遥感反演等方法获得。 WOFOST是以日为步长来动态模拟作物生长过程的作物模型, 通过输入气象、 作物等参数可获得作物逐日时序LAI数据以及其他生长参数。 利用WOFOST可以对作物未来的LAI曲线进行预测, 但需要以未来气象数据作为支撑[5], 而模型繁多的输入参数且依赖于未来气象数据等问题限制了其应用。 此外, 利用现有遥感LAI产品也可对时序LAI数据进行建模, 但传统建模方法可能会受到LAI数据时间或空间不连续性等问题而削弱了应用的鲁棒性, 因此部分研究利用神经网络方法来对时序LAI建模, 有研究将季节自回归积分滑动平均(SARIMA)方法与BP神经网络进行结合对时序MODIS LAI进行预测, 结果显示该组合方法的预测准确性高于传统的SARIMA方法; Xiao等[6]利用广义回归神经网络(GRNN)来估算全球时序LAI, 其建模精度优于MODIS和CYCLOPES LAI产品; Chen等[7]建立了一个基于循环神经网络(RNN)的非线性自回归模型来预测橡胶种植林LAI, 结果表明RNN在反演时序LAI上具有可行性。 与普通神经网络相比, RNN通过在每层神经元之间建立连接, 从而能够有效地挖掘时序数据中所包含的规律, 而其变体长短期记忆网络(long short-term memory, LSTM)通过添加门控机制进一步提高了时序数据预测精度[8, 9], 但目前还未见研究利用LSTM对时序LAI建模。 由于在冬小麦生长过程中LAI曲线变化具有规律性, 因此LSTM具有对冬小麦未来LAI曲线进行预测的潜力, 但此方法需要大量样本作为基础, 而样本的难获取性也限制了其在作物LAI时序预测方面的应用。

通过结合校正后的MODIS LAI产品与WOFOST模型, 构建了京津冀地区15年的历史逐日冬小麦LAI数据集, 并利用LSTM建立了冬小麦LAI预测模型, 探讨了其在农作物LAI曲线预测的潜力。

1 实验部分
1.1 研究区及数据介绍

研究区为京津冀地区, 位于36° 21'— 42° 37'N, 113° 27'— 119° 51'E, 该区域农作物以冬小麦和玉米为主, 其中冬小麦种植区域除河北省张家口和承德地区外均有种植。 如图1所示, 研究区内共有17个气象站点, 本文下载了2003年9月至2017年7月共15年的逐日气象数据, 数据来源于国家气象信息中心的地面气候资料日值数据集。 实测数据为河北衡水市2017年3月30日(DOY: 89)和2017年5月5日前后(DOY: 125)两个时期实测LAI。 遥感数据使用4天周期、 500 m分辨率的MODIS LAI(MCD15A3H)数据, 时间范围为2003年— 2017年的1月— 6月, 每年有45张时序影像(DOY: 1~177)。

图1 研究区以及气象站点和采样点分布Fig.1 Study area and locations of meteorological stations and sampling points

1.2 冬小麦LAI数据集构建

1.2.1 遥感数据预处理

MODIS LAI空间分辨率较低, 像元中一般会混杂除冬小麦外的其他地物, 造成LAI值偏低问题, 因此需进行校正。 如图2所示, 首先对于各气象站点和采样点, 在点周围100 km内的MODIS LAI时序影像中进行由里向外LAI曲线的提取, 并依据LAI曲线特征形态以及对应点的Google Earth影像来目视解译是否为冬小麦像元, 最终提取出2003年— 2017年共247条符合要求的气象站点LAI曲线和2017年采样点LAI曲线。 然后, 利用Savitzky-Golay滤波对所有曲线进行平滑处理, 并对平滑后采样点LAI曲线提取出DOY为88、 124的LAI, 并根据文献[10]方法与实测LAI建立校正模型。 最终, 从247条气象站点LAI曲线中提取DOY为120, 140和160的MODIS LAI值, 并用校正模型对其进行校正。

图2 遥感数据预处理流程图Fig.2 Flow chart of remote sensing data preprocessing method

1.2.2 遥感-WOFOST同化

WOFOST通过给定对应作物和环境参数可对不同作物进行生长模拟, 利用京津冀地区冬小麦作物参数, 在潜在生产力水平下进行冬小麦LAI模拟, 并采用同化算法进行参数优化, 从而生成该地区15年的冬小麦LAI数据集。

在优化参数的选择中, TSUM1和TSUM2参数代表有效积温, 需要依据气温数据动态计算获得, 由于获取往年各个气象站点附近冬小麦出苗、 开花、 成熟三个阶段的准确时间较困难, 所以需要进行优化。 此外, 根据文献[11]建议, TDWI和SPAN是WOFOST模型中重要的两个参数, 也将其加入优化(如表1)。

表1 需优化参数的定义与校准值范围 Table 1 Description and range of parameters to be optimized

确定好优化参数后, 采用SCE优化算法实现模拟LAI与遥感观测LAI最小化, 从而得到比未优化之前更准确的连续时序LAI数据。 优化算法的损失函数如式(1)所示。

Q=(x120-y120)2+(x140-y140)2+(x160-y160)2(1)

其中: x120, x140x160为利用WOFOST模拟的LAI曲线中DOY为120, 140和160的LAI值, y120, y140y160为校正后的MODIS LAI中DOY为120, 140和160的LAI值。

通过所提取的247组校正后的MODIS LAI加入WOFOST进行同化, 并以每组所对应的当年站点气象数据来驱动模型, 从而得到优化后的LAI曲线数据。 如图3(a)所示, 未同化生成的LAI曲线中LAI最高值达到8, 最低值仅为2, 部分曲线不符合冬小麦生长规律特征。 如图3(b)所示, 同化后生成的LAI曲线中的均值线最大值为5且在轮廓线内分布较均匀, 更符合冬小麦LAI曲线变化规律。

图3 未同化(a)与同化(b) WOFOST模型生成的247条LAI曲线Fig.3 247 LAI curves generated by WOFOST model with assimilation (b) and without assimilation (a)

1.3 LAI预测模型

以生成的冬小麦LAI数据集为基础, 采用LSTM网络对冬小麦LAI时序曲线变化规律进行学习, 实现对未来LAI曲线的预测。 如图4所示, LSTM通过添加门结构使得信息有选择性地影响模型中每个时刻的状态, 主要由输入门、 输出门、 遗忘门组成[8]

图4 LSTM单元结构Fig.4 LSTM cell structure

如式(2)— 式(6)所示为t时刻的LSTM的计算公式

ft=σ(Wfxt+Ufht-1+bf)(2)it=σ(Wixt+Uiht-1+bi)(3)ot=σ(Woxt+Uoht-1+bo)(4)ct=ft°ct-1+it°tanh(Wcxt+Ucht-1+bc)(5)ht=ot°tanh(ct)(6)

其中: 􀳱为点乘运算, σ 和tanh为激活函数, xtRdt时刻输入向量, ft, it, otRh分别为遗忘门、 输入门、 输出门激活向量, htRh为记忆单元输出向量, ctRh为记忆单元状态向量, WRh× d, URh× hbRh为权重矩阵和偏置向量。

对冬小麦LAI进行短时间预测并不能有效反映出其生长状态, 若对冬小麦进行较长时间预测, 会由于输入信息的不足而造成预测精度下降, 因此本研究建立的LAI预测模型选取了相对适宜的预测天数, 即通过前N天的LAI数据来预测未来N+1~N+15共15 d的LAI。 此外, 因不同气象条件下冬小麦物候会有差别, 所以将t时刻的LAIt所对应的DOYt也作为输入特征, 同时为保证输入特征具有一致性, 将特征进行归一化缩放至0~1之间。 如图5所示, 建立的预测模型采用多层LSTM结构, LSTM层数设置为3层, 每层隐藏神经元个数h设置为32个, 时间步长设定为N, 时刻为t的输入参数为二元组(LAIt, DOYt), 该模型的最终输出为y'={LAI'N+1, LAI'N+2, …, LAI'N+15}∈ R15

图5 基于LSTM的LAI预测模型Fig.5 LSTM architecture of LAI prediction model

在最后时刻N时, 通过3层LSTM结构的输出为hNR32, 之后通过连接一个全连接层即可到预测结果y', 其计算公式如式(7)所示。

y'=WyhN+by(7)

其中WyR15× 32为权重矩阵, byR15偏置向量。

在模型训练过程中, 优化算法采用Adam, 损失函数采用平方损失函数L, 如式(8)所示。

L=t=N+1N+15(LAI't-LAIt)2(8)

其中LAI't和LAIt分别为t时刻预测模型对LAI的预测值以及对应标签值。

2 结果与讨论
2.1 LAI预测模型精度分析

冬小麦在出苗到返青阶段其LAI较低, 直到返青后LAI才开始明显变化。 研究区域冬小麦大约三月份开始返青, 故采用2003年— 2016年冬小麦数据集中从3月1日到成熟阶段共232条LAI曲线作为训练数据, 并利用2017年15条LAI数据进行验证, 通过取N=5, 10, 15, 20, 25和30共训练了6个LAI预测模型, 并对不同的模型结果进行对比分析。

如图6所示, 将验证数据切割为35 d的LAI曲线集合, 其中前20 d作为输入数据, 后15 d作为标签数据, 利用N=20的LAI预测模型进行预测。 结果显示, 模型预测LAI< 2.5以及LAI> 5.5的精度较高, 预测值与标签值均在1∶ 1线附近。 当2.5≤ LAI≤ 5.5时, 相比前两种情况预测精度稍低, 可能是因为不同生长条件下冬小麦返青和开花时间不同, 其对应LAI上升和下降阶段中LAI变化具有较大的差异。

图6 N=20的LAI预测模型预测结果Fig.6 Results of LAI prediction model with input N=20

表2所示, 对6个LAI预测模型的预测结果综合进行对比, 其中N=20的预测模型的R2(0.986 5)最高、 RMSE(0.183 6)最低, 精度优于其他预测模型, 而N=5的预测模型精度最差。 当模型LAI输入长度从5增加到20时, 其R2呈上升趋势, RMSE呈下降趋势, 这是由于更多LAI信息输入使得LAI预测精度提高。 当模型LAI输入长度继续增长时, 精度开始下降, 可能是因为离预测日期太远的LAI对于预测LAI贡献作用小, 反而有可能引起数据干扰的效果。

表2 6个LAI预测模型预测结果精度对比 Table 2 Comparison of experiment results from LAI prediction models
2.2 不同生育期冬小麦LAI预测精度对比

在冬小麦生长过程中, 不同生育期的冬小麦LAI的变化存在区别, 因此LAI预测模型对处于不同生育期的冬小麦预测精度存在差异。 通过将冬小麦生长大致分为返青至拔节(3月1日— 4月15日)、 拔节至抽穗(4月16日— 5月10日)、 抽穗至成熟(5月11日— 结束)三个阶段, 利用训练好的6个预测模型对这三个阶段进行精度分析。

表3所示, 在返青到拔节期, N=30的预测模型精度最高; 在拔节至抽穗期, N=25的预测模型精度最高; 在抽穗至成熟期, N=20的预测模型精度最高。 由此可见, 不同LAI输入长度的预测模型对于不同生育阶段的预测精度并不一致。 在返青到拔节期, 随着N值的增大, LAI预测模型的精度不断提高, 在后两个阶段中, 随着N值增大, 预测精度先提高后下降。

表3 不同生育阶段中6个LAI预测模型预测结果精度对比 Table 3 Comparison of experiment results from LAI prediction models in different stages

如图7(a), (b)和(c)所示, 在三个阶段分别抽取5条差异较大的LAI曲线, 截取DOY分别为70~89, 90~109和120~139的LAI曲线作为模型输入得到预测结果, 可见模型预测结果与标签值吻合且趋势一致。 如图7(d)所示, 在返青至拔节期, 低值LAI比高值LAI预测准确度高, 可能是因为刚返青时LAI的增长速率低, 而返青后LAI增长速率变快, 模型对其LAI快速变化的捕捉能力不足。 如图7(e)所示, 在拔节至抽穗期, 由于该阶段冬小麦LAI变化较为平缓, 预测结果基本处于1∶ 1线附近, 模型对其模拟的精度高。 如图7(f)所示, 在抽穗至成熟期, 高值LAI比低值LAI预测准确度高, 可能是由于在抽穗至开花阶段冬小麦LAI处于高值且变化平缓, 在开花期后LAI迅速下降, 而模型捕捉冬小麦开花时间节点的能力并不理想, 预测精度出现下降。 因此, LAI预测模型对于返青至开花阶段预测精度较高, 前期LAI曲线预测的高精度性对于冬小麦前期田间管理和生产具有重要作用。

图7 不同生育期中N=20的LAI预测模型预测结果
(a): 返青至拔节期的标签与预测LAI曲线; (b): 拔节期至抽穗期的标签与预测LAI曲线; (c): 抽穗至成熟期标签与预测LAI曲线; (d): 返青至拔节期标签与预测LAI值对比; (e): 拔节至抽穗期的标签与预测的LAI值对比; (f): 抽穗至成熟期标签与预测LAI值对比
Fig.7 Results of LAI prediction model with input N=20 in different stages
(a): Label and predicted LAI curves from returning green to jointing; (b): Label and predicted LAI curves from jointing to heading; (c): Label and predicted LAI curves from heading TO maturity; (d): Comparison of Lable and predicted LAI value from returing green to jointing; (e): Comparison of lable and predicted LAI value from jointing to heading; (f): Comparison of lable and predicted LAI value from heading to maturity

3 结 论

采用的冬小麦LAI数据集是利用潜在生产力水平下的WOFOST模型模拟得到的, 以该数据集为基础构建的预测模型对潜在生产力水平下的冬小麦具有较好的预测效果。 然而, 冬小麦的生长发育是一个多环境因子作用的复杂过程, 干旱、 病虫害、 养分胁迫等因素均会对冬小麦的生长发育造成影响。 下一步研究需要结合冬小麦生长发育的影响因素, 对训练数据集进行扩充, 从而提高预测模型的普适性。

本研究利用了数据同化、 作物模型与遥感等手段, 构建了京津冀地区近15年冬小麦LAI曲线数据集, 为解决训练数据难以获取这一难题提供了新的思路, 对深度学习方法在类似问题中的实际应用具有借鉴意义。 此外, 还验证了LSTM在预测农作物LAI时序曲线应用潜力, 对于利用现有热门的深度学习方法解决冬小麦未来长势预测、 指导田间管理决策等传统问题具有重要价值。

参考文献
[1] LIU Yang, LIU Rong-gao, CHEN Jing-ming, et al(刘洋, 刘荣高, 陈镜明, ). Journal of Geo-Information Science(地球信息科学学报), 2013, 15(5): 734. [本文引用:1]
[2] Campos-Taberner M, García-Haro F J, Camps-Valls G, et al. Remote Sensing of Environment, 2016, 187: 102. [本文引用:1]
[3] Rembold F, Atzberger C, Savin I, et al. Remote Sensing, 2013, 5(4): 1704. [本文引用:1]
[4] Dong T, Liu J, Qian B, et al. International Journal of Applied Earth Observation and Geoinformation, 2016, 49: 63. [本文引用:1]
[5] Marletto V, Ventura F, Fontana G, et al. Agricultural and Forest Meteorology, 2007, 147(1-2): 71. [本文引用:1]
[6] Xiao Z, Liang S, Wang J, et al. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(1): 209. [本文引用:1]
[7] Chen B, Wu Z, Wang J, et al. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 102: 148. [本文引用:1]
[8] Kim Y, Roh J H, Kim H Y. Sustainability, 2017, 10(1): 34. [本文引用:2]
[9] Rußwurm M, Körner M. The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2017, 42: 551. [本文引用:1]
[10] Ma G, Huang J, Wu W, et al. Mathematical and Computer Modelling, 2013, 58(3-4): 634. [本文引用:1]
[11] Huang J, Tian L, Liang S, et al. Agricultural and Forest Meteorology, 2015, 204: 106. [本文引用:1]