无人机高光谱波段选择的叶面积指数反演
孔钰如1,2, 王李娟1,*, 冯海宽2, 徐艺1, 梁亮1, 徐璐1, 杨小冬2,*, 张青琪1
1.江苏师范大学地理测绘与城乡规划学院, 江苏 徐州 221116
2.农业部农业遥感机理与定量遥感重点实验室, 北京农林科学院信息技术研究中心, 北京 100097
*通讯作者 e-mail: wanglj2013@jsnu.edu.cn; yangxd7@163.com

作者简介: 孔钰如, 1996年生, 江苏师范大学地理测绘与城乡规划学院硕士研究生 e-mail: 15162261380@163.com

摘要

叶面积指数(LAI)是评价作物长势和作物产量的重要参数。 为有效利用高光谱信息, 优选出最佳波段进而构建新型双波段指数来提高LAI估测精度, 以冬小麦为研究对象, 获取冬小麦孕穗期无人机高光谱数据和实测地面LAI数据, 开展冬小麦LAI反演研究。 首先采用连续投影算法(SPA)、 最佳指数法(OIF)以及逐波段组合法(E)分别进行无人机高光谱数据最佳波段筛选, 进而将所选最佳波段构建新型双波段指数(VI_OIF, VI_SPA, VI_E); 然后将构建的新型双波段指数和常规双波段指数(VI_F)与LAI进行相关性对比分析, 最后结合支持向量回归(SVR)、 偏最小二乘回归(PLSR)和随机森林回归模型(RFR)进行LAI估算, 并对比分析常规双波段指数的估算精度, 验证最佳波段选择方法构建新型双波段指数的最佳回归模型反演LAI的可行性。 结果表明: (1)新构建双波段指数VI_OIF, VI_SPA, VI_E和VI_F与冬小麦LAI的相关性均达到0.05的显著水平, 其中VI_SPA和VI_E与LAI的相关系数高于0.65, 且RSI_SPA和RSI_E与LAI的相关性较高( r>0.71); (2)对比分析VI_OIF、 VI_SPA、 VI_E和VI_F构建的SVR模型、 PLSR模型和RFR模型的冬小麦LAI估测精度, VI_SPA_PLSR模型估测精度最高, R2和RMSE分别为0.75和0.90。 该方法可为无人机高光谱数据波段选择以及冬小麦LAI反演提供技术支持和理论参考。

关键词: 无人机; 高光谱影像; 波段选择; 冬小麦; 叶面积指数
中图分类号:S512.1 文献标志码:A
Leaf Area Index Estimation Based on UAV Hyperspectral Band Selection
KONG Yu-ru1,2, WANG Li-juan1,*, FENG Hai-kuan2, XU Yi1, LIANG Liang1, XU Lu1, YANG Xiao-dong2,*, ZHANG Qing-qi1
1. School of Geography, Geomatics and Planning, Jiangsu Normal University, Xuzhou 221116, China
2. Key Laboratory of Quantitative Remote Sensing in Agriculture of Ministry of Agriculture, Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
*Corresponding authors
Abstract

Leaf area index (LAI) is an important parameter to evaluate crop condition and crop yield. In order to effectively utilize hyperspectral information and improve the estimation accuracy of LAI, the best band was selected, and the new two-band vegetation indexes were constructed. In this study, winter wheat was taken as the research object, the UAV hyperspectral data and ground LAI data were obtained at the booting stage. First, the successive projection algorithm (SPA), optimum index factor (OIF), and each band combination method (E) were used to screen the best band of UAV hyperspectral data, and then the selected best bands were constructed into the new two-band vegetation indexes (VI_OIF, VI_SPA, VI_E). Then, the new two-band vegetation indexes and the conventional two-band vegetation indexes (VI_F) constructed were compared and analyzed for correlation with LAI. Finally, support vector regression (SVR), partial least square (PLSR) and random forest for regression (RFR) were used to construct LAI estimation models. Meanwhile, comparing with the estimation accuracy of the conventional two-band vegetation indexes, the feasibility of LAI estimation was verified by the optimal regression model of the best new two-band vegetation indexes. The results were as follows: (1) The newly constructed two-band vegetation indexes VI_OIF, VI_SPA, VI_E and VI_F correlated with LAI were all at the significant level of 0.05, VI_SPA and VI_E correlated ( r>0.65), among which RSI_SPA and RSI_E had the highest correlation coefficient with LAI ( r>0.71) ; (2) The accuracy of LAI estimation of winter wheat based on SVR model, PLSR model and RFR model constructed by VI_OIF, VI_SPA, VI_E and VI_F were compared and analyzed. It was found that the VI_SPA_PLSR model had the highest accuracy and the best predictive ability, whose coefficient of determination ( R2) and root mean square error (RMSE) were 0.75 and 0.90, respectively. The research results can provide technical support and theoretical reference for the band selection of UAV hyperspectral data and winter wheat LAI estimation.

Keyword: Unmanned aerial vehicle (UAV); Hyperspectral image; Band selection; Winter wheat; Leaf area index
引言

冬小麦是我国重要的经济作物之一, 其长势和产量对粮食安全具有重要意义。 叶面积指数(leaf area index, LAI)作为表征植被光合作用、 呼吸作用以及蒸腾作用的重要指示因子, 也是评价作物长势和作物产量的重要依据, 因此快速高效地获取冬小麦叶面积指数, 进而及时了解冬小麦长势产量情况具有重要研究价值。

卫星遥感易受过境时间和天气条件的限制, 且空间分辨率较低; 航空遥感虽具有较高的空间分辨率, 但是获取数据费用较高且易受场地及空域管制的限制; 无人机遥感则具有操作方便、 成本低廉、 观测范围大、 时空分辨率高且获取数据快速灵活等优势, 在精准农业中得到越来越广泛的应用。 然而无人机搭载的传感器多为数码相机或多光谱相机, 其所获取的数据光谱信息有限[1], 而高光谱相机具有光谱分辨率高和波段数多的优势, 能够弥补上述相机的不足, 因此, 无人机高光谱遥感影像更有利于估测反演LAI, 进而评价作物长势。

国内外学者就无人机高光谱数据开展了一系列相关研究。 如Tao等[2]基于固定波段组合构建常规双波段指数反演冬小麦LAI, 但是由于忽略研究区域、 作物类型及生长环境的差异影响导致LAI反演模型的精度较低。 利用波段选择法可以筛选适合不同作物类型的最佳波段组合, 更有利于反演LAI。 如张春兰等[3]按照特定数学算法进行逐波段组合构建植被指数, 选择与冬小麦LAI相关系数最高的植被指数作为最佳波段组合, Im等[4]采用同样方法筛选灌木的最佳波段组合, 虽该方法在数学上相关性被最大程度考虑, 但计算量大且物理意义不够明确, 导致适用性较低。 田明璐等[5]和Zhang等[6]基于连续投影算法分别筛选棉花和冬小麦高光谱数据的最佳波段组合, 进而构建相应植被指数并反演LAI的模型估测精度较高。 上述筛选最佳波段组合的算法均缺少与其他波段选择方法的模型精度对比分析, 故无法判断高光谱最佳波段选择方法的优劣及构建植被指数的适用性。 综上所述, 研究区域、 作物类型及生长环境往往影响高光谱数据最佳波段的筛选, 探讨不同波段选择法对植被指数构建的影响, 筛选便捷、 计算量小且适用性强的高光谱数据最佳波段组合方法, 对提高LAI的反演精度具有重要意义。

针对不同波段选择法对构建植被指数的影响缺少对比分析, 且常规双波段指数具有地域性、 局限性和时效性差的问题, 本工作基于冬小麦孕穗期的无人机成像高光谱数据, 采用最佳指数法、 连续投影算法和逐波段组合法分别筛选出最佳波段组合并构建新型双波段指数, 结合支持向量回归、 偏最小二乘回归和随机森林回归建模, 对比分析常规双波段指数模型以验证构建的新型双波段指数LAI估测精度, 最终筛选出最优LAI估测模型。

1 实验部分
1.1 研究区概况

研究区位于北京市昌平区小汤山国家精准农业示范基地, 如图1所示。 该区域属于暖温带半湿润半干旱季风气候, 夏季高温多雨, 冬天寒冷干燥。 试验田设计样本面积为6 m× 8 m, 16个样本为1个样区, 总共3个样区, 共计48个样本。 为确保样区内LAI值具有较大的变化范围, 奇数列种植冬小麦品种为京9843(J9843), 偶数列种植中麦175(ZM175), 样区内每行随机设置N1(0 kg· hm-2), N2(195 kg· hm-2), N3(390 kg· hm-2)和N4(528 kg· hm-2)四种不同梯度氮肥处理。

图1 研究区地理位置及冬小麦试验设计Fig.1 Location of the study area and experimental design of winter wheat

1.2 数据获取与预处理

选用2015年冬小麦孕穗期(4月26日)无人机高光谱数据和LAI地面数据。 其中无人机成像高光谱数据采用八旋翼电动无人机搭载 Cubert UHD185 Firefly 成像光谱仪获取, 光谱范围450~950 nm, 光谱分辨率4 nm。 在12:00太阳光强度稳定且天气晴朗无云时采集数据, 飞行高度为50 m, 地面分辨率21 cm。 对数据进行辐射校正、 图像拼接及根据样本的实际情况绘制感兴趣区并提取各样本区的平均光谱。 LAI数据通过选取各样本区固定样方中的20茎样本, 采用CI-203型激光叶面积仪测定叶片叶面积并求总和进而计算单茎叶面积, 最后乘以单位面积总茎数得到该样本的叶面积指数, 共测得48个样本LAI数据。

1.3 高光谱波段优选方法

高光谱数据波段数众多, 光谱采样间隔小, 具有精细的光谱信息, 但波段之间往往存在严重的数据冗余现象, 为更好筛选并提取高光谱波段信息, 选用最佳指数法、 连续投影算法和逐波段组合法分别进行高光谱数据波段选择。

1.3.1 最佳指数法

最佳指数法(optimum index factor, OIF)是一种常用特征波段提取的方法, 其基本原理是波段组合信息量同各波段间相关系数之和与标准差之和的比值, 比值越大, 表示特征波段间所包含信息量越大, 冗余度越小[7], 计算公式如式(1)所示

OIF=i=1nSDi/i=1n|Rij|, j> i(1)

式(1)中, SDi表示第i个波段的标准差; Rij表示ij两波段相关系数。

1.3.2 连续投影算法

连续投影算法(successive projection algorithm, SPA)是一种前向迭代选择方法, 其基本原理是在初始情况下任选一个波段, 前向循环计算其在未选择波段的投影向量, 选择最大投影向量的波段, 然后将投影向量与波长进行组合, 直至循环结束, 最终在重叠的光谱信息中提取有效信息[8]

1.3.3 逐波段组合法

为了充分利用高光谱数据的光谱信息, 将任意两波段构建的新型双波段指数与LAI进行相关性分析及线性拟合, 同时使用表示拟合精度及拟合优劣的决定系数(coefficient of determination, R2)和均方根误差(root mean squared error, RMSE)确定最佳波段组合。

1.4 植被指数构建

通过线性或非线性的光谱波段组合构建植被指数, 在一定程度上能够降低土壤背景、 大气和辐射误差等外界环境的影响, 然而时间和地域差异造成植被LAI对高光谱数据的敏感波段会有所不同, 为充分挖掘利用好高光谱数据的光谱信息, 构建了新型双波段指数和常规双波段指数, 计算公式如表1所示。

表1 植被指数及计算公式 Table 1 Vegetation indexes and formulas
1.5 LAI估测模型

1.5.1 支持向量回归

支持向量回归(support vector regression, SVR)是基于统计学习理论的机器学习方法, 本质上通过使用核函数将非线性问题转化为线性问题, 并根据结构风险最小化准则采用二次规划的方式来求解[14]

1.5.2 偏最小二乘法回归

偏最小二乘回归(partial least square regression, PLSR)是一种新型的多元线性回归的表达方法, 将相关分析、 主成分分析和多元线性回归分析相融合, 可以有效降低特征变量的冗余性, 并能够去除共线性的问题。

1.5.3 随机森林回归

随机森林回归(random forest regression, RFR)是一种基于决策树的机器学习方法, 其原理为在原始训练集中通过Bootstrap重抽样得到k个训练样本, 且与原始样本训练集相等并生成K棵决策树, 最终将决策树的建模结果进行组合并通过投票得到最终估测结果[15]

2 结果与讨论
2.1 最佳波段选择

为筛选出无人机高光谱数据的最佳波段组合, 以冬小麦LAI为研究对象, 分别使用OIF、 SPA和逐波段组合法对UHD185高光谱数据进行波段选择。

利用OIF计算预处理后108个高光谱数据的波段组合最佳指数, 由于组合方式较多, 因此仅展示最佳植被指数降序排列的前5波段组合(如表2所示)。 由表中可以看出, R466-R750的OIF值最高, 达到855 249; 其标准差居中, 低于R538-R754和R542-R754, 但高于R638-R734和R510-R742; 且两个波段之间相关系数最低, 明显低于其余四种波段组合方式, 因此OIF方法筛选高光谱波段组合为R466-R750。

表2 波段组合的最佳指数值(n=32) Table 2 Optimal indexes of band combination (n=32)

连续投影算法得出的波段数量会引起均方根误差变化, 如图2所示, 尽管特征波段数量为3时RMSE最低, 但对比特征波段数量为2的均方根误差, 仅低0.02, 考虑到计算时间和成本, 选择2个特征波段数量作为该算法的最佳波段组合, 即R806-R726为SPA算法筛选出无人机高光谱数据对LAI贡献最高的波段组合。

图2 均方根误差曲线图(n=32)Fig.2 The curve of root mean square error(n=32)

逐波段组合法对高光谱数据的任意两波段构建NDSI, RSI和SSI指数, 将其与冬小麦LAI进行线性拟合, 结果如图3所示。 由图中可知, NDSI(742, 738), RSI(742, 738)和SSI(774, 770)的拟合精度最高, R2分别为0.53, 0.53和0.52, RMSE分别为1.14, 1.14和1.15。 从上述植被指数的最佳波段组合可以看出, NDSI和RSI均由红光波段构成, SSI由近红外波段构成, 由于红光波段和近红外波段分别对绿色植物具有强吸收和高反射的特性, 故在任意两波段组合中该方法筛选的波段组合拟合精度最佳。

图3 各植被指数与LAI的决定系数和均方根误差(n=32)
(a): LAI与NDSI的R2; (b): LAI与NDSI的RMSE; (c): LAI与RSI的R2; (d): LAI与RSI的RMSE; (e): LAI与SSI的R2; (f): LAI与SSI的RMSE
Fig.3 The determination coefficient and root mean square error of vegetation indexes and LAI (n=32)
(a): R2 for LAI and NDSI; (b): RMSE for LAI and NDSI; (c): R2 for LAI and RSI; (d): RMSE for LAI and RSI; (e): R2 for LAI and SSI; (f): RMSE for LAI and SSI

2.2 植被指数与LAI的相关性

基于以上分析, OIF、 SPA和逐波段组合法筛选的最佳波段分别构建新型双波段指数VI_OIF, VI_SPA和VI_E, 同时构建常规双波段指数VI_F, 并分析各指数与LAI的相关性, 相关系数如表3所示, VI_OIF, VI_SPA, VI_E和VI_F均通过0.05水平显著性检验, 除OIF筛选波段构建SSI的相关系数未通过0.01水平显著性检验外, VI_SPA, VI_E和VI_F的相关系数均通过该检验。

表3 植被指数与LAI的相关性(n=32) Table 3 Correlation between cotton LAI values and vegetation indexes (n=32)

对比VI_OIF, VI_SPA, VI_E和VI_F与LAI的相关性, 波段选择方法与LAI的相关性排序为: VI_E> VI_SPA> VI_F> VI_OIF。 其中, 逐波段组合法将任意波段两两组合构建植被指数, 并筛选与LAI拟合精度最高的波段组合, 因此VI_E与LAI的相关性最高(r> 0.72), 但是其构建的NDSI、 RSI最佳波段组合都为红光波段, SSI最佳波段组合都为近红外波段。 SPA和常规双波段组合筛选的波段组合为近红外波段和红光波段, 这与前人研究的叶绿素变化所用敏感波段一致[10], 且SPA能有效消除原始波段的冗余信息并最大限度的提取解释信息, 所以VI_SPA的相关性高于VI_F。 而OIF未考虑原始波段之间的共线性问题, 故最低, 且该方法选择波段缺少近红外波段信息。 在上述构建的各类植被指数与LAI的相关性不同, 其中, VI_E, VI_SPA, VI_F和VI_OIF相关系数最高的分别是RSI_E, RSI_SPA, RSI_F和RSI_OIF, NDSI在各种波段选择构建的该指数与LAI的相关性次之, SSI的相关系数最低。 原因在于研究区冬小麦处于孕穗期, 植被覆盖度高且LAI值较高, 由于RSI对植被具有较高的敏感性, 故各波段选择方法构建的RSI与LAI的相关性最高, NDSI和SSI由于对土壤背景变化比较敏感, 更适用于冬小麦初期的植被覆盖研究。

2.3 最优LAI估测模型构建

利用样区1和样区2数据为训练集, 分别结合SVR模型、 PLSR模型以及RFR模型进行建模, 三种模型的参数设置均采用默认值, 并对样区3的LAI进行估测, 各模型验证结果如图4所示。 上述建模方法均在Matlab中实现, 其中SVR模型的核参数为径向基核函数, 其余参数采用交叉验证法确定, PLSR模型的主成分数为3, RF模型的mtry设置为数据集变量个数的平方根, ntree设置为500。 由图4可知, 不同波段组合方式的各模型多数LAI估测值高于实测值, 仅个别模型LAI的估测值低于实测值。 对比同种波段选择方法构建植被指数的SVR模型、 PLSR模型和RFR模型的估测精度, VI_OIF_SVR模型、 VI_SPA_PLSR模型、 VI_E_PLSR模型和VI_F_PLSR模型的估测精度最高。 进一步比较上述最佳估测模型, 其中VI_SPA_PLSR模型估测精度最高, R2最高达0.75, RMSE最低为0.90。 对比VI_OIF_SVR模型、 VI_E_PLSR模型和VI_F_PLSR模型, R2分别高0.15, 0.06和0.08, RMSE分别低0.56, 0.03和0.13。

图4 不同波段组合方式的LAI模型结果(n=16)
(a): VI_OIF_SVR; (b): VI_OIF_PLSR; (c): VI_OIF_RFR; (d): VI_SPA_SVR; (e): VI_SPA_PLSR; (f): VI_SPA_RFR; (g): VI_E_SVR; (h): VI_E_PLSR; (i): VI_E_RFR; (j): VI_F_SVR; (k): VI_F_PLSR; (l): VI_F_RFR
Fig.4 Results of LAI models with different band combinations (n=16)
(a): VI_OIF_SVR; (b): VI_OIF_PLSR; (c): VI_OIF_RFR; (d): VI_SPA_SVR; (e): VI_SPA_PLSR; (f): VI_SPA_RFR; (g): VI_E_SVR; (h): VI_E_PLSR; (i): VI_E_RFR; (j): VI_F_SVR; (k): VI_F_PLSR; (l): VI_F_RFR

综上所述, 利用VI_SPA_PLSR模型估测冬小麦LAI结果最优。 相对其他波段组合方式, 由近红外波段和红光波段构建的植被指数最优, 原因在于绿色植物对红光波段具有强吸收性, 近红外波段具有高反射的特点, SPA优选为红光波段和近红外波段且最大程度上消除波段间的冗余性。 同时由于SVR模型的惩罚因子及核函数设置较为复杂, 而PLSR模型则利用相关分析和主成分分析有效降低特征变量的冗余性, 以最优化方式利用小麦冠层光谱信息且处理低维数据适用性高, 而RFR模型在低维数据会出现过拟合, 处理高维数据的抗躁能力强, 故VI_SPA_PLSR模型的估测精度优于其他模型。

2.4 冬小麦LAI分布图

利用SPA筛选的波段组合构建植被指数, 结合PLSR模型反演冬小麦LAI, 如图5所示。 从图5可以看出, 不同样区的LAI分布不同, 样区1和样区3大部分LAI处在2~7之间, 但样区3的LAI略优于样区1, 样区2的LAI较高, 大部分值为4~9。 整体表现为, 样区2冬小麦LAI长势优于样区1和样区3。

图5 冬小麦LAI空间分布图Fig.5 Spatial distribution map of LAI in winter wheat

3 结论

利用连续投影算法、 最佳指数法和逐波段组合法分别筛选高光谱最佳波段组合并构建新型双波段指数, 结合支持向量回归、 偏最小二乘回归和随机森林回归模型估测孕穗期冬小麦叶面积指数, 并对比分析与常规双波段指数模型的估测精度。 研究结果表明:

(1)VI_OIF, VI_SPA, VI_E和VI_F与冬小麦LAI的相关性均达到0.05的显著水平, 其中VI_SPA和VI_E与LAI的相关系数均高于0.65, 且RSI_SPA和RSI_E的相关系数最高(r> 0.71)。

(2)对比分析VI_OIF, VI_SPA, VI_E和VI_F构建的SVR模型、 PLSR模型和RFR模型的冬小麦LAI估测精度, VI_SPA_PLSR模型估测精度最高, R2和RMSE分别为0.75和0.90。

基于无人机高光谱影像通过最佳波段筛选后, 构建新型双波段指数反演冬小麦LAI, 为LAI估测提供科学参考。 由于实验条件的限制, 仅在冬小麦孕穗期开展研究, 未考虑数据源、 生育期、 研究区域、 作物类型等的差异, 之后计划采集更大范围内多源数据类型的冬小麦全生育期的数据, 并选用更多波段选择方法对高光谱数据进行筛选, 进一步验证本方法反演冬小麦LAI的普适性。

参考文献
[1] Hussain S, Gao K X, Din M, et al. Remote Sensing, 2020, 12(3): 397. [本文引用:1]
[2] Tao H L, Feng H K, Xu L J, et al. Sensors, 2020, 20(5): 1296. [本文引用:1]
[3] ZHANG Chun-lan, YANG Gui-jun, LI He-li, et al(张春兰, 杨贵军, 李贺丽, ). Scientia Agricultura Sinica(中国农业科学), 2018, 51(5): 855. [本文引用:1]
[4] Im J H, Jensen J R, Jensen R R, et al. Remote Sensing, 2012, 4(2): 327. [本文引用:1]
[5] TIAN Ming-lu, BAN Song-tao, CHANG Qing-rui, et al(田明璐, 班松涛, 常庆瑞, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(21): 102. [本文引用:1]
[6] Zhang J J, Cheng T, Guo W, et al. Plant Methods, 2021, 17(1): 49. [本文引用:1]
[7] GAO Peng, YANG Ke-ming, RONG Kun-peng, et al(高鹏, 杨可明, 荣坤鹏, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(2): 529. [本文引用:1]
[8] Shao Y Y, Gao C, Xuan G T, et al. International Journal of Agricultural and Biological Engineering, 2020, 13(5): 194. [本文引用:1]
[9] Li Z, Zhang F, Chen L H, et al. Photogrammetric Engineering and Remote Sensing, 2018, 84(9): 538. [本文引用:1]
[10] PEI Hao-jie, FENG Hai-kuan, LI Chang-chun, et al(裴浩杰, 冯海宽, 李长春, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33(20): 74. [本文引用:1]
[11] Rouse J W, Haas R H, Schell J A, et al. Monitoring Vegetation Systems in the Great Plains With Erts. NASA, 1974: 1. [本文引用:1]
[12] Jordan C F. Ecology, 1969, 50(4): 663. [本文引用:1]
[13] Arthur J R, James H E. Geocarto International, 1992, 7(1): 63. [本文引用:1]
[14] Rosentreter J, Hagensieker R, Okujeni A, et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(5): 1938. [本文引用:1]
[15] FANG Xin-rui, WEN Zhao-fei, CHEN Ji-long, et al(方馨蕊, 温兆飞, 陈吉龙, ). Journal of Remote Sensing(遥感学报), 2019, 23(4): 756. [本文引用:1]