基于最优光谱指数的大豆叶片叶绿素含量反演模型研究
刘爽, 于海业, 张郡赫, 周海根, 孔丽娟, 张蕾, 党敬民, 隋媛媛*
吉林大学生物与农业工程学院, 吉林 长春 130022
*通讯作者 e-mail: suiyuan@jlu.edu.cn

作者简介: 刘 爽, 1993年生, 吉林大学生物与农业工程学院博士研究生 e-mail: 13756900435@163.com

摘要

叶绿素含量的准确获取及预测可为作物种植的精准化管理提供理论依据。 利用最优光谱指数建立大豆叶绿素含量反演模型, 以大豆花芽分化期叶片为研究对象, 获取高光谱和叶绿素含量数据。 首先构建了7种与叶绿素含量相关的典型光谱指数, 分别为比值指数(RI)、 差值指数(DI)、 归一化差值植被指数(NDVI)、 修正简单比值指数(mSR)、 修正归一化差值指数(mNDI)、 土壤调节植被指数(SAVI)和三角形植被指数(TVI), 并对原始高光谱进行一阶微分(FD)处理, 随后分别对原始和一阶微分高光谱在全光谱波长范围内两两组合所有波长, 进行14个光谱指数的计算。 再采用相关矩阵法进行最优光谱指数的提取, 将所有波长组合计算出的光谱指数与叶绿素含量进行相关性分析, 以相关系数最大值为指标, 提取出14组最优的波长组合, 并进行对应光谱指数值的计算作为最优光谱指数。 最后将最优光谱指数划分为3组模型输入变量, 分别与偏最小二乘回归(PLS)、 最小二乘支持向量机回归(LSSVM)和套索算法LASSO回归3种方法组合建模并对比分析, 以决定系数Rc2,Rp2和均方根误差RMSEC, RMSEP作为模型评价指标, 最终优选出精度最高的大豆叶片绿素含量反演模型。 结果表明: 14组最优光谱指数波长组合分别为RI(728, 727), DI(735, 732), NDVI(728, 727), mSR(728, 727), mNDI(728, 727), SAVI(728, 727), TVI(1 007, 708), FDRI(727, 708), FDDI(727, 788), FDNDVI(726, 705), FDmSR(726, 705), FDmNDI(726, 705), FDSAVI(727, 788)和FDTVI(760, 698), 相关系数最大值 rmax均大于0.8。 建立最优模型的方法为输入变量为一阶微分光谱指数(组合2)与LSSVM组合的建模方法, 所建模型的Rc2=0.751 8,Rp2=0.836 0, RMSEC=1.361 2, RMSEP=1.220 4, 表明模型精度较高, 可为大面积监测大豆的生长状态提供参考。

关键词: 大豆; 最优光谱指数; 叶绿素含量; 反演模型
中图分类号:S565.1 文献标志码:A
Study on Inversion Model of Chlorophyll Content in Soybean Leaf Based on Optimal Spectral Indices
LIU Shuang, YU Hai-ye, ZHANG Jun-he, ZHOU Hai-gen, KONG Li-juan, ZHANG Lei, DANG Jing-min, SUI Yuan-yuan*
School of Biological and Agricultural Engineering, Jilin University, Changchun 130022, China
*Corresponding author
Abstract

The accurate acquisition and prediction of chlorophyll content can provide a theoretical basis for precise management of crop planting. Optimal spectral index was used to establish the soybean chlorophyll content inversion model in this paper. The hyperspectral and chlorophyll content data of soybean flower bud differentiation were obtained. Firstly, seven typical spectral indices related to chlorophyll content were constructed, namely ratio index (RI), difference index (DI), normalized difference vegetation index (NDVI), modified simple ratio index (mSR), modified normalized difference index (mNDI), soil-adjusted vegetation index (SAVI) and triangular vegetation index (TVI), respectively. First derivative (FD) processing was performed on the original hyper spectrum, and then the original and first derivative hyper spectrum are combined with all wavelengths in the full spectrum wavelength range to calculate 14 spectral indices. Then use the correlation matrix method to select the optimal spectral index. The correlation analysis was conducted between the spectral index calculated by all wavelength combinations and chlorophyll content. The maximum value of the correlation coefficient was taken as the index to extract the 14 optimal wavelength combinations, and the corresponding spectral index value was calculated as the optimal spectral index. Finally, the optimal spectral indices were divided into three groups as model input variables combined with the three methods of Partial least squares regression (PLS), Least squares support vector machine regression (LSSVM), and LASSO regression to model, then compare and analyze the results. The coefficients of determinationRc2,Rp2 and the root mean square error RMSEC and RMSEP as model evaluation indicators, then soybean chlorophyll content inversion model with the highest accuracy, were finally selected. The results show that the 14 optimal spectral index wavelength combinations are RI (728, 727), DI (735, 732), NDVI (728, 727), mSR (728, 727), mNDI (728, 727), SAVI (728, 727), TVI (1 007, 708), FDRI (727, 708), FDDI (727, 788), FDNDVI (726, 705), FDmSR (726, 705), FDmNDI (726, 705), FDSAVI (727, 788) and FDTVI (760, 698), the maximum correlation coefficient with chlorophyll content are all greater than 0.8. The method to establish the optimal chlorophyll inversion model was the LSSVM modeling method combined with the first derivative spectral index (combination 2). TheRc2=0.751 8,Rp2=0.836 0, RMSEC=1.361 2, RMSEP=1.220 4, indicating that the model had high accuracy and could provide a reference for monitoring the growth status of soybean in a large area.

Keyword: Soybean; Optimal spectral index; Chlorophyll content; Inversion model
引言

叶绿素含量与植被的光合能力、 生长发育以及营养状况有很密切的关系, 可有效反映其胁迫、 生长和衰老等状况[1], 因此定量估测叶绿素含量等植被生化、 生理参数, 成为植被监测研究的重点。 大豆是人类和动物饮食中重要的蛋白质和脂肪酸来源, 是世界上最大的饲料蛋白来源, 也是第二大食用油来源, 在全球范围内的种植面积超过1.215亿公顷[2], 保证大豆优质高效生产具有重要意义。 在各个发育阶段中, 花芽分化期表示大豆开始进入生殖生长和营养生长并进的关键时期, 这一时期较高的叶绿素含量可以促进大豆叶片生长、 提高光合能力、 光合效率及产量。 因此, 大豆叶片中的叶绿素含量、 浓度等研究受到了众多学者的高度关注。

针对植被叶绿素含量的反演方法, 由初期使用多元回归反演方法逐渐转为使用基于经验/半经验的光谱指数反演方法。 同时, 也有学者使用物理模型方法进行反演, 但由于物理模型反演算法复杂, 不确定性因素较多, 很多输入参数难以获得, 导致反演精度受到限制[3]。 相比之下, 基于两个或多个光谱波段通过线性或非线性组合构建的光谱指数建立反演模型的方法, 不仅所体现的光谱信息比单波段具有更好的灵敏性, 同时可在一定程度上消除使用过多波段带来的波段过拟合问题, 使统计分析结果更准确且更具有说服力, 因此, 此种方法被广泛用于植被生理生化参量的反演研究[4]

大量国内外研究表明, 使用反射光谱和一阶微分光谱构建的光谱指数具有定量反演作物生化参数的能力, 可以有效克服人工观测主观性强、 效率低的弊端, 又可以解决遥感技术受分辨率、 空域条件、 气象状况、 时间周期等因素制约的问题[5]。 Yang等[6]为了更精确地用叶绿素荧光监测植物生理规律, 通过分析光合有效辐射(PAR)的吸收过程、 太阳诱导叶绿素荧光(SIF)的散射和再吸收过程, 创建了荧光校正植被指数(FCVI)用于分析该过程的组合影响, 结果表明: 当植被在自然生长阶段和季节变化时, 这种方法增强了人们对植被生理过程的理解, 从而更有针对性地对植被进行精准高效的管理。 Xu等[7]通过使用光谱指数NDRI、 mSR等开发了一种将贝叶斯网络(BN)和PROSAIL模型耦合的新方法, 用以估计水稻冠层叶绿素含量, 结果表明: 此方法提高了叶绿素含量的反演精度, 并且在提高作物生长参数的估计准确性方面具有重要作用。 José Raú l Romá n等[8]利用不同的光谱变换形式计算植被指数进行叶绿素a含量的无损定量分析, 结果表明: 反射率的一阶导数对于叶绿素a的检测最准确, 建立的非线性随机森林(RF)模型提供了较好的拟合度, 决定系数R2> 0.94。 刘潭等[9]用4种较优的光谱指数建立基于最小二乘支持向量机(LSSVM)和PROSAIL辐射传输机理的混合模型, 用以提高水稻叶绿素估测精度和模型的可解释性, 结果表明: 此混合模型具有较低的预测偏差, 其建模集R2=0.740 6, RMSE=0.985 2, 验证集R2=0.733 2, RMSE=1.084, 具有较高的估测精度和良好的鲁棒性。 有研究通过计算12个光谱指数与冠层叶绿素含量相关性指标, 来评估光谱指数在不同叶倾角分布(LAD)下反演玉米叶绿素含量的敏感性差异, 同时基于实测数据建模, 结果表明指数MNDVI8对LAD变化最不敏感, 反演模型的精度最高, 决定系数R2=0.70, 均方根误差RMSE=22.47。

光谱指数可定性或定量地反映和评估作物生长的各项指标, 建立光谱指数与叶绿素含量之间的定量模型, 也是田间和实验室测量叶绿素含量进行验证的有效估算方法[11], 本文使用光谱指数进行大豆叶绿素含量的反演。 以往使用光谱指数进行作物叶片叶绿素含量的估算研究中, 众多学者使用固定波长进行光谱指数的计算, 再与叶绿素含量进行相关性分析, 最后选取相关性较好的光谱指数建模。 而对于不同的研究对象, 因其生长环境等因素的不同, 会使作物本身的生理信息产生差异, 导致光谱特征不同, 这时再使用相同的波长可能会造成光谱数据无法充分利用, 计算出的光谱指数建立反演模型具有一定的局限性, 模型精度在一定程度上也会受到制约。 为解决上述问题, 本工作利用相关矩阵法进行光谱指数特征波长的筛选, 使特征波长与所用大豆叶绿素含量的相关性最高。

研究中采集大豆叶片高光谱和叶绿素含量数据, 并基于原始和一阶微分高光谱分别进行7种(共14个)光谱指数的计算, 再采用相关矩阵法与叶绿素含量进行相关性分析, 提取出最优的波长组合, 最后将14个光谱指数与3种回归方法组合建模, 探讨基于不同光谱指数(输入变量)和建模方法的组合对反演大豆叶片叶绿素含量准确性的影响, 为研究精准、 无损且快速的大豆叶绿素含量检测技术提供理论依据。

1 实验部分
1.1 样品

本实验于吉林大学生物与农业工程学院日光温室内进行, 供试大豆品种为虎山60, 采用盆栽实验。 于2019年7月20日播种, 每盆播种1粒种子, 共播种50盆, 最后选取27株长势旺盛和叶片健康无病虫害的大豆作为实验样本。

1.2 数据采集与处理

实验于2019年8月20日(花芽分化期)的10:00— 14:00进行数据采集, 采集地点位于温室内, 数据测量时天气晴朗, 每株测量4片大豆功能叶片, 样本量为108个, 采集叶片的高光谱和叶绿素含量数据。 高光谱数据采用美国Analytical Spectral Devices分析光谱仪器公司生产HH2地物光谱仪测定, 测量范围325~1 075 nm, 采样间隔1.4 nm, 分辨率3 nm@700 nm, 每片叶获取3条数据。 叶绿素含量采用日本KONICA MINOLTASPAD-502叶绿素仪测定, 每片叶片获取3条数据。 因SPAD-502读数与叶绿素含量密切相关[10], 因此, 将其值代表叶绿素含量。 以上2种数据均取其平均值作为所用数据。 数据处理与分析软件为ViewSpec Pro、 Matlab R2015b和Origin 19.0。

2 结果与讨论
2.1 光谱指数的构建

本研究为了更准确地提取出叶绿素含量与光谱指数相关性最高的波长组合, 选取了7种典型的光谱指数, 在325~1 075 nm全光谱波长范围内, 分别对原始及其一阶微分高光谱的所有波长两两组合计算光谱指数(共14个), 再将所有光谱指数与叶绿素含量进行相关性分析, 如表1所示。 其中, ij代表任意波长位置, RiRj代表ij波长位置的原始光谱反射率, R'iR'j代表ij波长位置的一阶微分光谱反射率, R445R550代表445和550 nm波长位置的原始光谱反射率, R'445R'550代表445和550 nm波长位置的一阶微分光谱反射率。

表1 光谱指数名称、 公式和参考文献 Table 1 Full name, formula and references of spectral index
2.2 最优光谱指数波长组合的提取

本文利用相关矩阵法分别进行上述14个光谱指数与SPAD值间的相关性分析, 并绘制相关矩阵图, 以最大相关系数所在的ij波长位置作为最优的波长组合, 如图1所示, 蓝色到黄色表示高负相关到高正相关。

图1 光谱指数与SPAD值相关矩阵图
(a): RI与SPAD; (b): FDRI与SPAD; (c): DI与SPAD; (d): FDDI与SPAD; (e): NDVI与SPAD; (f): FDNDVI与SPAD; (g): mSR与SPAD; (h): FDmSR与SPAD; (i): mNDI与SPAD; (j): FD mNDI与SPAD; (k): SAVI与SPAD; (l): FDSAVI与SPAD; (m): TVI与SPAD; (n): FDTVI与SPAD
Fig.1 Correlation matrix diagram of spectral indices and SPAD values
(a): RI and SPAD; (b): FDRI and SPAD; (c): DI and SPAD; (d): FDDI and SPAD; (e): NDVI and SPAD; (f): FDNDVI and SPAD; (g): mSR and SPAD; (h): FDmSR and SPAD; (i): mNDI and SPAD; (j): FD mNDI and SPAD; (k): SAVI and SPAD; (l): FDSAVI and SPAD; (m): TVI and SPAD; (n): FDTVI and SPAD

由图1(a— n)分别提取出的光谱指数与SPAD值相关系数最大值rmax及其所在的波长位置如表2所示。 可见, 14个指数与SPAD值的rmax均高于0.8, 表明相关性较好, 其中与SPAD值相关系数最高的是DI值, 为0.889 9, 波长组合位于735和732 nm。 一阶微分反射率计算的光谱指数中, 与SPAD值相关系数最高的是FDDI值, 为0.877 9, 波长组合位于727和788 nm。 按rmax值由高到低进行排序的结果为:

表2 光谱指数与SPAD值相关系数最大值及波长位置 Table 2 The maximum value and wavelength position of correlation coefficient between spectral index and SPAD value

DI> FDDI> FDSAVI> TVI> SAVI> RI=NDVI> mSR=mNDI> FDNDVI> FDRI> FDTVI> FDmSR> FDmNDI。 由原始反射率计算的指数中, 其中5个指数(RI, NDVI, mSR, mNDI和SAVI)优选出的波长组合均为728和727 nm; 由一阶微分反射率计算的指数中, 其中3个指数(FDNDVI, FDmSR和FDmNDI)优选出的波长组合均为726和705 nm, 上述4个波长均属于红边, 红边是绿色植物在670~760 nm之间反射率增高最快的点。 有研究表明, 叶片中叶绿素的吸收光谱曲线存在红边, 而水、 类胡萝卜素的吸收光谱曲线不存在红边, 叶片中其他成分对光的吸收作用小, 所以叶片光谱红边的出现是由叶绿素导致的, 叶绿素含量的变化及特征信息可最大程度地反映在红边上, 即红边对叶绿素含量具有较高的敏感性[14], 所以本文提取出的最优波长位置与前人的研究结果相符。

2.3 基于最优光谱指数建立叶绿素含量反演模型的比较分析

根据上述研究提取出的14组最优波长组合, 将其分别代入对应的光谱指数计算公式中进行计算, 得到对应最优光谱指数值, 也称最优光谱指数, 再基于最优光谱指数建立大豆叶绿素含量反演模型。 本研究为了对比基于不同最优光谱指数组合的建模效果, 将14个最优光谱指数划分为3组作为模型输入变量, 第一组变量为由原始反射光谱计算的7个最优光谱指数, 分别为RI(728, 727), DI(735, 732), NDVI(728, 727), mSR(728, 727), mNDI(728, 727), SAVI(728, 727)和TVI(1007, 708), 称为组合1; 第二组变量为由一阶微分反射光谱计算的7个最优光谱指数, 分别为FDRI(727, 708), FDDI(727, 788), FDNDVI(726, 705), FDmSR(726, 705), FDmNDI(726, 705), FDSAVI(727, 788)和FDTVI(760, 698), 称为组合2; 第三组变量为按表2中所有rmax值由高到低排序的前7位, 分别为DI(735, 732), FDDI(727, 788), FDSAVI(727, 788), TVI(1007, 708), SAVI(728, 727), RI(728, 727)和NDVI(728, 727), 称为组合3。 采用间隔取样法将108个样本按2∶ 1的比例划分校正集和验证集, 即校正集有72个样本, 验证集有36个样本。 采用偏最小二乘回归(partial least squares, PLS)、 最小二乘支持向量机回归(least squares support vector machines, LSSVM)和LASSO回归3种回归方法建模, 本文中PLS方法建模的主成分数均为3。 以决定系数R2和均方根误差(root mean square error, RMSE)作为模型评价指标, R2越接近于1、 RMSE越小, 表明模型精度越高。

不同输入变量和建模方法组合的大豆叶绿素含量反演模型及验证集预测结果分别如表3、 图2(a, b, c)所示。 可以看出, 所有模型的决定系数 Rc2Rp2值均大于0.64, 均方根误差RMSEC和RMSEP值均小于1.6, 表明模型均具有较好的精度, 可对大豆叶绿素含量进行定量预测。 具体, 对于同一种建模方法, 不同输入变量而言, 基于PLS方法, 组合1和组合3为输入变量时所建模型的 Rc2, Rp2, RMSEC和RMSEP值均相同, 即具有相同的模型精度, 相比之下, 组合2所建模型的 Rc2Rp2值较大( Rc2: 0.751 2> 0.741 1, Rp2: 0.830 1> 0.829 1), RMSEC和RMSEP值较小(RMSEC: 1.361 4< 1.368 5, RMSEP: 1.242 2< 1.246 1), 即3组输入变量所建模型精度由高到低的顺序为: 组合2> 组合1=组合3。 通过对比上述4个模型评价指标值可知, 基于LSSVM方法和LASSO方法, 3组输入变量所建模型精度由高到低的顺序分别为: 组合2> 组合3> 组合1、 组合2> 组合1> 组合3。 可见, 组合2在3种建模方法中均为最优模型输入变量, 表明一阶微分光谱指数包含更多与叶绿素含量相关的光谱有效信息, 对叶绿素含量的预测能力更高。 对于同一种输入变量, 不同建模方法而言, 通过对比模型评价指标值可知, 基于每一种输入变量, 3种方法所建模型精度由高到低的顺序均为: LSSVM> PLS> LASSO, 可见, LSSVM方法为最优建模方法, 可最大程度地进行叶绿素含量有效信息的提取。 综上所述, 最优输入变量与最优建模方法组合建立的模型为最优大豆叶片叶绿素含量反演模型, 即输入变量组合2与LSSVM方法组合, 最优模型的 Rc2=0.751 8, Rp2=0.836 0, RMSEC=1.361 2, RMSEP=1.220 4。

表3 不同输入变量和建模方法组合的大豆叶绿素含量反演模型结果 Table 3 Results of soybean chlorophyll content inversion model combined with different input variables and modeling methods

图2 不同输入变量和建模方法组合的大豆叶绿素含量反演模型验证集预测结果
(a): 模型输入变量为组合1; (b): 模型输入变量为组合2; (c): 模型输入变量为组合3
Fig.2 Prediction results of validation set ofsoybean chlorophyll content inversion model with different input variables and modeling methods
(a): Model input variable is combination 1; (b): Model input variable is combination 2; (c): Model input variable is combination 3

3 结论

以大豆花芽分化期叶片为研究对象, 测量了大豆叶片的高光谱和叶绿素含量数据, 并对原始高光谱进行一阶微分处理, 再分别基于原始和一阶微分高光谱反射率进行7种光谱指数(共14个)的计算, 采用相关矩阵法提取最优的波长组合, 进而计算最优光谱指数, 最后基于最优光谱指数与PLS, LSSVM和LASSO回归建模方法进行组合建立大豆叶片叶绿素含量反演模型, 得出以下结论:

(1)提取出的14个基于最优波长组合计算的光谱指数与叶绿素含量间均具有较好的相关性, 相关系数最大值均大于0.8, 其中DI(735, 732)和FDDI(727, 788)表现出最高的相关性, 相关系数值分别为0.889 9和0.877 9。

(2)对比分析3种模型输入变量和3种建模方法组合所建模型的 Rc2, Rp2, RMSEC和RMSEP值可知, 当输入变量不同时, 模型表现出不同的精度。 具体表现为: 基于PLS方法、 LSSVM方法和LASSO方法, 3组输入变量所建模型精度由高到低的顺序分别为: 组合2> 组合1=组合3、 组合2> 组合3> 组合1和组合2> 组合1> 组合3。 表明输入变量组合2为最优模型输入变量; 当建模方法不同时, 基于每一种输入变量, 3种方法所建模型精度由高到低的顺序均为: LSSVM> PLS> LASSO, 表明LSSVM方法为最优建模方法。

(3)综合对比分析9个模型的评价指标可知, 最优的大豆叶片叶绿素含量反演模型为基于LSSVM方法与输入变量组合2结合建立的模型, 最优模型的 Rc2=0.751 8, Rp2=0.836 0, RMSEC=1.361 2, RMSEP=1.220 4。

基于光谱指数建立植被生理生化参数反演模型的研究中仍有一些问题有待解决, 如本研究及大多数学者的研究多以单一植被生长期为实验时期, 将其研究结果应用于植被整个生长期的可靠性还需进一步考察, 如何将单个时期与整个生长期的生理生化反演模型通用并达到较高的模拟性能和精度仍需更深入的研究与实践。

参考文献
[1] Lu X T, Lu S. International Journal of Remote Sensing, 2015, 36(5): 1447. [本文引用:1]
[2] Ramesh K, Sedigheh S, Nitya M, et al. PLOS ONE, 2020, 15(6): e0233905. [本文引用:1]
[3] Tan K Z, Wang S W, Song Y Z, et al. Chemometrics and Intelligent Laboratory Systems, 2018, 172: 68. [本文引用:1]
[4] Wang J J, Li Z K, Jin X L, et al. Computers and Electronics in Agriculture, 2019, 162: 475. [本文引用:1]
[5] Cao Q, Miao Y X, Li F, et al. Precision Agriculture, 2018, 18(1): 2. [本文引用:1]
[6] Yang P Q, Christiaan V L, Campbell P K E, et al. Remote Sensing of Environment, 2020, 240: 111676. [本文引用:1]
[7] Xu X Q, Lu J S, Zhang N, et al. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 150: 185. [本文引用:1]
[8] Román J R, Rodríguez-Caballero E, Rodríguez-Lozano B, et al. Remote Sensing, 2019, 11(11): 1. [本文引用:1]
[9] LIU Tan, XU Tong-yu, YU Feng-hua, et al(刘潭, 许童羽, 于丰华, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2020, (5): 156. [本文引用:1]
[10] Alison D, Yu R, Chloe R. Annals of Forest Science, 2020, 77(2): 30. [本文引用:1]
[11] Bekele F, Korecha D, Negatu L. Journal of Agrometeorology, 2017, 19(2): 125. [本文引用:1]
[12] Sun H, Feng M C, Xiao L J, et al. PLOS ONE, 2019, 14(6): e0216890. [本文引用:1]
[13] Lu J Z, Ehsani R, Shi Y Y. Scientific Reports, 2018, 8: 2793. [本文引用:1]
[14] NIJIATI Kamusi, SHI Qing-dong, WANG Jing-zhe, et al(尼加提·卡斯木, 师庆东, 王敬哲, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33(22): 208. [本文引用:1]