GWLS-SVR模型的红枣树叶片叶绿素含量估算
尼格拉·吐尔逊1, 苏磊·乃比2, 高健3, 沈江龙1, 郑江华1,*, 余丹林4
1.新疆大学资源与环境科学学院, 新疆 乌鲁木齐 830046
2.新疆大学数学与系统科学学院, 新疆 乌鲁木齐 830046
3.新疆林业科学院现代林业研究所, 新疆 乌鲁木齐 830063
4.Department of Earth and Environmental Studies, Montclair State University, New Jersey 07043, USA
*通讯作者 e-mail: Zheng_jianghua@126.com

作者简介: 尼格拉·吐尔逊, 1996年生, 新疆大学资源与环境科学学院硕士研究生 e-mail: 326836429@qq.com

摘要

叶绿素含量是红枣树光合作用能力、 生长状况、 营养状况的指示剂, 不同地理位置种植的红枣树受到自然、 人为等因素的影响, 叶绿素含量分布有所不同, 该研究实地测定了若羌县枣树叶片高光谱反射率及表征叶绿素含量的枣树叶片SPAD(soil plant analysis development)值。 为了高效无损地估算红枣树叶片SPAD值, 计算了红枣树叶片SPAD值全局莫兰指数, 以SPAD值和高光谱波段之间的相关性为基础, 通过 CP统计量计算重要程度高的特征波段, 运用地理加权最小二乘支持向量回归GWLS-SVR(geographically weighted least squares-support vector regression)模型对红枣树叶片SPAD值进行预测, 与多元线性回归(MLR)、 支持向量机回归(SVR)模型比较并探讨GWLS-SVR模型估算红枣树叶片SPAD值的能力。 结果表明: (1)光谱一阶导数可以有效去除噪声并突出光谱信息尤其是492~510, 542~543, 642~652, 657~670和682~692 nm区间内显著的提高了与SPAD值的相关性。 (2) CP统计量方法能够有效的选择敏感区间的特征波段, 进而提高模型估算精度, 由统计量方法计算出原始光谱重要程度最高的两个变量为595与696 nm, 光谱一阶导数的特征波段为688 nm。 其中对于同一个敏感波段区间的波段组合总有单个波段的统计量低于多个波段组合的统计量, 这可能是相近波段间的较强共线性导致的。 (3)若羌县红枣树叶片SPAD值存在显著的空间聚集性, 全局莫兰指数为0.125 8( p<0.1), 适合建立考虑空间位置的GWLS-SVR模型。 (4)结合Bootstrap再抽样与t检验模型检验得到结合地理位置信息的GWLS-SVR模型总体上估算能力优于SVR和MLR模型, 且结果高度显著( p<0.001), 其中基于光谱一阶导数的GWLS-SVR模型为最优的红枣树叶片SPAD值估算模型( R2为0.975, MSE为1.082), 能够为高光谱定量反演红枣树SPAD值进而快速无损的监测红枣生长状况提供一定参考。

关键词: 叶绿素含量; GWLS-SVR模型; 高光谱; 红枣树; Bootstrap再抽样; t检验; SPAD值
中图分类号:TP79 文献标志码:A
Chlorophyll Content Estimation of Jujube Leaves Based on GWLS-SVR Model
Nigela Tuerxun1, Sulei Naibi2, GAO Jian3, SHEN Jiang-long1, ZHENG Jiang-hua1,*, YU Dan-lin4
1. College of Resources and Environmental Science, Xinjiang University, Urumqi 830046, China
2. College of Mathematics and System Science, Xinjiang University, Urumqi 830046, China
3. Institute of Modern Forestry, Xinjiang Academy of Forestry Sciences, Urumqi 830063, China
4. Department of Earth and Environmental Studies, Montclair State University, New Jersey 07043, USA
*Corresponding author
Abstract

Chlorophyll Contentis an indicator of the photosynthetic capacity, growth and nutritional status of jujube trees. The distribution of chlorophyll content is different in jujube trees planted in different geographical locations under the influence of natural and human-made factors. The Hyperspectral reflectance of jujube leaves and the SPAD value of jujube leaves that representing chlorophyll content in Ruoqiang county were measured on the spots. To estimate the SPAD value of jujube leaves efficiently and losslessly, the global Moran’s I of jujube SPAD value was calculated, The statistics was calculated based on the correlation between SPAD value and Hyperspectral bands to choose the most important characteristic bands. The GWLS-SVR(Geographically Weighted Least Squares-Support Vector Regression)model was used to predict the SPAD value and compared with multiple linear regression (MLR) and support vector regression (SVR) models, and explored the ability of the model to estimate the SPAD value of the jujube leaves. The results show that: (1) the First derivative of the spectrum can effectively remove the noise and highlight the spectral information, especially in the range of 492~510, 542~543, 642~652, 657~670 and 682~692 nm, and significantly improve the correlation of the spectrum with SPAD value. (2) statistics method can effectively select the feature bands of the sensitive range, thus improves the model estimation accuracy. The two variables with the highest importance of the original spectrum were 595 and 696 nm, and the feature band of the first derivative of the spectrum was 688 nm. Among them, the statistics of a single band were always lower than those of multiple band combinations of the same sensitive band interval, which may be caused by the strong collinearity between the adjacent bands. (3) There was significant spatial aggregation on the SPAD value of jujube leaves in Ruoqiang county, the global Moran’s I was 0.125 8 ( p<0.1), which is suitable for the establishment of GWLS-SVR model that considers the spatial location. (4) By combining Bootstrap resampling and t-test, the GWLS-SVR model that combined with geographic location information was generally better than the support vector regression and multiple linear regression model, and the results were highly significant ( p<0.001). Among the models, the GWLS-SVR model based on the First derivative of the spectrum was the optimal estimation of SPAD value for jujube leaves ( R2=0.975, MSE=1.082), which can provide a certain reference for the Hyperspectral quantitative inversion of the SPAD value of jujube and the rapid and non-destructive monitoring of jujube growth.

Keyword: Chlorophyll content; GWLS-SVR model; Hyperspectral; Red jujube tree; Bootstrap resampling; t test; SPAD value
引言

叶绿素含量是枣树光合作用能力、 生长状况、 营养状况的指示剂[1], 通常采用便携式叶绿素计(SPAD-502)测定植物叶片SPAD值来直接表征植物叶绿素含量的相对大小, 但使用过程中需要将叶片反复插入测量, 难以用于大范围的叶绿素检测, 研究表明SPAD值能与无损、 无污染、 价格低的高光谱遥感数据准确对应, 近年来成为叶绿素含量估算的强有力工具[2]

20世纪90年代, Pinar[3]和 Blackburn[4]等研究得到叶绿素与高光谱波段之间的相关关系。 随后, 许多学者在高光谱估算叶绿素模型方面开展了大量的研究, 杜华强基于高斯核函数变换的偏最小二成回归模型建立了马尾松针叶叶绿素含量与光谱反射率及9个特征参数之间的预测模型, 其精度远大于传统线性回归模型[5]。 刘京等用实例证实了支持向量机具有更好的SPAD值反演效果[6]。 冯海宽等基于特征光谱参数, 利用随机森林模型较好的估算了苹果叶片叶绿素[7]。 李晓丽等证实了最小二乘支持向量机(least sqares support vector regression, LS-SVR)在植物参数估算方面具有较好效果[8]

上述研究常选用相关系数较高的波段或者植被指数建模使得变量选择随机、 单一、 缺乏定量化, 模型估算能力低下。 本文通过CP统计量在预测角度选择重要性较高的自变量, 筛选重要程度高的特征波段(characteristic band, CB)。 其次, 以往的高光谱估算应用广泛的多元线性回归(multiple linear regression, MLR)、 支持向量机(support vector regression, SVR)、 LS-SVR模型较多, 并没有考虑到地理位置可能对叶片SPAD值产生的影响。 2017年Hwang和Shim对于LSSVM模型加入地理位置影响, 提出了地理加权最小二乘支持向量机模型[9](GWLS-SVM), 证实了其估计精度显著高于传统的GWR、 LS-SVR模型。 本研究对于GWLS-SVR模型是否适用于叶绿素含量估算, 能否在红枣树叶片叶绿素估算中得到较好效果还需要进一步的验证。 用CP统计量选择特征波段, 计算若羌红枣树叶片SPAD值的全局莫兰指数, 分析红枣树叶片SPAD值分布是否与空间位置有关, 再运用GWLS-SVR模型, 将建模结果与传统模型进行对比分析, 检验并比较模型的拟合效果。

1 实验部分
1.1 研究区概况及采样点布设

研究区位于中国新疆若羌县, 范围在东经87° 00'— 89° 0'、 北纬38° 40'— 39° 30'之间, 属暖温带大陆性荒漠干旱气候, 是新疆名牌产品“ 若羌红枣” 种植区[10]。 于若羌红枣果实成熟期2019年9月28日— 10月2日采样, 为了保证实验结果的全面性和精确性, 在去除野外数据异常值后最终保留均匀覆盖若羌县的67个枣林样点, 在预先设计的枣林内确定代表性枣树1~3棵进行数据采集, 再通过手持GPS记录地理位置信息, 共采集219条红枣树叶片高光谱数据和219个枣树叶片SPAD值数据, 研究区位置和采样样点地理位置分布情况如图1。

图1 研究区位置和采样点分布图Fig.1 Location of study area and distribution of sampling plots

1.2 红枣树叶片光谱测定与处理

红枣树的叶片光谱反射率在晴朗无风无云条件下于北京时间11:00— 17:00使用PSR-3500便携式地物光谱仪在野外测定, 波段范围是350~2 500 nm, 每隔1 nm输出一个数据, 一共2 151个光谱通道。 在选择的代表性1~3颗枣树上、 中、 下层各随机采集3片叶片。 为减少误差, 每次光谱测定之前均进行白板标定, 同时用干燥纸巾去除叶片表面浮尘, 测量时将叶片铺平放置在反射率近似为零的黑板上, 将光纤探头垂直固定于叶片上方约5 mm, 每个叶片样本避开叶脉重复测量3次, 取光谱曲线的算术平均值作为该样点的原始叶片光谱反射率。 为减少噪声影响, 剔除1 050~2 500 nm噪声较大波段, 并利用Origin软件平滑去噪[11]。 另外, 导数光谱可以反映植被中生化物质的吸收引起的波形变化还能够揭示光谱峰值的内在特征进而估算植被内部叶绿素含量信息[2]。 因此, 对原始光谱反射率(raw reflectance, RR)求光谱一阶导数(first derivative of reflectance, FD)。

1.3 SPAD值测定

使用叶绿素计(SPAD-502Plus, Konica Minoita, Japan)对现场采集的多个枣树叶片SPAD值进行测定, 测量时避开叶脉部分, 从叶柄至叶尖分段随机测量3次, 将多个叶片测定结果取算术平均值作为该样点SPAD值。 SPAD值测定时间与叶片光谱测定同步进行, 测定位置与叶片光谱保持一致。

1.4 变量选择

本工作采用CP统计量进行变量选择。 CP统计量可以通过预测的角度选择重要性较高的自变量。 其原理为由部分变量预测的均方误差可能比利用所有变量进行预测的均方误差更小, 故可以去除重要程度不是很高的变量。 其计算方式如式(1)

CP=SSEpσ˙2-n+2p(1)

其中: σ˙2=1n-m-1SSEm, m为选取的子集中的变量个数。

1.5 地理加权最小二乘支持向量回归模型(GWLS-SVR)

给定训练数据{xi, yi, Ui }i=1n, 其中, 解释变量xiRp, Ui=(ui, vi)∈ R2(即为经纬度通过高斯投影变换的直角坐标), 被解释变量yiR。 基于MLR模型的最小二乘估计和一般的SVR模型, 结合地理位置信息便可得到GWLS-SVR模型[9]。 首先, 将在处的回归函数值用式(2)表示

f(xi, Ui)=ωTϕ(xi)+bi(2)

设给定xUi下的权重矩阵为Wi, 则可以将回归模型转化成如式(3)优化问题

Li=j=1nwij(yi-ωTiϕ(xj)-bi)2+c2ωi2(3)

其中, C> 0为惩罚参数, wij为用于表示UiUj之间的距离的权重函数。

根据Kimeldorf和Wahba提出的定理[12], 上述优化问题中的 ωiTϕ (xj)可以通过引入一组拉格朗日乘子α .j间接地用于测试集, 解释变量的核函数表示

ωTiϕ(xj)=K(xi, x)α.j(4)

将式(4)代入式(2)后解出该优化问题即可得到xiUi处的回归函数估计值 f˙(xi, Ui)。 最后, 采用一种更简单高效的参数选取方法, 即广义交叉验证(generalized cross validation, GCV)来选取合适的参数。

2 结果与讨论
2.1 不同范围SPAD值红枣树叶片平均光谱反射特征

图2是不同范围SPAD值的红枣树叶片平均光谱反射率曲线图。 由图可知, 不同范围SPAD值的红枣树叶片平均反射率曲线变化趋势基本相同。 总体上, 350~750 nm波段内反射率比750~1 050 nm波段低。 在350~675 nm波段内随着SPAD值的升高, 红枣树叶片平均光谱反射率降低, 光谱差异较明显, 其中, 在500~551 nm波段范围内反射率缓慢上升, 551 nm附近出现反射峰, 675 nm附近出现吸收谷; 675~750 nm处平均光谱反射率随着波长呈现快速上升趋势, 750~1 050 nm范围内, 随着SPAD值的升高, 平均光谱反射率升高。 红枣树的长势状态直接决定了SPAD值的大小, SPAD值也会影响红枣树叶片的反射率。

图2 不同范围SPAD值红枣树叶片平均光谱反射特征Fig.2 Average spectral reflectance characteristics of jujube leaves with different SPAD values

2.2 红枣树叶片光谱和SPAD值相关性分析

为了明确红枣树叶片SPAD值相对应的敏感波段, 将红枣树叶片SPAD值和原始光谱、 光谱一阶导数反射率波段做皮尔逊相关性分析。 由图3可知, 红枣树叶片SPAD值和原始光谱反射率及光谱一阶导数反射率紧密相关, 且都存在着极显著相关。 对原始光谱来说, 在570~620及690~700 nm间达到相关系数峰值, 通过了0.01的显著性水平, 相关系数分别达到-0.578及-0.561, 此波段范围受叶绿素吸收的影响, 相关系数呈负相关, 选择这两组波段的原始光谱反射率作为估测枣树叶片SPAD值的敏感波段区间。 SPAD值与光谱一阶导数呈正负相关, 相关性极显著的波段分布在400~750 nm区间内, 最高值出现在688 nm处。 与原始光谱相比, 在492~510, 542~543, 642~652, 657~670和682~692 nm区间内的SPAD相关性有所提高, 且分别达到-0.655, -0.662, -0.697, 0.709和-0.749, 也说明了这些波段的光谱反射率与枣树叶片SPAD值相关性好, 适合用于敏感波段的挑选。 综上所述, 红枣树叶片反射率光谱做一阶导数处理后与SPAD的相关性有较显著的提高。

图3 SPAD值与光谱反射率之间的相关性Fig.3 Correlation of SPAD and spectral reflectance

2.3 变量选择

结合图3, 在原始光谱570~620 nm范围内选择了相关性高的581, 590, 595和602 nm波段, 690~700 nm波段范围内选择695和696 nm共6个特征波段进行CP统计量的计算; 基于光谱一阶导数与SPAD值相关性高低, 在492~510, 542~543, 642~652, 657~670和682~692 nm共5个波段内分别选择相关性达到区间内最高的495, 543, 649, 664和688 nm共5个特征波段计算出其不同组合统计量, 表1为波段的相关系数表。

表1 波段的相关系数表 Table 1 Band correlation coefficient

表2CP统计量计算结果表, 考虑到所有变量组合方式数目较大, 且大部分组合方式的CP统计量都远高于表2中的几种组合方式, 只列出CP统计量值靠前的组合。 CP统计量越低, 代表该种变量选择方式重要性程度越高。 且由表2可知, 原始光谱选择在570~620和690~700 nm范围内分别选择595和696 nm时CP统计量绝对值最低, 因此将595与696 nm原始光谱重要程度最高的两个变量作为建模的特征波段。 光谱一阶导数变换后688 nm波段CP统计量绝对值最低, 因此光谱一阶导数的特征波段定为688 nm。 原始光谱特征波段696 nm和光谱一阶导数特征波段688 nm都处于红边波段[13], 说明红边与植被的各种理化参数是紧密相关的, 是描述植物色素状态和健康状况的重要的指示波段。

表2 特征波段组合及CP统计量计算结果 Table 2 Characteristic band combinations and calculation result of CP statistics

不难发现, 对于同一个区间的波段组合总有单波段的CP统计量低于多波段组合的CP统计量。 说明相近波段组合建模会使得误差增大, 这可能是相近波段之间较强共线性造成的, 故每个敏感波段区间只选取一个波段进行建模是合理的。

2.4 模型的构建与检验

运用CP统计量选出的3个特征波段以及实测叶片SPAD值建立MLR, SVR和GWLS-SVR模型。 相比较而言, GWLS-SVR主要的优势是变量系数随着地理位置而变化, 具有较强的灵活性。 为了明确红枣树叶片SPAD值分布是否与地理位置有关, 对其进行Moran’ s Ⅰ 的计算结果为0.125 8(p< 0.1), 呈空间正相关, 说明枣树叶片SPAD值的分布有显著的空间聚集性, 适合运用GWLS-SVR模型来建模。

原始光谱(RR)与光谱一阶导数(FD)分别基于MLR, SVR以及GWLS-SVR拟合的MSE与R2如图4所示。 从建模效果来看, 基于原始光谱建立的三种模型中, MLR与SVR的R2低于0.8, MSE也较高, 说明这两种模型的稳定性较差, 预测效果不理想; GWLS-SVR的R2为0.915, MSE低至3.679, 表明GWLS-SVR的稳定性及估算能力优于MLR与SVR模型。 光谱一阶导数变换后的三种模型精度较原始光谱均有所提升, 且MSE整体上都有所降低, 表明数据变换后模型的稳定性和精度有了一定的提高; 而GWLS-SVR在光谱一阶导变换后均显著优于其余两种模型, 模型的R2提高到了0.975, MLR与SVR的MSE均比GWLS-SVR高约20倍, 综合上述可得GWLS-SVR模型不仅拟合精度高, 其估计偏差与方差综合看来均低于其余两个模型。

图4 MLR, SVR和GWLS-SVR对实测值与预测值间的拟合图Fig.4 The fitting graphs of the measured and predicted values by MLR, SVR and GWLS-SVR

从拟合效果来看, GWLS-SVR在原始光谱与光谱一阶导数的拟合曲线比起其他两种模型真实值与预测值均匀分布在1∶ 1直线周围, 表明GWLS-SVR的拟合效果较好, 且在光谱一阶导数变换后的拟合效果更佳。

为了检验三种模型的拟合效果差异, 对于原始样本利用Bootstrap再抽样方法进行100次有放回随机抽样, 每次抽取67个样本。 之后对于随机生成的样本利用上述三种模型分别建模计算100组MSE的均值(mean of MSE)和方差(varionce of MSE), 并利用配对t检验进一步比较原始光谱和光谱一阶导数基于GWLS-SVR与其他两个模型的MSE之间的差异的显著性。

100次Bootstrap再抽样并基于三种模型建模后的MSE箱线图如图5所示。

图5 100次建模的MSE箱线图Fig.5 Boxplot of the MSE after 100 times of modeling

表3及图5可以看出, 整体上GWLS-SVR的100组MSE在原始光谱与光谱一阶导变换后均为最低, 且波动也比较小, 说明100次Bootstrap再抽样后GWLS-SVR相比于传统的MLR及SVR模型预测的精度较高且发挥比较稳定, 其中基于光谱一阶导数建立的GWLS-SVR模型的MSE最小, 且波动最小, 说明基于光谱一阶导数建立的GWLS-SVR模型的模型预测精度最佳且稳定。

表3 Bootstrap再抽样结果 Table 3 The results of Bootstrap resampling

为了进一步检验GWLS-SVR的MSE是否显著小于其他两个模型的MSE, 以下分别做GWLS-SVR与其他两个模型的单边配对t检验。 所得T统计量与p值如表4所示。

表4 t检验结果 Table 4 The results of t-test

表4可见, 4组单边配对t检验的t统计量的绝对值都比较大, 且p值均非常接近0。 所以GWLS-SVR预测的MSE小于其他两个模型的MSE这一假设在统计学上是高度显著的。

3 结论

利用野外实测67个样点, 219条红枣树叶片高光谱数据和枣树叶片SPAD值数据, 对SPAD值与高光谱波段进行相关性分析、 CP统计量特征波段选取、 建立基于特征波段的SPAD值估算模型, 结果表明:

(1)光谱一阶导数起到了对原始光谱数据的去噪、 突出高光谱信息的作用, 尤其是在492~510, 542~543, 642~652, 657~670和682~692 nm区间内明显提高了与SPAD值的相关性。

(2)根据统计量计算发现: 对于同一个敏感波段区间的波段组合总有单个波段的CP统计量低于多个波段组合的CP统计量, 临近分布的波段之间的存在的较强共线性可能导致这些波段的组合误差增大。

(3)基于实地采样数据进行地统计分析若羌县枣树SPAD值与地理位置的关联性, 发现若羌县存在空间聚集性, 全局莫兰指数为0.125 8(p< 0.1), 表明地理加权最小二乘支持向量机方法适用于估算若羌县枣树叶片SPAD值。

(4)基于光谱一阶导数的特征波段建立的GWLS-SVR模型的估算能力(R2为0.975, MSE为1.082)优于基于原始光谱特征波段建立的GWLS-SVR模型(R2为0.915, MSE为3.679), 且由结合Bootstrap再抽样方法与t检验的结果来看, 基于光谱一阶导数的加入地理位置信息的GWLS-SVR模型为最优的枣树叶片SPAD值估算模型, 能够为快速无损的监测红枣树生长状况提供参考。

致谢: 感谢若羌县委的一贯支持, 感谢若羌县委办、 县农业农村局、 自然资源局、 交通运输局对本项野外调查工作的具体帮助。 感谢县委办户亮亮同志对本项工作的协调和帮助。

参考文献
[1] Cui B, Zhao Q J, Huang W J, et al. Journal of Integrative Agriculture, 2019, 18(6): 1230. [本文引用:1]
[2] LUO Dan, CHANG Qing-rui, QI Yan-bin(罗丹常庆瑞齐雁冰)(Journal of Northwest A&F University·Nat. Sci. Ed(西北农林科技大学·信息科学版), 2019, 47(1): 107. [本文引用:2]
[3] Pinar A, Curran P J. International Journal of Remote Sensing, 1996, 17(2): 351. [本文引用:1]
[4] Blackburn G A. International Journal of Remote Sensing, 1998, 19(4): 657. [本文引用:1]
[5] DU Hua-qiang, GE Hong-li, FAN Wen-yi, et al(杜华强, 葛宏立, 范文义, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2009, 29(11): 3033. [本文引用:1]
[6] LIU Jing, CHANG Qing-rui, LIU Miao, et al(刘京, 常庆瑞, 刘淼, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2016, 47(8): 260. [本文引用:1]
[7] FENG Hai-kuan, YANG Fu-qin, YANG Gui-jun, et al(冯海宽, 杨福芹, 杨贵军, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(6): 182. [本文引用:1]
[8] LI Xiao-li, WEI Yu-zhen, XU Jie, et al(李晓丽魏玉震徐 劼, ). Transactions of the Chinese Society of Agricultural Engineering, 34(7): 180. [本文引用:1]
[9] Hwang C, Shim J. Journal of the Korean Data & Information Science Society, 2017, 28(1): 227. [本文引用:2]
[10] ZHAO Fei, NIU Li-juan, LIU Zong-zhe, et al(赵非, 牛莉娟, 刘宗哲) Food Science And Technology(食品科技), 2019, 44(11): 321. [本文引用:1]
[11] ZHANG Xian-long, ZHANG Fei, ZHANG Hai-wei, et al(张贤龙, 张飞, 张海威, ). . Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34, 328(1): 118. [本文引用:1]
[12] Kimeldorf G S, Wahba G. Journal of Mathematical Analysis and Applications, 1971, 33(1): 82. [本文引用:1]
[13] ZHANG Su-lan, HUANG Jin-long, QIN Lin, et al(张素兰, 黄金龙, 秦林, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2019, 50(4): 196. [本文引用:1]