大豆病害分类的高光谱分析
刘爽1, 于海业2, 隋媛媛2, 孔丽娟3, 于占东1, 郭晶晶2, 乔建磊1,*
1.吉林农业大学园艺学院, 吉林 长春 130118
2.吉林大学生物与农业工程学院, 吉林 长春 130022
3.吉林农业大学工程技术学院, 吉林 长春 130118
*通讯作者 e-mail: qiaojianlei918@163.com

作者简介: 刘 爽, 女, 1993年生, 吉林农业大学园艺学院讲师 e-mail: 1787798842@qq.com

摘要

作物病害类型的快速无损检测对提高作物品质和产量至关重要。 传统的病害分类方法费时费力且不能实时检测。 为此, 利用高光谱进行大豆病害分类。 以健康大豆为对照, 灰斑病和细菌性斑点病两种病害为研究对象, 获取三种类别叶片高光谱数据。 基于高光谱曲线分析病害与健康叶片反射率的变化规律。 采用主成分分析(PCA)和光谱指数(SI)两种单一方法进行病害有效信息提取, 共使用30个SI。 在此基础上, 提出一种PCA与SI相结合的组合方法(PCA-SI), 通过提取有效主成分(PC)及有效SI, 将有效SI按得分情况分为两组(9SIs和18SIs), 再分别对应每一个有效PC进行分组, 形成病害光谱有效信息的变量集。 采用三种方法分别进行病害有效信息的提取, 基于提取后的光谱变量, 采用最小二乘支持向量机(LSSVM)和支持向量机(SVM)两种分类器建立病害分类模型。 以原始高光谱为基准, 以病害分类正确率为指标, 评价模型的病害分类性能及不同病害有效信息提取方法和分类器的有效性。 结果表明: 高光谱反射率具有可见光450~700 nm 波段范围病害叶片高于健康叶片而近红外760~1 000 nm波段范围其特征完全相反的规律。 采用单一PCA方法提取出了34个有效PC用于病害分类。 基于PCA-SI组合方法提取出5个有效PC(PC1—PC5)和18个有效SI, 将其进行分组得到10组变量, 共计13组变量作为建模集。 三种方法提取病害有效信息后的光谱变量均比原始高光谱具有更好的病害分类能力, 提出的PCA-SI组合方法具有最优的病害有效信息提取能力, PC1-18SIs和PC4-18SIs为最优建模集, LSSVM分类器具有最优的分类性能。 PC1-18SIs-LSSVM和PC4-18SIs-LSSVM模型为最优病害分类模型, 训练集和预测集的总病害分类正确率分别为100%和98.85%, 与原始高光谱分类模型相比, 总分类能力分别提高了6.47%和21.74%, 模型分类能力较好, 可为病害实时无损分类识别提供参考。

关键词: 大豆; 病害分类; 高光谱
中图分类号:S565.1 文献标志码:A
Hyperspectral Data Analysis for Classification of Soybean Leaf Diseases
LIU Shuang1, YU Hai-ye2, SUI Yuan-yuan2, KONG Li-juan3, YU Zhan-dong1, GUO Jing-jing2, QIAO Jian-lei1,*
1. College of Horticulture, Jilin Agricultural University, Changchun 130118, China
2. School of Biological and Agricultural Engineering, Jilin University, Changchun 130022, China
3. College of Engineering and Technology, Jilin Agricultural University, Changchun 130118, China
*Corresponding author
Abstract

Rapid and non-destructive detection of crop disease types are essential to improve crop quality and yield. Traditional disease classification methods are time-consuming and difficult to detect in real-time. Therefore, the classification of soybean diseases was carried out by the hyperspectral technique. In this paper, healthy soybean was used as the control, frogeye leaf spot and bacterial blight diseases were the research objects, and hyperspectral data of three types of leaves were obtained. Changes inthe reflectance of diseased and healthy leaves were analyzed based on hyperspectral curves. Two single methods, principal component analysis (PCA) and spectral index (SI), were used to extract effective disease information. A total of 30 SI were used. A combination method of PCA and SI (PCA-SI) was proposed on this basis. Extracting the effective principal component (PC) and the effective SI, which were divided into two groups (9SIs and 18SIs) according to the score, and then grouped corresponding to each effective PC respectively to form the variable set of effective information of the disease spectrum. Three methods were used to extract effective disease information respectively. Based on the extracted spectral variables, the least square support vector machine (LSSVM) and support vector machine (SVM) was used to establish the disease classification model. With the original hyperspectral as the benchmark and the accuracy of disease classification as the index, the disease classification performance of the model, the effective information extraction methods of different diseases and the effectiveness of the classifier were evaluated. The results showed that the hyperspectral reflectance of diseased leaves was higher than that of healthy leaves in the visible band of 450~700 nm, while the characteristics of diseased leaves were opposite in the near-infrared band of 760~1 000 nm. A single PCA method was used to extract 34 effective PCS for disease classification. Based on the PCA-SI combination method, 5 effective PCs (PC1—PC5) and 18 effective SIs were extracted and grouped to obtain 10 groups of variables, and 13 groups of variables were used as modeling sets. The spectral variables extracted by the three methods have better disease classification ability than the original hyperspectral, and the proposed PCA-SI combination method has the optimal disease-effective information extraction ability. PC1-18SIs and PC4-18SIs were the best modeling sets, and the LSSVM classifier performed the best classification. PC1-18SIs-LSSVM and PC4-18SIs-LSSVM models were the optimal disease classification models. The total disease classification accuracy of the training and prediction sets was 100% and 98.85%, respectively. Compared with the original hyperspectral classification model, the overall classification ability of these two models was improved by 6.47% and 21.74%, respectively, and the model classification ability was good. It can provide a reference for real-time and non-destructive classification and identification of diseases.

Keyword: Soybean; Disease classification; Hyperspectral data
引言

病害严重威胁粮食安全, 据统计, 病虫害可造成约25%的产量损失[1]。 因此, 检测并控制病害对农业生产至关重要。 大豆是重要的经济作物, 由于人口众多且长期偏爱豆油, 中国是全球大豆消费量最高的国家[2]。 然而, 多种叶面病害严重威胁大豆产量和品质, 包括真菌性、 细菌性及病毒性病害, 例如灰斑病、 细菌性斑点病和病毒病等[3]。 因此, 须及时高效检测病害, 以估计其经济影响并应用控制策略。

作物叶面病害的传统检测方式主要通过视觉评估或化学方法。 农艺师手动检查叶片颜色、 病变区域大小和树冠结构, 例如作物密度、 叶子数量、 形状和分布、 作物的茎和枝条数量等[4]。 然而, 视觉评估方法是主观的, 可能会受到观察者经验知识的影响。 随着作物病害种类的增多, 视觉检测的难度增加, 当多种疾病具有相似的形态症状时, 观察者很难准确区分它们。 化学方法, 包括聚合酶链反应和酶联免疫吸附试验[5]。 化学方法的灵敏度较高, 病害检测的准确性较高, 但耗时、 劳动密集且具有破坏性[6]。 高光谱成像已被用于作物病害检测[7], 但需要大量且耗时的图像信息计算及对操作人员的培训[8]。 因此, 仍需要一种合适的及无损快速高效的方法检测作物病害。

以灰斑病和细菌性斑点病两种大豆常见病害为研究对象, 利用高光谱无损检测技术进行病害分类。 采用两种单一方法和提出的组合方法提取病害有效信息, 将提取后的光谱变量分别作为建模集, 结合两种分类器建立病害分类模型, 探讨不同病害有效信息提取方法及分类器对病害分类准确性的影响, 为精准且无损的病害分类技术提供科学依据。

1 实验部分
1.1 样本

采用盆栽试验, 于2019年7月10日播种大豆, 每盆播种1粒种子, 共播种55盆。 通过人工侵染病菌的方式获取病害样本; 于2019年8月15日和8月22日进行两次侵染试验以确保发病; 灰斑病和细菌性斑点病分别侵染100个叶片。 大豆染病前放置于日光温室内, 染病后的大豆按不同类别分别放置于温室外单独的塑料棚(长2 m, 宽1 m, 高1 m)中, 套袋保湿叶片48 h后正常管理, 使其自然发病。 发病后的两种病害叶片如图1所示。

图1 发病后的叶片
(a): 灰斑病; (b): 细菌性斑点病
Fig.1 Spotted leaves
(a): Frogeye leaf spot; (b): Bacterial blight

1.2 数据采集与处理

于2019年9月20日采集高光谱数据, 采集时间为10:00— 15:00。 除采集有病症显现叶片的高光谱数据外, 还采集了健康叶片的高光谱作为对照数据, 每种类别样本获取90个, 总样本270个。 高光谱数据采用美国Analytical Spectral Devices分析光谱仪器公司生产HH2地物光谱仪测定, 测量范围325~1 075 nm, 采样间隔1.4 nm, 分辨率3 nm, 每片叶获取3条数据后取平均。 采用ViewSpec Pro、 Matlab R2015a和Origin 19.0软件进行数据处理与分析。

2 结果与讨论
2.1 不同病害的高光谱差异分析

以450~1 000 nm波段高光谱作为分析对象, 健康及不同病害大豆叶片的高光谱如图2所示。 高光谱曲线符合绿色植被的光谱特征, 具有明显的波峰波谷及近红外波段的高反射特征。 健康与病害叶片的高光谱在可见光波段(450~700 nm)和近红外波段(760~1 000 nm)的差异显著, 反射率在450~700 nm波段范围病害叶片高于健康叶片而760~1 000 nm波段范围恰恰相反。 探究出现这种现象的原因, 在可见光波段, 由于病菌的作用, 患病叶片内部色素含量减少, 致使叶绿素含量等光合作用需要的重要物质含量减少, 对光的吸收减少, 反射率高, 因此患病叶片的高光谱反射率值高于健康叶片。 在近红外波段, 患病叶片内部细胞结构被破坏, 反射能力减弱, 因此患病叶片的高光谱反射率低于健康叶片。

图2 健康和病害大豆叶片的高光谱曲线Fig.2 Hyperspectral profile characteristics of healthy and diseased soybean leaves

2.2 病害有效信息提取

仪器自身测量误差及外界环境的影响会使高光谱曲线掺杂无用的冗余信息, 因此, 进行病害高光谱有效信息的提取是十分必要的。 提出一种组合方法用于病害有效波长的提取, 即采用主成分分析(principal component analysis, PCA)与光谱指数(spectral index, SI)组合(PCA-SI)的方法。 并将 PCA-SI组合方法与单独采用PCA和SI方法进行对比分析, 验证组合方法的可行性和有效性。

2.2.1 基于PCA方法提取病害有效信息

PCA方法通过提取有效主成分进行病害有效信息的提取, 有效主成分将病害信息进行线性或非线性组合, 进而使病害信息得到最大化表征。 以特征值为指标, 选取特征值大于1的主成分(principal component, PC)作为有效主成分。 病害高光谱的有效主成分特征值分布曲线如图3所示, 共提取出34个有效主成分用于病害分类的进一步分析。

图3 主成分特征值分布曲线Fig.3 Principal component eigenvalue distribution curve

2.2.2 基于SI方法提取病害有效信息

光谱指数是指由某些特定光谱数据波段的反射率线性或非线性组合构成的一种光谱参数, 所体现的信息比单波段具有更好的灵敏性, 统计分析结果更有意义[9]。 在充分利用前人研究成果的基础上, 又针对本研究内容, 共计使用30个光谱指数, 如表1所示。 30个光谱指数作为输入变量用于病害分类的进一步分析。

表1 光谱指数公式及参考文献 Table 1 Spectral index formulas and references

2.2.3 基于PCA-SI组合方法提取病害有效信息

将PCA方法与SI方法结合用于病害信息提取, 将表1中30个SI进行主成分分析, 基于特征值大于1的有效主成分, 分别进行有效SI的提取。 根据“ 有效光谱指数是样本量的1/5~1/10” 原则[10], 以区间限值作为阈值限, 将30个SI按得分由高到低排序, 选取排名前9和前18的SI作为有效SI, 分为两组, 每组包含9个SI。 有效主成分及光谱指数如表2所示, 可以看出, 共提取出5个有效主成分PC1— PC5, 每一个有效PC提取出了对应的两组有效SI(9SIs和18SIs)。 将5个有效PC提取出的2组有效SI分别作为输入变量用于病害分类的进一步分析。

表2 有效主成分及光谱指数 Table 2 Effective principal components and spectral indices
2.3 病害分类的高光谱建模分析

患病叶片内部的叶绿体及细胞结构受到破坏, 使作物内部信息及生理性状发生改变, 导致光谱特性发生变化[14], 因此, 基于高光谱进行作物病害分类是可行的。 采用最小二乘支持向量机(least squares support vector machine, LSSVM)和支持向量机(support vector machine, SVM)两种分类器建立大豆病害分类模型, 以病害分类正确率为评价指标, 对比分析两种分类器及三种病害有效信息提取方法的有效性。

LSSVM和SVM两种分类器均需要进行核函数的选取。 大量实验表明, 径向基函数(radial basis function, RBF)可以有效处理光谱与目标属性之间的非线性关系, 具有良好的性能, 因此, 选取RBF函数作为两种分类器的核函数。 此外, 还需对RBF函数的重要参数进行选择, 故需对LSSVM模型中的正则化参数(γ )和带宽参数(σ 2), SVM模型中的惩罚因子(C)和核函数参数(g)进行选择。 为了防止病害分类模型过拟合, 采用网格搜索法寻找最优参数组合(γ , σ 2)和(C, g), 两组参数的搜索范围分别设置为10-2~105和2-8~28, 并采用10折交叉验证方法进行参数组合的优化。 将原始高光谱及经过三种病害有效信息提取后的光谱变量分别作为建模集, 共计13个建模集(S1— S13), 每种分类器建立13个模型。 按3:1的比例将建模集样本分为训练集和预测集, 分别与LSSVM和SVM方法结合, 建立病害分类识别模型。 病害分类正确率越高, 说明分类效果越好, 最终优选出最优病害特征提取方法及分类器, 建模结果如表3表4所示。

表3 基于LSSVM分类器的病害分类模型结果 Table 3 Results of disease classification model based on LSSVM classifier
表4 基于SVM分类器的病害分类模型结果 Table 4 Results of disease classification model based on SVM classifier

建模集不同, 表现出的模型性能也不同。 基于LSSVM和SVM两种分类器所建病害分类模型表现出一致的特征, 与原始高光谱相比, 单一及组合病害有效信息提取方法均表现出一定的优势, 所建模型的病害分类能力均有不同程度的提高。 在LSSVM病害分类模型中, 不同建模集对应的训练集和预测集总分类正确率范围分别为93.53%~100%和76.81%~98.55%, 在SVM病害分类模型中为93.03%~100%和75.36%~97.10%。 以原始高光谱(S1)所建模型为基准, 另外12个病害分类模型的训练集和预测集总分类正确率提高程度范围分别为2.49%~6.47%和4.35%~21.74%(LSSVM模型), 0.5%~6.97%和1.45%~21.65%(SVM模型)。

基于两种分类器, 对比分析13个病害分类模型, 由建模集S9(PC1-18SIs)和S12(PC4-18SIs)所建模型表现出相同的最优分类性能, 训练集和预测集的总分类正确率分别为100%和98.55%, 100%和97.10%; 总分类能力分别提高了6.47%和21.74%, 6.97%和21.65%; 同时, 针对训练集和预测集, 健康、 灰斑病和细菌性斑点病的单类别分类能力分别提高了11.94%、 1.49%、 5.97%, 30.43%、 21.74%、 13.04%(LSSVM模型); 5.97%、 8.96%、 5.97%, 47.83%、 4.35%、 13.04%(SVM模型)。 由此说明本文提出的PCA-SI组合方法比单一PCA方法或SI方法具有更高的病害信息提取能力。

对比分析LSSVM和SVM两种分类器的分类性能, 绘制不同建模集所建模型的总分类正确率结果, 如图4所示。

图4 两种分类器的分类性能比较Fig.4 Comparison of the classification performance of the two classifiers

可以看出, 无论训练集还是预测集模型, 大体上, LSSVM分类模型的大豆病害分类能力高于SVM模型。 分析其原因, LSSVM分类方法更好地利用了高光谱数据的潜在非线性信息, 这可能有助于其更好地发挥病害分类及预测性能。

3 结论

基于健康、 灰斑病和细菌性斑点病大豆的高光谱数据, 分别采用PCA和SI两种单一方法及PCA-SI组合方法进行病害有效信息提取, 将提取后的变量与LSSVM和SVM两种分类器结合建立病害分类模型, 对比不同分类模型的病害分类正确率, 分析模型对大豆病害的分类能力, 得出以下结论:

(1)病害叶片的高光谱在可见光波段(450~700 nm)和近红外波段(760~1 000 nm)具有完全相反的特征, 在可见光波段的反射率高于健康叶片而近红外波段低于健康叶片。

(2)提出的PCA-SI组合方法优于单一PCA方法和SI方法, 具有更高的病害信息提取能力。

(3)PC1-18SIs和PC4-18SIs建模集为最优建模集, 与最优分类器LSSVM结合所建模型具有最优的病害分类性能, 模型训练集和预测集的总分类正确率分别为100%和98.85%, 与原始高光谱分类模型相比, 总分类能力分别提高了6.47%和21.74%。

高光谱技术在作物病害分类的相关研究中仍存在一些问题待解决, 如本研究及大多数研究中针对的作物病害类型较少, 当病害类型增加时, 病害有效信息的特征参数会发生变化。 因此, 如何基于光谱数据最大程度地提取特征参数, 保证病害分类效果, 还需进一步深入探究。

参考文献
[1] Chapwanya M, Matusse A, Dumont Y. Applied Mathematical Modelling, 2021, 90: 912. [本文引用:1]
[2] Wu F, Geng Y, Zhang Y Q, et al. Journal of Cleaner Production, 2020, 244: 119006. [本文引用:1]
[3] Butler S, Kelly H, Mueller T, et al. Crop Protection, 2018, 112: 149. [本文引用:1]
[4] Bock C H, Barbedo J G A, Del Ponte E M, et al. Phytopathology Research, 2020, 2(1): 1. [本文引用:1]
[5] Xie C Q, Shao Y N, Li X L. Scientific Reports, 2015, 5: 16564. [本文引用:1]
[6] Wang C Y, Linderholm H W, Song Y L, et al. International Journal of Environmental Research and Public Health, 2020, 17(7): 2459. [本文引用:1]
[7] Zhang S L, Huang J L, Hanan J, et al. Multimedia Tools and Applications-An International Journal, 2020, 79(23-24): 16645. [本文引用:1]
[8] Junges A H, Almance M A K, Fajardo T V M, et al. Tropical Plant Pathology. 2020, 45(5): 522. [本文引用:1]
[9] ZHANG Liang-pei, ZHANG Li-fu(张良培, 张立福). Hyperspectral Remote Sensing(高光谱遥感). Wuhan: Wuhan University Press(武汉: 武汉大学出版社), 2011. 86. [本文引用:1]
[10] Lu Z J, Ehsani R, Shi Y Y, et al. Scientific Reports, 2018, 8(1): 2793. [本文引用:1]
[11] Tang R N, Chen X P, Li C. Applied Spectroscopy, 2018, 72(5): 740. [本文引用:1]
[12] Daughtry C S T, Walthall C L, Kim M S, et al. Remote Sensing of Environment. 2010, 74(2): 229. [本文引用:1]
[13] El-Hendawy S, Al-Suhaibani N, Hassan W, et al. PLOS ONE, 2017, 12(8): e0183262. [本文引用:1]
[14] XIE Chuan-qi, WANG Jia-yue, FENG Lei, et al(谢传奇, 王佳悦, 冯雷, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2013, 33(6): 1603. [本文引用:1]