云计算的蚕豆虫害可见-近红外光谱分类
夏吉安1, 杨余旺1,*, 曹宏鑫2, 韩晨1, 葛道阔2, 张文宇2
1. 南京理工大学计算机科学与工程学院, 江苏 南京 210094
2. 江苏省农业科学院, 江苏 南京 210014
*通讯联系人 e-mail: yuwangyang@njust.edu.cn

作者简介: 夏吉安, 1982年生, 南京理工大学计算机科学与技术学院博士研究生 e-mail: xiagyan@gmail.com

摘要

利用蚕豆叶片可见-近红外反射光谱结合导数光谱对健康、 少量、 大量虫害三种等级的实验样本进行光谱特征分析, 并选择虫害检测最优波段。 采用Hadoop, Spark和VMWare虚拟机搭建云计算平台, 使用MLlib机器学习库实现人工神经网络(ANN)和支持向量机(SVM)分类算法, 并对三种等级蚕豆叶片全波段和最优波段光谱进行分类建模与预测。 结果表明ANN虫害光谱分类模型准确率优于SVM虫害光谱分类模型, 并且在云平台上运行效率更高, 同时全光谱波段的预测准确性高于最优波段。 通过扩展光谱数据集, 云计算技术在光谱数据挖掘中的计算效率有显著提升。 云计算分类检测可以为作物生物胁迫光谱识别提供新的技术和方法。

关键词: 蚕豆虫害; 可见-近红外光谱; 云计算; 分类
中图分类号:TP39 文献标志码:A
Classification of Broad Bean Pest of Visible-Near Infrared Spectroscopy Based on Cloud Computing
XIA Ji-an1, YANG Yu-wang1,*, CAO Hong-xin2, HAN Chen1, GE Dao-kuo2, ZHANG Wen-yu2
1. College of Computer Science and Engineering, Nanjing University of Science & Technology, Nanjing 210094, China;
2. Jiangsu Academy of Agricultural Sciences, Nanjing 210014, China
Abstract

Based on the visible-near infrared reflectance spectra of broad bean leaves, by combining the derivative spectra, we analyzed the spectral characteristics of experiment samples with three levels of pests: healthy leaf, leaf with a small amount of pests and leaf with many pests, and selected the optimum waveband for pest detection. The Hadoop, Spark and VMWare virtual machines were used to build the cloud computing platform, and the MLlib machine learning library was used to realize the classification models of artificial neural network (ANN) and support vector machine (SVM). We also conducted classification modeling and prediction of the full waveband and optimum waveband spectra of broad bean leaves with three levels of pests. The experiment results showed that the ANN pest spectrum classification model had higher accuracy than the SVM pest spectrum classification model, and the ANN model also had higher operating efficiency on the cloud platform.In the meantime, the prediction accuracy for full-waveband spectrum was higher than that for optimum waveband. By expanding the spectrum datasets, the computational efficiency of clouding computing technology in spectrum data mining can be significantly improved. The classification detection based on cloud computing can provide new technique and method for the spectral recognition of crop biotic stress.

Keyword: Broad bean pest; Visible-near infrared spectroscopy; Cloud computing; Classification
引言

蚕豆是一种全球广泛种植的豆类作物。 蚕豆不仅可以作为蔬菜食用, 还可以作为蜜源植物, 此外花、 叶子、 茎还可以辅助治疗便秘和水肿。 在世界范围内蚕豆的虫害超过60种[1]。 在中国, 蚕豆的主要虫害是蚕豆象、 蚜虫和美洲斑潜蝇[2, 3], 其中蚕豆象是主要的蚕豆虫害, 成虫以豆荚、 花瓣及花粉为主要食物, 幼虫会侵入豆荚啃食豆粒, 并引入霉菌使豆粒发黑变质, 如果没有及时发现或者采取适当的防治措施, 将会造成作物的大量减产和损失[4]

精确农业要求快速、 准确地获取作物受病虫害侵害的信息, 实现农作物生长过程中的精确管理[5]。 通过采集绿色作物的可见-近红外反射光谱信息, 可以快速、 无损地获取作物的生长信息。 利用作物光谱进行生物胁迫的检测可以有效降低农药、 化肥施用, 保护农田生态环境, 达到增产、 增收的目的。 遭受病虫害作物的光谱与健康作物的光谱相比, 作物在某些特征波段的光谱反射率会发生不同程度的变化, 故光谱技术在作物病虫害检测方面具有较好的应用前景[6, 7]

基于云平台的高性能计算可以应用在多学科领域和数据密集型学科[8], 可以对光谱信息进行收集、 保存、 分析、 挖掘、 预测, 提升决策质量, 降低时间开销[9]

利用蚕豆虫害可见-近红外反射光谱和导数光谱进行特征波段提取, 利用云计算框架Spark和MLlib机器学习库对于不同等级的蚕豆虫害光谱建立人工神经网络(ANN)和支持向量机(SVM)分类模型, 并对蚕豆虫害全光谱波段和特征波段进行训练和预测, 为蚕豆虫害光谱的快速识别和分类检测提供新的研究方法。

1 实验部分
1.1 作物光谱采集与虫害等级划分

选择处于开花结荚期的新鲜蚕豆叶片和蚕豆象成虫作为实验对象; 蚕豆虫害光谱采集于江苏省农业科学院蚕豆实验田, 采集对象为田间的健康叶片和存在虫害胁迫的叶片。 蚕豆虫害可见-近红外反射光谱采集使用ASD FieldSpecHandHeldTM 2 手持式便携光谱仪, 采集波段为325~1 075 nm, 光谱分辨率小于3 nm, 积分时间8.5 ms。 每次光谱采集前使用白色参考板(BaSO4)进行光谱平衡校正。

光谱采集时为了减小阳光入射角度的影响, 每个蚕豆叶片在三个角度(45° , 90° , 135° )分别采集一次光谱, 取均值作为光谱样本, 同时光谱采集时控制光谱仪光学输入端与叶片表面采集距离为4~6 cm, 采集圆形光斑的直径为采集距离的一半(2~3 cm), 光斑覆盖叶片大部分区域, 也可避免采集到叶片区域之外的干扰信息。 蚕豆象成虫有假死习性, 并且会长时间停留在作物叶片上静止不动, 有利于田间光谱采集。

由于不同地区蚕豆虫害发生等级各不相同, 同时不同植株的受感染程度差异较大, 所以依据田间观测结果对于虫口密度进行估测。 作物叶片虫害分为三个等级: 健康叶片, 少量虫害叶片与大量虫害叶片。 虫口密度与虫害等级对应关系: 0只/片为健康、 1~2只/片为少量虫害、 3只及以上/片为大量虫害。

对采集的光谱进行筛选, 选取健康等级光谱49条, 少量虫害等级光谱43条, 大量虫害等级光谱48条, 作为光谱数据研究对象。

1.2 光谱处理

光谱仪采集的原始光谱包含光谱噪声和基线漂移, 采用5点Savitzky-Golay卷积平滑方法对原始反射光谱进行去噪和平滑处理[10]。 由于在光谱区间的两端(325~450, 1 000~1 075 nm)存在较大的光谱噪声, 所以选用450~1 000 nm波段作为光谱的研究波段。

通过对原始光谱数据集求导数, 获得一阶导数光谱数据集, 使用原始光谱和一阶导数光谱选择蚕豆虫害光谱的敏感波段, 利用若干个最优波段进行虫害分析研究, 可以使得预测模型变得简单, 加快光谱采集效率。

1.3 云平台架构与分类模型

Spark是Apache基金会开发的一个新兴的云计算的框架。 Spark使用内存分布数据集, 优化迭代工作负载, 更适用于数据挖掘与机器学习算法。 此外Spark提供的MLlib优化了Spark对机器学习算法的支持, 在逻辑回归测试中其内存计算速度比并行计算框架Mapreduce快100倍[11]

使用高性能计算机和VMWare10.0虚拟机搭建云计算平台。 计算机采用Intel i7处理器, 16 GB内存, CentOS6.5操作系统。 使用Hadoop 2.6提供的HDFS进行分布式文件存储与管理。 Spark 2.1作为云计算框架, 集成开发环境为IntelliJ IDEA。 Spark框架采用Standalone运行模式, 设计使用1个Master节点负责作业调度, 2个Workers节点负责作业执行, 每个节点由一个VMWare虚拟机实现。

利用Spark提供的MLlib机器学习库, 使用Scala 2.11编程实现ANN和SVM算法。 通过云计算平台对三个等级的蚕豆虫害光谱数据集和相应的最优波段进行分类建模与预测。 通过自行编写的程序将光谱数据集格式转换为Libsvm格式作为云平台的数据输入。

2 结果与讨论
2.1 蚕豆虫害近红外反射光谱特征

图1显示了三种实验样本的光谱反射率曲线。 在450 nm为中心的蓝波段和670 nm为中心的红波段中叶绿素强烈吸收辐射能量(> 90%), 所以呈现两个红谷。 在这两个波段之间(540 nm附近)吸收变少, 形成绿峰(10%~20%)。 在可见光波段与近红外波段之间(750 nm附近), 反射率上升(40%~55%), 形成红边。 在750~1 000 nm之间, 绿色植物光谱的反射率维持在40%~55%。

图1 三种类型叶片样本光谱反射率Fig.1 Spectral reflectivity of three types of leaf samples

随着虫害等级的增加, 植物叶片在可见光和近红外波长范围内的反射率依次降低, 不同虫害等级的光谱有不同的特征曲线。 绿光波段540 nm附近的绿峰及红光波段650 nm的红谷是绿色植物叶绿素在可见光范围内的主要响应特征, 不同虫害等级的叶片由于叶绿素含量不同, 导致峰值下降, 绿峰和红谷特征与健康叶片特征相比, 趋向于消失。 近红外波长范围是植物叶片的高反射区域, 叶片受虫害感染越严重反射率越低, 轻度、 重度虫害的叶片与健康的叶片相比, 红边区域逐渐变得平滑, 而且虫害等级越高, 这种现象越明显。 可见光波段和近红外波段能反映大量的植物信息, 是蚕豆虫害检测的敏感波段, 所以选择450~1 000 nm波段的光谱作为研究对象。 此外轻度、 重度虫害的光谱曲线在约960 nm附近存在一个明显的吸收谷, 这与蚕豆象的具体化学成分和含水量有关。

2.2 最优波段选取

通过对于原始光谱进行求导, 获取一阶导数光谱。 使用光谱导数分析光谱特征曲线的反射峰和吸收谷波段的特征。 不同的反射光谱曲线和光谱导数曲线可以反应光谱曲线的敏感波段。

一阶反射光谱求导公式

F'(λ)=[F(λ+Δλ)-F(λ-Δλ)]/2Δλ

其中λ 为反射值, 积分区间设置为5。

图2显现了不同虫害等级一阶导数光谱波形。 在蓝光波段450~515 nm, 健康和少量虫害光谱从红谷向绿峰过渡, 出现极值而在一阶导数中过0点。 绿光波段540~590 nm绿峰反射率依次下降, 红光650~690 nm和近红外725~790 nm少量虫害光谱出现了明显的红边蓝移, 其中以750 nm为中心的近红外区域导数光谱变异最大。 在近红外波段965~980 nm波段, 由于虫害覆盖了叶片表面, 少量和大量虫害的叶片存在一个明显的吸收谷。

图2 三种类型叶片样本一阶导数光谱反射率Fig.2 First derivative of reflectance spectra for three types of leaf samples

通过分析反射光谱和导数光谱, 结合目前已有的作物病虫害特征波段研究[12], 选择500, 540, 690, 760和955 nm五个波段作为最优波段。 这五个波段代表了原始光谱中可见光和近红外波段光谱曲线的特征, 能够有效的表示不同等级蚕豆虫害光谱曲线特征。

2.3 虫害光谱多元分类

在光谱数据集中随机选取70%的数据进行训练, 30%的数据进行预测。 实验中通过不断调整训练参数获取理想的建模效果。 ANN算法中设置551个输入层, 1个隐藏层, 25个隐藏层神经元, 3个输出层, 最大迭代次数120次。 SVM算法设置收敛容差为1.0× 10-4, 最大迭代次数为100次。 分类预测结果如表2所示, 可以看出在全波段分类预测中ANN的准确性是95.05%, SVM预测准确性为90.10%, ANN的准确性高于SVM, 并且ANN算法花费的时间更少。 用最优波段进行分类预测, ANN和SVM的准确性分别为85.16%和80.21%, ANN同样优于SVM。

表1 三种等级光谱曲线特征谱段 Table 1 Characteristic bands of three levels spectral curves
表2 ANN和SVM模型三类分类预测结果 Table 2 Three-class classification prediction results by ANN and SVM model

使用ANN和SVM对全波段和最优波段进行分类, 全波段的分类准确性高于最优波段。 主要原因是全波段包含了光谱所有信息, 特别是一些隐蔽的弱肩峰, 而最优波段包含的信息较少, 尽管最优波段包含了最重要的信息。

2.4 云计算虫害光谱分类性能分析

云计算平台执行时间分别由集群通信时间、 任务调度时间和分类建模时间三个部分组成[13]。 为了评估云平台在虫害光谱大数据集中的计算性能, 将虫害光谱数据集进行扩充, 数据集条目分别为14 101条、 28 202条、 70 505条和141 000条, 数据集容量分别为121.9 MB, 243.8 MB, 609.9 MB和1.22 GB, 云平台运行环境如表3所示。

通过在云平台对不同容量数据集运行ANN和SVM, 并统计运行时间。 从表4可以看出, 使用ANN和SVM在云平台对于虫害光谱分类建模, 当数据集较小的时候, 云计算在数据通信和任务调度上的开销相比于单机执行方式并没有优势。 当数据集为121.9和243.8 MB时, 由于云平台在通讯和任务调度上所消耗的时间, 单个Node和两个Node运行的时间和单机local模式运行的时间相差不大。 但是当数据量逐渐增大, 达到609.9 MB时, 可以看到云计算的运行时间明显提升, 而且Node增加会提升运算速度。 当数据量进一步增大, 到达1.22 GB时, 云平台对于两种分类模型的计算以及Spark算法的迭代计算优化会明显提升计算性能。

表3 实验运行环境 Table 3 Experimental running environment
表4 不同数据集的计算性能 Table 4 Computing performance of different dataset
3 结论

通过使用Hadoop和Spark框架搭建云计算平台, 并且实现ANN和SVM算法对健康、 少量虫害、 大量虫害三种等级的蚕豆叶片近红外反射光谱进行特征分析与分类检测。 三种不同等级虫害光谱在蓝光450~515 nm、 绿光540~590 nm、 红光650~690 nm和近红外725~790和965~980 nm波段存在较为明显的差异, 选择500, 540, 690, 760和955 nm波段作为最优检测波段结合全光谱波段在云平台上进行分类检测。 结果表明基于云平台的ANN算法在云平台下的虫害全光谱波段和最优波段分类预测准确率为95.05%和85.16%, SVM算法的分类预测准确率为90.10%和80.21%。 随着农业领域光谱数据量的日益增加, 相比于目前传统数据挖掘方式, 云计算在光谱数据挖掘中的应用会体现明显的应用优势。

The authors have declared that no competing interests exist.

参考文献
[1] Nuessly G S, Hentz M G, Beiriger R. Florida Entomologist, 2004, 87(2): 204. [本文引用:1]
[2] LU Yan, GU Sheng-lin, LU Yi-ping(卢燕, 顾圣林, 陆益平). China Agricultural Information(中国农业信息), 2014, 12: 64. [本文引用:1]
[3] WANG Xiao-ming, ZHU Zhen-dong, DUAN Can-xing, et al(王晓鸣, 朱振东, 段灿星, ). Identification and Control Technology of Pea and Broad Bean Diseases and Insects(蚕豆豌豆病虫害鉴别与控制技术). Beijing: Chinese Agricultural Science and Technology Press(北京: 中国农业科学技术出版社), 2007. [本文引用:1]
[4] YANG Jin-cheng, YANG Qing-hua, WANG Shu-ming, et al(杨进成, 杨庆华, 王树明, ). Journal of Yunnan Agricultural University(云南农业大学学报), 2003, 18(2): 120. [本文引用:1]
[5] Gebbers R, Adamchuk V. Science, 2010, 327(5967): 828. [本文引用:1]
[6] Sankaran S, Mishra A, MajaJ M. Computers and Electronics in Agriculture, 2011, 2(77): 127. [本文引用:1]
[7] LIN Li-bo, LI Hong-ning, CAO Peng-fei, et al(林立波, 李宏宁, 曹鹏飞, ). Optical Instruments(光学仪器), 2014, 3: 194. [本文引用:1]
[8] HUANG Hua, ZHU Shi-ping, LIU Bi-zhen(黄华, 祝诗平, 刘碧贞). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2014, 45(8): 294. [本文引用:1]
[9] Wu Zebin, Li Yonglong, Plaza A, et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2016, 9(6): 2270. [本文引用:1]
[10] Turton B C H. Measurement Science & Technology, 1992, 3(9): 858. [本文引用:1]
[11] http://spark.apache.org/. [本文引用:1]
[12] ZHANG Jing-cheng, YUAN Lin, WANG Ji-hua, et al(张竟成, 袁琳, 王纪华, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2012, 28(20): 1. [本文引用:1]
[13] Armbrust M, Fox A, Griffith R, et al. Communications of the ACM, 2010, 53(4): 50. [本文引用:1]