基于可见光光谱和改进YOLOv5的自然场景下黄瓜病害检测方法
李淑菲1, 李凯雨1, 乔岩2, 张领先1,*
1.中国农业大学信息与电气工程学院, 北京 100083
2.北京市植物保护站, 北京 100029
*通讯作者 e-mail: zhanglx@cau.edu.cn

作者简介: 李淑菲, 女, 1997年生, 中国农业大学信息与电气工程学院硕士研究生 e-mail: lishufei0505@163.com

摘要

自然场景下获取的黄瓜病害图像存在光照、 土壤等噪声, 严重影响黄瓜病害识别精度, 现有检测模型占用内存较大, 难以实现黄瓜病害的实时检测。 以自然环境中黄瓜霜霉病、 白粉病和炭疽病3种病害的可见光光谱图像为研究对象, 提出一种基于可见光谱和改进YOLOv5目标检测网络的黄瓜病害识别模型, 探索自然环境中黄瓜病害的准确实时检测并降低检测模型存储成本的方法。 为平衡检测精度和模型所需存储空间, 以轻量级网络结构YOLOv5s为基线模型, 引入SE注意力机制, 提取特征维度信息, 降低复杂背景对检测结果的影响, 提高模型的检测精度; 引入深度可分离卷积替换基线模型中的标准卷积, 减少模型参数带来的计算负担, 提高检测速度。 检测模型接收任意像素的可见光光谱图像并调整成640×640像素作为检测网络输入, 输出表示黄瓜病害发生区域及病害类别, 使用COCO数据集上预训练权重初始化网络权重。 实验结果表明, 改进后的YOLOv5s-SE-DW模型对黄瓜霜霉病、 白粉病和炭疽病的检测精度分别达到了78.0%, 80.9%和83.6%, mAP高达80.9%, 模型存储空间仅为9.45 MB, 浮点运算次数仅为11.8 G, 相比基线模型mAP提高了2.4%, 运算次数减少了4.6 G, 模型所需的存储空间降低了4.95 MB, 在减小模型所需内存的同时提升病害检测准确率; 进一步与经典两阶段目标检测网络Faster-RCNN和单阶段目标检测网络YOLOv3, YOLOv3-tiny, YOLOv3-SPP以及YOLOv4进行对比, 提出的YOLOv5s-SE-DW模型相比对比模型中表现最优的YOLOv4模型mAP提高了3.8%, 检测时间和存储空间大幅度降低。 综合结果表明, 所提出的YOLOv5s-SE-DW网络对于自然场景中的黄瓜病害检测具有良好的精度和实时性, 能够满足黄瓜实际种植环境中病害检测的需求, 为实际应用场景下黄瓜病害自动检测的实现提供参考。

关键词: 可见光光谱; 黄瓜; 目标检测; YOLOv5; 病害识别
中图分类号:TP391.4 文献标志码:A
Cucumber Disease Detection Method Based on Visible Light Spectrum and Improved YOLOv5 in Natural Scenes
LI Shu-fei1, LI Kai-yu1, QIAO Yan2, ZHANG Ling-xian1,*
1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
2. Beijing Plant Protection Station, Beijing 100029, China
*Corresponding author
Abstract

The cucumber disease images acquired in natural scenes have noise, such as light and soil, which seriously affects the accuracy of cucumber disease recognition. The existing detection models occupy a large memory, making it difficult to achieve real-time detection of cucumber diseases.The visible spectral images of three diseases of cucumber, namely downy mildew, powdery mildew and anthracnose, in the natural environment are used as the research object. In this paper, a cucumber disease identification model based on the visible spectrum and an improved YOLOv5 object detection network is proposed to explore the accurate real-time detection of cucumber diseases in the natural environment and to reduce the storage cost of the detection model. The lightweight network structure YOLOv5s is used as the baseline model. The SE attention mechanism is introduced to extract the feature dimensional information to reduce the influence of complex background on the detection results and improve the detection accuracy of the model. The depth separable convolution is introduced to replace the standard convolution in the baseline model to reduce the computational burden caused by the model parameters and improve the detection speed. The network receives visible spectral images of arbitrary pixels and adjusts them to 640×640 pixels as input, outputs the cucumber disease occurrence region and disease category, initializes the detection method and trains the detection network using pre-trained weights on the COCO dataset.The experimental results show that the improved YOLOv5s-SE-DW model achieves 78.0%, 80.9%, and 83.6% detection accuracy for cucumber downy mildew, powdery mildew, and anthracnose, respectively, with mAP as high as 80.9%. The storage space of the model is only 9.45 MB, and the number of floating point operations is only 11.8 G. Compared with the baseline model, the mAP is improved by 2.4%, 4.6 G reduces the number of floating point operations, and the storage space required for the model is reduced by 4.95 MB. The improved model improves disease detection accuracy while reducing the storage memory. Further comparison with the classical two-stage target detection network Faster-RCNN and single-stage target detection networks YOLOv3, YOLOv3-tiny, YOLOv3-SPP, and YOLOv4 shows that the proposed YOLOv5s-SE-DW model improves the mAP by 3.8% compared with the best-performing YOLOv4 model among the comparison models, and the detection time and storage space are significantly reduced. The detection time and storage space are substantially reduced. The comprehensive results show that the proposed YOLOv5s-SE-DW network has good accuracy and real-time performance for cucumber disease detection in natural scenarios, which can meet the demand for disease detection in actual cucumber growing environments and provide a reference for cucumber disease detection in practical application scenarios.

Keyword: Visible spectrum; Cucumber; Target detection; YOLOv5; Disease identification
引言

随着计算机视觉技术的发展, 利用黄瓜叶片的染病区域与健康区域表征信息差异进行黄瓜病害识别, 减少人工诊断的主观性和对专家的依赖性, 已经成当前研究的热点[1]。 由于自然环境中黄瓜病害的复杂性以及光照、 土壤等噪声影响, 如何实现自然环境中黄瓜病害的实时准确识别是当前亟待解决的关键问题。

近年来, 部分专家学者已经对基于光谱技术的蔬菜叶部病害识别展开了研究。 有研究提出基于可见光光谱的颜色特征CVCF检测方法, 结合SVM分类器实现温室黄瓜霜霉病图像分割。 秦立峰等[2]提出融合病害差异信息改进的竞争性自适应重加权算法和连续投影算法相结合的特征波段提取方法, 建立黄瓜霜霉病早期检测模型, 对染病1 d到发病12 d的叶片样本均取得较高的识别准确率。 上述基于机器学习的识别方法需要人工手动提取特征, 识别流程复杂, 模型的鲁棒性和实时性不太理想。 Yolo系列目标检测算法以其良好的检测速度和检测精度广泛应用于蔬菜病害识别领域。 Liu[3]等使用Mobilenetv2-YOLOv3模型对番茄叶斑病进行检测, 实现了番茄灰斑病检测的准确性和实时性之间的良好平衡。 Wang[4]等针对自然条件下番茄病虫害图像的复杂背景, 使用空洞卷积代替YOLOv3中的卷积层, 增加感受来提升对小目标的检测能力, 使得自然场景中番茄病害的检测精度得到了提升。 上述研究对YOLOv3算法的改进在一定程度上提高了病害检测能力, 但在模型存储空间、 检测速度和检测精度方面仍有很大的提升空间。 YOLOv5是在COCO数据集上训练的一类目标检测模型, 具有非常快的检测速度和非常轻量的模型体积, 在多种场景中取得了良好效果。 YOLOv5网络在输入端使用Mosaic数据增强、 矩形推理、 自适应锚框计算等操作减少冗余运算并提高对小目标的检测能力, 以CSPDarknet53为特征提取网络, 处理输出部分采用FPN和PANet结构, 将语义信息和定位信息进行融合, 提高对不同尺度目标的识别和定位能力。

本研究以自然环境中的黄瓜为研究对象, 通过对YOLOv5s网络进行改进构建黄瓜病害检测模型, 探索自然环境中黄瓜病害的准确实时检测并降低检测模型存储成本的方法。 引入注意力机制来减少复杂的背景信息对检测结果的影响, 提高检测准确率; 替换标准卷积结构以减小模型复杂性, 使模型更加轻量化。 经试验验证, 改进后的轻量级目标检测网络训练生成的模型在准确率、 检测速度以及模型所需存储空间方面都有优异表现, 便于部署到移动终端设备, 为自然环境中黄瓜病害的智能诊断提供新思路。

1 实验部分
1.1 数据采集

为提高模型的泛化能力, 试验数据由两部分组成:一部分来源于网络, 包含112张图片; 另一部分试验数据采集自北京市植保站的温室大棚, 采集于2020年12月1日10:00— 15:00(晴, 光照强烈), 使用手机相机进行自然场景下黄瓜病害可见光光谱图像采集, 采集图像像素为3 456× 4 608。 采用自动曝光模式, 随机变换角度和高度进行拍摄, 保存为JPG格式。 采集自然场景下黄瓜霜霉病、 黄瓜白粉病和黄瓜炭疽病3种病害图像共615张。 数据集中病害图像样本如图1所示。

图1 黄瓜病害图像样本
(a):黄瓜霜霉病; (b):黄瓜炭疽病; (c):黄瓜白粉病
Fig.1 Cucumber disease image samples
(a): Cucumber mildew; (b): Cucumber anthracnose; (c): Cucumber powdery mildew

1.2 数据预处理

使用开源的图像标注工具LabelImg以病斑为单位进行标注。 标注文件保存为PASCAL Visual Object Class(VOC)数据集的.xml数据格式。 标注后的数据集中黄瓜病害数据样本及病斑数量如表1所示。

表1 数据集中图像及病斑样本数量 Table 1 Number of images and spot samples in the dataset

数据集中包含3种类别黄瓜病害图像725张, 病斑样本8 051个, 训练集和测试集划分比例为8:2。

1.3 基于YOLOv5s-SE-DW的黄瓜病害检测模型

1.3.1 基于YOLOv5s-SE-DW的黄瓜病害检测流程

基于YOLOv5s-SE-DW的自然场景中黄瓜病害检测流程图如图2所示, 共包含数据准备、 基于YOLOv5s-SE-DW的黄瓜病害检测模型构建、 黄瓜病害检测三部分。

图2 黄瓜病害检测流程图Fig.2 Framework of Cucumber disease detection

1.3.2 基于YOLOv5s-SE-DW的黄瓜病害检测网络结构优化

为了实现自然场景下基于可见光图像的黄瓜病害检测, 本研究基于YOLOv5s网络结构, 构建黄瓜病害检测网络YOLOv5s-SE-DW。 YOLOv5s是YOLOv5的轻量级结构, 该模型占用较小的内存空间, 有良好的检测精度和速度。 YOLOv5s网络结是可分为主干网络(Backbone)和头部(Head)两部分。 主干网络由Focus, Conv, C3和SPP模块叠加构成, YOLOv5s中根据是否使用残差结构的瓶颈层(Bottleneck)设计了两种不同的C3模块, YOLOv5s将检测模块(detect)和颈部(neck)合在一起组成head部分, 在head中使用PAN将顶层强语义特征和底层强定位特征进行融合, 提高目标检测网络对不同尺度目标的识别和定位能力。 最后将融合后的特征传入Detect模块进行处理, 得到目标的分类信息和位置信息。 为了减少模型的计算负担以及所需存储空间, 本研究将YOLOv5s中的标准卷积替换成深度可分离卷积[5], 并在每个尺度的特征图上增加SE[6]注意力机制, 显示地建立通道间的关系, 减少特征维度信息对黄瓜病害检测结果产生的影响。 本工作所提出的YOLOv5s-SE-DW黄瓜病害检测网络结构图如图3所示。

图3 YOLOv5s-SE-DW黄瓜病害检测网络结构图Fig.3 Structure of YOLOv5s-SE-DW cucumber disease detection network

1.4 基于YOLOv5s-SE-DW的黄瓜病害检测模型训练与评价指标

1.4.1 模型训练平台

所构建的黄瓜病害检测模型, 使用Pytorch1.7.1深度学习框架, 硬件平台为Intel Xeon Bronze 3204@1.90GHz 6核处理器, 16 GB内存, Nvidia GeForce GTX 1060 6GB显卡, Win10操作系统。

1.4.2 模型训练参数

网络模型训练环节, 在充分利用硬件资源的情况下选择最优参数, 使用迁移学习思想, 将COCO数据集上预训练的模型权重迁移到自建的黄瓜病害数据集上, 设置每批样本数量为16, 共进行300次迭代, 采用SGD+momentum优化器, momentum值为0.937。 初始学习率为0.001, 采用余弦退火调整学习率, 为防止较大学习率影响模型的训练过程, 选择Warmup预热学习率的方式使开始训练的几个epoche学习率较小, 本研究中设置warmup_epochs=3.0。 选择HSV色域变换并结合mosaic数据增强的方式进行随机在线数据增强, HSV三通道的值分别为0.015, 0.7和0.4。 采用非极大值抑制(NonMaximum Suppression, NMS)方式消除冗余边界框, NMS的阈值为0.5。

1.4.3 模型评价指标

根据自然环境中黄瓜病害检测的需求和特点, 选择均值平均精度mAP、 模型所需要的存储空间和浮点运算次数FLOPs作为黄瓜病害检测模型的评价指标。 浮点运算次数可以反映模型执行运算所需要的时间, 浮点运算次数越低, 模型运行所需的计算资源和时间越少。

2 结果与讨论

通过实验对比YOLOv5的4种不同尺寸的网络结构, 选择基线模型, 再通过两组对比实验证明YOLOv5-SE-DW目标检测网络的有效性。

2.1 YOLOv5检测模型选择

YOLOv5网络通过设置不同的深度和宽度, 共包含4种网络结构。 使用相同的数据集及配置参数分别对4种网络结构进行实验, 检测结果如表2所示。

表2 YOLOv5的4种结构检测结果 Table 2 Detection results of YOMOv5 four structure

随着网络深度和宽度的增加, 模型的存储空间成倍数增长, 模型的浮点运算次数也在随之增加。 YOLOv5s相比mAP值最高的YOLOv5l, 以损失2.3% mAP值为代价, 模型存储空间减小6.5倍, 浮点运算次数减少92.0 G。

2.2 消融实验

根据2.1节中的实验结果, 在YOLOv5s的基础上引入SE注意力并使用DW卷积代替标准卷积构建YOLOv5s-SE-DW检测模型。 消融实验检测结果如表3所示。 引入DW卷积可以有效降低模型的浮点运算次数以及所需的存储空间, 进而提高提高检测速度。 YOLOv5s-SE相对基线网络mAP值提高了2.8%, 存储空间减少了0.6 MB, GFLOPs几乎没有增加。 YOLOv5s-SE-DW综合表现最佳, 相对于YOLOv5s-SE模型mAP下降0.4%, 存储空间减少4.35 MB, 浮点运算次数也减少4.6 G。 实验结果说明同时引入SE注意力机制和DW卷积可以有效提高模型性能, 提高检测准确率并降低模型存储空间。

表3 消融实验结果 Table 3 Results of ablation experiments

为进一步展示模型检测效果, 在测试集上对基线模型YOLOv5s和本工作构建的YOLOv5s-SE-DW模型进行预测, 选取自然场景种3种黄瓜病害样本的检测结果如图4所示。

图4 部分测试集检测结果
(a): 黄瓜霜霉病; (b): 黄瓜炭疽病; (c): 黄瓜白粉病
Fig.4 Partial test set detection results
(a): Cucumber mildew; (b): Cucumber anthracnose; (c): Cucumber powdery mildew

图4(a, b, c)分别显示YOLOv5s在黄瓜白粉病检测中存在部分误检, 而改进后的YOLOv5s-SE-DW漏检率降低, 对于发病程度轻微以及面积较小的病斑的检测效果较好, 并且对背景中病斑的检测性能也显著提升。

2.3 与经典目标检测模型比较分析

为验证本文提出的YOLOv5s-SE-DW检测网络对自然场景下黄瓜病害识别的性能与优势, 使用经典的两阶段目标检测模型Faster-RCNN, 单阶段检测模型YOLOv3及其轻量级结构、 YOLOv4采用相同数据集与训练参数进行模型训练, 并在测试集进行测试, 检测识别结果如表4所示。 表4显示上述检测方法都可用于自然环境中黄瓜病害的识别, 但本工作提出的YOLOv5s-SE-DW在运算次数和检测准确率方面都有不同程度的提高, 模型存储空间仅为FasterRCNN和YOLOv3的十分之一, YOLOv4的二十分之一。 对比试验结果分析表明, 本工作提出的YOLOv5s-SE-DW能够有效检测自然环境下黄瓜病害, 并且检测准确率、 检测速度以及模型的存储空间方面都具有较显著的优势。

表4 不同方法检测结果 Table 4 Results of different methods
3 结论

(1)提出了一种基于可见光光谱和改进YOLOv5s的黄瓜病害检测方法。 实验结果表明, 改进后的轻量级YOLOv5s-SE-DW模型对黄瓜3种病害检测的mAP值达到80.9%, 为识别自然环境中的黄瓜病害提供了良好的技术支持。

(2)YOLOv5-SE-DW模型占用内存为9.45 MB, 且浮点运算次数GFLOPs仅为11.8 G, 满足应用场景中实时检测的需要。

(3)与经典目标检测模型Faster-RCNN, YOLOv3和YOLO4进行对比试验, YOLOv5-SE-DW的mAP值比Faster-RCNN, YOLOv3和YOLO4分别高出了7.7%, 6.0%和3.8%, 模型的存储空间分别减小了10.4倍, 11.3倍和14.8倍, 浮点运算次数大幅度下降, 可以节省运算处理时间。

(4)所提出的YOLOv5s-SE-DW检测网络对于自然场景下黄瓜病害识别具有显著优势, 为自然场景中黄瓜病害自动高效识别提供了新思路。

参考文献
[1] Liu Chen, Zhu Huaji, Guo Wang, et al. Computers and Electronics in Agriculture, 2021, 189: 106378. [本文引用:1]
[2] QIN Li-feng, ZHANG Xi, ZHANG Xiao-qian (秦立峰, 张熹, 张晓茜). Transactions of The Chinese Society of Agricultural Machinery(农业机械学报), 2020, 51(11): 219. [本文引用:1]
[3] Liu Jun, Wang Xuewei. Plant Methods, 2020, 16(1): 83. [本文引用:1]
[4] Wang Xuewei, Liu Jun, Zhu Xiaoning. Plant Methods, 2021, 17(1): 43. [本文引用:1]
[5] Sifre Laurent, Mallat Stephane. Computer Science, 2014, 3559: 501. [本文引用:1]
[6] Hu Jie, Shen Li, Albanie Samuel, et al. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011. [本文引用:1]