可见光谱图像联合区间的黄瓜白粉病分割与检测
白雪冰, 余建树, 傅泽田, 张领先, 李鑫星*
中国农业大学信息与电气工程学院食品质量与安全北京实验室, 北京 100083
*通讯联系人 e-mail: lxxcau@cau.edu.cn

作者简介: 白雪冰, 1991年生, 中国农业大学信息与电气工程学院博士研究生 e-mail: 464161695@qq.com

摘要

黄瓜白粉病是黄瓜病害中爆发频率较高的一种, 传播速度极快, 常常导致产量降低, 无法获得预期的经济效益。 特别是在病害爆发严重的年份, 黄瓜减产量高达20%。 提出了一种基于可见光谱图像联合区间的偏最小二乘回归判别模型(SI-PLSR), 用于黄瓜白粉病无损检测。 采用Canon EOS 800D和Ocean Optics USB2000+光纤光谱仪采集了200个黄瓜白粉病感病叶片的可见光谱图像和反射率曲线。 首先, 采用基于小波降噪和H分割的分水岭分割算法从实时采集的黄瓜白粉病感病叶片可见光谱图像中提取目标叶片; 其次, 通过高斯拟合优化的Otsu算法分割目标叶片的可见光谱图像, 获取白粉病病斑; 然后, 对350~1 100 nm全波段光谱反射率曲线建立偏最小二乘回归模型并计算交叉验证均方根误差RMSECV, 同时将全波段等分为20个子区间, 分别建立偏最小二乘回归模型, 选取RMSECV小于全波段反射率曲线建模RMSECV的子区间组成联合区间; 最后, 将光谱联合区间与白粉病病斑分割结果融合建立SI-PLSR模型。 从实验结果可知, 感病目标叶片的提取成功率高达94.00%, 200幅感病叶片可见光谱图像中成功提取188幅, 其中157幅目标叶片的完整性参数高于95%, 31幅目标叶片完整性参数在90%~95%之间。 188幅目标叶片的病斑分割结果显示, 平均错分率为5.81%, 其中平均False negative为1.55%, 平均False positive为4.26%。 对20个子区间分别建立偏最小二乘回归模型发现, 第5, 6, 7, 11, 12, 13和19子区间的RMSECV值小于全波段光谱反射率曲线建模的RMSECV值, 说明这7个子区间的光谱信息对白粉病的判别有较大的贡献, 这与呈现波峰的470~520, 530~580和700~780 nm波段相对应, 因此选取这7个子区间的光谱反射率曲线建立联合区间。 对联合区间建立SI-PLSR模型, 其主成分数为7, 校正集和验证集的相关系数和标准误差分别是0.975 2, 0.907 3和0.919 5, 1.091。 与全波段PLSR模型相比, SI-PLSR的相关系数更接近于1, 且标准误差更小。 结果表明, 所提出的SI-PLSR模型有效去除了可见光谱数据中冗余信息, 加强了模型的稳定性, 可以实现对黄瓜白粉病的快速无损准确识别, 为黄瓜病害诊断提供了方法和参考依据。

关键词: 可见光谱; 联合区间; 偏最小二乘回归模型; 计算机视觉
中图分类号:O433.4 文献标志码:A
Segmentation and Detection of Cucumber Powdery Mildew Based on Visible Spectrum and Image Processing
BAI Xue-bing, YU Jian-shu, FU Ze-tian, ZHANG Ling-xian, LI Xin-xing*
Beijing Laboratory of Food Quality and Safety, College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
*Corresponding author
Abstract

Powdery mildew, as a kind of cucumber disease with high outbreak frequency, spreads very fast, often leads to yield reduction and can’t achieve the expected economic benefits. Especially in serious years of disease outbreak, the reduction of cucumber in some areas was as high as 20%. This paper proposed a subinterval interval partial least squares regression (SI-PLSR) based on visible spectrum image for cucumber powdery mildew non-destructive detection. We usedCanon EOS 800D and Ocean Optics USB2000+ optical fiber spectrometer to collect visible spectral images and reflectivity curves of 200 cucumber powdery mildew leaves. Firstly, we used wavelet transform and watershed algorithm to extract the target leaves from the real-timevisible spectral images of cucumber powdery mildew leaves. Secondly, The Otsu algorithm optimized by Gauss fitting was used to segment the powdery mildew lesion. Thirdly, we established the PLSR in 350~1 100 nm band and calculated the cross validation root-mean-square error (RMSECV). At the other hand, 350~1 100 nm was divided into 20 sub-intervals, and established the PLSRindependently. The sub-intervals of RMSECV smaller than the full band were selected to form the joint interval. Finally, the SI-PLSR model was established based on powdery mildew lesions images and joint interval. Results show that 188 target leaves were extracted from 200 susceptible leaves visible spectral images successfully of which 157 were more than 95% and 31 were between 90% and 95%. The success rate was 94.00%. The average misclassification rate of powdery mildew was 5.81%. The average false negative was 1.55% and the average false positive was 4.26%. PLSR was established for 20 sub-intervals, and the results showed that the RMSECV values of the 5, 6, 7, 11, 12, 13 and 19 sub-intervals were lower than those of the full-band modeling, indicating that the spectral information of these seven sub-intervals contributed greatly to the identification of powdery mildew, which was relative to the wavebands of 470~520, 530~580 and 700~780 nm showing peaks. Therefore, these 7 sub intervals should be selected to establish the joint interval. The principal component number of SI-PLSR model was 7. RC, RV and RMSEC, RMSEV were 0.975 2, 0.907 3 and 0.919 5, 1.091. Compared with the full band PLSR model, the RC and RV of SI-PLSR was closer to 1, and the RMSEC and RMSEV were smaller. The above results showed that the SI-PLSR model proposed in this paper which effectively removed redundant information in visible spectral data and enhanced the stability of the model can be used to identify cucumber powdery mildew quickly and accurately, providing a method and reference for the diagnosis of cucumber diseases.

Keyword: Visible spectrum; Subinterval interval; SI-PLSR; Computer vision
引 言

黄瓜作为温室蔬菜主要种植品种之一, 常年受到病害的危害导致产量大幅度降低, 农民无法获得预期的经济效益[1, 2]。 白粉病是黄瓜病害中爆发频率较高的一种, 在一般年份会造成减产10%, 在病害爆发严重的年份会造成减产高达20%[3]。 传统的病害诊断方法主要包括理化检测和感官诊断。 理化检测的诊断结果较为准确, 但是需要在实验室环境下进行, 诊断过程繁琐且具有破坏性[4, 5]。 感官诊断依靠植保专家的专业知识, 由于专家人数和精力的限制, 往往无法兼顾大多数地区的病情诊断[6, 7]。 利用作物感病叶片上病斑与正常叶片在可见光范围的光谱和图像差异来进行病害信息的快速获取及病害的无损检测, 成为农业病害诊断的研究热点。

Bai[8]利用病害可见光谱图像的空间信息建立二维向量, 改进了FCM算法, 成功提取了黄瓜霜霉病病斑信息。 Ma[9]提出了一种利用超红特征(ExR)、 H分量和b* 分量三种颜色特征融合的黄瓜病斑分割方法, 克服了光照条件不均匀对病斑分割的影响。 Sui[10]采集了健康叶片和黄瓜霜霉病感病叶片的光谱信息, 对象建立了基于黄瓜霜霉病光谱特征指标的预测模型。 Li[11]通过求解表征光谱的线性最优化方程, 实现黄瓜病害分布和严重性的定量检测。

计算机视觉能够直观的观察病斑大小和形态, 但是缺乏区分类病斑的能力。 光谱技术能定性的分析病害类型, 但是缺乏对病斑形态的直观性描述。 将二者结合可以兼顾定性分析和直观性的优势。 因此, 通过高斯拟合优化Otsu, 提取病斑可见光谱图像; 并将反射率曲线等分为20个子区间, 选取RMSECV小于全波段建模RMSECV的子区间组成联合区间; 建立基于可见光谱图像联合区间的偏最小二乘回归判别模型(SI-PLSR), 用于黄瓜白粉病无损检测。

1 实验部分
1.1 试验数据采集

黄瓜白粉病植株是由天津市农业科学院信息研究所和天津市植物保护研究所等合作单位协助培植。 试验数据采集于天津市农科院植保所农业创新基地5号黄瓜白粉病试验温室, 采集时间为2017年6月9日8:00— 17:00, 共计200个感病叶片。 图像数据获取设备为CanonEOS 800D, 采用自动对焦, 原始图片像素尺寸为3 984× 2 988, 将采集的感病叶片图像统一编辑为像素800× 600, 以JPG格式储存; 光谱数据采集设备为Ocean Optics USB2000+光纤光谱仪, 光谱范围200~1 100 nm, 分辨率为0.3 nm, 光谱像素值为2 048。 参数设置为: 积分时间: 6 000 μ s, 平均次数为100次, 平滑度为7。

1.2 病斑分割

在温室实时采集的可见光谱图像一般包含较为复杂的背景以及环境因素带来的噪声, 对病斑的提取造成较大的影响。 故先基于小波变换和HSV颜色模型中H分量对光照变化不敏感的特点, 采用分水岭算法提取黄瓜白粉病目标叶片的可见光谱图像。 后采用基于高斯拟合优化的Otsu迭代算法, 获取最佳阈值, 实现病斑分割。 以初次Otsu算法的阈值th0为界将直方图分成两部分C0C1并计算均值(μ 0μ 1)和方差( σ02σ12), 将它们拟合成两个高斯分布N0(μ 0, σ02)和N1(μ 1, σ12)。 将N0N1中方差较小的高斯分布记为NBegin(μ Begin, σBegin2), 方差较大的记为NEnd(μ End, σEnd2)。 以μ Begin为起点, 向μ End方向遍历, 当概率密度值p(xi|Begin)≤ p(xi|〗End)时, 本次迭代得到新的最佳阈值为thi+1=xi。 直至|thi+1-thi|< Δ 迭代结束, 其中Δ 为可接受的误差。 具体流程如图1所示。

图1 分割方法流程图Fig.1 Flow chart of the segmentation method

1.3 光谱数据分析

可见光谱检测的优势在于较短时间获取大量数据信息, 但是其中也包含了噪声和背景等, 这些噪声信号无法通过预处理消除[12, 13]。 将全部信号都用于建模必然降低识别的效率, 同时噪声信号会影响模型的精度和鲁棒性。 研究表明, 通过筛选剔除原始自变量中不相关的信号, 从而实现减少输入变量, 可以简化模型, 有效提高检测的效率和鲁棒性。 应用逐步回归法, 筛选原始自变量, 建立了基于最佳变量联合区间与病斑图像融合的偏最小二乘回归模型(简称SI-PLSR)。

偏最小二乘回归模型(简称PLSR)的主成分数选取不超过15。 对光谱全波段按主成分数从1到15分别建立回归模型, 并获取交叉验证均方根误差RMSECV, 如式(1)所示。 将整个光谱波段等间隔划分为20个子区间, 对每个子区间分别建立PLSR, 筛选出RMSECV值小于全波段RMSECV值的子区间, 组合成联合区间, 并建立SI-PLSR。

RMSECV=1N-1i=1N(yi-zi)2(1)

式中yi为样品理化指标的标准测量值, zi为模型预测值, N为样品总数。

1.4 模型分析

采用相关系数法和标准误差法分析联合区间回归模型的有效性和鲁棒性。 相关系数R反映了感病叶片反射光谱测量值和模型预测值的相关度, |R|越近似于1, 测量值和预测值越相关, 计算式(2)

R=i=1N(zi-z̅)(yi-y̅)i=1N(zi-z̅)2i=1N(yi-y̅)2(2)

式中yi为样品理化指标的标准测量值, y̅为标准测量平均值, zi为模型预测值, z̅为模型预测平均值, N为样品总数。

在相关系数R相近时, 标准差能够有效反映出模型的鲁棒性。 选取校正标准误差RMSEC和验证标准差RMSEV对联合区间的回归模型进行评价, RMSEC和RMSEV的值越小, 说明模型越稳定[14]。 RMSEC和RMSEV的计算方法如下

RMSEC=1m-k-1i=1m(yi-zi)2(3)RMSEV=1n-1i=1n(yi-zi)2(4)

式中yi为样品理化指标的标准测量值, zi为模型预测值, m为校正集, n为验证集, k为主成分数, N为样品总数。

2 结果与讨论
2.1 目标叶片完整性分析

引用完整性参数Solidity作为目标叶片提取结果的评价指标[15], 如式(5)所示。 式中, Extrected Area表示提取的面积, Convex Area表示目标叶片外接最小多边形的面积。

Solidity=ExtrectedArea×100%ConvexArea(5)

根据叶片完整性参数, 将目标叶片提取结果分为三类: Perfect为Solidity> 95%, 表示提取结果与真实叶片高度一致; Good为90%≤ Solidity≤ 95%, 表示提取结果存在缺损, 但可用于病斑分割; Fail为Solidity< 90%, 表示提取结果与真实叶片存在较大的形状或面积差异, 提取失败。 基于上述原则, 对129幅感病叶片图像的目标叶片提取结果进行评价, 如表1所示。

表1 目标叶片提取结果 Table 1 Target leaf extraction results

根据表1可知, 在200幅感病叶片的可见光谱图像中, 成功提取目标叶片共计188幅, 成功率为94.00%, 其中157幅提取结果与真实叶片高度一致, 31幅提取结果存在缺损, 但是对病斑分割影响较小, 可用于后续试验。 为更直观的观测实验结果, 随机选取了6幅感病叶片的可见光谱图像的目标叶片提取结果, 如图2所示。

图2 目标叶片提取
(a): 感病叶片可见光谱图像; (b): 小波降噪; (c): 目标叶片可见光谱图像
Fig.2 Target leaf extraction
(a): Visible spectrum images of susceptible leaves; (b): Images denoised by wavelet transform; (c): Visible spectrum images of target leaf

2.2 病斑分割结果评价

分别采用Otsu, 3D Otsu, FCM以及本算法分割目标感病叶片的可见光谱图像, 并引用Mizushima[16]提出的方法, 对比分析四种算法所得结果的False negative和False positive, 评价各算法的准确性。 False negative表示病斑误分割为背景的比例; False positive表示背景被误分割为病斑的比例。 以上文随机选取的6幅感病叶片可见光谱图像为例进行定性和定量分析, 如图3和表2所示。

图3 白粉病分割结果Fig.3 Segmentation results of powdery mildew

表2 4种算法的错分率(%) Table 2 Segmentation errors for four algorithms (%)

从图3和表2可知, Otsu的错分率在41.90%~69.22%之间, 实验结果中包含大量正常叶片部分和背景, 无法从中辨认病斑的位置和形状, 说明Otsu作为一种简单的阈值分割算法, 只适合分割较为简单的图片, 并不适用于实时采集的感病叶片可见光谱图像。 3D Otsu处理前5幅图像的错分率在17.91%~20.00%之间, 但是处理第6幅图像的错分率为43.55%, 从实验结果中也能够观察到病斑的位置和形状, 但是该算法无法区分背景中与病斑类似的物体, 造成第6幅图像错分率较大的原因。 3D Otsu引入了像素点的邻域均值和邻域中值, 有效矫正了奇异像素点, 但是实验结果并不理想。 FCM处理前5幅图像的错分率在16.11%~18.07%之间, 对第6幅图像的错分率为42.91%, 因为FCM将病斑与病斑类似的物体聚为一类, 导致错分率较大。 FCM再处理上述6幅图像时迭代次数都达到最高值, 用时大于13 s, 运算效率较低。 本算法的错分率在4.13%~6.02%之间, 准确率较高。 从实验结果中可知, 本算法提取目标叶片有效避免了背景中与病斑类似的物体对算法的影响; 高斯拟合优化了阈值, 得到良好的分割结果, 为下一步白粉病检测提供了可靠的数据。

在成功提取目标叶片的188幅感病叶片可见光谱图像的实验中, 平均False negative为1.55%, 平均False positive为4.26%, 平均错分率为5.81%。 平均运行时间为5.56 s, 其中高斯拟合优化的迭代平均次数为20次。 实验结果说明本算法有较高的鲁棒性和效率。

2.3 主成分数选择

利用光谱仪分别采集白粉病叶片和健康叶片的反射光谱曲线, 如图4所示。

图4 白粉病反射光谱Fig.4 Reflectance spectra curve of powdery mildew

从图4可知, 白粉病叶片与健康叶片的光谱曲线变化趋势相同, 在470~520, 530~580和700~780 nm区间出现波峰, 780~900 nm区间内的感病叶片与健康叶片光谱曲线变化平缓且出现重叠部分。 对光谱全波段按主成分数由1~15分别建立PLSR, 并计算各主成分数对应的RMSECV, 如图5所示。

图5 主成分数变化图Fig.5 Change of principal component

从图5可知, 当主成分数为11时, 对应的RMSECV值最小, 为0.95, 所以基于可见光谱波段的黄瓜白粉病PLSR的最佳主成分数为11。 将白粉病光谱波段等间隔划分为20个子区间, 分别对每个子区间建立PLSR, 各子区间的分布状况和RMSECV如图6所示。

图6 平均光谱曲线及子区间RMSECVFig.6 Mean spectral curve and RMSECV value of Subinterval

图6中, 红色曲线为黄瓜白粉病叶片的平均反射率光谱曲线, 蓝色曲线为正常叶片的平均反射率光谱曲线, 虚线为整个可见光谱参与建模时最佳主成分数对应的RMSECV值。 从图中可知, 第5, 6, 7, 11, 12, 13和19子区间的RMSECV值小于全波段建模的RMSECV值, 说明这7个子区间的光谱信息对白粉病的判别有较大的贡献, 这与呈现波峰的470~520, 530~580和700~780 nm波段相对应。 其他区间的RMSECV值都大于全波段建模的RMSECV值, 原因在于单个区间包含信息有限, 无法反应白粉病光谱反射特征, 造成判别模型不稳定。 因此, 选用第5, 6, 7, 11, 12, 13和19子区间作为联合区间, 结合病斑图像, 从重建SI-PLSR。

2.4 识别结果分析

将成功提取出病斑的188幅感病叶片按3:2的比例分为校正集和验证集, 校正集包含113个叶片, 验证集包含75个叶片。 基于350~1 100 nm建立全波段PLSR, 并结合第5, 6, 7, 11, 12, 13和19子区间及病斑图像分割结果建立SI-PLSR, 模型结果如表3所示。

表3 判别模型结果分析 Table 3 Analysis of prediction models

表3可知, SI-PLSR的主成分数为7, 小于全波段PLSR的主成分数, 说明SI-PLSR排除了冗余的光谱信息, 精简了判别模型。 SI-PLSR对校正集和验证集的相关系数和标准误差分别是0.975 2, 0.907 3和0.919 5, 1.091。 与全波段PLSR相比, SI-PLSR的相关系数更接近于1, 且标准误差更小, 说明SI-PLSR输入了更多有效的光谱信息, 同时提高了模型的鲁棒性。 SI-PLSR的误判率为2.67%, 对75个验证集判别中, 仅误判2个, 准确度明显高于全波段PLSR。

3 结 论

以黄瓜白粉病350~1 100 nm波段的可见光谱图像为依据, 基于可见光谱图像联合区间建立SI-PLSR判别模型, 实现了黄瓜白粉病快速无损检测。 结果显示:

(1)基于小波降噪和H分量分割的分水岭算法提取感病目标叶片的成功率高达94.00%。 在对188幅目标叶片可见光谱图像的分割结果中显示, 平均错分率为5.81%, 其中平均False negative为1.55%, 平均False positive为4.26%。 说明本算法对实时采集的白粉病感病叶片图像分割具有较高的准确性。

(2)通过对比分析子区间与全波段建模的RMSECV值, 第5, 6, 7, 11, 12, 13和19子区间的RMSECV值小于全波段建模的RMSECV值。 因此, 与之相对应的470~520, 530~580和700~780 nm波段的光谱信息对白粉病的判别有较大的贡献。

(3)选取对白粉病的判别有较大的贡献的子区间光谱信息组成联合区间建立的SI-PLSR白粉病判别模型主成分数减少为7, 同时判别结果的相关系数和标准误差均优于全波段PLSR, 说明本模型具有更高的效率和鲁棒性。

参考文献
[1] MA Jun-cheng, WEN Hao-jie, ZHANG Ling-xian, et al(马浚诚, 温皓杰, 张领先, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2017, 48(2): 195. [本文引用:1]
[2] Lebeda A. Journal of Phytopathology, 2010, 108(1): 71. [本文引用:1]
[3] ZHANG Peng, ZHU Yu-qiang, WANG Li-li, et al(张鹏, 朱育强, 王丽莉, ). Chinese Agricultural Science Bulletin(中国农学通报), 2017, 33(21): 134. [本文引用:1]
[4] Vatchev T, Maneva S. Crop Protection, 2012, 42(4): 16. [本文引用:1]
[5] Joe M M, Islam M R, Karthikeyan B, et al. Crop Protection, 2012, 42: 141. [本文引用:1]
[6] HUANG Shuang-ping, QI Long, MA Xu, et al(黄双萍, 齐龙, 马旭, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(1): 212. [本文引用:1]
[7] Kuska M T, Mahlein A K. European Journal of Plant Pathology, 2018. 152(4): 1. [本文引用:1]
[8] Bai X, Li X, Fu Z, et al. Computers & Electronics in Agriculture, 2017, 136: 157. [本文引用:1]
[9] Ma J, Du K, Zhang L, et al. Computers & Electronics in Agriculture, 2017, 142(142): 110. [本文引用:1]
[10] Sui Y Y, Wang Q Y, Yu H Y. Spectroscopy & Spectral Analysis, 2016, 36(6): 1779. [本文引用:1]
[11] Li H N, Feng J, Yang W P, et al. Spectrum-Based Method for Quantitatively Detecting Diseases on Cucumber Leaf. 4th International Congress on Image and Signal Processing. IEEE, 2011, 4: 1971. [本文引用:1]
[12] West A G, Goldsmith G R, Matimati I, et al. Rapid Communications in Mass Spectrometry, 2011, 25(16): 2268. [本文引用:1]
[13] LIU Yan-de, XIAO Huai-chun, SUN Xu-dong, et al(刘燕德, 肖怀春, 孙旭东, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(2): 528. [本文引用:1]
[14] ZHAO Juan, PENG Yan-kun(赵娟, 彭彦昆). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(7): 279. [本文引用:1]
[15] TANG Xiao-dong, LIU Man-hua, ZHAO Hui(汤晓东, 刘满华, 赵辉, ). Journal of Electronic Measurement and Instrument(电子测量与仪器学报), 2010, 24(4): 385. [本文引用:1]
[16] Mizushima A, Lu R. Computers & Electronics in Agriculture, 2013, 94(94): 29. [本文引用:1]