基于荧光光谱信息的绿色植物探测研究
王爱臣1,4, 高斌洁1, 赵春江1,2, 徐亦飞3,4, 王苗林1, 闫树岗1, 李林1, 魏新华1,*
1. 江苏大学农业工程学院, 江苏 镇江 212013
2. 国家农业信息化工程技术研究中心, 北京 100097
3. 西安交通大学软件学院, 陕西 西安 710049
4. 南昌慧亦臣科技有限公司, 江西 南昌 330009
*通讯作者 e-mail: wei_xh@126.com

作者简介: 王爱臣, 1989年生, 江苏大学农业工程学院副研究员 e-mail: acwang@ujs.edu.cn

摘要

针对农作物病、 虫、 草害化学防治时对靶变量施药以减少农药使用量、 提高农药利用率的需求, 本文研究了基于荧光光谱信息和主动光源方法在不同环境下探测绿色植物的方法。 通过白色、 蓝色和红色LED主动光源照射样本, 采集了白天室内自然光照、 白天太阳直射、 白天无太阳直射和夜晚黑暗环境四种场景下的绿色植物和非绿色植物样本光谱。 首先基于多波段光谱信息建立簇类独立软模式法(SIMCA)和线性判别分析(LDA)模型, 验证利用主动光源照射下绿色植物荧光光谱探测绿色植物的可行性。 试验结果表明, 白色、 蓝色和红色三种LED光源照射下SIMCA模型对预测集样本的识别率均达到92%以上, 拒绝率均为100%; 三种光源照射下LDA分类模型均能准确识别出预测集所有样本, 检测效果优于SIMCA模型, 且三种LED光源的效果无显著差异。 为开发低成本绿色植物探测传感器, 建立了绿色植物与非绿色植物样本分类目标函数, 通过粒子群算法(PSO)优选单一连续光谱波段原始光谱并建立了绿色植物和非绿色植物样本的阈值分类模型。 结果表明, 白色、 蓝色和红色LED光源照射下优选的原始光谱波段分别为731.1, 730.76和731.1 nm, 对应阈值分类模型分类预测集样本的F1-score分别为76.71%, 80.52%和78.48%, 蓝色LED光源的效果最好。 该研究优选的主动光源类型和连续检测波段可为开发基于单波段的低成本绿色植物探测传感器提供理论依据。

关键词: 荧光光谱; 绿色植物; 靶标探测; 精准农业; 对靶施药
中图分类号:O657.3 文献标志码:A
Detecting Green Plants Based on Fluorescence Spectroscopy
WANG Ai-chen1,4, GAO Bin-jie1, ZHAO Chun-jiang1,2, XU Yi-fei3,4, WANG Miao-lin1, YAN Shu-gang1, LI Lin1, WEI Xin-hua1,*
1. School of Agricultural Engineering, Jiangsu University, Zhenjiang 212013, China
2. National Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China
3. School of Software Engineering, Xi’an Jiaotong University, Xi’an 710049, China
4. Nanchang Huiyichen Ltd., Nanchang 330009, China
*Corresponding author
Abstract

Site-specific variable spraying is an effective approach to reducing pesticide use and improving the use efficiency for crop protection against disease, pests and weeds through chemical spraying, and target detection is a key procedure for site-specific variable spraying. Active illumination was adopted to detect green plant targets (crops and weeds), and the fluorescence spectral information of targets was analyzed. White, blue and red LEDs were utilized for illumination, and the spectra of green plants and others were collected in four circumstances, i.e., day-indoor, day-under sunshine, day-shadow, and night-dark environment. Classification models were built based on multi-wavebands spectral features using soft independent modeling of class analogy (SIMCA) and linear discriminant analysis (LDA) methods. Results showed that with the illumination of the three types of LEDs, the recognition rates for the prediction dataset using SIMCA models were all above 92%, and corresponding rejection rates were all 100%. The LDA models could predict all samples with 100% accuracy, performing better than SIMCA models. And the difference in the effect of the three types of LEDs was indistinguishable. -The objective function for classifying green plants and others was proposed, and the particle swarm optimization (PSO) method was used to select the optimal single waveband. The optimal waveband for the three types of LEDs (white, blue and red) was 731.1, 730.76 and 731.1 nm, respectively, and corresponding thresholding classification models were established. Results showed that the classification F1-scores for the three classification models were 76.71%, 80.52% and 78.48%, respectively. Under complex circumstances, the blue LED provided the best illumination for greed plant detection. The selected blue LED light source and optimal waveband are valuable for developing low-cost green plant sensors.

Keyword: Fluorescence spectroscopy; Green plant; Target detection; Precision agriculture; Site-specific spraying
引言

农作物生长过程中受到自然环境中不同因素的影响和威胁, 其中病、 虫、 草害尤其明显, 严重影响农产品的产量和品质。 如防治不利, 易造成农作物减产甚至绝收[1]。 目前我国针对农作物病、 虫、 草害的防治措施主要为化学防治, 粗放式大面积均匀施药不仅增加了农业生产成本, 还给食品安全及生态环境带来了威胁。 精准对靶施药根据探测到的靶标信息进行施药, 通过只针对靶标的间歇式变量施药减少农药使用量、 提高农药利用率[2]

对靶精准变量施药的关键在于靶标信息的快速有效探测。 针对农作物病、 虫、 草害化学防治时存在以下两种典型作业场景: (1)针对宽株距作物(如玉米)苗期的病虫害防治, 作业对象为作物; (2)土地休耕期间或作物苗期的杂草, 作业对象为杂草。 以上两种作业场景靶标分别为作物和杂草, 均为绿色植物且无需区分具体类别。 针对上述作业场景, 只要探测出绿色植物并针对性进行精准对靶施药即可有效减少农药使用量。 目前针对田间绿色植物的快速探测方法主要有机器视觉[3]、 光谱检测[4]和光谱成像技术[5]。 其中, 光谱检测方法通过被测对象的反射或荧光发射光谱检测目标, 相比于机器视觉和光谱成像技术, 其数据量小、 处理速度快, 且光谱传感器的结构简单、 成本低[4], 更适用于上述两种作业场景下田间绿色植物的快速探测。

光谱检测方法已被广泛用于植物的检测和分类, 如作物-杂草分类和不区分类别的绿色植物检测。 在进行作物和杂草的分类检测时, 目前研究结果都在理想检测条件下得到, 在室外开放环境下作物和杂草微弱的光谱差异难以检测, 难以投入实际应用[6]。 相比之下, 光谱分析更适用于上述两种作业场景下田间绿色植物的快速探测。 邓巍等[7]利用植物和背景(枯枝、 土壤等)的光谱特性确定850与650 nm处反射率的比值为植物判别指数, 可以实现田间绿色植物的快速探测。 Pott等[8]对比了不同波段和光谱指数检测田间绿色植物的效果, 结果表明基于组合波段的光谱指数相比于单波段有更高的检测精度。 然而上述研究采集的数据均为反射率光谱, 在采集光谱数据前需进行暗光谱和参考光谱采集, 步骤繁琐, 且可能因外界光照变化多次采集暗光谱和参考光谱。 另外, 基于多波段的光谱检测法由于需要通过光谱仪获取多波段光谱信息, 硬件成本较高, 且数据量较大影响处理速度, 难以投入实际应用。

本文针对上述农作物病、 虫、 草害化学防治时两种典型作业场景下精准对靶施药的需求和基于反射率多波段光谱检测方法在应用中存在的问题, 研究利用主动光源照射下绿色植物荧光光谱信息探测绿色植物的方法, 首先通过建立基于多波段光谱信息的分类模型验证该方法的可行性, 再通过优选主动光源类型和单一连续光谱波段实现基于单波段光谱的绿色植物探测, 为开发低成本绿色植物探测传感器提供理论依据。

1 实验部分
1.1 样本

选取的样本包括绿色植物[图1(a)]和非绿色植物[图1(b, c)]。 绿色植物样本[图1(a)]包括7种绿色植物叶片, 每种植物选取20片叶片, 共140个绿色植物样本; 非绿色植物样本包括三种仿绿色植物[图1(b)]和四种土壤样本[图1(c)], 同样每种有20个样本, 共140个非绿色植物样本。

图1 实验样本
(a):绿色植物; (b), (c): 非绿色植物
Fig.1 Different samples
(a):Green plants; (b), (c): Others

1.2 光谱采集

光谱采集系统包括LED光源、 接收光纤(QP400-1-VIS-NIR, 海洋光学)、 光谱仪(USB2000+, 海洋光学)、 USB数据线以及PC计算机。 接收光纤直径为400 μ m, 数值孔径为0.22, 对250~1 000 nm波长之间的光具有较强的传输能力。 光谱仪测量范围为340~1 050 nm, 光谱分辨率为0.35 nm。 为优选低成本主动光源, 光源采用经济实用的LED光源, 其内部发光原件为发光二极管。 根据二极管内部P-N结材料, LED光源可直接发出不同波长的光。 为更好的激发绿色植物的叶绿素荧光, 光源选择了白色(复合光)、 蓝色和红色LED, 其光谱覆盖范围如图2所示。

图2 白色、 蓝色和红色LED光源光谱Fig.2 Spectra of white, blue and red LEDs

如图3所示, 接收光纤竖直固定, 样本置于接收光纤正下方约5 cm处, LED光源固定于样本斜上方, 与接收光纤的夹角约为40° 。 为方便后续绿色植物探测传感器开发, 本研究采集的光谱为样本光谱强度。 为研究不同检测环境下LED光源和检测方法的有效性, 本研究采集了白天室内自然光照、 白天太阳直射、 白天无太阳直射和夜晚黑暗环境四种场景下的样本光谱。

图3 光谱采集系统示意图Fig.3 Schematic diagram of spectra collecting system

1.3 光谱预处理

光谱仪检测范围为340~1 050 nm, 考虑到光谱仪自身检测性能、 光源光谱特征以及绿色植物的主要荧光反射波段(600~800 nm), 选取650~850 nm波段的光谱数据进行分析。 由于光的散射、 样本和检测器的距离变化以及样品的物理特性, 原始光谱数据常包含噪声, 使用一定的预处理方法可以减轻这些干扰[6]。 本文使用均值归一化[9]预处理减弱噪声, 均值归一化公式如式(1)所示。

RN(λ)=R(λ)1nabR(λ)(1)

式(1)中, RN(λ )为归一化后的样本光谱, R(λ )为测得样本的原始光谱, n为波段数, ab分别为计算开始和终止的波段。

1.4 基于多波段光谱特征的绿色植物探测

光谱的多波段特征包含更加全面的光谱信息, 能够提高绿色植物判别分类模型的准确率。 本文首先基于全波段光谱(650~850 nm)通过簇类独立软模式法(soft independent modelling of class analogy, SIMCA)和线性判别分析方法(linear discriminant analysis, LDA)建立基于全波段(650~850 nm)光谱的绿色植物与非绿色植物判别分类模型。 SIMCA方法首先建立绿色植物与非绿色植物两个类别的主成分分析(PCA)模型, 之后通过计算上述两类PCA模型的类间马氏距离建立判别模型, 并依据该模型对未知样本光谱进行分类以确定相应类别[6]。 LDA方法根据“ 投影后类内方差最小、 类间方差最大” 原则将高维样本投影到低维空间, 并在低维空间中寻找合适的判别阈值, 实现样本的准确分类。 采用Unscramble X软件建立SIMCA和LDA分类模型, 模型建立采用均值归一化后的光谱数据, 其中224个样本光谱数据用于建模集, 其余56个样本光谱数据作为预测集。

1.5 基于单波段光谱的绿色植物探测

基于多波段光谱特征的检测方法虽然检测精度较高, 但由于需要通过光谱仪获取多波段光谱信息, 硬件成本较高, 且多波段光谱数据量较大影响处理速度, 难以投入实际应用。 因此, 本研究通过优选单一的连续光谱波段实现绿色植物探测, 在实际应用时可通过单滤光片组合光电传感器的信号探测方式实现信号检测, 为开发低成本绿色植物探测传感器提供理论依据。

在进行单波段优选时, 建立绿色植物与非绿色植物的分类目标函数J(λ 1, λ 2), 波长λ 1λ 2之间为连续波段, 且λ 1可以等于λ 2, 即优选的波段为单一波长。 在建立分类目标函数时, 优选的波段应能使绿色植物和非绿色植物两类的类间离散度Jb最大、 类内离散度Jw最小, 所以分类目标函数定义为[10]

J(λ1, λ2)=JbJw=|Y-1(λ1, λ2)-Y-2(λ1, λ2)|2s12+s22(2)

Y(λ1, λ2)=λ1λ2R(λ)(3)

sj2=(Yi-Y-j),  i=1, , n; j=1, 2(4)

式中, Y(λ 1, λ 2)为某一样本光谱能量值在波长λ 1λ 2之间的积分, Y-j为绿色植物或非绿色植物所有样本Y值的均值, n为绿色植物或非绿色植物样本数量。

于是, 单波段优选问题转换为求目标函数J(λ 1, λ 2)在光谱波段650~850 nm的极大值问题。 本研究在求解极大值时通过粒子群算法(PSO)实现。 PSO算法模拟了鸟群在觅食时互相交流路径的现象, 通过初始化一群N维粒子Xi=(x1, x2, x3, …, xn), 不断迭代寻找适应函数的极值解, 在每一次迭代过程中, 粒子通过跟踪两个“ 极值” (个体最优解Pi以及全局极值Pb)来更新自己, 能有效避免局部最优解的发生[11]。 本研究种粒子维度设置为2(波长λ 1λ 2), 且求解过程存在以下约束条件

650λ1λ2850(5)

在进行单波段优选时, 将280个样本划分为200个校正集(100个绿色植物和100个非绿色植物)和80个独立预测集(40个绿色植物和40个非绿色植物)。 考虑到基于优选单波段光谱的绿色植物探测传感器实用性, PSO优化和建立基于优选单波段光谱的绿色植物判别模型时使用原始光谱数据。 PSO算法基于Python 3.8实现。 单波段优选后以优选波段内的光谱能量值积分作为样本的特征参数, 以校正集中两类样本特征参数均值的平均数作为判别阈值建立分类模型。

1.6 模型评价

对于二分类模型, 通过精确度(Precision)、 召回率(Recall)和F1-score[12]评价模型分类效果, 三者公式分别如式(6)— 式(8)所示

Precision=TruePositiveTruePositive+FalsePositive(6)

Recall=TurePositiveTruePositive+FalseNegatives(7)

F1score=2×Precision×RecallPrecision+Recall(8)

对于SIMCA, 会存在无法识别的问题, 即某未知样本被判别为既不属于第一类也不属于第二类, 采用识别率和拒绝率评价模型效果[13], 二者公式分别如式(9)和式(10)

识别率=识别本类样本个数该类样本总数×100%(9)

拒绝率=拒绝其他类样本个数其他类样本总数×100%(10)

2 结果与讨论
2.1 光谱特征分析

图4所示为白色、 蓝色和红色LED光源照射下不同样本的均值归一化反射光谱。 白色LED光源覆盖波段的两个波峰约为450和550 nm[图4(a)], 蓝色LED光源覆盖波段的波峰约为463 nm[图4(b)], 红色LED光源覆盖波段的波峰约为629 nm[图4(c)]。 在进行反射光谱采集时, 样本表面可能存在的镜面反射光会导致光源波峰处光谱能量值饱和, 因此光源覆盖的波段不在考虑范围内。 在三种LED光源照射下, 绿色植物的光谱在740 nm附近有明显波峰, 在685 nm附近也有较为明显的波峰。 三种LED光源的波段均没有覆盖685和740 nm, 这两处的光谱波峰为光源照射下绿色植物叶片被激发的叶绿素荧光发射光谱[14], 而非绿色植物样本在这两处均没有波峰。 因此, 这两处绿色植物的荧光发射特性可作为探测绿色植物样本和非绿色植物样本的重要依据。 三种光源照射下所有样本在670~900 nm范围内光谱特征一致, 其中在蓝色LED照射下绿色植物在685 nm处的荧光发射较白色和红色LED照射时更为明显。 白天室外场景下, 所有样本的光谱在688和720 nm附近存在轻微的波谷, 764 nm附近存在明显的波谷, 这是由于大气对日光的吸收造成的[15]

图4 白色、 蓝色和红色LED光源照射下不同样本归一化光谱Fig.4 Normalized spectra of different samples illuminated by white, blue and red LEEs

2.2 基于多波段光谱特征的绿色植物探测

(1)SIMCA

图5为对归一化光谱数据进行PCA分析后的第一、 第二主成分得分图。 在不同LED光源照射下, 样本分布均存在不同类别样本之间距离较近的情况, 说明环境光对于光谱数据的影响较大, 但不同类别样本没有出现重叠现象, 为后续样本分类的可能性提供了依据。 三种光源照射下样本光谱数据前两个主成分的方差贡献率均大于90%, 表明前两个主成分可描述光谱数据的大部分信息。 白色、 蓝色和红色LED照射下样本光谱前两个主成分累计方差贡献率分别为94%、 97%和90%。 所以在建立PCA模型时主成分数选为2。

图5 白色(a)、 蓝色(b)和红色(c)LED光源照射下 样本光谱的第一、 第二主成分得分图Fig.5 PCA scores of the first two principal components of sample spectra under illumination of white (a), blue (b) and red (c) LEDs

表1 绿色植物与非绿色植物的SIMCA分类结果 Table 1 Discriminant results of green plants and others by SIMCA

针对两类样本分别建立PCA模型, 然后通过SIMCA进行分类预测, 三种LED光源照射下SIMCA模型的分类结果如表1所示。 对于校正集所有模型的识别率均达到96%以上, 对于验证集所有模型的识别率均达到92%以上, 表明模型识别本类样品的能力较强, 仅有少数样本未被正确识别。 所有模型的拒绝率均为100%, 表明模型拒绝其他类样本的能力很强, 不会把其他类样本识别为本类样本。 综合来看, 红色LED光源照射下样本SIMCA模型的效果最好, 蓝色LED光源照射下样本SIMCA模型的效果其次, 但相差不大。

(2)LDA

图6为三种LED光源照射下校正集样本LDA分析的判别距离图, 其可视化了LDA分类模型对校正集样本的分类效果。 判别距离图中样本位置越接近任一坐标轴的零点则说明其更具备该坐标轴类别特征, 因此当判别距离图中样本准确紧贴于上、 右坐标轴时说明LDA模型具备强分类能力。 图6中蓝色[图6(b)]、 红色LED光源[图6(c)]照射下大多数样本较好的分布于上、 右坐标轴附近, 但均存在一个绿色植物样本更靠近非绿色植物坐标零点。 结合表2校正集LDA分类结果的混淆矩阵可以看出, 蓝色、 红色LED光源照射下样本LDA模型对这两个样本产生了误识别, 而白色LED光源照射下的样本LDA模型则准确识别了校正集全部样本。 为进一步验证LDA模型的可靠性, 使用LDA模型对预测集样本进行分类, 表2预测集分类混淆矩阵显示三种LDA分类模型均能准确识别出预测集所有样本, 表明三种LED光源照射下样本的LDA模型分类性能稳定, 同时这也表明对于归一化光谱数据来说, 各类LED光源的LDA模型相较于SIMCA模型具备更强的分类能力。

图6 白色(a)、 蓝色(b)和红色(c)LED光源 照射下样本的LDA判别距离图Fig.6 LDA distances for green plants and others under illumination of white (a), blue (b) and red (c) LEDs

表2 绿色植物和非绿色植物的LDA分类混淆矩阵 Table 2 Confusion matrix of LDA models for classifying green plants and others
2.3 基于单波段光谱特征的绿色植物探测

表3所示为三种LED光源照射下通过PSO优选的单波段光谱, 及通过该单波段光谱特征建立的判别分析模型判别绿色植物和非绿色植物的结果。 白色、 蓝色和红色LED光源照射下优选的光谱波段均为单波长, 分别为731.1, 730.76和731.1 nm。 这两个波长均在LED光源照射下绿色植物叶片被激发的叶绿素荧光发射光谱范围内, 而非绿色植物在该波段范围内没有叶绿素荧光, 说明730 nm附近的植物叶绿素荧光是区分绿色植物和非绿色植物的重要光谱特征, 可以作为开发绿色植物探测传感器的光谱波段。 通过PSO得出最佳光谱波段后, 以最佳光谱波段处的光谱能量值作为特征信息, 分别计算绿色植物和非绿色植物两类样本的光谱能量值均值, 并以这两个均值的均值作为分类判别阈值建立判别分析模型, 分别对校正集200个样本和预测集80个样本进行分类, 结果如表3所示。 综合效果上, 蓝色LED光源照射下两类样本分类效果最好, 校正集和预测集F1-score分别为83.98%和80.52%, 红色LED光源效果其次, 白色LED光源效果最差。 相比于基于多波段光谱信息的判别分析模型, 基于单波段光谱信息的判别效果明显差, 这一方面是由于单波段光谱信息采用的是原始光谱信息, 另一方面由于单波段光谱本身包含的特征信息也少。 另外, 本实验所用光谱是在四种环境下采集的, 在室外尤其是有太阳直射的环境下, 由于太阳光谱的覆盖范围较广(图4), 在很多情况下太阳光在730 nm附近光谱能量值比植物叶绿素荧光发射值要高, 这就导致了较多的误判, 影响检测效果。

表3 单波段光谱优选及绿色植物-非绿色植物判别结果 Table 3 Optimized single waveband and corresponding discriminant
3 结论

研究了白色、 蓝色和红色LED主动光源照射下基于荧光光谱信息探测绿色植物的方法。 结果表明, 三种光源照射下基于多波段光谱信息的SIMCA模型对预测集的识别率均达到92%以上, 拒绝率均为100%; 三种LDA分类模型均能准确识别出预测集所有样本, 检测效果优于SIMCA模型, 且三种LED光源的效果无显著差异。 通过PSO优选单波段原始光谱并建立绿色植物和非绿色植物的阈值分类模型, 白色、 蓝色和红色LED光源照射下优选的光谱波段分别为731.1, 730.76和731.1 nm, 预测集的F1-score分别为76.71%, 80.52%和78.48%, 蓝色LED光源的效果最好。 本文优选的主动光源类型和连续检测波段可为开发基于单波段的低成本绿色植物探测传感器提供理论依据。

参考文献
[1] Zheng Y, Zhu Q B, Huang M, et al. Computers and Electronics in Agriculture, 2017, 141: 215. [本文引用:1]
[2] HE Xiong-kui(何雄奎). Smart Agriculture(智慧农业), 2020, 2(1): 133. [本文引用:1]
[3] Wang A C, Zhang W, Wei X H. Computers and Electronics in Agriculture, 2019, 158: 226. [本文引用:1]
[4] LI Lin, WEI Xin-hua, MAO Han-ping, et al(李林, 魏新华, 毛罕平, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33(18): 127. [本文引用:2]
[5] Gao J F, Nuyttens D, Lootens P, et al. Biosystems Engineering, 2018, 170: 39. [本文引用:1]
[6] Shirzadifar A, Bajwa S, Mireei S A, et al. Biosystems Engineering, 2018, 171: 143. [本文引用:3]
[7] DENG Wei, ZHAO Chun-jiang, HE Xiong-kui, et al(邓巍, 赵春江, 何雄奎, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2010, 30(8): 2179. [本文引用:1]
[8] Pott L P, Amado T J C, Schwalbert R A, et al. Pest Management Science, 2020, 76(3): 1173. [本文引用:1]
[9] Li J B, Huang W Q, Xi Tian, et al. Computers and Electronics in Agriculture, 2016, 127: 582. [本文引用:1]
[10] Tran D T, Gabbouj M, Iosifidis A. Pattern Recognition Letters, 2017, 100: 131. [本文引用:1]
[11] Bai X D, Cao Z G, Wang Y, et al. Biosystems Engineering, 2014, 125: 80. [本文引用:1]
[12] Huang H, Xu H H, Wang X H, et al. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2015, 23(4): 787. [本文引用:1]
[13] Zhang H, Sun H F, Wang L, et al. Journal of Spectroscopy, 2018, 2018: 7652592. [本文引用:1]
[14] ZHAN Chun-hui, ZHANG Zhao-ying, ZHANG Yong-guang(詹春晖, 章钊颖张永光). Journal of Remote Sensing(遥感学报), 2020, 24(8): 945. [本文引用:1]
[15] ZHANG Zhao-ying, WANG Song-han, QIU Bo, et al(章钊颖, 王松寒, 邱博, ). Journal of Remote Sensing(遥感学报), 2019, 23(1): 37. [本文引用:1]