基于共焦显微拉曼的柑橘黄龙病无损检测研究
刘燕德, 肖怀春, 孙旭东, 吴明明, 叶灵玉, 韩如冰, 朱丹宁, 郝勇
华东交通大学机电工程学院, 江西 南昌 330013

作者简介: 刘燕德, 女, 1967年生, 华东交通大学机械车辆与工程学院教授 e-mail: jxliuyd@163.com

摘要

黄龙病危害柑橘果树日益严重, 对柑橘黄龙病进行快速检测研究具有重大意义。 采用拉曼光谱技术, 结合偏最小二乘判别分析(PLS-DA)方法探讨快速诊断柑橘黄龙病及病情类别的可行性。 获取柑橘叶片拉曼光谱并进行普通PCR鉴别分为轻度、 中度、 重度、 缺素和正常5类。 在715~1 639.5 cm-1范围内采用一阶导, 基线校正(Baseline)和多项式拟合三种方法扣除光谱背景, 突显叶片拉曼光谱特征峰。 多项式拟合方法分别进行了2次, 3次和4次拟合, 与一阶导和基线校正两种扣除背景方法进行比较, 结合最小二乘支持向量机(LS-SVM)和偏最小二乘判别分析(PLS-DA)建立判别模型。 经比较发现, 多项式拟合方法扣除光谱背景效果均好于另外两种方法, 其中用2次多项式拟合的PLS-DA模型的效果最好, 预测相关系数( RP)为0.98, 预测均方根误差(RMSEP)为0.67, 总误判率最小为0。 基线校正扣除光谱背景的LS-SVM模型效果最差, 总误判率最大为40%。 研究结果表明, 利用拉曼光谱技术对柑橘黄龙病进行快速识别研究具有一定的可行性, 为柑橘黄龙病无损检测研究提供一种新途径。

关键词: 柑橘黄龙病; 拉曼光谱; 偏最小二乘判别分析; 最小二乘支持向量机; 多项式拟合
中图分类号:O657.3 文献标志码:A
Researching of Non-Destructive Detection for Citrus Greening Based on Confocal Micro-Raman
LIU Yan-de, XIAO Huai-chun, SUN Xu-dong, WU Ming-ming, YE Ling-yu, HAN Ru-bing, ZHU Dan-ning, HAO Yong
School of Mechatronics Engineering, East China Jiaotong University, Nanchang 330013, China
Abstract

It is great significance to study the rapid detection for citrus greening because citrus greening is increasingly serious harmful for citrus fruit trees. In this paper, using Raman spectroscopy technology combined with partial least squares discriminant analysis (PLS-DA) method was used to explore the feasibility about rapid diagnosis citrus greening and the classification of disease. The Raman spectra of citrus leaves were obtained and leaves were divided into five types: slight greening, moderate greening, serious greening, nutrient deficiency and normal by common PCR. In the range of 715~1 639.5 cm-1, the three methods of first derivative, baseline correction and polynomial fitting were used to eliminate the spectral background to highlighted the characteristics peak of Raman spectra. Polynomial fitting were taken two times, three times and four times fitting in this method respectively, compared with the other two methods of first derivative and baseline correction for eliminated the spectral background. Combining with the least squares support vector machine (LS-SVM) and partial least squares discriminant analysis (PLS-DA), wedeveloped the discriminant models. By comparison, the effect of eliminated the spectral background using polynomial fitting was better than the other two methods. Especially the effect of PLS-DA model was taken two times fitting was the best The correlation coefficient of prediction ( RP) was 0.98, while the root mean square error of prediction (RMSEP) was 0.67. The total misjudgment rate in the least was 0 andthe effect of LS-SVM model using the method of baseline correction was the worst, while the total misjudgment rate at maxium was 40%. The results showed that it was feasible to study the rapid identification of citrus greening by Raman spectroscopy technology, and a new approach to study the non-destructive detection of citrus greening was provided.

Keyword: Citrus greening; Raman spectra; PLS-DA; LS-SVM; Polynomial fitting
引 言

柑橘黄龙病(citrus greening)起源于中国, 因其毁灭巨大而著称, 严重影响柑橘产业的发展。 该病主要以柑橘木虱为传播媒介, 一旦感染, 轻则产量骤减, 果实品质下降, 重则果树成片枯死。 目前对感染黄龙病的果树, 鲜见有效治愈方法, 唯一方法是将其砍伐[1]。 因此, 及时发现并防控黄龙病, 对维持柑橘产业发展具有重大意义[2]

黄龙病检测主要方法有田间诊断和室内分析两种, 前者依靠患病果树呈现的症状诊断, 准确率较底。 后者是通过病理生化分析判别, 虽然准确度高, 但成本贵, 过程繁琐且周期长[3, 4, 5]。 近年来部分研究人员采用光谱技术对柑橘黄龙病进行判别研究。 邓小玲等利用荧光检测技术结合概率神经网络建立健康、 非黄龙病黄化以及黄龙病的柑橘植株分类模型, 类别诊断率高于76.93%[1]。 邓小玲等利用高光谱成像技术对五种症状的柑橘叶片采用主成分分析(PCA)和BP神经网络相结合方法进行分类, 准确率高达90%以上[3]。 马昊等采用近地高光谱成像系统获取柑橘叶片图像, 运用PCA和SPA算法选择波长点, 结合LS-SVM建立3类柑橘叶片分类模型, 平均预测准确率分别为89.7%和87.4%, 另外在图像灰度等级的基础上筛选特征建立的分类模型精度更高[6, 7, 8, 9]。 在350~2 500 nm范围内Sankaran等利用逐步回归法对患病柑桔叶片的近红外光谱特征变量进行筛选, 建立黄龙病分类模型, 分类精度达到83%。 Hawkins等在患HLB早期采用傅里叶红外衰减全反射技术检测柑桔黄龙病, 分类精度为94%[10, 11]

关于用拉曼光谱技术对柑橘黄龙病的研究报道很少。 本文目的是探索拉曼光谱技术在柑橘黄龙病无损检测研究的可行性。 用共焦显微拉曼光谱仪采集5类柑橘叶片拉曼光谱, 通过多种方法扣除背景, 结合最小二乘支持向量机和偏最小二乘判别分析在样品特征波段715~1 639.5 cm-1范围内成功的建立了判别模型, 对多项式拟合、 一阶导和基线校正(Baseline)三种扣除光谱背景方法的模型进行比较。 对比结果显示基于拉曼技术的柑橘黄龙病无损检测研究具有可行性, 为柑橘黄龙病无损检测研究提供一种新途径。

1 实验部分
1.1 材料

柑橘叶片于2016年10月在江西省万安县某果园种植基地经高级农艺师的指导获得。 为呈现叶片的异同, 基地被划分为5个区域。 在每个区域中选择间距相等的2棵树, 每棵树采摘不同层东南西北4个方向叶子13片, 共计130片。

在实验室对叶片进行前期处理包括去离子水清洗, 晾干, 装袋并标号。 用聚合酶链式反应(PCR)方法筛选为实验样品。 引物委托南京金斯瑞公司根据Hocquellet等[12]报道的引物A2/J5和Jagoueix等[13]报道的引物O1/O2合成, A2/J5的序列为: 5’ -TATAAAGGTTGACCTTTCGAGTTT-3’ , 5’ -ACAAAAGCAGAAATAGCACGAACAA-3’ ; O1/O2的序列为: 5’ -GCGCGTATCCAATACGAGCGGCA-3’ , 5’ -GCCTCGCGACTTCGCAACCCAT-3’ 。 PCR测试显示阳性的是患病叶片, 显示阴性的是未患病叶片, 结果如图1所示。

图1 用普通聚合酶链式反应(PCR)方法检测柑桔叶片的结果Fig.1 The results of common PCR test for citrus leaves

从图1可知, 结果更清晰的是用O1/O2作为引物时PCR测试的结果, 轻度、 中度、 重度黄龙病都呈现亮带, 并随病情的等级逐渐变亮, 而正常叶片并无亮带呈现, 缺素叶片呈现的亮带与黄龙病叶片不同, 可能与营养元素缺乏有关, 重度右侧亮带是针对标号为第1, 2和3棵柑橘树的PCR测试。 其中缺素叶片症状与黄龙病叶片相似, 故采摘缺素叶片用来进行对比。 PCR测试结果如表1所示。

表1 样品类别 Table 1 Sample categories

综合考虑染病情况对柑桔产量的影响与PCR检测结果将实验样品大致的分为5级, 1级为正常; 2级为轻度黄龙病; 3级为中度黄龙病; 4级为重度黄龙病; 5级为缺素。 从而对样品拉曼光谱进行采集用来建模分析[14]

1.2 仪器设备

实验设备为德国布鲁克公司(Bruker Optics Inc)的SENTERRA共焦显微拉曼光谱仪附CCD检测器。 基本参数设置: 光谱范围是90~3 500 cm-1; 分辨率为9~15 cm-1; 激光波长为785 cm-1; 激光功率为50 mW; 积分时间为10 s, 扫描次数3次, 光谱仪匹配的软件有OPUS(verion.6.5; Bruker Optik GmbH, Germany)。

1.3 光谱采集

在温度为16~22 ℃, 湿度为40%~50%的室内, 采集晾干的柑橘叶片叶脉左侧中间矩形区域的拉曼光谱。 此过程中尽量保持叶片平整, 避开叶脉位置, 每获取一条光谱, 在该区域换另一个点采集。 每片叶片共采集3条光谱, 取它们的平均光谱进行后续分析。

1.4 数据处理方法

偏最小二乘判别分析(PLS-DA)是一种分类能力较强的判别方法, 在回归系数曲线中针对不同厘米波数位置呈现不同的权重[15]。 通常采用分类变量来代替被测类别的浓度矩阵, 对光谱向量和分类变量之间的关系进行线性统计, 建立定性判别模型, 如式(1)所示

y˙=i=1nβiAi+b(1)

式(1)中, y˙为分类向量, 试验中设为[2 4 6 8 10], 2为轻度黄龙病叶片, 4为中度黄龙病叶片, 6为重度黄龙病叶片, 8为缺素叶片, 10为正常叶片。 这样设值可对模型效果进行优化, n为厘米波数, 本文中为1 850。

最小二乘支持向量机(LS-SVM)变传统不等式约束为等式约束, 以平方误差损失函数之和代替训练集的经验损失。 最小二乘支持向量机的训练过程中, 在高维空间里通过一个最小二乘价值函数获取一个线性方程组, 从而将求解二次规划问题转化为求解线性方程组。 与SVM相比, LS-SVM具有更快的运算速度和更高的精度。 此外, 还可以借助迭代法有效解决共轭梯度[16, 17]

2 结果与讨论
2.1 叶片拉曼光谱特征分析

试验中在90~3 500 cm-1范围内采集拉曼光谱, 5类柑橘叶片(轻度黄龙病、 中度黄龙病、 重度黄龙病、 缺素和正常)的代表性拉曼光谱如图2所示, 从图中可知位于1 155和1 526 cm-1处有特征峰。 1 155 cm-1处特征峰由柑橘叶片C— C单键伸缩振动导致, 在1 526 cm-1处的特征峰由叶片的C=C双键伸缩振动造成的。 患病叶片的特征峰低于正常叶片可能是由于缺少水分填充以及病菌感染, 导致叶片C=C双键伸缩振动的化学键力常数减小, 并随着病情轻重等级特征峰依次降低[18]。 缺素叶片在这两处的特征峰可能与叶片缺乏营养元素有关, 在1 155 cm-1处缺素叶片特征峰较中度和重度黄龙病叶片明显。

图2 在90~3 500 cm-1区间, 五类叶片典型的拉曼光谱, 五类叶片分别是轻度, 中度和重度黄龙病, 缺素及正常叶片Fig.2 Typical Raman spectra of five kinds of leaves including slight greening, moderate greening, serious greening, nutrient deficiency and normal respectively at 90~3 500 cm-1

受环境和机器本身的影响, 故将信噪比较低的90~714.5和1 640~3 500 cm-1两个波段范围去除, 图3为上述5个样品在715~1 639.5 cm-1范围内的拉曼光谱。

图3 在715~1 639.5 cm-1区间, 五类叶片典型的拉曼光谱, 五类叶片分别是轻度, 中度和重度黄龙病, 缺素及正常叶片Fig.3 Typical Raman spectra of five kinds of leaves including slight greening, moderate greening, serious greening, nutrient deficiency and normal respectively at 715~1 639.5 cm-1

2.2 拉曼光谱背景扣除方法

为突出样品的拉曼光谱特征峰, 用多项式拟合的方法逐个扣除拉曼光谱背景, 以2次多项式拟合扣除光谱背景为例, 讨论扣除背景前后样品光谱的变化。 得到2次多项式拟合后样品拉曼光谱见图4, 图中原始光谱为单个样品最初的拉曼光谱, 2次拟合光谱为二次函数拟合的样品平均光谱, 图4中最下方光谱为扣除背景后该样品光谱, 是用原始光谱减去2次拟合光谱后得到。 从图中可以发现扣除背景后该样品光谱在1 155和1 526 cm-1两处的特征峰更加明显, 与原始光谱拉曼谱峰所处的拉曼频移位置相同, 故用该方法并未删除光谱的有效信息[19]

图4 二次多项式拟合后样品的拉曼光谱Fig.4 The Raman spectra of samples after second polynomial fitting

2次、 3次、 4次多项式拟合见式(2)— 式(4)所示, 式(5)为扣除背景光谱公式。

Y=ki1x2+ki2x+ki i=1, , 104(2)Y=mi1x3+mi2x2+mi3x+mi i=1, , 104(3)Y=ni1x4+ni2x3+ni3x2+ni4x+ni i=1, , 104(4)Y1=Y2-Y(5)

其中Y为多项式拟合光谱能量值, x为在715~1 639.5 cm-1波段范围内的光谱厘米波数, 共1 850个, Y1为扣除背景后光谱能量值, Y2为原始光谱光谱能量值。

2.3 判别模型建立与验证

叶片在存储过程有26个样品遭到不同程度的损坏, 为了不影响结果在实验过程中给予剔除, 其中包括轻度黄龙病叶片13个, 中度度黄龙病叶片7个, 缺素叶片4个, 正常叶片2个。 依据4:1的比例将叶片随机划分为建模集和预测集两部分, 当中建模集部分包括84个样品(轻度黄龙病8个、 中度黄龙病叶片15个, 重度黄龙病叶片23个, 缺素叶片18个、 正常叶片20个), 剩余20片叶片作为预测集来评价模型预测效果, 设定两类样品的中间值作为阈值对预测样品进行分类。

在715~1 639.5 cm-1波段范围内, 用Baseline, 一阶导和多项式拟合三种方法扣除光谱背景, 其中多项式拟合进行了2次, 3次和4次。 结合真值分别建立最小二乘支持向量机和偏最小二乘判别模型, 将结果进行对比获得最佳模型。

2.3.1 最小二乘支持向量机回归模型

用扣除背景后的光谱矩阵和原始光谱矩阵分别作为输入, 建立了最小二乘支持向量机判别模型。 LS-SVM采用非线性函数RBF_kernel作为核函数, 其中γ σ 2作为该核函数的两个主要参数, 用来考察样品误判程度。 γ σ 2一般采用两步搜索的方法确定, 第一步用较大的步长查找, 确定最佳参数界限, 第二步在该界限内用较小步长进行最佳参数的寻找, 从而在不同的项目下获得。 LS-SVM模型结果对比如表2所示。

表2 不同预处理方法拟合后LS-SVM模型的统计结果 Table 2 The statistical results of the LS-SVM model after Different fitting

表2可知, 采用多项式拟合方法扣除光谱背景的LS-SVM模型均好于另外两种方法扣除背景的模型及原始模型, 其中在2次多项式拟合时, 模型效果较优, 此时核函数两个参数γ σ 2最小分别为3.2和24.5, 运算时间t为8.5s, 模型总误判率最低为20%。 该模型并未达到理想, 尝试用另一种方法建立判别模型, 以提高预测精度。

2.3.2 偏最小二乘回归判别模型

为更好地考察模型对预测样品分类效果, 采用和LS-SVM模型相同的输入变量结合PLS-DA建立柑橘黄龙病判别模型, 并对模型结果进行对比分析, 表3为用不同方法扣除光谱背景的PLS-DA模型结果。

表3 PLS-DA模型的统计结果 Table 3 The statistical results of the PLS-DA model

表3可得, 采用多项式拟合扣除光谱背景的方法中, 2次拟合的PLS-DA判别模型效果更佳。 此时虽模型最佳主成分因子数(PCs)并不是最小为10, 但模型总误判率最小为0, 且预测相关系数(RP)最高为0.98, 预测均方根误差(RMESP)最低为0.67。

图5为2次多项式拟合扣除光谱背景时柑橘黄龙病PLS-DA模型主成分因子数决定图, 主要采用用留一法确定。 随着主成分数增大, 均方根误差逐渐减小, 但主成分数(PCs)为10的时候, 预测均方根误差达到最小, 故确定此时的主成分因子数为最佳。

图5 确定主成分因子数图Fig.5 Diagram of principal components numgber determination

模型建模集散点图见图6所示, 从中可知建模相关系数(RC)为0.99, 建模均方根误差(RMSEC)为0.42, 取类别向量间的中值作为阈值, 轻度黄龙病与中度黄龙病之间阈值T1为3, 中度黄龙病与重度黄龙病之间阈值T2为5, 重度黄龙病与缺素之间阈值T3为7, 缺素和正常之间阈值T4为9, 误判率为0。

图6 校正集样品的类别变数和实际值Fig.6 Classified variables and actual values of samples in the calibration set

依据上述分类准则, 用预测样品考察PLS-DA模型的判别能力, 散点图如图7所示, 从中可知预测相关系数(RP)为0.98, 预测均方根误差(RMSEP)为0.67, 误判率为0, 其中有一个重度黄龙病样本位于阈值T2附近, 一个缺素样本位于阈值T3附近, 但没有被误判, 故模型总误判率为0。

图7 预测集样品的类别变数和实际值Fig.7 Classified variables and actual values of samples in the prediction set

在715~1 639.5 cm-1范围内通过PLS-DA模型获得回归系数曲线图8, 因回归系数大小代表不同频移处光谱变量对应的权重, 剖析回归系数权重有利于对PLS-DA模型的理解, 回归系数的正负与对应厘米波数处的变量成正比关系。 该模型的截距b为7.66。

图8 PLS-DA模型在特征谱带的回归系数Fig.8 Regression coefficients plots of PLS-DA model at characteristic band

2.4 判别模型对比分析

采用Baseline, 一阶导和多项式拟合三种方法分别对柑橘叶片光谱背景进行扣除, 建立LS-SVM和PLS-DA两种模型, 用20个预测样本对模型判别能力进行预测, 结果表现为:

(1)用多项式拟合方法扣除光谱背景后, 建立的LS-SVM模型效果均好于一阶导和Baseline这两种方法。 其中2次多项式拟合的LS-SVM模型结果最佳, 此时总误判率为

20%, RBF_kernel作为核函数, 两参数γ σ 2分别为3.2和24.5, 运算时间为8.5 s。

(2)在采用PLS-DA方法建立的判别模型中, 采用多项式拟合方法扣除背景的模型判别能力最强, 该种扣除背景方法为2次拟合, 模型的RP和RMSEP分别为0.98和0.67, 总误判率为0。

(3)采用上述三种方法扣除光谱背景, 多项式拟合的方法效果更好。 其中2次多项式拟合的PLS-DA模型预测精度最高, 具有较好的分类能力。

3 结 论

采用多项式拟合对柑橘叶片的拉曼光谱背景扣除, 使样本特征峰更加明显, 还利用一阶导和Baseline两种方法扣除光谱背景, 结合最小二乘支持向量机和偏最小二乘回归判别分析, 成功的建立了柑橘黄龙病无损检测模型。 通过20个预测样品对预测效果进行评价, 经对比, 得出采用多项式拟合的方法扣除背景后效果更好, 其中2次多项式拟合的PLS-DA模型效果最好, 最佳主成分因子数为10时总误判率最低为0。 研究显示, 采用拉曼光谱技术结合偏最小二乘判别分析法探讨识别柑橘黄龙病叶片具有一定的可行性, 论文为柑橘黄龙病无损检测研究提供一种新途径。

The authors have declared that no competing interests exist.

参考文献
[1] DENG Xiao-ling, LIN Liang-sheng, LAN Yu-bin(邓小玲, 林亮生, 兰玉彬). Journal of South China Agricultural University(华南农业大学学报), 2016, 37(2): 113. [本文引用:2]
[2] Yu Jihua, Zhang Minrong, Tao Jian, et al. Agricultural Science & Technology, 2015, 16(6): 1237. [本文引用:1]
[3] DENG Xiao-ling, KONG Chen, WU Wei-bin, et al(邓小玲, 孔晨, 吴伟斌, ). Acta Photonica sinica(光子学报), 2014, 43(4): 16. [本文引用:2]
[4] LIAO Xiang-liu, LIU Kui-ying, ZHAO Zong-yun(廖祥六, 刘魁英, 赵宗芸). Journal of Anhui Agricultural Science(安徽农业科学), 2007, 35(9): 2578. [本文引用:1]
[5] QIU Zhuo-rong(邱卓荣). Journal of Shaoguan University·Natural Science(韶关学院学报), 2016, 37(6): 48. [本文引用:1]
[6] Garcia-Ruiz F, Sankaran S, Maja J M, et al. Computers and Electronics in Agriculture, 2013, 91: 106. [本文引用:1]
[7] Sankaran S, Maja J M, Buchanon S, et al. Sensors, 2013, 13: 2117. [本文引用:1]
[8] Mishra A, Karimi D, Ehsani R, et al. Biosystems Engineering, 2011, 110: 302. [本文引用:1]
[9] MA Hao, JI Hai-yan, Won Suk Lee. Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(7): 2344. [本文引用:1]
[10] Joseph M, Bové. Phytoparasitica, 2014, 42: 579. [本文引用:1]
[11] Nathália Cristina Torres Mariani, Gustavo Henrique de Almeida Teixeira, Kássio Michell Gomes de Lima, et al. Food Chemistry, 2015, 174: 643. [本文引用:1]
[12] Hocquellet A, Toorawa P, Bove J M, et al. Molecular and Cellular Probes, 1999, 13(5): 373. [本文引用:1]
[13] LI Tao, KE Chong(李韬, 柯冲). Acta Phytophylacica Sinica(植物保护学报), 2002, 1: 31. [本文引用:1]
[14] YUAN Yi-wen, JIANG Zi-zhen, WANG De-shan(袁亦文, 蒋自珍, 王德善). Zhenjiang Agricultural Science(浙江农业科学), 2010, (1): 121. [本文引用:1]
[15] HAO Yong, SUN Xu-dong, GAO Rong-jie, et al(郝勇, 孙旭东, 高荣杰, ). Transactions of the Chinese Society of Agriculture Engineering(农业工程学报), 2010, 26(12): 373. [本文引用:1]
[16] Liu Xiaofeng, Lin Bo, Luo Honglin. Measurement, 2015, 59(7): 145. [本文引用:1]
[17] Cheng Minyuan, Nhat-Duc Hoang, Wu Yuwei. Automation in Construction, 2013, 35(13): 306. [本文引用:1]
[18] TAN Feng, CAI Qiao-ling, SUN Xue-cheng, et al(谭峰, 才巧玲, 孙雪成, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(4): 191. [本文引用:1]
[19] Su Xin, Fang Shaoyin, Zhang Daosen, et al. Journal of Biomedical Optics, 2015, 20(12): 1117. [本文引用:1]