监测部位差异对黄龙病近红外预测模型的影响
邹俊丞1,2, 卢占军1,3,*, 乔宁2, 饶敏2, 邝敏2, 钟延文2, 黄雪媛2
1. 赣南师范大学生命科学学院, 江西 赣州 341000
2. 赣州海关, 江西 赣州 341000
3. 国家脐橙工程技术研究中心, 江西 赣州 341000
*通讯联系人 e-mail: luzhanjun7@139.com

作者简介: 邹俊丞, 1991年生, 赣南师范大学生命科学学院硕士研究生 e-mail: zoujuncheng1@163.com

摘要

基于树叶样本的柑橘黄龙病近红外快速诊断技术已经被证明可行, 但目前的研究尚局限于以树叶为光谱采集部位。 树皮韧皮部作为病菌及特异性营养组分运送的主干道, 在黄龙病的病理机制、 病程发展中占据重要地位, 能够在疾病的早期阶段提供特异信息, 有助于疾病的早期诊断。 为了探索以树皮为样本建立黄龙病近红外检测技术的可行性, 分析不同采样部位对黄龙病近红外预测模型的影响, 设计了树叶、 树皮和综合(树叶+树皮)三种采样方案。 通过与标准正态分布法(standard normal distribution, SNV)、 多元散射校正法(multiple scattering correction method, MSC)、 一阶导数法(first derivative)和二阶导数法(second derivative)对比, 发现归一化法(normalization)对树皮光谱数据的处理效果最好。 分别采用偏最小二乘回归法(partial least squares regression, PLSR)和主成分回归法(principal component regression method, PCR)建立柑橘黄龙病预测模型, 发现预测集均方根误差(root mean square error of prediction, RMSEP)都在10-5量级, 并且树叶预测集均方根误差最小(RMSEP of leaves, 1.690 9×10-5), 树皮均方根误差其次(RMSEP of barks, 1.889 0×10-5), 综合均方根误差(RMSEP of composite samples, 2.567 6×10-5)最大; 预测集决定系数(the determination coefficient, r2)都在0.9以上, 并且树叶样本所建模型的决定系数最小(the determination coefficient of leaves, $r_{L}^{2}$, 0.939 6), 树皮其次(the determination coefficient of barks; $r_{B}^{2}$, 0.941 5), 综合样本所建模型的决定系数最大(the determination coefficient of composite samples; $r_{C}^{2}$, 0.960 3), 说明三种采样方案所建立的模型都有很好的精度和预测能力, 以树叶为样本所得模型精度虽然最高, 但预测能力最弱, 而综合采样方案所得模型预测能力虽然最强, 但模型精度最低, 只有以树皮为样本所得模型的精度(RMSEPB=1.889 0×10-5)、 预测能力($r_{B}^{2}$=0.941 5)都能保持在良好水平。 通过对比分析树叶、 树皮的原始光谱、 模型效果, 探讨了以树皮为样本建立柑橘黄龙病近红外快速检测技术的可行性, 为近红外光谱技术在黄龙病诊断方面的应用提供新的思路。

关键词: 采样部位; 脐橙; 黄龙病; 近红外光谱模型; 无损检测
中图分类号:O657.33 文献标志码:A
Assessment of Influence Sampling Position Variability on Precision of Near Infrared Models for Huanglongbing of Navel Orange
ZOU Jun-cheng1,2, LU Zhan-jun1,3,*, QIAO Ning2, RAO Min2, KUANG Min2, ZHONG Yan-wen2, HUANG Xue-yuan2
1. College of Life Science, Gannan Normal University, Ganzhou 341000, China
2. Ganzhou Customs, Ganzhou 341000, China
3. National Navel Orange Engineering Research Center, Ganzhou 341000, China
*Corresponding author
Abstract

The near-infrared models have been applied in huanglongbing detection and it has been proved to be feasible, but the present studies are limited to taking leaves as samples. The phloem of bark is a channel to transport pathogens and nutriment, it has been shown to play an important role in pathological initiation, progression and maintenance, so that we can detect huanglongbing in the early stages with the specific information of barks. In order to explore the feasibility of infrared spectroscopy based on the bark samples and analyze the influence of sampling position variability on near infrared models for huanglongbing, three kinds of sampling plan were designed in this paper: navel orange leaves, navel orange barks and composite samples (navel orange leaves and navel orange barks). Then, we established the prediction model of HLB (huanglongbing) with PLSR (partial least square regression) and PCR (principal component regression), when the normalization was turned out to be the optimal data preprocessing method. We found that the RMSEP (root mean squared error of prediction) are all at the level of 10-5: RMSEPL (RMSEP of leaves, 1.690 9×10-5)<RMSEPB (RMSEP of barks, 1.889 0×10-5)<RMSEPC (RMSEP of composite samples, 1.690 9×10-5); and the r2 (determination coefficient of prediction) are all greater than 0.9: $r^{2}_{L}$ ( r2 of leaves, 0.939 6) <$r_{B}^{2}$ ( r2 of barks, 0.941 5) < $r_{C}^{2}$ ( r2 of composite samples, 0.960 3). It means that all of the models have good accuracy and prediction ability. The model based on the leaves is the most accurate but the least predictive, and the model based on the composite samples is the least accurate but the most predictive. Only based on the barks can the accuracy and predictive ability of the model maintained at the mid-range level. In this study, the original spectra and model effects of leaves and barks were compared and analyzed, the feasibility of rapid infrared spectroscopy based on the bark samples was discussed, it provides a new idea for the application of near infrared in the diagnosis of huanglongbing.

Keyword: Sampling position; Navel orange; Huanglongbing; Near infrared models; Nondestructive examination
引 言

柑橘黄龙病是世界柑橘产业面临的最具危险性的病害, 致病机制还不清楚, 目前尚无有效的药物可以治疗, 俗称“ 柑橘癌症” [1], 国际上美国、 巴西、 澳大利亚等柑橘主产国都面临着柑橘黄龙病的威胁。 在我国, 柑橘黄龙病已经遍布福建、 广东、 广西、 海南柑橘产区全境, 在浙江、 江西、 湖南等十余个省、 区均有报道, 并且逐年向北扩散[2]。 由于尚无有效的治疗药物, 因此对于该病主要以防控为主, 及时发现病树以采取砍树等措施是防治黄龙病的关键, 实验室诊断方法由于检测周期长、 成本高等原因而实用性不强, 田间病树判定方法主要是观察症状[3], 受个人经验与主观影响, 尤其是在没有特异性症状的情况下, 结果不可靠, 导致果农质疑阻挠。

近红外光谱技术对柑橘黄龙病的田间检测应用已有报道, 刘燕德[4]证实了近红外检测技术在柑橘黄龙病诊断方面的可行性, 饶敏[5]等研究发现, 通过采集柑橘树叶光谱数据并建模, 可以在田间实现快速、 无损检测。 柑橘黄龙病常发生于韧皮部[6, 7], 病菌在树叶和树皮中都能全年检测到[8], 但目前的黄龙病近红外检测研究仅局限于以树叶为样本。

以树皮为样本或有利于黄龙病的早期发现。 由于黄龙病影响营养物质的转移、 吸收与分布, 整棵果树的各个部位(尤其是运送营养物质的树皮韧皮部)都受到疾病的影响, 也都包含了特异的生化信息[9]。 另外, 佛罗里达大学的研究认为, 柑橘黄龙病菌进入树叶后, 先迅速向下传播到根部, 在根部增殖并破坏根系后, 又迅速向上扩散到其他部位, 当叶片症状出现时, 其根系早已严重受损[10], 因此, 树皮韧皮部作为病菌及特异性营养组分运送、 堵塞的主干道, 能够在疾病的早期阶段提供特异信息, 更有助于疾病的早期诊断, 减少黄龙病防控的被动性。

关于有机体的近红外光谱技术应用, 越来越多学者开始综合运用多个部位、 多个组织的光谱信息: 有研究发现, 从西瓜、 苹果的不同部位采集光谱对最终的近红外模型检测精度有影响。 谭峰等通过研究水稻稻瘟病的近红外光谱数据, 建议将茎、 叶、 籽粒差异性最强的波段相结合进行分析, 更有利于疾病诊断。

黄龙病病菌在柑橘树体内的分布规律尚不明确, 综合多部位的光谱信息将有利于黄龙病的阳性检出率。 Johnson等[10]发现根部病原菌含量更高, 而Ding等[11]发现叶柄病原菌含量最高、 根部含量最低, 两者结论相反。 而且同一棵树的不同部位组织, 黄龙病病菌含量差异明显[12]。 本研究以树叶、 树皮韧皮部作为样本, 探讨不同采样部位柑橘黄龙病近红外快速预测模型的差异, 旨在选择合适的采样方案, 进一步优化近红外技术在柑橘黄龙病检测方面的应用。

1 实验部分
1.1 采样方法与试验材料

树皮采样: 目前尚无关于树皮韧皮部采样的报道, 本文自主研发树皮韧皮部采样办法, 即定制标准化树皮剥皮器, 确保所有树皮样品宽度一致。 取树皮样品12条, 宽度均为0.5 cm, 平均长度为11.34 cm, 如图1。 为了确保树皮采样不影响果树生长, 以果树四个方向的侧枝为采样部位。

图1 定制标准化剥皮器及所得树皮Fig.1 The standardized stripper and obtained bark

树叶采样: 取东西南北四个方向的冠层树叶, 所有样本编号后, 用采样袋密封保存于4 ℃。

实验用脐橙树叶及树皮取样于国家脐橙工程技术研究中心的温室和脐橙种植基地, 所有树均为2011年种植的纽荷尔脐橙, 并通过聚合酶链式反应PCR标准检测法确认黄龙病染病情况。 共采集染病树叶样本365份、 染病树韧皮部样本226份、 健康树叶样本228份、 健康韧皮部样品291份, 合计1110份样品。

表1中样品数为0的部分, 系所采集的样品未能及时(24 h内)扫描光谱数据, 样品因品质降低而作废。 有报道, 样品量大于91, 81, 70的近红外模型, 其模型精度没有显著改变。 本实验各组样品量在151~243之间, 虽然各组样品量不是完全一致, 但是, 都大于最小样品量要求, 不会对模型精度产生显著影响。

表1 采样数量一览表 Table 1 The table of sampling number
1.2 仪器及装置

光谱采集装置由台式电脑、 IRTracer 100 NIR光谱仪组成, 光谱分析仪为傅立叶近红外光谱系统, 采用InGaAs检测器, 光谱范围12 500~350 cm-1, 光谱分辨率0.25 cm-1, 光谱精度0.05 cm-1, 光谱准确度0.1 cm-1

1.3 光谱采集

光谱扫描设定的参数分辨率为8 cm-1时, 扫描速度为5张光谱/秒。 采用其自带的LabSolutions IR软件进行光谱采集, 树叶或树皮样品覆盖于检测器的镜头上方, 为了避免外界光源的影响, 用仪器自带的挡光盖覆盖于样本上方。 为避免取样部位对实验结果产生影响, 光谱扫描点分布如图2。

图2 光谱扫描点Fig.2 Scan points for the spectrum

1.4 光谱与数据分析

1.4.1 原始光谱分析

为了方便比较, 求各组原始光谱吸光度平均值 Abs¯, 再相减, 得差值D-Leaf, D-Bark, D-Hlb, D-Nhlb和D如下:

D-Leaf = Abs¯健康树叶- Abs¯染病树叶

D-Bark = Abs¯健康树皮- Abs¯染病树皮

D-Hlb = Abs¯染病树叶- Abs¯染病树皮

D-Nhlb = Abs¯健康树叶- Abs¯健康树皮

D=D-Leaf+D-Bark

1.4.2 校正集和预测集

有研究报道, 用极大线性无关的方法选择代表性样品作为校正集, 发现其预测效果比随机选择法更稳定、 更好。 本实验用Metlab软件求出校正集如表2, 总校正集合计740个样本, 其中树叶样本校正集395个, 树皮韧皮部样本校正集345个; 总预测集合计370个样本, 其中树叶样本预测集198个, 树皮韧皮部样本预测集172个。

表2 校正集与预测集样品数量 Table 2 The number of calibration samples and prediction samples

1.4.3 数据预处理

采用Unscrambler 10软件进行数据处理, 为了消除仪器、 环境条件、 样品背景及其他因素的影响, 尽可能减少谱图基线平移、 漂移、 高频随机噪音等现象, 分别采用归一化法(normalization)、 标准正态分布法(SNV)、 多元散射校正法(MSC)、 1阶导数法(first derivative)和2阶导数法(second derivative)对原始数据进行预处理, 再用同一种方法建模, 对比各自的模型效果。

1.4.4 模型建立与模型评价

分别采用Unscrambler 10软件中偏最小二乘回归法(PLSR)和主成分回归法(PCR)建立模型, 并通过对比模型的校正集决定系数R2、 校正均方根误差(RMSEC)、 预测集决定系数r2和预测均方根误差(RMSEP)进行模型性能评价。 R2r2越大越好, 而RMSEC和RMSEP越小越好。

2 结果与讨论
2.1 原始光谱图比较

从图3可以看出, 从树叶与树皮韧皮面采集到的光谱峰形和波峰位置的趋势相似, 峰值出现在6 900 cm-1附近和5 100 cm-1附近, 说明获取的果树样本光谱具有一定的特征性。 并且, 染病样本与健康样本的光谱图无明显差异, 无法通过肉眼进行区分。

图3 树叶和树皮的原始光谱图Fig.3 The original spectrum of leaves and barks

从图4可以看出: 一是D≈ D-Bark< D-Leaf≈ 0, 即染病树叶吸光度值与健康树叶基本相等, 而染病树皮吸光度值大于健康树皮; 二是D-Hlb< D-Nhlb, 与健康果树相比, 染病果树的树叶、 树皮吸光度差值减小。

图4 光谱差值图Fig.4 D-value of the spectrum

2.2 数据预处理

将所有树皮样本的光谱数据用5种方法进行预处理, 所得模型预测结果如表3所示: 数据经过归一化法处理后, 虽然决定系数有所降低, 但是依然保持在0.90以上, 并且均方根误差显著降低(比其他三组都要小1 000倍左右)。 综合两个指标考虑, 归一化法(normalization)处理后的模型预测能力最好, 校正集决定系数R2为0.939 0, 校正集均方根误差RMSEC为2.039 7× 10-5, 预测集决定系数r2为0.941 4, 预测集均方根误差RMSEP为1.889 0× 10-5

表3 不同预处理后建立PCR模型的预测结果 Table 3 Predictive results of PCR models with different pre-processing methods

采用归一化法进行预处理之后, 分别再用PLSR和PCR方法建立三种校正模型: 综合模型, 是基于所有树叶和树皮校正集数据建立的模型; 树叶模型, 是基于所有树叶校正集数据建立的模型; 树皮模型, 是基于所有树皮校正集数据建立的模型。 用预测集对各模型进行预测, 结果如表4所示。

表4 脐橙不同部位采集光谱建模预测结果 Table 4 Modeling using different spectra collected at different position of Navel oranges by PLSR and PCR methods

两种建模方法都表明: 用树叶光谱数据、 树皮韧皮部光谱数据、 “ 树叶+树皮” 光谱数据建立的近红外检测模型, 精度都较高(RMSEP在10-5量级)且依次下降, 而决定系数依次增加。 说明以树皮韧皮部为样本, 建立黄龙病近红外快速检测技术具有可行性, 其模型预测能力(RMSEPB=1.889 0× 10-5, rB2=0.941 5)与基于树叶样本的模型相近(RMSEPL=1.690 9× 10-5, rL2=0.939 6)。 这进一步说明, 在检测能力不受影响的情况下, 以树皮韧皮部为采样部位, 可以在病菌尚未扩散到树叶的早期阶段, 发现原本不能发现的“ 假阴性” 病树, 同时, 由于黄龙病病菌在树体分布的不均匀性, 以运输主干道的树干韧皮部为采样点, 比运输终端的树叶更具有代表性, 有利于提高阳性检出率。

3 结 论

在近红外光谱应用方面, 有机生物体的疾病诊断与单纯化合物的成分判别有本质的区别:

首先, 在标准样品的选择方面, 一份代表性的单纯化合物就可以作为标准样品, 而有机生物体以果树为例, 一棵树才是一份标准样品, 因为它的生化信息是体现在树叶、 树干、 树根等各个部位, 仅仅以树叶为样本将会丢失大量的生化信息, 而如果能综合整个生命体的生化信息, 将大大提高疾病诊断的准确率;

其次, 在模型建立方面, 有机生物体的生化信息比单纯化合物更复杂, 而且受年龄、 品种、 疾病阶段、 患病部位、 生长环境、 其他疾病等等因素影响, 大量的生化信息都能综合反映到近红外光谱中, 对于近红外数据处理与模型建立产生的挑战, 是单纯化合物所不能比拟的。

3.1 原始光谱分析

本研究初步比较了染病果树与健康果树的近红外原始光谱, 发现与健康果树相比, 染病果树的树叶、 树皮之间的吸光度差值减小。 有可能是果树染病后, 导致植株体内某些特异性组分发生定向转移(或本该转移而未转移), 导致树叶与树皮的近红外光谱发生互动性改变, 下一步, 应当以整棵果树为个体, 探索染病后的果树, 树叶、 树皮近红外光谱的综合性变化, 为柑橘黄龙病的近红外光谱诊断提供线索。

另外, 本研究也发现染病树皮的吸光度大于健康树皮, 而树叶的吸光度则未有明显变化。 推测有可能是因为黄龙病导致树体营养成分运输不畅, 树皮韧皮部的营养物质堆积, 进而导致吸光度增高。

3.2 不同采样方案的模型对比

分别用树叶光谱数据、 树皮韧皮部光谱数据、 “ 树叶+树皮” 光谱数据建立近红外检测模型并对比其精度和相关性, 模型预测结果表明:

(1) 三种模型精度都较高(RMSEP在10-5量级), 说明三种采样方式建立黄龙病近红外光谱检测模型都具有可行性, 但三种模型的相关系数偏高(r2), 存在过拟合的可能, 将会降低模型的兼容性, 需要进一步做降维处理。

(2) 树叶的组分比树皮韧皮部的组分更复杂, 但以树叶光谱数据建立的模型误差却更小, 一方面有可能是因为树叶中的黄龙病特异生化信息更丰富, 另一方面有可能是因为归一化法等数据方法足以消除非特异性组分的信息干扰。

(3) 三种采样方式所得模型精度依次降低, 而决定系数却依次升高, 这说明仅以树叶光谱数据建模, 虽然精度较好, 但数据拟合度不如树皮韧皮部光谱模型。 因此, 在实际应用中, 为提高模型的数据拟合度, 一方面可以采用常规办法, 即增加树叶样本数量, 另一方面, 当树叶样本量有限时, 或增加树叶样本量的效果不显著时, 也可以综合树皮韧皮部光谱数据。

(4) 本研究中第三种采样建模方案是参考了全局校正模型的思路, 将树叶和树皮的光谱数据放到一个校正集中建立模型, 这种全局模型效果并没有显著优于单一样本类型的模型效果, 有可能是因为树叶和树皮的基本属性不同, 不能通过全局校正的方式进行简单整合。

参考文献
[1] Luo L, Gao S, Ge Y, et al. Advances in Difference Equations, 2017, 2017(1): 355. [本文引用:1]
[2] WANG Xiao-liang, LI Xiao-nan, FENG Xiao-dong, et al(王晓亮, 李潇楠, 冯晓东, ). Plant Quarantine(植物检疫), 2016, 30: 44. [本文引用:1]
[3] LIU Yan-de, XIAO Huai-chun, SUN Xu-dong, et al(刘燕德, 肖怀春, 孙旭东, ). Transcation of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(3): 180. [本文引用:1]
[4] LIU Yan-de, XIAO Huai-chun, SUN Xu-dong, et al(刘燕德, 肖怀春, 孙旭东, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(2): 528. [本文引用:1]
[5] RAO Min, GUI Jia-xiang, LU Zhan-jun, et al(饶敏, 桂家祥, 卢占军, ). Plant Protection(植物保护), 2017, 43: 135. [本文引用:1]
[6] JIA Zhi-cheng, Reza E, ZHENG Jia-qiang, et al(贾志成, Reza E, 郑加强, ). Transcation of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33: 219. [本文引用:1]
[7] Zou X, Jiang X, Xu L, et al. Plant Molecular Biology, 2017, 93(4-5): 1. [本文引用:1]
[8] CHEN Chuan-wu, FU Hui-min, DENG Chong-ling, et al(陈传武, 付慧敏, 邓崇岭, ). Journal of Southern Agriculture(南方农业学报), 2015, 46(6): 1024. [本文引用:1]
[9] ZHAO Yuan-yuan, MING Jia-jia, HU Cheng-xiao, et al(赵园园, 明佳佳, 胡承孝, ). Hubei Agricultural Science(湖北农业科学), 2015, 9: 2049. [本文引用:1]
[10] Johnson E G, Wu J, Bright D B, et al. Plant Pathology, 2014, 63(2): 290. [本文引用:2]
[11] Ding F, Duan Y, Paul C, et al. Plos One, 2015, 10(5): e0123939. [本文引用:1]
[12] CHU Li-ping, ZHENG Zheng, DENG Xiao-ling(褚丽萍, 郑正, 邓晓玲). South China Fruits(中国南方果树), 2016, 45: 42. [本文引用:1]