近红外光谱的马铃薯环腐病SIMCA模式识别
张小燕, 杨炳南, 曹有福, 李少萍, 赵庆亮, 兴丽*
中国农业机械化科学研究院, 北京 100083
*通讯联系人 e-mail: xinglifan@163.com

作者简介: 张小燕, 女, 1986年生, 中国农业机械化科学研究院工程师 e-mail: bingxia0808@163.com

摘要

中国是马铃薯生产和消费大国, 伴随马铃薯主粮化战略推进, 马铃薯对中国农业结构和消费者饮食结构的影响与日俱增。 环腐病是制约马铃薯产业发展的常见病害, 对种薯会造成死苗死株, 对加工原料会降低加工效率和成品质量, 严重可达30%~60%。 传统检测马铃薯病害的主要方法是目测、 机器视觉以及高光谱成像等方法, 目测或机器视觉方式鉴别环腐病需要对样品进行破坏; 高光谱成像技术成本高昂, 存在一定的应用局限性。 因环腐病会造成整薯内部品质变化, 利用近红外光谱技术探测整薯内部品质变化, 从而将环腐病马铃薯从健康薯中区别开来, 具有可行性和实用价值。 创新地尝试利用近红外光谱结合SIMCA模式方法来区分马铃薯环腐病及健康薯。 研究结果表明, 基于主成分分析的SIMCA模式识别能有效判别马铃薯环腐病样品, 模型校正集中环腐病和健康薯的识别率、 拒绝率均为100%; 模型验证集中环腐病的识别率、 拒绝率分别为99.00%和100%, 健康薯的识别率、 拒绝率分别为94.12%和100%, 所建模型精度较高。 利用独立的18个样品进行模型外部验证, 环腐病样品识别率为87.50%, 健康薯识别率为80.00%, 均没有错判。 表明所建SIMCA二值识别模型效果良好, 可满足实际应用, 但模型精度需进一步提高。 马铃薯环腐病发病部位接近表皮0.5 cm左右, 近红外光谱对马铃薯样品有一定的透射和漫反射。 可考虑采集马铃薯接近表皮部分的果肉组织内部光谱信息, 结合马铃薯环腐病的发病机理及近红外漫反射光谱的特性, 利用近红外识别模型进行环腐病判别, 具有一定的创新性和应用性。

关键词: 马铃薯; 近红外光谱; SIMCA; 主成分分析
中图分类号:S435.32 文献标识码:A
SIMCA Discrimination of Ring Rot Potatoes Based on Near Infrared Spectroscopy
ZHANG Xiao-yan, YANG Bing-nan, CAO You-fu, LI Shao-ping, ZHAO Qing-liang, XING Li*
Chinese Academy of Agricultural Mechanization Sciences, Beijing 100083, China
Abstract

China is one of the world’s largest countries in potato production and consumption. In 2015, the Chinese government put forward a staple-potato development strategy aimed to change the Chinese traditional diet habit of vegetable-potato and promote potato’s status in safeguarding food security. Potato ring rot is a common disease which has restricted the development of potato industry. With the ring rot potato as the seed, it would cause unhealthy plants; with the ring rot potato as the raw materials for processing, it would cause lower efficiency and worse product quality. Visual inspection, machinevisiontechnology and hyperspectral imaging are the traditional methodsto detect potato diseases. However, it is destructive testing when visual inspection and machinevisiontechnology are used to detect ring rot potatoes; and hyperspectral imaging is at a significant cost. There are some limitations of application on these traditional methods. Internal quality changesof potatoes is caused by ring rot diseases. Near infrared spectroscopy (NIRS) could be used to reflect the quality change of the whole potato. Therefore, NIRS can be used to distinguishring rot potatoes from healthy potatoes. It’s feasible and practical to detect potato ring rot nondestructively with near infrared spectroscopy. Combined with NIRS and soft independent modeling of class analogy (SIMCA), this experiment was aimed to identify ring rot potatoes from healthy potatoes. The results showed that, SIMCA mode based on principal component analysis (PCA) was effective to identify ring rot potatoes. In calibration set, the recognition rate and rejection rate of ring rot potatoes and healthy potatoes were both 100%. In validation set, the recognition rate and rejection rate of ring rot potatoes were 99.00% and 100%. The recognition rate and rejection rate of healthy potatoes were 94.12% and 100%. For external validation, the recognition rate of ring rot potatoes and healthy potatoes were 87.50% and 80.00% respectively without misjudge. The SIMCA model was accurate in prediction and suitable to practical application, but the precision would be improved in further research. The pathogenic site of ring rot potatoes was close to epidermis for about 0.5 cm; and there was transmission and diffuse reflection when NIRS Penetrating potatoes. So that it is possible to collect the NIRS information of potato tuber flesh near to potato epidermis. Combined with pathogenic mechanism of potato ring rot disease and characteristics of near-infrared diffuse reflectance spectra, it is innovative and practical to use NIRS to distinguish ring rot potatoes from healthy potatoes.

Key words: Potato; Near infrared spectroscopy; SIMCA; Principal component analysis
引言

马铃薯是中国主要大宗农产品之一, 营养丰富、 粮菜兼用, 不仅在居民日常饮食消费中占有重要地位, 更在新时期农业结构调整和农民持续增收中有着重要作用[1]。 据世界粮农组织统计, 2014年中国马铃薯种植面积为5 647.22千公顷, 年产量为9 557.04万吨, 均位居世界第一。 2015年, 农业部出资1亿元力推马铃薯主食化战略, 目标是把马铃薯的种植面积扩大到1.5亿亩, 预计到2020年将实现50%以上的马铃薯作为主粮消费[2, 3]。 伴随马铃薯主粮化战略的稳步前行和农业供给侧结构性改革的推进, 马铃薯病害成为制约马铃薯产业发展的一大难题。 马铃薯环腐病是一种细菌性维管束病害, 可引起地上部分茎叶萎蔫, 地下块茎发生环状腐烂。 马铃薯受环腐病菌侵害后, 作为种薯会造成死苗死株, 作为加工原料会降低加工效率和成品质量, 严重可达30%~60%[4, 5, 6]。 患病马铃薯从薯皮外观不易区分, 病薯仅脐部皱缩凹陷变褐色, 薯块横切面的维管束环变黄褐色。 传统检测马铃薯病害的主要方法是目测、 机器视觉以及高光谱成像等方法。 因环腐病是内部维管束环变色引起的病害, 目测或机器视觉需要对样品进行破坏; 高光谱成像技术融合了传统的成像和光谱技术的优点, 可以同时获取被检测物体的空间信息和光谱信息, 既可以像检测物体的外部品质, 又可以检测物体的内部品质和安全, 但设备昂贵、 成本很高。 马铃薯原料健康关乎马铃薯产业稳健发展, 亟需开发马铃薯病害的无损且性价比较优的检测方法。

近红外光谱波长范围780~2 526 nm, 在烟草、 药材、 饲料、 农畜产品等原料的品质分析、 产地溯源、 无损在线检测、 掺假辨别等方面取得了广泛的应用[7]。 在马铃薯品质检测方面, 主要涉及块茎的营养理化品质指标, 如水分、 淀粉、 还原糖、 蛋白质等速测[8]。 马铃薯病害检测方面有关报道较少, 主要涉及近红外荧光光谱、 拉曼光谱、 高光谱成像技术识别马铃薯环腐病、 黑心病、 内部空洞等[9, 10]。 目前有利用近红外光谱分析马铃薯环腐病感染程度等级及原始光谱消噪[11, 12], 在环腐病的近红外无损定性判别方面暂无报道。

近红外光谱反映C— H, C=O, N— H和O— H等基团振动的倍频和合频吸收。 马铃薯块茎受环腐病侵害后内部品质会发生较大变化, 在不同组分的近红外光谱吸光度上会与健康薯有所差别, 且发病部位靠近表皮0.5 cm左右, 可采用漫反射光谱, 利用近红外技术无损识别马铃薯环腐病具有可行性。 本试验收集健康薯和环腐病马铃薯的近红外漫反射光谱, 利用基于主成分分析的簇类独立软模式法(SIMCA)[13]进行识别, 以期为马铃薯环腐病无损识别提供高效、 准确和快捷的分析方法。

1 实验部分
1.1 材料

试验材料为由中国农业科学院马铃薯种植基地提供的国内常见栽培品种。 共收集马铃薯环腐病样品50份, 健康马铃薯样品51份, 病、 健薯剖面分别如图1所示。 样品到达试验室后进行统一编号, 洗净晾干, 以备近红外光谱扫描。

图1 健康薯及环腐病马铃薯剖面图Fig.1 Cross-section profiles of healthy and ring rot potatoes

1.2 光谱采集

试验用德国布鲁克公司的MPA傅里叶变换型近红外光谱仪, 应用近红外专用积分球(内径10 cm, 采样光斑1.5 cm)及PbS检测器采集样品近红外漫反射光谱, 扫描波长范围为12 500~4 000 cm-1, 分辨率为8 cm-1, 扫描次数为64次, 置马铃薯块茎于积分球上方, 最大限度覆盖采样光斑, 于样品外围加一金属盖避免光线溢出。 分别沿横径、 纵径方向扫描取平均光谱, 即每个样品分别收集横向和纵向共2条原始光谱。 采用Matlab R2014b及OPUS 7.2软件进行光谱处理与模型分析。

1.3 数据分析

1.3.1 光谱预处理

近红外原始光谱除含有样品信息外, 还有噪声、 基线漂移等干扰因素, 为提高模型的稳健性和适用能力, 最大限度增强有效光谱信号、 过滤噪声信息, 降低模型复杂度, 需对原始光谱进行二次加工[14]。 采用SG平滑、 归一化、 导数、 多元散射校正等多种光谱预处理方法, 以期消除或减弱噪声, 增强不同类别马铃薯样品之间的光谱差异, 提高后续环腐病判别分析的精度和适用能力。

1.3.2 模型建立与评价

采用簇类独立软模式法(SIMCA)对马铃薯近红外光谱进行模型构建。 SIMCA识别模式法是一种二值判定方法, 主要分为两步: (1)对每一类光谱数据矩阵进行主成分分析; (2)计算各类类间的马氏距离建立判别模型, 依据该模型对未知样品光谱进行分类以确定相应类别。 模型效果用识别率和拒绝率来表征, 其中, 识别率是指某类样品有多少落在该类模型的区域内, 而拒绝率是指某类样品模型对于不属于该类的未知样品的拒绝程度[15], 二者公式分别如下

识别率=识别本类样本个数该类样本总数×100%(1)

绝率=拒绝其他类样本个数其他类样本总数×100%(2)

2 结果与讨论
2.1 基础数据分析

共采集了环腐病马铃薯样品100条光谱(类别标识为Class1)、 健康薯样品102条光谱(类别标识为Class2), 采用活动百叶窗法选取30%的光谱作为验证集, 剩余70%作为校正集, 两个类别的近红外光谱谱形相似且吸收峰位置一致, 如图2所示。

图2 健康薯及环腐病马铃薯近红外吸收光谱图Fig.2 Near-infrared absorption spectra of healthy and ring rot potatoes

由于马铃薯样品水分含量约80 g/100 g, 近红外光谱最明显的谱峰反映马铃薯中水分含量。 在10 400和6 900 cm-1处有较强的吸收峰, 代表马铃薯水分的O— H键伸缩振动的倍频吸收带; 在8 300和5 100 cm-1处也有较强的吸收峰, 代表马铃薯水分的O— H键合频吸收。 此外在4 000 cm-1处也有较明显的吸收峰, 反映淀粉或糖类C— H伸缩、 C— C和C— O— C伸缩振动的组合频; 在5 700~5 850 cm-1处有较小的肽基吸收谱带, 反映马铃薯蛋白质中的相应官能团伸缩振动。 原始光谱表明, 水分、 淀粉、 糖类和蛋白质是马铃薯的主要组成成分, 环腐病样品光谱与健康薯样品光谱在这些成分的吸收峰处有差异, 但差异不是特别明显, 仍需对全波段的光谱进行预处理, 以便减少噪声、 放大样品不同类别间的光谱差异性。

2.2 光谱预处理方法选择

光谱扫描过程中受环境影响产生的噪声会掩盖有用光谱信息, 削弱后期SIMCA建模效果。 Savitzky-Golay卷积平滑法(S-G平滑)是滤除噪声最常用的方法。 另外, 光谱中含有与目标属性具有明显相关性的吸收峰、 阶跃等细节, 这些细节在马铃薯样品原始光谱中表现并不突出, 需要进行光谱特征增强; 常用方法有一阶或二阶导数法、 多元散射校正(MSC)、 标准正态变量变换(SNV)等。 通过对不同预处理方法进行组合筛选, 最终选择S-G平滑+一阶导数法对全波段光谱进行预处理, 处理后的光谱如图3所示。 CLASS 1与CLASS 2的光谱在峰高、 峰谷及光谱变化趋势上都呈现出明显差异, 说明可用基于S-G平滑+一阶导数法预处理后的光谱进行马铃薯环腐病的模式识别和分类。

图3 S-G平滑+一阶导数后的光谱图Fig.3 Spectra after S-G smoothing and first-order derivative preprocessing

2.3 样品主成分分析

近红外光谱SIMCA模式识别基于样品主成分分析结果。 采用活动百叶窗法将环腐病和健康薯样品划分为校正集和验证集。 主成分分析结果见表1, 从方差贡献率确定品质评价因素的选择个数, 当主成分因子个数=4时, 方差贡献率增幅很小, 仅为2.01%, 而累计方差贡献率已经达到了98.58%, 基本涵盖了马铃薯样品原始光谱的全部信息, 因此本试验选取前4个相互独立的主成分因子(PC1~PC4)进行分析。

表1 评价因子的特征值和累计贡献率 Table 1 The characteristic value and accumulative total contribution of evaluation factors

对两类样品进行Q残差分析及霍特林T2检验, 分析样品的分散差异以及对主成分模型的贡献程度, 如图4所示。 Q统计量表示每个样本对模型的失拟程度(lack of fit), 是样本与模型载荷因子之间差值的度量; 霍特林T2统计量是每一个观测量与数据样本中心的距离的统计度量, 用以检验每个主成分因子的稳定性。 图4显示, CLASS 1和CLASS 2共202个样本点分布均匀, 离散点较少, 不存在某类样本聚集在一处的现象, 表明两类样本相互独立, 样本分散程度高。 其中Q统计量为1.42%, 在95%的置信水平上失拟不显著, 表明主成分模拟效果显著, 可以很好地分析以后的数据。 霍特林T2检验结果为98.58%, 在95%的置信水平上显著, 表明所建立的主成分模型水平稳定, 效果良好。

图4 Q残差分析及霍特林T2检验结果Fig.4 Q residuals reduced analysis and Hotelling T2 reduced testing

图5为马铃薯环腐病样品和健康薯样品原料的主成分分析图, 从样品的4个主成分两两空间得分图可见, 两种类别的马铃薯样品在第一、 第二主成分得分图(PC1∩ PC2)上存在很大差异, 而PC1∩ PC3, PC1∩ PC4, PC2∩ PC3, PC2∩ PC4, PC3∩ PC4未见明显差异。 PC1∩ PC2图可直观看出, 相同类别的样本点聚集在一起, 不同类别的样本点相互远离, 表明二者原始光谱在空间距离上相距较远, 只有少部分信息重叠, 且PC1和PC2累计方差贡献率高达93.88%, 代表了原始光谱大部分信息, 即二者的品质可用近红外光谱主成分分析进行判别, 可在此基础上应用SIMCA识别模式进一步提高精度和判别效率。

图5 环腐病及健康马铃薯样品的主成分分析Fig.5 Principal Component Analysis of healthy and ring rot potatoes

2.4 SIMCA模式识别

利用Matlab R2014b软件对CLASS 1+CLASS 2样本进行SIMCA模式识别, 校正集样品用来建立混合的SIMCA识别模式, 验证集用以检验模式识别的可靠性, 结果见图6。 校正集所有样品均能被准确识别, 验证集样品中, CLASS 1中有1个样品未能被识别, CLASS 2中有6个样品未能被识别; 两个样品集中均不存在错判。

图6 环腐病及健康马铃薯样品的SIMCA分析图Fig.6 The discriminant diagram of healthy and ring rot potatoes by SIMCA

具体SIMCA模型结果见表2。 选定前4个主成分, 校正集中, 环腐病和健康薯的识别率、 拒绝率均为100%, 表明所建模型精度很高, 校正集内所有样品均能被有效识别, 且不同类别之间的样品会被其他类拒绝; 验证集中, 环腐病的识别率、 拒绝率分别为99.00%和100%, 健康薯的识别率、 拒绝率分别为94.12%和100%, 表明模型识别自身样品的能力较强, 仅有少数样品不被正确识别, 模型拒绝其他类样品的能力很强, 所有验证样本均不存在错判。 分析部分样品不被识别的原因主要有两点: 第一, 中国马铃薯品种繁多, 不同马铃薯品质存在差异, 如部分马铃薯品种(如淀粉加工专用品种)某些营养理化指标特征值异于普通品种, 造成与当前类别距离较远; 第二, 马铃薯受环腐病侵染初期, 品质指标改变不明显, 与当前类间距较大, 因而不被识别。

表2 环腐病及健康马铃薯样品的SIMCA分析结果 Table 2 The discriminant results of healthy and ring rot potatoes by SIMCA
2.4 模型外部验证

为进一步检验所建模型的精度和稳定性, 试验收集独立的18个马铃薯样品, 含8个环腐病马铃薯样品、 10个健康薯马铃薯样品, 编号为1~18。 用同样的方法采集样品原始光谱, 如图7所示。 对光谱进行SG平滑+一阶导数预处理, 代入建立的SIMCA判别模型进行识别, 识别效果如图8所示。 环腐病样品有1个未被识别(编号8), 识别率为87.50%, 没有错判, 拒绝率为100%; 健康薯样品有2个未被识别(编号14、 17), 识别率为80.00%, 没有错判, 拒绝率为100%。 表明所建模型预测能力良好, 可满足实际应用需求, 但精度仍需进一步提高。 后期可通过进一步加大建模样品数量或是增加变量数来提高精度、 增强稳定性。

图7 外部验证样品近红外光谱图Fig.7 Near-infrared absorption spectra of samples for external validation

图8 外部验证样品SIMCA预测效果图Fig.8 SIMCA predication effect of samples for external validation

3 结 论

环腐病是一种常见的马铃薯病害, 会对马铃薯育种和加工造成严重损失。 为对马铃薯环腐病进行无损识别, 试验收集国内常见栽培的马铃薯环腐病和健康薯样品, 采集近红外光谱并进行主成分分析, 在此基础上建立SIMCA判别模型。 校正集中, 环腐病和健康薯的识别率、 拒绝率均为100%; 模型验证集中, 环腐病的识别率、 拒绝率分别为99.00%和100%, 健康薯的识别率、 拒绝率分别为94.12%和100%, 所建模型精度较高。 利用独立的18个样品进行模型外部验证, 环腐病样品识别率为87.50%, 健康薯识别率为80.00%, 均没有错判。 表明所建SIMCA二值识别模型效果良好, 可满足实际应用, 但模型精度需进一步提高。

为进一步提高模型的精度和稳定性, 更好地满足实际应用需求, 今后将从以下几个方面深入研究:

(1)扩大SIMCA建模样品量和更大的样品赋值区间, 可涵盖环腐病样品初期、 中期、 末期等不同程度样品, 并涉及更多马铃薯品种, 提升模型代表性、 适应性、 鲁棒性。

(2)研究马铃薯环腐病的发病机理, 监测染病马铃薯内部品质变化的动态过程, 确定引起马铃薯品质变化的主要指标, 从而在光谱分析方便选择特定指标的特征波段进行SIMCA识别, 进一步提高模型精度。

(3)尝试马铃薯其他病害与环腐病的相关性研究, 例如软腐病、 干腐病、 黑心病等, 进一步研究环腐病光谱的指纹特征, 避免相似病变的错判。

The authors have declared that no competing interests exist.

参考文献
[1] XU Hai-quan, SUN Jun-mao, WANG Xiao-hu, et al(徐海泉, 孙君茂, 王小虎, ). Food and Nutrition in China(中国食物与营养), 2016, 22(5): 13. [本文引用:1]
[2] LU Xiao-ping(卢肖平). Journal of Huazhong Agricultural University·Social Sciences Edition(华中农业大学学报·社会科学版), 2015, (3): 1. [本文引用:1]
[3] YANG Ya-lun, GUO Yan-zhi, SUN Jun-mao(杨雅伦, 郭燕枝, 孙君茂). Journal of Agricultural Science and Technology(中国农业科技导报), 2017, 19(1): 29. [本文引用:1]
[4] Mcm P. Plant Pathology, 2015, 51(1): 1. [本文引用:1]
[5] CHEN Yun, YUE Xin-li, WANG Yu-chun(陈云, 岳新丽, 王玉春). Journal of Shanxi Agricultural Sciences(山西农业科学), 2010, 38(7): 140. [本文引用:1]
[6] Gamard P, Boer S H D. European Journal of Plant Pathology, 1995, 101(5): 519. [本文引用:1]
[7] Qu J H, Liu D, Cheng J H, et al. Critical Reviews in Food Science & Nutrition, 2015, 55(13): 1939. [本文引用:1]
[8] ZHANG Xiao-yan, YANG Bing-nan, LIU Wei, et al(张小燕, 杨炳南, 刘威, ). Food Science(食品科学), 2013, 34(2): 165. [本文引用:1]
[9] ZHOU Zhu, LI Xiao-yu, GAO Hai-long, et al(周竹, 李小昱, 高海龙, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2012, 28(11): 237. [本文引用:1]
[10] SU Wen-hao, HE Jian-guo, LIU Gui-shan, et al(苏文浩, 何建国, 刘贵珊, ). Food and Machinery(食品与机械), 2013, (5): 127. [本文引用:1]
[11] Howard R J, Harding M W, Daniels G C, et al. Canadian Journal of Plant Pathology, 2015, 37(3): 273. [本文引用:1]
[12] XINASHUNCHAOKETU, YU Zhi-hong, ZHANG Bao-chao, et al(席那顺朝克图, 郁志宏, 张宝超, ). Mechanization Rural & Pastoral Areas(农村牧区机械化), 2013, (3): 19. [本文引用:1]
[13] Brand en K V, Hubert M. Chemometrics & Intelligent Laboratory Systems, 2005, 79(1-2): 10. [本文引用:1]
[14] Sgarbossa A, Costa C, Menesatti P, et al. Renewable Energy, 2015, 76: 258. [本文引用:1]