高光谱数据对损伤长枣的检测判别
袁瑞瑞1, 王兵2, 刘贵珊1,*, 何建国1, 万国玲1, 樊奈昀1, 李月1, 孙有瑞1
1.宁夏大学食品与葡萄酒学院, 宁夏 银川 750021
2.宁夏大学物理与电子电气工程学院, 宁夏 银川 750021
*通讯作者 e-mail: liugs@nxu.edu.cn

作者简介: 袁瑞瑞, 1994年生, 宁夏大学食品与葡萄酒学院硕士研究生 e-mail: ruiruiyuan123@163.com;王 兵, 1997年生, 宁夏大学物理与电子电气工程学院硕士研究生 e-mail: wb731618660@163.com;袁瑞瑞, 王 兵: 并列第一作者

摘要

灵武长枣作为宁夏优势特色枣果, 具有重要的经济社会价值和科学研究意义。 利用可见近红外(Vis/NIR)高光谱成像系统采集60颗完整长枣光谱图像, 然后利用损伤装置对60颗完整长枣进行损伤实验, 最终得到60颗损伤(内部瘀伤)长枣, 高光谱成像系统采集损伤后五个时间段(损伤后2, 4, 8, 12和24 h)长枣的光谱图像。 对采集的长枣光谱图像用ENVI软件提取感兴趣(ROI)区域, 并计算完整长枣和每个时间段长枣的平均光谱值。 原始光谱利用Savitzky-Golay平滑的一阶导数(SG-1)和二阶导数(SG-2)、 标准正态变换(SNV)和去趋势(Detrending)、 以及SNV-SG-1、 SNV-SG-2、 Detrending-SG-1、 Detrending-SG-2算法进行预处理, 原始光谱和预处理光谱建立偏最小二乘判别分析(PLS-DA)分类模型。 选择最优的预处理光谱数据, 利用连续投影算法(SPA)、 间隔随机蛙跳(IRF)、 无信息消除变量(UVE)、 变量组合集群分析法(VCPA)、 区间变量迭代空间收缩法(IVISSA)和IRF-SPA、 UVE-SPA、 IVISSA-SPA等算法进行特征变量选择, 对选择的特征变量建立PLS-DA、 线性判别分析(LDA)和支持向量机(SVM)分类判别模型。 结果表明, 在原始光谱建立的PLS-DA模型中, 模型校正集和预测集准确率分别为82.96%和90%。 光谱经过预处理后得到SNV-SG-2-PLS-DA为最优分类判别模型, 模型校正集和预测集准确率分别为91.11%和96.67%。 在特征变量建立的分类模型中, SNV-SG-2-UVE-PLS-DA模型校正集和预测集准确率分别为86.3%和94.44%; SNV-SG-2-SPA-LDA模型校正集和预测集准确率分别为86.3%和83.33%; SNV-SG-2-UVE-SVM模型校正集和预测集准确率分别为77.78%和71.11%。 对于分类模型来说线性分类模型(PLS-DA、 LDA)分类结果优于非线性分类模型(SVM)分类结果, 在线性分类模型结果中PLS-DA优于LDA分类结果, PLS-DA可以更好的提供分类效果。 研究表明, 利用高光谱结合偏最小二乘判别分析分类模型, 可以有效的实现灵武长枣损伤后随时间变化的快速检测, 为灵武长枣在线检测提供理论依据。

关键词: 灵武长枣; 高光谱; 偏最小二乘判别分析; 线性判别分析; 支持向量机
中图分类号:TS255 文献标志码:A
Study on the Detection and Discrimination of Damaged Jujube Based on Hyperspectral Data
YUAN Rui-rui1, WANG Bing2, LIU Gui-shan1,*, HE Jian-guo1, WAN Guo-ling1, FAN Nai-yun1, LI Yue1, SUN You-rui1
1. School of Food & Wine, Ningxia University, Yinchuan 750021, China
2. School of Physics and Electronic-Electrical Engineering, Ningxia University, Yinchuan 750021, China
*Corresponding author

YUAN Rui-rui and WANG Bing: joint first authors

Abstract

Lingwu long jujube as Ningxia dominant characteristic jujube fruit. It has important economic and social value and scientific research significance. This paper has been lingwu long jujube as the research object. First, 60 intact jujubes images were collected Visible/near-infrared (Vis/NIR) using the hyperspectral imaging system. Damage tests were performed on 60 intact jujubes using the damaged device, and 60 damaged (internal bruising) jujube were obtained. The hyperspectral imaging system was used to collect the five time periods after damage (2, 4, 8, 12 and 24 h after damage) jujube spectral image. Region of interest (ROI) was extracted with ENVI software for the collected hyperspectral images of long jujube, and the average spectral value of intact long jujube and each time period long jujube were calculated. Then, the raw spectral data used Savitzky-golay smooth first derivatives (SG-1) and second derivatives (SG-2), standard normal variate (SNV) and de-trending, and the combined algorithms of SNV-SG-1, SNV-SG-2, de-trending-SG-1 and de-trending-SG-2 were pre-processed. The partial least squares-discriminant analysis (PLS-DA) classification model was established for the original spectrum and the pretreated spectrum. Finally, the optimal pre-processing spectral data were selected, and successive projection algorithm (SPA), interval random frog (IRF), uninformative variable elimination (UVE), variable combination population analysis (VCPA), interval variable iterative space shrinkage approach (IVISSA), IRF-SPA, UVE-SPA and IVISSA-SPA were used to select characteristic variables. The PLS-DA, linear discriminant analysis (LDA) and support vector machine (SVM) classification discriminant models were established for the selected feature variables. The results show that in the PLS-DA model based on the original spectral data, the accuracy of model calibration set and prediction set was 82.96% and 90%, respectively. After spectrum pretreatment, the SNV-SG-2-PLS-DA was obtained as the optimal classification discriminant model, and the accuracy of model calibration set and prediction set was 91.11% and 96.67%, respectively. In the classification model established by feature variables, the accuracy of the SNV-SG-2-UVE-PLS-DA model calibration set and prediction set were 86.3% and 94.44%, respectively. The accuracy of the SNV-SG-2-SPA-LDA model calibration set and prediction set were 86.3% and 83.33%, respectively. The accuracy of the SNV-SG-2-UVE-SVM model calibration set and prediction set were 77.78 and 71.11%, respectively. For the classification model, the classification results of the linear classification model (PLS-DA, LDA) were superior to those of the nonlinear classification model (SVM). The results of the linear classification model, PLS-DA was superior to LDA classification results, and PLS-DA could provide a better classification effect. The results show that the hyperspectral combined with the partial least squares-discriminant analysis model could effectively realize the rapid detection of the damage of lingwu long jujube of the change of time, providing a theoretical basis for the online detection of lingwu long jujube.

Keyword: Lingwu long jujube; Hyperspectral; Partial least squares-discriminant analysis; Linear discriminant analysis; Support vector machine
引言

枣(Zizyphus jujuba Miller)在中国已有4 000多年的历史, 它主要分布在亚洲的亚热带和热带地区, 已有三千多年的耕种历史。 “ 灵武长枣” (Lingwu long jujube)是宁夏重要的经济林木之一, 并且由于其巨大的生态、 社会和经济效益, 也是宁夏农业的主要组成部分[1, 2], 但是灵武长枣在采收、 运输等过程中容易受到损伤, 并且损伤后不容易被观察到降低商品价值严重影响经济收益[3]。 因此, 亟需一种无损检测技术快速有效地检测灵武长枣的内部损伤。

近年来, 高光谱成像系统作为一种快速无损、 准确度高且具有高灵敏度的检测系统, 被用于苹果[4]、 梨[5]、 猕猴桃[6]、 草莓[7]、 蓝莓[8]、 桃子[9]等的瘀伤检测。 Zhang[10]等利用高光谱成像系统结合AdaBoost算法对完整苹果和损伤后5个时间段(损伤后1 min、 1天、 2天、 3天、 4天)的苹果进行了分类, 结果表明, 经MSC(multiplicative scatter correction)和CFS(correlation-based feature selection)预处理后, 所选波长建立的模型平均精度为97.63%。 Fan[11]等利用最佳波长结合近红外高光谱反射成像系统对蓝莓内部瘀伤随时间的变化进行了检测研究, 结果表明, 蓝莓在撞击后30 min、 2 h、 6 h和12 h的波段比值图像建模分类精度分别为77.5%, 83.8%, 92.5%和95.0%, 以及CARS-LS-SVM(competitive adaptive reweighted sampling-least squares-support vector machine)模型的验证集中健康和瘀伤蓝莓准确率分别为93.3%和95.9%。 Lee[5]等利用高光谱图像对梨的物理损伤进行了检测研究, 结果表明, 利用最佳阈值波段比检测结果的准确率为92%。 灵武长枣外部缺陷检测已有相关研究, 但是对于灵武长枣内部损伤检测鲜有报道。

故以灵武长枣为研究对象, 对完整长枣和损伤后五个时间段(损伤后2, 4, 8, 12和24 h)长枣进行分类判别。 利用高光谱成像系统获得高光谱图像, 利用ENVI软件提取感兴趣(region of interest, ROI)区域, 并计算平均光谱值。 对原始光谱利用Savitzky-Golay平滑的一阶导数(first derivatives, SG-1)和二阶导数(second derivatives, SG-2)、 标准正态变换(standard normal variate, SNV)和去趋势(Detrending)、 以及SNV-SG-1、 SNV-SG-2、 Detrending-SG-1、 Detrending-SG-2组合预处理, 并建立PLS-DA分类模型; 优选最优预处理算法得到的光谱数据, 利用连续投影算法(successie projection algorithm, SPA)、 间隔随机蛙跳(interval random frog, IRF)、 无信息消除变量(uninformative variable elimination, UVE)、 变量组合集群分析法(variable combination population analysis, VCPA)、 区间变量迭代空间收缩法(interval variable iterative space shrinkage approach, IVISSA)五种算法和IRF-SPA、 UVE-SPA、 IVISSA-SPA三种组合算法进行特征变量选择, 特征变量建立偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)、 线性判别分析(linear discriminant analysis, LDA)和支持向量机(support vector machine, SVM)分类判别模型。 为损伤灵武长枣在线检测提供理论依据。

1 实验部分
1.1 样品采集

从宁夏灵武某果园手工采摘大小颜色一致、 完好无损伤的灵武长枣, 放入保鲜袋中当天运回实验室, 选取60个灵武长枣贮藏在(0± 2) ℃的冰箱备用。

1.2 损伤实验

采用如图1所示的损伤装置获得损伤灵武长枣, 该装置由试验台、 固定支架、 活动摆臂、 曲率半径为8 mm且重量为22 g的实心铁半球组成。 实验过程中摆臂与固定支架夹角为57° , 每次铁半球冲击长枣赤道位置。 一共60颗灵武长枣, 每颗枣冲击一次, 共得到60颗损伤枣。

图1 灵武长枣损伤装置Fig.1 Damage experimental device of Lingwu long jujube

1.3 仪器

Vis/NIR高光谱成像系统, 波长为400~1 000 nm, 该系统主要由高光谱成像仪, CCD相机, 4个150 W的光纤卤素灯, 电控移动平台, 计算机和光谱数据处理等系统构成。 由于高光谱成像系统中噪音的影响, 需要对获得的光谱图像按式(1)进行校正[12]

R(%)=IR-IDIW-ID×100(1)

式(1)中: R是黑白校正后的灵武长枣图像; IR是灵武长枣原始光谱图像; ID是黑板图像; IW是白板图像。

1.4 高光谱数据获取

高光谱成像系统在采集样品图像前需要开机预热30 min[13]。 首先采集60颗未损伤长枣的图像, 接着利用损伤装置获得损伤长枣, 采集损伤后2, 4, 8, 12和24 h长枣的光谱图像, 最后一共得到360幅长枣的高光谱图像。 利用ENVI软件获得感兴趣区域, 计算得到完整枣和损伤后不同时间段长枣的平均光谱值。

1.5 数据处理及分析软件

原始光谱曲线有噪音和无用信息的干扰, 所以利用SG-1和SG-2, SNV和Detrending以及SNV-SG-1, SNV-SG-2, Detrending-SG-1, Detrending-SG-2等预处理算法对原始光谱进行预处理, 提高建模效果。 为了减少全波段光谱数据的冗余, 降低维数, 去除无关信息, 提取有效信息, 建立一种低维的数据模型, 所以利用SPA, IRF, UVE, VCPA和IVISSA五种算法和IRF-SPA, UVE-SPA和IVISSA-SPA三种组合算法进行特征变量的选择。 PLS-DA分类模型是基于PLS回归计算, 全面考虑了每个变量的信息, 从而能够高效准确的鉴别。 LDA是一种有监督的基于子空间的模式识别方法, 该算法能够使原始样本经过线性变换后的信息更有利于分类。 SVM是一种可以分类、 模式识别、 拟合的监督学习模型。 对于原始光谱、 预处理光谱和选择的特征变量建立PLS-DA, LDA和SVM分类模型。 光谱预处理、 LDA和SVM在Unscramble X 10.4程序中进行, PLS-DA和特征变量选择在MATLAB R 2014a中进行, 利用Origin 2017软件做图。

2 结果与讨论
2.1 光谱分析

图2(a)为全部样本的曲线图, 图2(b)为完整长枣和损伤后不同时间段长枣的平均光谱曲线; 由图中可以看出, 6条曲线具有相同的变化趋势, 波峰波谷主要分布在500, 645, 675, 900和970 nm附近。 675 nm波段附近的吸收峰是由于样本中C— H伸缩振动引起[14]。 900~1 000 nm之间的吸收峰主要是由于样品内部水分的吸收引起, 该波段内存在水的O— H基团的二倍频特征吸收峰[15]

图2 灵武长枣光谱曲线
(a): 全部样本曲线; (b): 平均光谱曲线
Fig.2 Spectra of Lingwu long jujubes
(a): Original spectra of all samples; (b): Average spectral curves

2.2 原始光谱与预处理光谱分类结果分析

原始光谱利用SG-1, SG-2, SNV和Detrending等算法以及不同预处理算法之间相互结合进行预处理, 建立PLS-DA分类模型, 结果如表1所示, 所有模型的校正集和预测集准确率分别在82.96%~91.11%和90%~96.67%之间。 利用不同预处理算法对原始光谱进行预处理都能提高模型分类效果, 分析得到SNV-SG-2-PLS-DA为最优分类模型, 该模型校正集和预测集分类准确率分别为91.11%和96.67%。

表1 原始光谱和预处理光谱的PLS-DA分类结果 Table 1 Classification results of PLS-DA of the original and pre-treated spectra
2.3 特征变量选择

利用SPA, IRF, UVE, VCPA, IVISSA, IRF-SPA, UVE-SPA和IVISSA-SPA等特征波长选择算法选择SNV-SG-2光谱数据的特征变量, 8种算法选择的特征变量如表2所示, 特征变量位置如图3所示。 SPA算法共得到23个特征变量, 占总波长的18.4%。 IRF算法选择特征变量, 得到121个间隔中排名前10的间隔如表3所示, 通过计算排名组合间隔RMSECV值最小, 得到RMSECV最小为第68个间隔, 通过计算共得到108个波长。 图4为UVE算法选择特征变量过程, 虚线内的为无用的变量被剔除, 虚线以外对应的波长被选择, 共得到68个波长, 占总波长的54.4%。 VCPA算法选择特征变量, 共得到13个波长, 占总波长的10.4%。 IVISSA算法选择特征变量, 共得到65个波长, 占总波长的52%。 IRF-SPA, UVE-SPA和IVISSA-SPA算法选择特征变量, 分别得到17, 19和15个波长, 分别占总波长的13.6%, 15.2%和12%。

表2 不同算法选择的特征波长 Table 2 Characteristic wavelengths selected by different algorithms

图3 不同特征波长选择算法选择的波长Fig.3 Wavelengths selected by different feature wavelength selection algorithms

表3 IRF算法选择特征变量排名前10的波长间隔 Table 3 The top 10 intervals of feature variables selected by IRF

图4 UVE算法选择特征变量稳定性分布曲线Fig.4 Stability distribution curve of characteristic variables selected by UVE algorithm

2.4 基于特征变量的模型建立

特征变量建立的分类判别模型结果如表4所示。 在PLS-DA模型的分类结果中, 8种特征变量选择算法选择的特征变量建立的模型校正集和预测集准确率分别在72.96%~86.30%和74.44%~94.44%之间。 在LDA模型中需要变量数少于每个等级的样本数才能用于建模, 所以利用SPA, VCPA, IRF-SPA, UVE-SPA和IVISSA-SPA等5种算法选择的特征变量建立了LDA分类模型, 模型校正集和预测集准确率分别在71.85%~86.3%和64.44%~83.33%之间。 在SVM模型的分类结果中, 8种算法选择的特征变量建立的模型校正集和预测集准确率分别在41.49%~77.78%和34.44%~72.22%之间。 在建立的PLS-DA模型中, SNV-SG-2-UVE-PLS-DA模型效果最好, 变量数为68个, 占总变量的54.4%, 模型校正集和预测集准确率分别为86.3%和94.44%。 在建立的LDA模型中, SNV-SG-2-SPA-LDA模型效果最好, SPA选择了23个特征变量, 占总变量的18.4%, 模型校正集和预测集准确率分别为86.3%和83.33%。 在SNV-SG-2-UVE-SVM模型中, UVE选择的变量数为68个, 模型校正集和预测集准确率分别为77.78%和71.11%。 通过分析, 线性判别模型(PLS-DA、 LDA)的结果优于非线性判别模型(SVM), 在线性判别模型中PLS-DA模型分类结果优于LDA模型的分类结果。

表4 基于特征变量的分类结果 Table 4 The classification results based on characteristic wavelength
3 结论

高光谱成像作为一种快速无损的检测方法被广泛应用。 利用高光谱成像系统获得完整长枣和损伤后不同时间段(损伤后2, 4, 8, 12和24 h)长枣的光谱图像, 提取感兴趣区域, 计算平均光谱值, 建立原始光谱和预处理光谱数据的PLS-DA分类模型, 选择SNV-SG-2光谱数据的特征变量建立线性(PLS-DA, LDA)和非线性(SVM)分类判别模型, 并对模型进行比较。 在原始光谱数据建模中, 模型校正集和预测集准确率分别为82.96%和90%。 光谱经过预处理后得到SNV-SG-2-PLS-DA为最优分类判别模型, 模型校正集和预测集准确率分别为91.11%和96.67%, 预处理可以有效提高模型的分类准确率。 在特征变量建立的分类模型中, SNV-SG-2-UVE-PLS-DA模型校正集和预测集准确率分别为86.3%和94.44%; SNV-SG-2-SPA-LDA模型校正集和预测集准确率分别为86.3%和83.33%; SNV-SG-2-UVE-SVM模型校正集和预测集准确率分别为77.78%和71.11%。 对于特征变量选择算法来说, 有的可以提高建模准确率, 有的虽然减少了变量数, 但是使得建模效果降低, 不利于判别分类。 对于建立的分类模型来说, 线性分类模型(PLS-DA, LDA)分类结果优于非线性分类模型(SVM)分类结果, 在线性分类模型分类结果中PLS-DA模型分类结果优于LDA模型分类结果, 因此, PLS-DA分类模型可以更好的为损伤灵武长枣在线检测提供分类效果。

参考文献
[1] Jiang W Q, Chen L H, Han Y R, et al. Scientia Horticulturae, 2020, 274: 109667. [本文引用:1]
[2] Song L H, Cao B. Acta Horticulturae, 2016, 1116: 89. [本文引用:1]
[3] Wang Y T, Dai Y P, Xue J R, et al. EURASIP Journal on Image and Video Processing, 2017, 2017: 34. [本文引用:1]
[4] Keresztes J C, Goodarzi M, Saeys W. Food Control, 2016, 66: 215. [本文引用:1]
[5] Lee W, Kim M S, Lee H, et al. Journal of Food Engineering, 2014, 130: 1. [本文引用:2]
[6] CHI Qian, WANG Zhuan-wei, YANG Ting-ting, et al(迟茜, 王转卫, 杨婷婷, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2015, 46(3): 235. [本文引用:1]
[7] Siedliska A, Baranowski P, Zubik M, et al. Postharvest Biology and Technology, 2018, 139: 115. [本文引用:1]
[8] Hu M H, Dong Q L, Liu B L. Computers and Electronics in Agriculture, 2016, 122: 19. [本文引用:1]
[9] Ye D, Sun L, Tan W, et al. Chemometrics and Intelligent Laboratory Systems, 2018, 177: 129. [本文引用:1]
[10] Zhang M, Li G H. International Journal of Food Properties, 2018, 21(1): 1598. [本文引用:1]
[11] Fan S X, Li C Y, Huang W Q, et al. Postharvest Biology and Technology, 2017, 134: 55. [本文引用:1]
[12] CHENG Li-juan, LIU Gui-shan, HE Jian-guo, et al(程丽娟, 刘贵珊, 何建国, ). Food Science(食品科学), 2019, 40(10): 285. [本文引用:1]
[13] GUO Wen-chuan, DONG Jin-lei(郭文川, 董金磊). Optics and Precision Engineering(光学精密工程), 2015, 23(6): 1530. [本文引用:1]
[14] Guo Z M, Wang M M, Agyekum A A, et al. Journal of Food Engineering, 2020, 279: 109955. [本文引用:1]
[15] Siedliska A, Baranowski P, Zubik M, et al. Postharvest Biology & Technology, 2018, 139: 115. [本文引用:1]