作者简介: 张 伏, 1978年生, 河南科技大学农业装备工程学院教授 e-mail: zhangfu30@126.com
银杏果富含维生素、 银杏萜内酯和银杏黄酮等成分, 具有抗氧化、 抗肿瘤、 预防心血管疾病等功能, 可药食两用。 由于银杏果品种不同, 其主要成分含量和品质各异。 另外, 银杏果某些成分含量对其贮藏和加工工艺影响较大。 为实现银杏果品种高效无损鉴别, 提出一种基于高光谱成像技术的支持向量机(SVM)分类模型, 并利用遗传算法(GA)和粒子群算法(PSO)优化模型参数提高种类鉴别正确率。 以3个品种630个银杏果为研究对象, 按2:1划分为训练集和测试集, 分别为420个和210个。 利用高光谱图像采集系统获取900~1 700 nm范围内的银杏果图像, 黑白校正后选取质心位置25×25 pixel感兴趣区域(ROI), 提取该区域内平均光谱作为原始光谱数据。 因原始光谱两端噪声较大, 信噪比低且有效信息较少, 截取945.98~1 698.75 nm范围内的光谱波段作为有效波段, 并对去噪后光谱波段信息做标准正态变量变换(SNV)预处理, 预处理后采用连续投影算法(SPA)和竞争性自适应重加权算法(CARS)提取特征波长, 将其波长反射率作为输入矩阵 X, 预设样本类别1、 2、 3作为输出矩阵 Y, 分别建立SNV-SPA/CARS-(GA/PSO)-SVM六种银杏果品种鉴别模型。 试验结果表明: SNV-CARS-PSO-SVM模型鉴别效果最佳, 分类准确率96.67%, 说明CARS提取特征波长变量能代表所有波长信息, 且PSO-SVM模型具有较好种类鉴别效果, 可实现银杏果鉴别, 为银杏果种类高效无损鉴别提供新思路。
Ginkgo fruit with antioxidant, anti-tumour and cardiovascular disease prevention functions is rich in vitamins, ginkgo lactones and ginkgo flavonoids, and can be used for both medicine and food. Due to the different varieties of Ginkgo fruit, the content of the main ingredientsis different and there are differences in quality. In addition, the content of certain components in ginkgo fruit has a greater impact on their storage and processing. In order to achieve efficient and non-destructive identification of ginkgo fruit varieties, the Support Vector Machine (SVM) classification model based on hyperspectral imaging technology was proposed, and Genetic Algorithm (GA) and Particle Swarm Optimization (PSO) was used to optimizethe parameters of the model to improve the accuracy of species identification. In this study, 630 ginkgo fruits of three species were regarded as the research objects and divided into training and test sets according to 2:1, with 420 and 210 samples respectively. The hyperspectral acquisition system acquired Ginkgo fruit images in the range of 900~1 700 nm. Then region of interest (ROI) of 25×25 pixel in the center of mass position was selected after black and white correction, and the average spectrum in the region was extracted as the original spectral data. Because of the large noise at both ends of the original spectra, the signal noise ratio was lower and the effective information was less. The spectral band in the range of 945.98~1 698.75 nm was intercepted as the effective band, which was pre-processed by Standard Normal Variate transformation (SNV). Successive Projection Algorithms (SPA) and Competitive Adaptive Reweighted Sampling (CARS) were used to extract the characteristic wavelengths. The wavelength reflectivity was used as the input matrix X, and the sample varieties 1, 2, 3 were used as the output matrix Y. Six identification models were established for the SNV-SPA/CARS-(GA/PSO)-SVM. The experimental results showed that the SNV-CARS-PSO-SVM model had the best identification performance, and the classification accuracy was 96.67%, indicating that the characteristic wavelength variables extracted by CARS could represent all wavelength information, and the PSO-SVM model had a better species identification effect, which could realize the identification of ginkgo fruit. This study provides a new idea for the efficient and non-destructive identification of ginkgo fruit species.
银杏果为银杏果实, 富含脂肪、 蛋白质、 维生素、 银杏萜内酯和银杏黄酮等成分, 具有抗氧化、 抗肿瘤、 抗菌、 预防心血管病等功能[1, 2]。 我国银杏品种约有40余种, 由于产地不同, 不同品种银杏果主要成分含量各异, 其品质差异明显。 另外, 银杏果成分对其贮藏和加工工艺要求不尽相同[3, 4]。 因此, 如何实现银杏果高效无损品种鉴别亟待解决。
目前, 常用果实鉴别主要包括近红外光谱、 分子标记、 化学成分分析和计算机视觉等方法[5, 6, 7, 8]。 近红外光谱鉴别的数据采集多为点光源采样, 从而导致采集数据量有限, 未完全反映整体情况, 故鉴别精度低[9]; 分子标记鉴别是基于群体间生物特性的检测方法, 但结果易受环境、 年限、 生物差异性等因素影响, 具有不确定性[10]; 化学成分分析鉴别采样过程具有破坏性且技术要求较高, 应用难度较大[11]; 计算机视觉鉴别在识别图像典型特征时, 图像背景噪声对检测精度存有干扰, 且识别算法局限性明显[12]。
高光谱成像技术集光谱和成像技术优点, 对于不同物质表现出不同辐射强度, 可用于检测和区分不同物质间细微差异[13]。 张初等[14]应用高光谱成像技术, 通过提取西瓜种子的光谱反射率并结合3种不同预处理方法, 建立相应的鉴别分类模型, 实现西瓜种子品种的高光谱鉴别。 张璐等[15]利用高光谱成像技术采集酸枣仁光谱和图像信息, 选用5种预处理方法和3种判别模型, 并结合分水岭算法实现酸枣仁鉴别。 章林忠等[16]应用近红外高光谱图像结合主成分分析法, 实现不同品种板栗、 虫害果的快速识别。 鲍一丹等[17]利用高光谱成像技术结合5种判别分析模型实现4类咖啡豆品种鉴别, 其分类正确率达93.50%。 周聪等[18]利用高光谱成像技术结合5种预处理方法和3种分类算法鉴别8个栀子品种, 其融合波段-FD-LinearSVC模型识别准确率达100%。 Zou等[19]基于高光谱成像技术结合分类算法鉴别不同年份和品种的带壳花生成熟度, 达到不破壳鉴别不同成熟度花生目的。 Rí os-Reina等[20]应用高光谱成像技术结合化学计量学, 选用主成分分析和多变量曲线分辨率研究松子成分差异, 实现2种松子无损鉴别。 Tan等[21]基于高光谱成像技术结合BP神经网络实现对大豆种子的品种鉴别, 判别准确率93.88%。 Moscetti等[22]应用高光谱成像技术采集4类榛果光谱图像, 结合偏最小二乘判别模型, 鉴别榛果准确率达90%以上。 随高光谱成像技术发展, 其农业检测领域运用广泛, 将其应用到银杏果种类鉴别却鲜有报道。
本研究提出一种基于高光谱成像技术的银杏果种类快速无损鉴别方法, 3个品种银杏果经SNV预处理后, 选用SPA和CARS两种方法提取特征波长, 分别建立SVM模型, 并利用遗传算法和粒子群算法优化其模型参数, 以提高分类正确率获得较佳鉴别效果, 为银杏果及相关果实的品种鉴别提供了新思路。
试验样本为市售的3个银杏果品种, 人工挑选外形完好、 色泽均匀, 无机械损伤的银杏果果实, 分别标为类别1、 2、 3, 每类品种210个, 共630个试验样本。 银杏果试验样本如图1所示。
高光谱成像系统包括高光谱摄像机(SPECIM FX17, 芬兰)、 计算机(戴尔)、 电控位移平台、 样品托盘(40 cm× 20 cm)和卤素灯(6个), 如图2所示。
![]() | 图2 高光谱成像系统 1: 卤素灯; 2: 电控移动平台; 3: 高光谱摄像机; 4: 计算机; 5: 样品托盘Fig.2 Hyperspectral imaging system 1: Halogen lamp; 2: Electronic mobile platform; 3: Hyprspectral camera; 4: Computer; 5: Sample tray |
高光谱成像系统参数设置如下: 波长范围900~1 700 nm, 光谱分辨率8 nm, 波段数224个, 空间采样分辨率640 px· line-1, 曝光时间6.5 ms, 帧频50 Hz, 平台移动速度18.28 mm· s-1。 采用Lumo Scanner软件获得银杏果高光谱数据。 数据分析软件包括ENVI 5.3、 The Unscrambler X10.4、 Excel 2019、 Origin 2018、 MATLAB R2018b等。
为保证采集数据准确, 防止银杏果在电控移动载物台上移动, 将待测样本放置于粘性黑色工具纸上, 每次采集30个银杏果, 每个品种采集7组图像, 试验共计采集630个单个银杏果样本高光谱图像, 如图3所示。
高光谱图像采集时易受光源分布不均和暗电流等非线性因素影响。 为增强图像稳定性和可靠性, 对高光谱图像黑白校正[23, 24]。 高光谱系统需预热30 min, 扫描白板(反射率99%)记为全白标定图像Iw, 装上镜头盖采集全黑图像Id, 最后拍摄银杏果样品原始图像Iraw, 校正公式如式(1), 利用ENVI 5.3软件黑白校正, 获得校正后的图像I。
银杏果图像校正后, 利用ENVI软件在每颗银杏果中心位置选取25× 25 pixel感兴趣区域, 如图4所示, 感兴趣区域内所有像素点光谱平均值作为样本的平均光谱[25, 26]。 处理后得到935.61~1 720.23 nm波长范围的原始光谱平均反射率曲线如图5所示。 由于采集的光谱两端信噪比低, 剔除光谱信号噪声较大区域, 故选取945.98~1 698.75 nm波长的光谱数据分析建模。
采用连续投影算法(successive projections algorithm, SPA)和竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)提取特征变量降低数据维度; 支持向量机(support vector machine, SVM)[27]广泛用于样本数量有限情况下高光谱数据处理与建模, 在模型对训练集的学习精度和对任意样本精确识别间寻找最优平衡点, SVM模型中核函数选择对模型性能影响显著, 采用性能较稳定的RBF径向基函数作为SVM核函数, 其中, 惩罚因子c和核函数参数g为重要参数; 遗传算法(genetic algorithm, GA)[28]是一种模拟自然界生物进化现象的全局随机搜索参数方法, 具有高效启发式搜索、 并行计算等特点, 利用GA优化SVM参数(惩罚系数c和核函数参数g)时, 设置最大进化代数为200, 种群规模为20; 粒子群优化算法(particle swarm optimization, PSO)[29]与GA相比, PSO无选择、 交叉、 变异等复杂进化操作, 而采用在整个全局移动搜索, 因其搜索时所有粒子均在移动变化, 可根据当前情况随时调整搜索策略, 优势明显。 设置粒子群最大进化代数为200, 种群规模为20, 加速因子c1为1.5, c2为1.7。
光谱数据预处理后, 选取945.98~1 698.75 nm波段内数据提取特征波长作为模型输入变量, 三种银杏果类别作为模型输出变量建立SVM分类模型, 发现分类效果较差, 于是采用GA和PSO优化SVM模型寻找最优参数c和g, 对训练集样本训练, 建立银杏果种类鉴别模型, 通过分类正确率(Accuracy)对模型性能评价。
本次试验将采样的630个样本按照2:1随机划分为训练集和测试集, 其中, 每个类别训练集和测试集分别为140个和70个, 三个类别训练集和测试集分别为420个和210个。
光谱采集过程中, 混入的噪声、 背景和色散光等无用信息会使光谱分析过程中建立的模型产生偏差, 因此需在建模前对数据预处理, 以减少无关信息干扰, 提高模型分类精度。 基于The Unscrambler X 10.4软件采用标准正态变量变换法(standard normal variable transformation, SNV)对光谱数据预处理, 经SNV预处理的光谱曲线如图6所示。
2.3.1 连续投影算法(SPA)
提取最大波长数目设置为20, 共提取出11个波长变量, 如图7所示。 随变量数增加, 均方根误差(RMSE)值整体呈现先急降后缓减趋势。 当变量数为11时, RMSE不再大幅降低, 此时RMSE值为0.437 94, 之后RMSE值虽有减小, 但因变量过多将增加模型运算量和复杂度, 因此选取11个变量作为最终特征波长数目。
![]() | 图7 SPA提取特征波段长 (a): 变量数目; (b)变量位置Fig.7 Process of extracting feature wavelengths by SPA (a): Number of variables; (b): Variables position |
2.3.2 竞争性自适应重加权算法(CARS)
蒙特卡洛采样次数设置为50, 采用5折交叉验证法提取特征波长, 如图8所示。
![]() | 图8 CARS算法提取特征波长过程 (a): 波长变量数目变化图; (b): RMSECV变化图; (c): 回归系数路径图Fig.8 Process of extracting feature wavelengths by CARS (a): Number of wavelength variables; (b): RMSECV; (c): Regression coefficient path |
图8(a)表示CARS提取特征波长数目随采样次数增加呈现先急降后缓减趋势, 表现出CARS提取特征波长从粗选到细选过程; 图8(b)可知开始迭代时, 由于无用信息波段被消除, 故交叉验证均方根误差(RMSECV)快速减小, 当采样次数到第13时RMSECV达到最小值, 后由于部分有效信息被剔除, RMSECV值又整体呈上升趋势; 图8(c)表示在第12、 13次采样时RMSECV值最小, 此时提取出68个特征波长。
将SPA算法提取的11个特征波长、 CARS算法提取的68个特征波长作为输入变量建立SNV-SPA/CARS-(GA/PSO)-SVM模型, 各模型分类正确率如表1所示。
![]() | 表1 模型分类结果 Table 1 Classification results |
模型分类正确率对比如图9所示。 相同分类模型中, CARS提取波段建模效果优于SPA, 说明CARS提取特征波段方法在剔除干扰信息的同时保留了较完善的有效信息, 筛选的特征波长更敏感, 且代表全波段光谱信息; 对SNV预处理的光谱数据建模分析得知, GA-SVM模型分类正确率相较于SVM平均提高13.37%, 可见GA-SVM模型鉴别效果优于SVM; PSO-SVM模型分类正确率相较于GA-SVM平均提高0.88%, 较SVM平均提高14.32%, 可见PSO-SVM模型分类效果明显优于SVM模型。 结果表明, SNV-CARS-PSO-SVM模型对银杏果品种具有较好的鉴别效果, CARS提取的特征波长较SPA提取的特征波长更具有代表性。
(1)利用SNV预处理方法对测得的光谱数据预处理, 选用945.98~1 698.75 nm范围的光谱波段信息为有效光谱;
(2)基于SPA、 CARS提取特征波长方法建立银杏果种类鉴别模型。 相同分类模型中, CARS提取波段的建模效果优于SPA;
(3)经SNV预处理光谱数据的PSO-SVM模型分类效果明显优于SVM模型;
(4)SNV-CARS-PSO-SVM模型对银杏果品种具有较好鉴别效果, 分类正确率为96.67%, 为银杏果及相关果实品种鉴别提供新思路。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|