高光谱成像技术鉴别鱼新鲜度
章海亮1, 楚秉泉2, 叶青1, 刘雪梅1, 罗微1,*
1. 华东交通大学电气与自动化工程学院, 江西 南昌 330013
2. 浙江科技学院生物与化学工程学院/轻工学院, 浙江 杭州 310023
章海亮, 楚秉泉: 并列第一作者 *通讯联系人 e-mail: 15270030556@163.com

作者简介: 章海亮, 1977年生, 华东交通大学电气与自动化工程学院副教授 e-mail: hailiang.zhang@163.com

摘要

采用高光谱成像技术对鱼新鲜度进行检测研究。 首先, 提取鱼样本感兴趣区域(region of interest, ROI)光谱, 分别采用竞争性自适应重加权算法(CARS), 连续投影算法(SPA)和遗传算法(GA)提取特征波长, 三种算法分别得到57, 31和66个特征变量, 采用最小二乘支持向量机和SIMCA作为分类模型, 将57, 31和66个特征变量作为LS-SVM和SIMCA模型的输入变量建立分类模型, 基于SPA-LS-SVM和CARS-LS-SVM模型预测集识别率分别达到了98%和96%, 而采用SIMCA建立的模型取得了较差的预测结果, GA-SIMCA, SPA-SIMCA和CARS-SIMCA模型预测集识别率都只是达到了52%。 结果表明, LS-SVM作为分类模型优于SIMCA模型, SPA和CARS选择的特征波长, 不但可以简化模型, 还可以提高模型的预测精度, 采用高光谱成像技术可以有效检测鱼的新鲜度, 并能准确检测出鱼不同冻融次数和冷冻时间。

关键词: 竞争性自适应重加权; 连续投影; 遗传; LS-SVM; SIMCA
中图分类号:O433.5 文献标志码:A
Classification of Fishness Based on Hyperspectra Imaging Technology
ZHANG Hai-liang1, CHU Bing-quan2, YE Qing1, LIU Xue-mei1, LUO Wei1,*
1. School of Electrical and Automation Engineering, East China Jiaotong University, Nanchang 330013, China
2. School of Biological and Chemical Engineering, Zhejiang University of Science & Technology, Hangzhou 310023, China;
Abstract

This study investigated the feasibility of using near infrared hyperspectral imaging system (NIR-HIS) technique for non-destructiveidentification of fresh and frozen-thawed fish fillets. Hyperspectral images of freshness, storage time, and frozen-thawed times offillets for turbot flesh were obtained in the spectral region of 380~1 023 nm. Reflectance values were extracted from each region of interest (ROI) of each sample. Competitive adaptive reweighted sampling (CARS) algorithm, successive projections algorithm (SPA) and genetic algorithm (GA) were carried out to identify the most significant wavelengths. Based on the fifty-seven, thirty-one and sixty-six wavelengths suggested by CARS, SPA and GA, respectively, two classified models (least squares-support vector machine, LS-SVM and SIMCA) were established. Among the established models, SPA-LS-SVM model performed well withthe highest classification rate (100%) in calibration and 98% in prediction sets. SPA-LS-SVM and CARS-LS-SVM models obtainedbetter results 98% and 96% of classification rate in prediction set with thirty-one and fifty-seven effective wavelengths respectively. The CARS-SIMCA, GA-SIMCA and SPA-SIMCA models obtained poor results with 52% of classification rate in prediction set. The results showedthat NIR-HIS technique could be used to identify the varieties of fresh and frozen-thawed fish fillets rapidly and non-destructively, and SPA and CARS were effective wavelengths selection methods.

Keyword: CARS; SPA; GA; LS-SVM; SIMCA

引 言

随着人们消费水平的提高, 多宝鱼由于其丰富的营养价值如低脂肪, 高蛋白, 富含多种维生素和矿物质, 日益受到人们的青睐。 由于鱼类产品普遍具有水分含量高和易腐败特点, 蛋白质在酶和微生物的综合作用下, 容易变质, 致使鱼类产品品质下降, 因此, 鱼类产品的新鲜度的预测和判别就很重要[1, 2, 3, 4]。 目前, 一般采用微生物方法判别多宝鱼肉的新鲜度和剩余存储时间, 这种方法尽管结果稳定可靠, 但这是一种破坏性试验, 操作人员需要经过专业训练, 由于操作过程中要用到化学试剂, 造成环境破坏, 鱼肉也不能继续食用, 较长的检测时间也不能保证实时性。

近年来, 采用高光谱成像技术对鱼类产品的实时和无损检测的大量研究, 相比较于物理化学法, 高光谱成像技术具有快速、 无损、 成本低和预测准确特点, 在很多领域得到广泛应用[5, 6, 7, 8, 9]。 采用高光谱成像技术获得的数据, 图像上的每一个像素点包含全波长范围的光谱信息, 可以具体到单个像素级别的分析, 大大提高了分析精细度, 可以根据需要, 在整个对象的面上寻找提取感兴趣区域, 获得对象的光谱数据, 而采用近红外光谱分析技术严格意义上说, 只能提取对象单个小区域的平均光谱数据, 不能同时提取对象整个面上区域的光谱数据。 高光谱成像技术具有图像分析技术和光谱分析技术的双重优点, 在鱼类产品新鲜度分析领域具有非常大的潜力, 其数据矩阵结构原理如图1所示, 从图1可知, 高光谱数据块是一种三维数据, 在每个波长上都有一幅灰度图像与之对应, 在图像上每个像素点都包括全谱波长信息。

本工作采用高光谱成像技术鉴别多宝鱼的新鲜度, 目的如下: (1)探寻高光谱成像数据的光谱信息和多宝鱼新鲜度之间的定性关系; (2)分别采用竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS), 连续投影算法(successive projections algorithm, SPA)和遗传算法(genetic algorithm, GA)挑选多宝鱼的新鲜度特征波长; (3)比较不同的鉴别多宝鱼新鲜度的模型性能; (4)确定最优模型用于鉴别多宝鱼的新鲜度。 鉴别过程思路如下: 首先获取5个类别共160个样本高光谱成像数据, 波长范围381~1 023 nm, 根据公式(1)对原始高光谱成像数据进行校正; 提取样本感兴趣区域光谱, 作为样本的光谱数据; 根据2∶ 1的比例建立样本建模集和预测集; 基于全谱和特征光谱分别建立鉴别模型; 基于分类准确率(correct classification rate, CCR)确定最优鉴别模型。

1 实验部分
1.1 样本

试验用多宝鱼购于杭州农副产品水产交易中心, 样本重量规格在400~600 g之间。 在水产交易中心现场进行样本前处理, 具体过程如下: 每次在养殖水池捞出一条鲜活多宝鱼, 鱼冰水休克, 棒击头部致死, 去除鱼内脏和头尾, 在冰水中洗干净。 每条多宝鱼均匀切割成4份, 作为4个样本。 用塑料袋放置每个样本, 将塑料袋放置在盛满新鲜碎冰的干净白色泡沫保温箱中, 保温箱底部开有滴水孔, 运输过程中部分碎冰化成水从滴水孔中流走, 运输专车在0.5~1 h内将样本快速运送至实验室。 160样本分5类, 详见表1所示。

图1 高光谱成像数据矩阵Fig.1 Hyperspectral imaging data matrix

表1 建模集和预测集统计信息 Table 1 Statistical information of calibration and prediction sets
1.2 数据采集

高光谱成像数据采集原理如图2所示。 系统包括高光谱摄像机(N10E, Specim, Finland), 150 W卤素灯线光源2个(Oriel Instruments, Irvine, Cal.), 铁皮暗箱隔绝室内灯光影响, 步进导轨平台由步进电机(IRCP0076, Isuzu Optics Corp, Taiwan, China)驱动, 近红外光谱仪, 可接收的光谱波长范围为381~1 023 nm, CCD成像相机, 控制装置和计算机。

图2 高光谱成像实验数据采集原理图Fig.2 Schematic diagram of HIS detection

1.3 高光谱数据采集

为了获取到鱼样本不变形、 不失真和清晰的高光谱成像数据, 需要调节CCD相机的曝光时间和步进导轨平台移动速度。 步进导轨平台移动速度为3.2 mm· s-1, 曝光时间设置为0.08 s, 近红外光谱仪至样本间距离为45 cm。 采集数据时用纸巾吸去鱼样本表面的多余水分, 将样本置于步进导轨平台上面, 垂直于近红外光谱仪移动, 获取三维鱼样本高光谱成像数据块。 分析软件为Matlab 2010、 Unscrambler 10.1及Origin8.5软件平台。 为了减少CCD相机暗电流及各波长下光源强度分布不均匀的影响, 分析前需要对原始高光谱成像数据(I)进行反射率校正。 在与鱼样本相同采集数据环境条件下, 采集标准白板(理论反射率为99%)数据(W), 然后盖上镜头盖子并关闭卤素灯光源(反射率为接近0%)获取到黑板标定数据(B)。

R=(I-B)/(W-B)(1)

式(1)中: I为原始数据; B为黑板标定; W为白板标定; R为结果数据。

1.4 特征波长选择算法

为了简化模型, 提高模型运行效率和精度, 分别采用CARS, SPA和GA算法选择特征波长, 关于CARS[10, 11, 12], SPA[13, 14]和GA算法[15, 16]原理详见文献。

2 结果与讨论
2.1 鱼样本的光谱

通过鱼样本高光谱图像上感兴趣区域提取光谱, 感兴趣区域选择在80× 80左右的矩形区域内, 得到的光谱波长范围为381~1 023 nm, 共计512个波长, 由于在429 nm波长之前的光谱, 存在部分噪声且有用信息较少, 取429~1 023 nm波长范围作为原始波长范围, 图3中每一条光谱为样本感兴趣区平均光谱, 从光谱曲线可知, 在整个波长范围内, 最大反射率不高于0.25, 近红外区域的反射率要高于可见光区域的反射率, 在960 nm附近, 近红外光谱存在较大的吸收度, 这是由于鱼样本的C— H功能键在此区域存在吸收峰。

2.2 遗传算法选取特征波长

遗传算法是一种非常有用的特征波长提取算法, 在每次运行PLS建模时, 遗传算法会评价参与建模变量的被选频率值, 被选频率高的变量组合, 替代原始光谱用于进一步的建模分析。 遗传算法返回结果如图4和图5所示, 图4中横虚线分别表示在横虚线上面的波长变量被选择用于建模分析, 或者说取某条横线之上的变量用于建模, 本研究采用遗传算法获取到的变量数量为66个。 分析图5可以看出, 当采用66个特征波长建模时, 模型的预测误差和预测响应精度贡献率百分比分别为0.202 9和98.05。

图3 160个鱼样本光谱Fig.3 Spectra of 160 fish samples

图4 变量被选频率Fig.4 Frequency of variable selections

图5 RMSEC和变量响应百分比Fig.5 RMSEC and response (% C.V. variance)

2.3 CARS关键变量提取

图6表示基于CARS算法挑选特征波长结果图。 图6(a), (b)和(c)分别表示变量数量变化趋势、 RMSECV值变化趋势和每个变量回归系数值变化趋势。 本研究设置采样次数为50次, 从图6(a)可以看出, 采样前期随着采样次数增加, 建模变量快速减少, 然后随着采样次数的增加, 变量减少的幅度趋于平缓, 表明变量分为初选和精选两个过程; 图6(b)中RMSECV值起初呈减小趋势, 表明采样过程中, 无信息变量被不断消除, 然后RMSECV值变化不明显, 表明变量数量变化不明显, 最后RMSECV值逐渐增大, 表明一些关键变量被消除; 图6(c)中, 每条线表示每个变量在不同采样次数时的回归系数值变化趋势。 在每次采样过程中, 一些有用变量被提取出来, 当RMSECV值最小时, 即图6(c)中第20次采样运算时, 最优建模变量数量被确定下来。 第20次采样过后, 图6(b)中的RMSECV值逐渐增大, 这是因为一些关键变量被消除, 在虚线L1处, RMSECV值急剧增大, 这是因为存在变量P1的回归系数值降为0, 同样的原因, 虚线L2处, RMSECV值急剧增大, 这是因为存在变量P2的回归系数值降为0。 在CARS算法中, 一些无用变量被消除, 一些关键变量被保留, 本研究中, 57个关键变量被提取出来用于替代原始光谱进行进一步的分析建模。

图6 CARS运算提取变量原理图Fig.6 Key wavelengths selection results by CARS

2.4 连续投影算法选取特征波长

采用连续投影算法, 原始光谱变量减少到31个波长点, 大大简化了建模变量, 提高了模型的运算速度, 图7是SPA算法得到的特征波长在全谱波长上的具体位置信息, SPA算法选择的特征波长详见表2, 图8表示模型的RMSEC值变化趋势, 随着SPA算法选择的特征变量数量的增加, RMSEC的值起初急剧变小, 说明选择的31个特征波长为最优特征波长, 而第31个波长点以后的波长对模型的RMSEC值影响不大。

表2 SPA选择特征波长 Table 2 Effective wavelengths selected by SPA

图7 连续投影算法选择特征波长Fig.7 SPA selected variables

图8 RMSEP的值变化趋势Fig.8 Trend of RMSEP based on characteristic wavelengths selected by SPA

2.5 基于光谱建立LS-SVM和SIMCA类别预测模型

分别采用SIMCA和LS-SVM分类模型检测区分不同时间段和冻融次数的鱼新鲜度。 LS-SVM模型在很多领域都得到了广泛应用, 可以处理线性和非线性的问题, 参数gam用 于减小模型训练错误率和简化模型, 参数sig2用于定义非线性转换, 从一个向量空间向高维空间转换[17, 18]。 本研究采用的LS-SVM分类模型基于LS-SVM工具箱。 簇类独立软模式(soft independent modeling of class analogy, SIMCA)分类模型也是一种常用的分类方法, 其基本思路是采用PCA分析结果获取样本属性基本空间分布特性, 在此基础上建立各类别的分类模型, 根据已经建立的分类模型对预测样本集进行分类预测, SIMCA具体分类原理详见文献[19]。

截取429~1 023 nm波长范围内共470个变量, 采用LS-SVM作为检测模型, 准确率达到了96%, 分别采用CARS, SPA和GA获取的特征变量, 数量分别为57, 31和66个, 将这些特征变量作为SIMCA和LS-SVM模型的输入, 如表3所示。

表3 基于不同的波长建立鉴别模型的分类准确率 Table 3 Correct classification rate of different models based on different wavelength selection methods

表3中可以看到, 基于全谱的LS-SVM和SIMCA模型在预测时, 模型识别率分别为96%和54%, LS-SVM模型的预测精度远高于SICMA精度, 这种情况在后面基于特征波长分类模型结果也是一致的。 当把CARS提取的57个参数变量作为LS-SVM和SIMCA模型输入时准确率分别为96%和52%, 把SPA选择的特征变量作为LS-SVM和SIMCA模型的输入, 识别率分别达到98%和52%, 当把GA选择的光谱变量作为LS-SVM和SIMCA模型的输入时, 模型精度为86%和52%, 不难看出, 为了简化模型和选择精度最高模型, 把SPA选择的31个光谱变量作为最优特征变量, 把LS-SVM分类模型作为最优建模模型。

3 结 论

对5个类别的鱼新鲜度进行了检测。 首先, 获取鱼样本ROI光谱曲线, 分别采用CARS, SPA和GA算法提取特征波长, 将三种算法分别得到57, 31和66个特征变量作为模型LS-SVM和SIMCA模型的输入建立分类模型, 基于SPA-LS-SVM和CARS-LS-SVM模型预测集识别率分别达到了98%和96%, 而采用SIMCA建立的模型预测结果较差, GA-SIMCA, SPA-SIMCA和CARS-SIMCA模型预测集识别率都只达到了52%。 结果表明, LS-SVM作为分类模型优于SIMCA模型, SPA和CARS选择的特征波长, 不但可以简化模型, 还可以提高模型的预测精度, 基于高光谱成像技术可以用于鱼新鲜度检测鉴别。

The authors have declared that no competing interests exist.

参考文献
[1] LIU Xiao-hua, MA Li-zhen, GUO Yao-hua, et al(刘晓华, 马俪珍, 郭耀华, ). Food Science(食品科学), 2014, 35(24): 316. [本文引用:1]
[2] Rzepka M, Ozogul F, Surowka K, et al. International Journal of Food Science and Technology, 2013, 48(6): 1318. [本文引用:1]
[3] Kimiya T, Sivertsen A H, Heia K. Journal of Food Engineering, 2013, 116(3): 758. [本文引用:1]
[4] Liu D, Zeng X A, Sun D W. Applied Spectroscopy Reviews, 2013, 48(8): 609. [本文引用:1]
[5] He H, Sun D. Trends in Food Science & Technology, 2015, 46(1): 99. [本文引用:1]
[6] Cheng J, Sun D. Trends in Food Science & Technology, 2014, 37(2): 78. [本文引用:1]
[7] Khojastehnazhand M, Khoshtaghaza M H, Mojaradi B, et al. Food Research International, 2014, 56: 25. [本文引用:1]
[8] Zhu F, Zhang D, He Y, et al. Food and Bioprocess Technology, 2013, 6(10): 2931. [本文引用:1]
[9] ZHANG Hai-liang, ZHU Feng-le, LIU Xue-mei, et al(章海亮, 朱逢乐, 刘雪梅, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2014, (6): 272. [本文引用:1]
[10] LI Jiang-bo, PENG Yan-kun, CHEN Li-ping, et al(李江波, 彭彦昆, 陈立平, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(5): 1264. [本文引用:1]
[11] YU Lei, ZHU Ya-xing, HONG Yong-sheng, et al(于雷, 朱亚星, 洪永胜, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(33): 138. [本文引用:1]
[12] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[13] Liu K, Chen X, Li L, et al. Analytica Chimica Acta, 2015, 858: 16. [本文引用:1]
[14] Guan X C, Chen X J, Jiang J. African Journal of Agricultural Research, 2011, 6(27): 5987. [本文引用:1]
[15] Senseney C T, Krahenbuhl R A, Mooney M A. International Journal of Geomechanics, 2013, 13(4): 473. [本文引用:1]
[16] Vohland M, Besold J, Hill J, et al. Geoderma, 2011, 166(1): 198. [本文引用:1]
[17] Liu X, Liu J. Measurement, 2013, 46(10): 3808. [本文引用:1]
[18] Shao Y N, Zhao C J, Bao Y D, et al. Food and Bioprocess Technology, 2012, 5(1): 100. [本文引用:1]
[19] Makio T, Hiroaki I, Tomohiro T, et al. Classification of Pesticide Residues in the Agricultural Products Based on Diffuse Reflectance IR Spectroscopy. New York: IEEE, 2007. 216. [本文引用:1]