作者简介: 张 伏, 1978年生,河南科技大学农业装备工程学院教授 e-mail: zhangfu30@126.com
鸡蛋是营养丰富的农产品, 不同品种鸡蛋所含营养物质成分不同。 市场上出现品种以次充好、 掺假等问题对食品安全造成严重威胁, 急需解决鸡蛋品种鉴别难题。 以4种鸡蛋为试验样本, 按2∶1划分训练集和测试集, 分别为160枚和80枚。 高光谱成像采集系统获取935.61~1 720.23 nm范围内鸡蛋光谱图像, 对其黑白校正后框选鸡蛋样本中心大小为30×30 pixel的感兴趣区域(ROI), 将该区域内各像素点反射率均值作为样本原始光谱数据。 为减少原始光谱数据首尾端随机噪声的影响, 截取949.43~1 709.49 nm范围内光谱信息用于后续研究, 采用SG平滑(SG)和多元散射校正(MSC)对其预处理, 连续投影算法(SPA)、 竞争性自适应重加权算法(CARS)、 CARS-SPA、 CARS+SPA四种方式对预处理后的光谱数据提取特征波长, 基于全波段(FB)和特征波段建立支持向量机(SVM)、 粒子群算法(PSO)优化的SVM(PSO-SVM)、 极限学习机(ELM)等模型, 对比鉴别准确率以寻找最佳鸡蛋品种鉴别模型。 试验结果表明, SG-SPA-ELM模型鉴别效果最佳, 鉴别准确率为85.00%, 高光谱成像技术结合ELM可有效实现鸡蛋品种无损高效准确检测, 为鸡蛋和其他农产品品种鉴别提供参考。
Different varieties of eggs contain different nutrients and ingredients as a nutritious agricultural product. The phenomenon of inferior quality and adulteration poses a serious threat to food safety, which makes an urgent need to solve the problem of egg variety detection. Four egg varieties as research objects were divided into the training and test sets according to 2∶1 with 160 and 80 eggs respectively. A hyperspectral imaging system was utilized to capture the egg spectral image in the 935.61~1 720.23 nm range. Region of Interest (ROI) with a center size of 30×30 pixels of egg sample was selected after black and white correction, and the average reflectivity of each pixel in the region was extracted as the original spectral data of the sample. The average spectral information in the 949.43~1 709.49 nm range was intercepted for the subsequent study to reduce the influence of random noise at both ends. Savitzky-Golay (SG) smoothing algorithm and multiple scattering correction (MSC) were used to pretreat the effective bands after denoising. The feature wavelengths of the preprocessed spectral data were extracted using a successive projections algorithm (SPA), competitive adaptive reweighted sampling (CARS) single screening, and combinations of CARS-SPA and CARS+SPA, respectively. Support vector machine (SVM), particle swarm optimization (PSO) optimized SVM model (PSO-SVM), and extreme learning machine (ELM) model were established based on full bands (FB) and feature band, which were compared to find the best variety classification model. The experimental results showed that the SG-SPA-ELM model has the best identification effect with the best classification accuracy of 85.00%. Hyperspectral imaging technology combined with ELM can effectively realize non-destructive, efficient, and accurate identification of egg varieties and provide references for egg adulteration detection and identification of other agricultural products.
鸡蛋内含多种人体所需营养物质, 已成为日常生活中必不可少的食物。 不同品种鸡蛋营养成分及含量不一, 直接影响鸡蛋口感、 品质和营养价值[1, 2]。 目前, 市面上鸡蛋品种较多, 在优质鸡蛋中掺入劣质鸡蛋, 其他鸡蛋等现象时有发生, 严重威胁食品安全和人体健康。 因此, 探索鸡蛋掺假及品种鉴别的高效无损检测方法具有重要意义和应用价值[3]。
传统掺假检测包括人工检测、 色谱法、 聚合酶键式反应及酶联免疫技术等, 但易受主观因素影响, 检测成本高且不易操作。 高光谱成像技术具有快速、 操作简单、 绿色无污染等优势, 广泛应用于食物掺假检测、 农产品成分定量分析、 产地及品种鉴别等[4]。 宋科等[5]基于可见-近红外高光谱实现海兰褐鸡种蛋性别无损检测, 建立的偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)、 支持向量机(support vector machine, SVM)模型判别准确率分别为80.00%、 82.50%; 祝志慧等[6]利用紫外-可见透射光谱结合极限学习机(extreme learning machine, ELM)对鸡胚雌雄识别, 准确率为84.29%; 宋科等[7]利用光谱信息预测受精种蛋理化指标, PLS-DA模型预测集准确率为100.00%; 刘翠玲等[8]利用不同存储条件下鸡蛋高光谱图像和光谱数据建立新鲜度预测模型, 准确率为76.67%; 潘磊庆等[9]基于高光谱技术检测鸡种蛋性别, SVM和PLS-DA模型判别准确率均为75.00%; 祝志慧等[10]采用透射高光谱成像技术检测无精蛋和受精蛋, SVM模型检测准确率最高为93.00%; 王彬等[11]采用可见-近红外光谱结合增强回归树模型识别鸡蛋品种, 准确率为97.00%; Fu等[12]利用近红外光谱和遗传算法-支持向量回归(genetic algorithm-support vector regression, GA-SVR)确定鸡蛋综合新鲜度指数, 预测集决定系数(
高光谱成像技术在禽蛋新鲜度、 受精及性别信息、 品质及营养含量等检测中应用较多, 但正常无损鸡蛋品种鉴别研究鲜见。 已有研究多采用特征波长单一提取及SVM、 PLS-DA模型, 但部分检测结果欠佳。 本研究利用高光谱成像技术提取4个品种鸡蛋光谱数据, 经SG平滑(Savitzky-Golay smoothing, SG)和多元散射校正(multiple scattering correction, MSC)预处理后采用连续投影算法(successive projections algorithm, SPA)、 竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)、 CARS+SPA、 CARS-SPA提取特征波长, 建立SVM、 粒子群算法(particle swarm optimization, PSO)优化SVM(PSO-SVM)、 ELM等模型, 对比分析得鸡蛋品种鉴别最佳模型, 探索高光谱成像技术鉴别品种的可行性, 以期为鸡蛋品种鉴别提供新方法。
选用蛋壳无裂痕且大小一致的4种鸡蛋样本, 分别标号为品种1、 2、 3、 4, 每个品种60枚, 共240个试验样本。
高光谱图像采集设备包括高光谱成像仪(SPECIM FX17e, 芬兰)、 卤素灯光源、 电控位移台、 暗箱和计算机等, 如图1所示。 高光谱成像仪有效扫描范围为900~1 700 nm, 光谱分辨率为8 nm, 共224个光谱波段。 采用Lumo Scanner软件收集高光谱图像信息, ENVI 5.3软件提取原始光谱数据, The Unscrambler X 10.4软件对光谱数据预处理, MATLAB 2016b提取特征波长及建模分析。
为保证光强输出稳定, 试验前仪器需预热30 min; 为确保图像不失真, 经试验调试确定最佳参数: 位移台移动速度为18.28 mm· s-1, 曝光时间为6.5 ms, 数据采集频率为50 Hz, 样本与高光谱成像仪镜头距离为320 mm; 为避免外界光源干扰, 图像采集在暗箱中进行; 为防止鸡蛋在电控位移台上滚动, 将其粘贴在黑色工具纸上, 每次采集一个品种, 得到60枚鸡蛋的光谱图像; 为减小暗电流、 噪声、 光源强度分布不均等因素影响, 需对鸡蛋光谱图像黑白校正, 校正公式如式(1)
式(1)中, R为校正后图像; IR为原始图像; IB为白板图像; IH为黑板图像。
样本原始光谱图像及黑白校正后图像如图2所示, 采用ENVI 5.3手动选取鸡蛋样本中心大小为30× 30 pixel的感兴趣区域(region of interest, ROI), 经ENVI处理后得到935.61~1 720.23 nm波段范围内原始光谱信息, 由于原始光谱数据首尾两端受噪声等干扰, 截取949.43~1 709.49 nm范围内平均光谱信息用于后续数据处理。
采用CARS、 SPA降低输入光谱维度以提高模型鉴别效率。 鉴别模型采用SVM、 PSO-SVM、 ELM, 其中, SVM是解决非线性及高维数据问题的经典监督学习方法[19], 但其分类精度受惩罚因子c和核函数参数g影响较大; PSO算法是模仿鸟群集体觅食行为的一种优化算法, 从随机解出发, 寻找SVM模型参数c、 g最优组合, 设置种群初始数量为20, 最大迭代次数为200, 局部搜索能力C1为1.5、 全局搜索能力C2为1.7, 不断更新粒子速度与位置, 计算适应度值并判断是否为满意解[20]; ELM算法随机生成输入层权重和隐藏层偏差, 利用最小二乘法确定输出层权值[21]。 以特征波长和全波段为模型输入变量, 鸡蛋品种类别作为输出变量建立鸡蛋品种鉴别模型, 比较鉴别准确率并寻找最优模型。
试验样本共240个, 按2∶ 1方式对4个品种鸡蛋随机划分训练集和测试集, 每个品种训练集和测试集分别为40枚和20枚。
原始全光谱波段中含有大量冗余信息和其他无关信息, 直接用于建模易导致模型鉴别准确率降低。 在The Unscrambler X 10.4软件中利用SG平滑和MSC预处理以提升模型预测精度和稳定性, 光谱平均反射率曲线如图3所示。
2.3.1 竞争性自适应重加权算法(CARS)
采用CARS对SG、 MSC预处理后的光谱数据提取特征波长, 结果如图4所示。 图4(a)表明筛选出波长变量个数随采样次数增加呈指数减少, 在第16次采样前, 特征波长变量个数急剧下降, 第16次采样后, 特征波长变量个数缓慢下降; 图4(b)表明在1~16次采样过程中, 随无关及冗余信息被剔除, 交叉验证均方根误差(RMSECV)快速减小, 第16次采样时RMSECV达到最小值, 之后由于与鸡蛋品种鉴别相关的有效信息被剔除, RMSECV值又逐渐增大; 图4(c)表明在第16、 17次采样时RMSECV值最小, 说明此时为变量最优子集, 最终得到52个关键波长变量。 同理, 对MSC预处理后光谱数据共提取出39个关键波长变量。
![]() | 图5 SG预处理后SPA提取特征波长 (a): 变量数目; (b): 变量分布Fig.5 Feature wavelengths extracted by SPA after SG pretreatment (a): Variables number; (b): Variables distribution |
2.3.2 连续投影算法(SPA)
SPA提取特征波长时, 设置优选最大波长数目为20, 随特征波长数目增加, 均方根误差(RMSE)值先下降而后趋于平缓, 说明此时已无冗余和共线性信息。 对SG预处理后的光谱数据优选出13个特征波长变量, RMSE值最小为0.738 7, 如图5所示; 对MSC预处另后的光谱数据优选出6个特征波长变量, RMSE值最小为0.830 9, 如图6所示。
![]() | 图6 MSC预处理后SPA提取特征波长 (a): 变量数目; (b): 变量分布Fig.6 Feature wavelengths extracted by SPA after MSC pretreatment (a): Variables number; (b): Variables distribution |
2.3.3 组合提取特征波长
现有研究多采用CARS、 SPA单一提取, 但存在多重共线性问题, 导致模型运行效率及预测效果降低。 故增加CARS+SPA、 CARS-SPA两种组合方式提取特征波长, CARS+SPA表示对CARS、 SPA单一提取的波长取并集, CARS-SPA表示SPA对CARS提取的波长二次提取, 特征波长提取结果如表1所示。
![]() | 表1 特征波长提取结果 Table 1 Feature wavelength extraction results |
CARS+SPA对SG、 MSC预处理后的光谱数据分别提取出62、 43个特征波长。 利用CARS-SPA对SG预处理后的数据提取特征变量, RMSE值最小为0.694 0, 特征波长数目为14个; 对MSC预处理后的数据提取特征变量, RMSE值最小为0.793 7, 特征波长数目为11个。
基于SVM、 PSO-SVM、 ELM三种鉴别模型, 将CARS、 SPA单一提取, CARS+SPA、 CARS-SPA两种组合提取后的特征波长及全波段(full bands, FB)作为输入变量, 鸡蛋品种类别作为输出变量, 对比鉴别准确率评价模型性能, 模型鉴别准确率如表2所示。
![]() | 表2 模型鉴别准确率 Table 2 Accuracy of model classification |
由表2可知, 预处理对模型预测准确率有直接影响。 由于传统SVM模型随机生成c、 g参数组合, 导致其鉴别精度极低, 不同特征波长提取方式下, SG预处理后的光谱数据建模效果均优于MSC预处理; 采用PSO算法优化SVM模型, 模型鉴别准确率较SVM均有提高, MSC预处理后, PSO-SVM优化模型鉴别准确率较SVM显著提高22.50%~40.00%, 其中, MSC-FB-PSO-SVM模型鉴别准确率最高为80.00%, MSC-(CARS+SPA)-PSO-SVM模型弥补部分有效信息缺失的影响, 鉴别准确率较MSC-(CARS/SPA/CARS-SPA)-PSO-SVM分别提高1.25%、 2.50%、 7.50%, MSC预处理后的数据建模效果优于SG; 由于PSO-SVM优化模型准确率仍有较大提升空间, 故建立ELM鉴别模型, 从结果中可发现ELM整体鉴别准确率优于PSO-SVM模型, SG、 MSC预处理下ELM模型鉴别准确率较PSO-SVM分别提高21.25%~36.25%、 6.25%~10.00%, SG-(CARS-SPA)-ELM模型鉴别准确率较SG-(CARS+SPA/CARS)-ELM分别提高8.75%、 12.50%, 说明CARS-SPA二次提取可减少信息冗余, 有效提取关键变量, 进一步减少输入变量以提高鉴别效率, 其中, SG-SPA-ELM模型鉴别准确率最佳为85.00%, SG-CARS-SPA-ELM次之, 鉴别准确率为83.75%。
(1)相同模型下, 不同预处理对模型鉴别准确率有直接影响。 SVM和ELM模型中SG预处理后光谱数据建模效果优于MSC, PSO-SVM模型下MSC预处理后的数据建模效果较好;
(2)经SG、 MSC预处理后光谱数据建立的PSO-SVM模型对鸡蛋品种鉴别精度显著高于SVM模型, MSC-FB-PSO-SVM模型鉴别准确率为80.00%;
(3)ELM模型对鸡蛋品种鉴别效果优于PSO-SVM, 其中SG-CARS-SPA-ELM鉴别准确率为83.75%, SG-SPA-ELM模型鉴别准确率为85.00%, 故SG-SPA-ELM为鸡蛋品种鉴别最佳模型, 为鸡蛋掺假及农产品品种鉴别提供新的解决方法。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|