高光谱成像结合ELM的鸡蛋品种鉴别
张伏1, 王梦瑶1, 颜宝苹1, 张方圆1, 袁叶1, 张亚坤1, 付三玲2,*
1. 河南科技大学农业装备工程学院, 河南 洛阳 471003
2. 河南科技大学物理工程学院, 河南 洛阳 471023
*通讯作者 e-mail: fusanling@126.com

作者简介: 张 伏, 1978年生,河南科技大学农业装备工程学院教授 e-mail: zhangfu30@126.com

摘要

鸡蛋是营养丰富的农产品, 不同品种鸡蛋所含营养物质成分不同。 市场上出现品种以次充好、 掺假等问题对食品安全造成严重威胁, 急需解决鸡蛋品种鉴别难题。 以4种鸡蛋为试验样本, 按2∶1划分训练集和测试集, 分别为160枚和80枚。 高光谱成像采集系统获取935.61~1 720.23 nm范围内鸡蛋光谱图像, 对其黑白校正后框选鸡蛋样本中心大小为30×30 pixel的感兴趣区域(ROI), 将该区域内各像素点反射率均值作为样本原始光谱数据。 为减少原始光谱数据首尾端随机噪声的影响, 截取949.43~1 709.49 nm范围内光谱信息用于后续研究, 采用SG平滑(SG)和多元散射校正(MSC)对其预处理, 连续投影算法(SPA)、 竞争性自适应重加权算法(CARS)、 CARS-SPA、 CARS+SPA四种方式对预处理后的光谱数据提取特征波长, 基于全波段(FB)和特征波段建立支持向量机(SVM)、 粒子群算法(PSO)优化的SVM(PSO-SVM)、 极限学习机(ELM)等模型, 对比鉴别准确率以寻找最佳鸡蛋品种鉴别模型。 试验结果表明, SG-SPA-ELM模型鉴别效果最佳, 鉴别准确率为85.00%, 高光谱成像技术结合ELM可有效实现鸡蛋品种无损高效准确检测, 为鸡蛋和其他农产品品种鉴别提供参考。

关键词: 高光谱成像技术; 鸡蛋; 品种鉴别; 极限学习机
中图分类号:TP391 文献标志码:A
Hyperspectral Imaging Combined With ELM for Eggs Variety Identification
ZHANG Fu1, WANG Meng-yao1, YAN Bao-ping1, ZHANG Fang-yuan1, YUAN Ye1, ZHANG Ya-kun1, FU San-ling2,*
1. College of Agricultural Equipment Engineering, Henan University of Science and Technology, Luoyang 471003, China
2. School of Physical Engineering, Henan University of Science and Technology, Luoyang 471023, China
*Corresponding author
Abstract

Different varieties of eggs contain different nutrients and ingredients as a nutritious agricultural product. The phenomenon of inferior quality and adulteration poses a serious threat to food safety, which makes an urgent need to solve the problem of egg variety detection. Four egg varieties as research objects were divided into the training and test sets according to 2∶1 with 160 and 80 eggs respectively. A hyperspectral imaging system was utilized to capture the egg spectral image in the 935.61~1 720.23 nm range. Region of Interest (ROI) with a center size of 30×30 pixels of egg sample was selected after black and white correction, and the average reflectivity of each pixel in the region was extracted as the original spectral data of the sample. The average spectral information in the 949.43~1 709.49 nm range was intercepted for the subsequent study to reduce the influence of random noise at both ends. Savitzky-Golay (SG) smoothing algorithm and multiple scattering correction (MSC) were used to pretreat the effective bands after denoising. The feature wavelengths of the preprocessed spectral data were extracted using a successive projections algorithm (SPA), competitive adaptive reweighted sampling (CARS) single screening, and combinations of CARS-SPA and CARS+SPA, respectively. Support vector machine (SVM), particle swarm optimization (PSO) optimized SVM model (PSO-SVM), and extreme learning machine (ELM) model were established based on full bands (FB) and feature band, which were compared to find the best variety classification model. The experimental results showed that the SG-SPA-ELM model has the best identification effect with the best classification accuracy of 85.00%. Hyperspectral imaging technology combined with ELM can effectively realize non-destructive, efficient, and accurate identification of egg varieties and provide references for egg adulteration detection and identification of other agricultural products.

Keyword: Hyperspectral image; Egg; Variety identification; Extreme learning machine
0 引言

鸡蛋内含多种人体所需营养物质, 已成为日常生活中必不可少的食物。 不同品种鸡蛋营养成分及含量不一, 直接影响鸡蛋口感、 品质和营养价值[1, 2]。 目前, 市面上鸡蛋品种较多, 在优质鸡蛋中掺入劣质鸡蛋, 其他鸡蛋等现象时有发生, 严重威胁食品安全和人体健康。 因此, 探索鸡蛋掺假及品种鉴别的高效无损检测方法具有重要意义和应用价值[3]

传统掺假检测包括人工检测、 色谱法、 聚合酶键式反应及酶联免疫技术等, 但易受主观因素影响, 检测成本高且不易操作。 高光谱成像技术具有快速、 操作简单、 绿色无污染等优势, 广泛应用于食物掺假检测、 农产品成分定量分析、 产地及品种鉴别等[4]。 宋科等[5]基于可见-近红外高光谱实现海兰褐鸡种蛋性别无损检测, 建立的偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)、 支持向量机(support vector machine, SVM)模型判别准确率分别为80.00%、 82.50%; 祝志慧等[6]利用紫外-可见透射光谱结合极限学习机(extreme learning machine, ELM)对鸡胚雌雄识别, 准确率为84.29%; 宋科等[7]利用光谱信息预测受精种蛋理化指标, PLS-DA模型预测集准确率为100.00%; 刘翠玲等[8]利用不同存储条件下鸡蛋高光谱图像和光谱数据建立新鲜度预测模型, 准确率为76.67%; 潘磊庆等[9]基于高光谱技术检测鸡种蛋性别, SVM和PLS-DA模型判别准确率均为75.00%; 祝志慧等[10]采用透射高光谱成像技术检测无精蛋和受精蛋, SVM模型检测准确率最高为93.00%; 王彬等[11]采用可见-近红外光谱结合增强回归树模型识别鸡蛋品种, 准确率为97.00%; Fu等[12]利用近红外光谱和遗传算法-支持向量回归(genetic algorithm-support vector regression, GA-SVR)确定鸡蛋综合新鲜度指数, 预测集决定系数( Rp2)为0.816, 均方根误差(root mean square error, RMSE)为0.012, 相对分析误差为2.077; Sahachairungrueng等[13]利用近红外高光谱成像技术对有机蛋和常规蛋无损分类, PLS-DA模型分类准确率为96.03%; Kim等[14]基于近红外光谱技术检测正常和异常鸡蛋, PLS-DA模型分类准确率最高为98.70%; Xie等[15]利用高光谱成像技术实现鸡蛋裂纹识别准确率为88.24%; Chen等[16]结合卷积神经网络和MobileNet实现高光谱鸡蛋缺陷实时准确检测; Dai等[17]利用散射高光谱技术对鸡蛋新鲜度检测的准确率达100.00%; Yan等[18]基于深度学习结合高光谱系统实现不同贮藏期鸡蛋光谱信息的准确识别。

高光谱成像技术在禽蛋新鲜度、 受精及性别信息、 品质及营养含量等检测中应用较多, 但正常无损鸡蛋品种鉴别研究鲜见。 已有研究多采用特征波长单一提取及SVM、 PLS-DA模型, 但部分检测结果欠佳。 本研究利用高光谱成像技术提取4个品种鸡蛋光谱数据, 经SG平滑(Savitzky-Golay smoothing, SG)和多元散射校正(multiple scattering correction, MSC)预处理后采用连续投影算法(successive projections algorithm, SPA)、 竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)、 CARS+SPA、 CARS-SPA提取特征波长, 建立SVM、 粒子群算法(particle swarm optimization, PSO)优化SVM(PSO-SVM)、 ELM等模型, 对比分析得鸡蛋品种鉴别最佳模型, 探索高光谱成像技术鉴别品种的可行性, 以期为鸡蛋品种鉴别提供新方法。

1 实验部分
1.1 试验材料

选用蛋壳无裂痕且大小一致的4种鸡蛋样本, 分别标号为品种1、 2、 3、 4, 每个品种60枚, 共240个试验样本。

1.2 仪器与设备

高光谱图像采集设备包括高光谱成像仪(SPECIM FX17e, 芬兰)、 卤素灯光源、 电控位移台、 暗箱和计算机等, 如图1所示。 高光谱成像仪有效扫描范围为900~1 700 nm, 光谱分辨率为8 nm, 共224个光谱波段。 采用Lumo Scanner软件收集高光谱图像信息, ENVI 5.3软件提取原始光谱数据, The Unscrambler X 10.4软件对光谱数据预处理, MATLAB 2016b提取特征波长及建模分析。

图1 高光谱成像系统
1: 高光谱成像仪; 2: 卤素灯光源; 3: 电控位移台; 4: 暗箱
Fig.1 Hyperspectral imaging system
1: Hyperspectral imager; 2: Halogen light source; 3: Electronic mobile platform; 4: Dark box

1.3 光谱采集方法

为保证光强输出稳定, 试验前仪器需预热30 min; 为确保图像不失真, 经试验调试确定最佳参数: 位移台移动速度为18.28 mm· s-1, 曝光时间为6.5 ms, 数据采集频率为50 Hz, 样本与高光谱成像仪镜头距离为320 mm; 为避免外界光源干扰, 图像采集在暗箱中进行; 为防止鸡蛋在电控位移台上滚动, 将其粘贴在黑色工具纸上, 每次采集一个品种, 得到60枚鸡蛋的光谱图像; 为减小暗电流、 噪声、 光源强度分布不均等因素影响, 需对鸡蛋光谱图像黑白校正, 校正公式如式(1)

R=IR-IHIB-IH(1)

式(1)中, R为校正后图像; IR为原始图像; IB为白板图像; IH为黑板图像。

样本原始光谱图像及黑白校正后图像如图2所示, 采用ENVI 5.3手动选取鸡蛋样本中心大小为30× 30 pixel的感兴趣区域(region of interest, ROI), 经ENVI处理后得到935.61~1 720.23 nm波段范围内原始光谱信息, 由于原始光谱数据首尾两端受噪声等干扰, 截取949.43~1 709.49 nm范围内平均光谱信息用于后续数据处理。

图2 光谱图像黑白校正
(a): 原始光谱图像; (b): 黑白校正后图像
Fig.2 Black and white correction of spectral image
(a): Original spectral image; (b): Black and white corrected image

1.4 建模方法和模型评价标准

采用CARS、 SPA降低输入光谱维度以提高模型鉴别效率。 鉴别模型采用SVM、 PSO-SVM、 ELM, 其中, SVM是解决非线性及高维数据问题的经典监督学习方法[19], 但其分类精度受惩罚因子c和核函数参数g影响较大; PSO算法是模仿鸟群集体觅食行为的一种优化算法, 从随机解出发, 寻找SVM模型参数cg最优组合, 设置种群初始数量为20, 最大迭代次数为200, 局部搜索能力C1为1.5、 全局搜索能力C2为1.7, 不断更新粒子速度与位置, 计算适应度值并判断是否为满意解[20]; ELM算法随机生成输入层权重和隐藏层偏差, 利用最小二乘法确定输出层权值[21]。 以特征波长和全波段为模型输入变量, 鸡蛋品种类别作为输出变量建立鸡蛋品种鉴别模型, 比较鉴别准确率并寻找最优模型。

2 结果与讨论
2.1 训练集与测试集划分

试验样本共240个, 按2∶ 1方式对4个品种鸡蛋随机划分训练集和测试集, 每个品种训练集和测试集分别为40枚和20枚。

2.2 光谱数据预处理

原始全光谱波段中含有大量冗余信息和其他无关信息, 直接用于建模易导致模型鉴别准确率降低。 在The Unscrambler X 10.4软件中利用SG平滑和MSC预处理以提升模型预测精度和稳定性, 光谱平均反射率曲线如图3所示。

图3 预处理后的光谱平均反射率曲线图
(a): SG预处理; (b): MSC预处理
Fig.3 Spectral average reflectivity curve after preprocessing
(a): SG pretreatment; (b): MSC pretreatment

2.3 特征波长提取

2.3.1 竞争性自适应重加权算法(CARS)

采用CARS对SG、 MSC预处理后的光谱数据提取特征波长, 结果如图4所示。 图4(a)表明筛选出波长变量个数随采样次数增加呈指数减少, 在第16次采样前, 特征波长变量个数急剧下降, 第16次采样后, 特征波长变量个数缓慢下降; 图4(b)表明在1~16次采样过程中, 随无关及冗余信息被剔除, 交叉验证均方根误差(RMSECV)快速减小, 第16次采样时RMSECV达到最小值, 之后由于与鸡蛋品种鉴别相关的有效信息被剔除, RMSECV值又逐渐增大; 图4(c)表明在第16、 17次采样时RMSECV值最小, 说明此时为变量最优子集, 最终得到52个关键波长变量。 同理, 对MSC预处理后光谱数据共提取出39个关键波长变量。

图4 SG预处理后CARS提取特征波长
(a): 特征波长数目; (b): RMSECV; (c): 回归系数
Fig.4 Feature wavelengths extracted by CARS after SG pretreatment
(a): Number of feature wavelength variables; (b): RMSECV; (c): Regression coefficient

图5 SG预处理后SPA提取特征波长
(a): 变量数目; (b): 变量分布
Fig.5 Feature wavelengths extracted by SPA after SG pretreatment
(a): Variables number; (b): Variables distribution

2.3.2 连续投影算法(SPA)

SPA提取特征波长时, 设置优选最大波长数目为20, 随特征波长数目增加, 均方根误差(RMSE)值先下降而后趋于平缓, 说明此时已无冗余和共线性信息。 对SG预处理后的光谱数据优选出13个特征波长变量, RMSE值最小为0.738 7, 如图5所示; 对MSC预处另后的光谱数据优选出6个特征波长变量, RMSE值最小为0.830 9, 如图6所示。

图6 MSC预处理后SPA提取特征波长
(a): 变量数目; (b): 变量分布
Fig.6 Feature wavelengths extracted by SPA after MSC pretreatment
(a): Variables number; (b): Variables distribution

2.3.3 组合提取特征波长

现有研究多采用CARS、 SPA单一提取, 但存在多重共线性问题, 导致模型运行效率及预测效果降低。 故增加CARS+SPA、 CARS-SPA两种组合方式提取特征波长, CARS+SPA表示对CARS、 SPA单一提取的波长取并集, CARS-SPA表示SPA对CARS提取的波长二次提取, 特征波长提取结果如表1所示。

表1 特征波长提取结果 Table 1 Feature wavelength extraction results

CARS+SPA对SG、 MSC预处理后的光谱数据分别提取出62、 43个特征波长。 利用CARS-SPA对SG预处理后的数据提取特征变量, RMSE值最小为0.694 0, 特征波长数目为14个; 对MSC预处理后的数据提取特征变量, RMSE值最小为0.793 7, 特征波长数目为11个。

2.4 模型建立与分析

基于SVM、 PSO-SVM、 ELM三种鉴别模型, 将CARS、 SPA单一提取, CARS+SPA、 CARS-SPA两种组合提取后的特征波长及全波段(full bands, FB)作为输入变量, 鸡蛋品种类别作为输出变量, 对比鉴别准确率评价模型性能, 模型鉴别准确率如表2所示。

表2 模型鉴别准确率 Table 2 Accuracy of model classification

表2可知, 预处理对模型预测准确率有直接影响。 由于传统SVM模型随机生成cg参数组合, 导致其鉴别精度极低, 不同特征波长提取方式下, SG预处理后的光谱数据建模效果均优于MSC预处理; 采用PSO算法优化SVM模型, 模型鉴别准确率较SVM均有提高, MSC预处理后, PSO-SVM优化模型鉴别准确率较SVM显著提高22.50%~40.00%, 其中, MSC-FB-PSO-SVM模型鉴别准确率最高为80.00%, MSC-(CARS+SPA)-PSO-SVM模型弥补部分有效信息缺失的影响, 鉴别准确率较MSC-(CARS/SPA/CARS-SPA)-PSO-SVM分别提高1.25%、 2.50%、 7.50%, MSC预处理后的数据建模效果优于SG; 由于PSO-SVM优化模型准确率仍有较大提升空间, 故建立ELM鉴别模型, 从结果中可发现ELM整体鉴别准确率优于PSO-SVM模型, SG、 MSC预处理下ELM模型鉴别准确率较PSO-SVM分别提高21.25%~36.25%、 6.25%~10.00%, SG-(CARS-SPA)-ELM模型鉴别准确率较SG-(CARS+SPA/CARS)-ELM分别提高8.75%、 12.50%, 说明CARS-SPA二次提取可减少信息冗余, 有效提取关键变量, 进一步减少输入变量以提高鉴别效率, 其中, SG-SPA-ELM模型鉴别准确率最佳为85.00%, SG-CARS-SPA-ELM次之, 鉴别准确率为83.75%。

3 结论

(1)相同模型下, 不同预处理对模型鉴别准确率有直接影响。 SVM和ELM模型中SG预处理后光谱数据建模效果优于MSC, PSO-SVM模型下MSC预处理后的数据建模效果较好;

(2)经SG、 MSC预处理后光谱数据建立的PSO-SVM模型对鸡蛋品种鉴别精度显著高于SVM模型, MSC-FB-PSO-SVM模型鉴别准确率为80.00%;

(3)ELM模型对鸡蛋品种鉴别效果优于PSO-SVM, 其中SG-CARS-SPA-ELM鉴别准确率为83.75%, SG-SPA-ELM模型鉴别准确率为85.00%, 故SG-SPA-ELM为鸡蛋品种鉴别最佳模型, 为鸡蛋掺假及农产品品种鉴别提供新的解决方法。

参考文献
[1] XING Lei, ZHAO Le-le, WU Hao-min, et al(邢磊, 赵乐乐, 吴昊旻, ). Chinese Poultry(中国家禽), 2020, 42(10): 6. [本文引用:1]
[2] YANG Meng-ting, LI Guo-qin, ZHOU Shi-heng, et al(杨梦婷, 李国勤, 周士恒, ). Chinese Poultry(中国家禽), 2024, 46(8): 114. [本文引用:1]
[3] QIU Ye, HAO Xin, KONG Wei-heng, et al(邱烨, 郝欣, 孔维恒, ). Analytical Instrumentation(分析仪器), 2023, (6): 99. [本文引用:1]
[4] WANG Qiao-hua, MA Yi-xiao, FU Dan-dan, et al(王巧华, 马逸霄, 付丹丹, ). Journal of Huazhong Agricultural University(华中农业大学学报), 2021, 40(6): 220. [本文引用:1]
[5] SONG Ke, YANG Chong-long, SHI Yong-hong, et al(宋科, 杨崇龙, 石永宏, ). Journal of Food Safety and Quality Inspection(食品安全质量检测学报), 2022, 13(17): 5518. [本文引用:1]
[6] ZHU Zhi-hui, HONG Qi, WU Lin-feng, et al(祝志慧, 洪琪, 吴林峰, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(9): 2780. [本文引用:1]
[7] SONG Ke, PAN Lei-qing, YANG Chong-long, et al(宋科, 潘磊庆, 杨崇龙, ). Journal of Nanjing Agricultural University(南京农业大学学报), 2023, 46(6): 1187. [本文引用:1]
[8] LIU Cui-ling, QIN Dong, SUN Xiao-rong, et al(刘翠玲, 秦冬, 孙晓荣, ). Journal of Food Science and Technology(食品科学技术学报), 2022, 40(6): 172. [本文引用:1]
[9] PAN Lei-qing, ZHANG Wei, YU Min-li, et al(潘磊庆, 张伟, 于敏莉, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(1): 181. [本文引用:1]
[10] ZHU Zhi-hui, LIU Ting, MA Mei-hu(祝志慧, 刘婷, 马美湖). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(15): 285. [本文引用:1]
[11] WANG Bin, WANG Qiao-hua, XIAO Zhuang, et al(王彬, 王巧华, 肖壮, ). Journal of Huazhong Agricultural University(华中农业大学学报), 2018, 37(1): 95. [本文引用:1]
[12] Fu D D, Li Q Y, Chen Y, et al. International Journal of Food Properties, 2023, 26(1): 155. [本文引用:1]
[13] Sahachairungrueng W, Thompson A K, Terdwongworakul A, et al. Foods, 2023, 12(13): 2519. [本文引用:1]
[14] Kim J, Semyalo D, Rho T G, et al. Sensors, 2022, 22(24): 9826. [本文引用:1]
[15] Xie C Q, He Y. Scientific Reports, 2016, 6(1): 21130. [本文引用:1]
[16] Chen S Y, Hsu S H, Ko C Y, et al. Food Control, 2023, 150: 109716. [本文引用:1]
[17] Dai D J, Jiang T, Lu W, et al. Sensors, 2020, 20(19): 5484. [本文引用:1]
[18] Yan C H, Lu A. Transactions of the Institute of Measurement and Control, 2023, 45(14): 2679. [本文引用:1]
[19] XU Min-ya, ZHU Lu-sheng, LIU Yong-hua, et al(徐敏雅, 朱路生, 刘永华, ). Journal of Chinese Agricultural Mechanization(中国农机化学报), 2023, 44(12): 137. [本文引用:1]
[20] CAO Jia-jia, YAN Yuan, CHEN Yi, et al(曹嘉嘉, 严圆, 陈益, ). Journal of Dongguan University of Technology(东莞理工学院学报), 2022, 29(3): 50. [本文引用:1]
[21] JIANG Feng-li, YANG Lei, TIAN You-wen, et al(姜凤利, 杨磊, 田有文, ). Journal of Shenyang Agricultural University(沈阳农业大学学报), 2023, 54(3): 318. [本文引用:1]