基于近红外光谱和多变量数据处理的鸡蛋蛋黄颜色无损判别研究
温裕宽1, 董桂梅1, 李留安2, 于晓雪2, 于亚萍1,*
1.天津农学院工程技术学院, 天津 300384
2.天津农学院动物科学与动物医学学院, 天津 300384
*通讯作者 e-mail: yaping261@163.com

作者简介: 温裕宽, 1998年生, 天津农学院工程技术学院硕士研究生 e-mail: kuan717253@163.com

摘要

蛋黄颜色是鸡蛋品质的重要指标, 消费者更喜欢购买蛋黄颜色较深的鸡蛋。 通常将鸡蛋打开, 通过罗氏比色扇对蛋黄颜色进行判别, 无损判别蛋黄颜色的研究具有重要意义。 针对不同颜色蛋壳的鸡蛋, 进行蛋黄颜色无损判别方法研究, 通过近红外光谱数据采集, 采用化学计量法建立定性分类预测模型, 对影响蛋黄颜色成分进行分析, 找到谱图吸收峰对应官能团。 采集了90个粉壳蛋和89个白壳蛋的近红外光谱数据, 罗氏比色扇记录的蛋黄颜色用于建立定性分类模型目标颜色, 将样本按2:1分为校正集和预测集, 分别对单种颜色蛋壳样本和混合颜色蛋壳样本建立了预测模型。 采用线性(偏最小二乘法判别PLS-DA、 线性判别分析LDA)和非线性(卷积神经网络CNN、 极限学习机ELM)的方法建立了分类模型, 运用多种预处理方法, 采用CARS特征波长筛选方法对光谱数据筛选了176个波长点。 不同颜色蛋壳混合样本采用CARS波长筛选法、 MSC和二阶导数的预处理方法, 建立的偏最小二乘法分类模型准确率最高达91.67%, LDA达到98.11%。 对粉壳蛋单独进行建模时, 建立的偏最小二乘分类模型测试集准确率达到100%。 对白壳蛋单独进行建模时, 建立的偏最小二乘分类模型准确率达到了96.67%, 而LDA模型准确率则达到了100%。 结果表明, 线性分析方法更加能表征鸡蛋光谱数据蛋黄颜色的特征, 适合蛋黄颜色无损检测。 该方法不仅能满足消费者的需求, 而且蛋黄颜色判别结果对养殖场饲料喂养及调控起指导作用。

关键词: 近红外光谱; 蛋黄颜色; 偏最小二乘法; 线性判别分析; 特征波长筛选; 数据预处理
中图分类号:O657.33 文献标志码:A
Nondestructive Identification of Egg Yolk Color Based on Near Infrared Spectrum and Multivariate Data Processing
WEN Yu-kuan1, DONG Gui-mei1, LI Liu-an2, YU Xiao-xue2, YU Ya-ping1,*
1. College of Engineering and Technology, Tianjin Agricultural University, Tianjin 300384, China
2. College of Animal Science and Veterinary Medicine, Tianjin Agricultural University, Tianjin 300384, China
*Corresponding author
Abstract

Yolk color is an important indicator of egg quality, and consumers prefer to buy eggs with darker yolk color. Currently, the commonly used method involves physically opening the egg to distinguish the yolk color using the Roche fan method, so the research on non-destructive identification of yolk color is significant. This paper mainly studies the non-destructive identification method of yolk color for eggs with different eggshell colors. The data is collected by near-infrared spectroscopy. Then, the qualitative classification prediction model is established by using a chemometry algorithm. The components affecting egg yolk color are analyzed to find the functional groups corresponding to the spectral absorption peak. This study collected the NIR spectral data of 90 pink and 89 white eggs using the Roche fan method to record yolk color and establish qualitative classification models. The samples were divided into correction sets and prediction sets according to 2:1, and prediction models were established for single-color and mixed-color samples, respectively. Linear (partial least square discriminant PLS-DA, linear discriminant analysis LDA) and nonlinear (convolutional neural network CNN, extreme learning machine ELM) methods were used to establish the classification models along sidevarious pretreatment and wavelength screening methods. CARS feature wavelength screening method was used to screen 176 wavelength points of spectral data. Combining CARS wavelength screening, MSC, and second derivative pretreatment methods for 2 kinds of color eggshell samples, the accuracy of the test set reached 91.67% by the PLS-DA model. In contrast, the LDA model reached 98.11%. For the pink shell eggs, the accuracy of the test set is 100% by the PLS-DA model. For the white shell eggs, the accuracy of the PLS-DA model is 96.67%, while that of the LDA model is 100%. These results demonstrate the efficacy of linear methods in characterizing the egg yolk color from spectra. This method can not only meet the needs of consumers but also play a guiding role in feed feeding and control of farms.

Keyword: Near Infrared Spectroscopy; Yolk color; Partial least square method; Linear discriminant analysis; Feature wavelength screening; Data reprocessing
引言

鸡蛋为人们日常食用的一种食物, 具有很高的营养价值, 含有丰富的蛋白质、 维生素、 微量元素、 矿物质, 尤其是Omega-3脂肪酸、 叶黄素等, 用于补充人体所需的营养物质[1]。 鸡蛋由蛋壳、 蛋清和蛋黄组成, 蛋壳的主要成分为无机物, 其中, CaCO3约占93%, 还有少量的Ca3(PO4)2、 MgCO3、 Mg3(PO4)2。 蛋壳中的有机物主要为蛋白质, 占蛋壳的3.2%, 氮占16%、 硫占3.5%, 还有一定量的水及少量的脂质, 占0.003%[2, 3, 4, 5]; 蛋清的主要成分是蛋白质, 蛋黄除了胆固醇、 脂肪以及鲜艳的颜色外, 还提供了各种营养素, 如脂溶性维生素, 必需脂肪酸以及钙、 铁、 镁、 磷、 锌、 胆碱、 类胡萝卜素、 叶黄素和大量B族维生素[6]。 颜色鲜明的食物总能促进人的食欲, 如果蛋黄色度低于8(罗氏比色扇测定数字量), 消费者就会觉得鸡蛋品质不高, 更愿意接受的色度为8~12。 与普通的浅色蛋黄相比, 颜色较深的蛋黄通常含有更多Omega-3脂肪酸和维生素[7]。 蛋黄颜色取决于蛋黄中类胡萝卜素的含量, 对蛋黄颜色起主要作用的是类胡萝卜素中的叶黄素C40H56O2, 蛋黄中色素含量和种类与饲料密切相关[8], 有研究表明在鸡饲料中添加天然或合成的胡萝卜素可以对蛋黄的颜色显著影响[9]

蛋黄颜色常用的检测方法有罗氏扇形卡法、 蛋黄颜色视觉指数法、 Herman-Carver色转法(蛋黄颜色打分仪器)、 NEPA法、 Fletcher环法和色差仪测色法。 BojanaMilovanovic等提出了一种计算机视觉系统和Minolta色度计相结合对蛋黄颜色进行评价的新方法。 Helena Bovš ková 等研究表明, 用罗氏比色扇目测蛋黄颜色比AOAC法等其他测量胡萝卜素含量的方法更为迅速准确, 与蛋黄颜色的感官感知更为吻合[10, 11, 12]。 罗氏扇形卡法测定方便快捷, 为了准确测试蛋黄颜色, 通常通过多人去观察对比蛋黄颜色指数, 再取平均值, 费时费力, 长时间评判受生理状态限制, 而且需要将鸡蛋打开识别, 因此需要开发一种对蛋黄颜色无损判别的方法。

Aboonajmi M等采用可见-近红外光谱检测技术以及主成分分析和径向基函数网络对完整鸡蛋的哈氏单位和气室高度建立了良好的预测模型[13]。 Chen等通过近红外光谱与基于数据驱动的类建模(DDCM)和模型无关变量选择(JMI)相结合对饲料鸡蛋和土鸡蛋建立了可靠的分类预测模型[14]。 Nicolas Abdel-Nour等通过可见-近红外光谱检测对鸡蛋样品的哈氏单位(HU)和蛋白pH值建立了良好的偏最小二乘预测模型[15]。 上述研究均对鸡蛋的哈氏单位、 新鲜度等建立预测模型, 未对蛋黄品质做研究, 采用的建模方法也较为单一。 本研究采用四种建模方法建立了蛋黄品质分类预测模型, 实现了不同蛋壳颜色鸡蛋蛋黄品质的无损检测。 近红外光谱测试方便, 能够透过样品表面, 被内部物质吸收, 对于大多数类型的样品, 不进行任何处理便可测量, 非常适用于对鸡蛋内部品质的无损探测。

1 实验部分
1.1 样品及仪器

实验样品为从超市购买同批次粉壳蛋90个, 白壳蛋89个。 为了避免外部因素对光谱数据采集的影响, 先洗去鸡蛋表面污垢, 擦去表面水分, 对鸡蛋编号。

采用傅里叶近红外光谱分析仪(美国, PerkinElmer公司)。 分别从鸡蛋大头、 小头以及赤道部位进行光谱数据采集, 用内径2 cm的一个小圆环作为蛋托, 鸡蛋放在蛋托之上, 为防止扫描过程中光谱漏光, 在积分球内完成对鸡蛋的光谱扫描。 光谱扫描范围为4 000~10 000 cm-1, 分辨率为8 cm-1, 扫描次数为32。 扫描完成后, 打开鸡蛋分离出完整的蛋黄, 通过罗氏比色扇比对蛋黄颜色数值并按编号记录。 由于罗氏比色扇颜色等级划分很细致, 样品的蛋黄颜色分布在各个颜色等级中, 形成了一定的梯度。

1.2 数据处理方法及建模

分别将蛋黄颜色指数大于等于8和小于8的鸡蛋分为两类, 以建立定性模型。 并将光谱数据按2:1的比例划分为校正集和预测集, 用于构建分类预测模型。

1.2.1 预处理方法

数据预处理采用均值中心化、 标准化、 归一化、 平滑、 导数、 标准正态变量变换、 多元散射校正等[16, 17, 18]。 标准正态变量变换(standard normal variate, SNV)用于消除光谱数据中的散射效应和基线漂移等干扰因素。 多元散射校正(multiplicative scatter correction, MSC)消除由于在光谱测量过程中散射水平不同带来的光谱差异, 增强光谱与数据之间的相关性。 导数变换的主要目的是消除原始光谱数据中背景噪声和干扰, 提高光谱数据的分辨率和灵敏度。 导数变换是通过对光谱数据进行求导运算, 将原始光谱数据中的平滑部分和变换缓慢的部分分离出来, 从而突出光谱数据中的快速变化部分。 导数变换分为一阶导数和二阶导数两种形式, 可以消除基线漂移, 提高光谱分辨率, 一阶导数和二阶导数分别扣除斜线和曲线背景。

1.2.2 特征波长筛选方法

为提高预测精度, 数据预处理后考虑对特征波长进行筛选。 采集的鸡蛋光谱数据除了目标组分信息外, 还包含与目标组分无关的信息以及由于吸光度饱和而溢出的信息。 因此在建立定性模型时, 筛选合适光谱变量对建立一个好的模型十分必要。 经过多次建模验证, 使用竞争自适应重加权采样法(competitive adaptive reweighted sampling, CARS)进行变量选择的准确率最高。 CARS是一种结合蒙特卡洛采样与偏最小二乘(partial least squares, PLS)模型回归系数的特征变量选择方法, 模仿达尔文理论中“ 适者生存” 原则。 在CARS算法中, 每次通过自适应加权采样保留PLS模型中回归系数绝对值权重较大的点作为新的子集, 去掉权值较小的点, 基于新的子集建立PLS模型, 选择PLS模型交互验证均方根误差(root mean square error of cross validation, RMSECV)最小时的子集波长作为特征波长[19, 20, 21, 22]

1.2.3 建模算法

选取四种算法进行分类建模, 包括两种线性方法偏最小二乘法判别分析(partial least squares discriminant analysis, PLS-DA)、 线性判别分析(linear discriminant analysis, LDA)和两种非线性方法极限学习机(extreme learning machine, ELM)、 卷积神经网络(convolutional neural network, CNN)。

(1) PLS-DA法: 偏最小二乘法判别分析是有监督的判别分析方法, 是多变量统计分析方法。 PLS-DA能按照预先定义的分类(Y变量)最大化组间差异, 获得比主成分分析更好的分离效果。

(2)LDA法: 给定训练样例集, 设法将样例投影到一条直线上, 使同类样例的投影点尽可能接近, 异类样例的投影点尽可能远离。 在对新样本分类时, 将其投影到同样的直线上, 再根据投影点位置来确定新样本的类别。 其具有较好的降维效果和分类能力, 同时对噪声具有一定的抗干扰能力。

(3)ELM法: 极限学习机是基于前馈神经网络构建的机器学习系统或方法, 适用于监督学习和非监督学习。

(4)CNN法: 卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络, 可以进行监督学习和非监督学习, 其隐含层内的卷积核参数共享和层间连接的稀疏性使其卷积神经网络能够以较小的计算量对应格点化特征。

2 结果与讨论
2.1 采集不同蛋壳颜色鸡蛋不同部位的波形

不同蛋壳颜色、 鸡蛋不同部位(大头、 小头、 赤道)所得光谱数据波形如图1所示, 其光谱数据波形趋势相同, 吸收峰位置也相同。 由于蛋黄离赤道部位近, 与大头、 小头相比, 受气室和蛋白的干扰小, 鸡蛋赤道部位采集的数据吸光度比其他部位略强。 尤其在图1中第二个吸收峰(4 600~5 400 cm-1)位置, 由于此吸收峰对映的蛋黄中脂类和叶黄素官能团的吸收更强。 因鸡蛋样品具有随机性, 蛋壳色泽(白蛋壳、 粉蛋壳颜色微弱变化)、 蛋黄大小等因素会引起光谱曲线变化, 采用多元散射校正、 二阶导和归一化的多种预处理方法, 消除了光谱数据中的散射效应和基线漂移等干扰, 提高了光谱分辨率。

图1 不同蛋壳颜色鸡蛋大头、 赤道、 小头的近红外光谱图
a: 白壳蛋大头部位; b: 白壳蛋赤道部位; c: 白壳蛋小头部位; d: 粉壳蛋大头部位; e: 粉壳蛋赤道部位; f: 粉壳蛋小头部位
Fig.1 Near-infrared spectra of big head, equator and small head of eggs with different eggshell colors
a: White shell egg head part; b: Equatorial parts of white shell eggs; c: Small head of the white shell egg; d: Pink shell egg head part; e: Equatorial part of pink eggs; f: Small head of pink shell egg

2.2 波谱的解析

分析179个鸡蛋样品(粉壳蛋90个, 白壳蛋89个)4 000~10 000 cm-1范围内鸡蛋赤道的光谱数据, 如图2(a, b)所示, 所有样品都呈现出相同趋势, 吸收峰位置相同, 说明鸡蛋的营养物质(蛋白质、 维生素、 脂肪等)所具有的官能团对映了原始光谱数据的吸收峰[23]。 光谱图中4 272、 5 154、 6 836和8 506 cm-1出现了特征明显的吸收峰。 第一个吸收峰出现在4 200~4 400 cm-1区域内, 与芳烃中C— H键的伸缩振动有关; 第二个吸收峰出现在4 600~5 300 cm-1区域, 与O— H键的伸缩振动以及O— H键第二泛音的弯曲振动和C=O键的伸缩振动有关, 对映鸡蛋中脂类物质官能团, 也与蛋黄中叶黄素的含氧基团和羟基基团有关; 第三个吸收峰出现于6 200~7 200 cm-1区域内, 与N— H键的伸缩振动有关, 对映了蛋清以及蛋黄中蛋白质的官能团[6]; 第四个吸收峰出现于8 300~8 700 cm-1区域, 与C— H键第二泛音的伸缩振动有关[24], 此峰在粉壳蛋的图谱中更加明显与尖锐, 可能与粉壳蛋蛋壳染色的原卟啉(CHN4O4)甲基基团相关。

图2 (a)每个波峰对应的官能团; (b)全部样本光谱图Fig.2 (a) Functional group corresponding to each wave crest; (b) Spectra of all samples

2.3 预处理结果

在利用不同预处理方法对原始光谱数据进行预处理之后的PLS-DA建模结果并不理想, 建立的分类预测模型准确率都在60%到75%之间, 其中准确率最高的两种预处理方法是MSC和二阶导数, 不同预处理结果如图3(a— f)所示。

图3 光谱数据预处理后图像
(a): 均值中心化; (b): Z-Score标准化; (c): 移动窗口平滑; (d): 标准正态变换; (e): 多元散射校正; (f): 二阶导数
Fig.3 Image after spectral data preprocessing
(a): Mean centering; (b): Z-Score scaling; (c): Moving average; (d): SNV; (e): MSC; (f): 2nd derivative

2.4 特征波长筛选结果

样本经过CARS特征波长筛选了176个波长点, 图4为光谱数据筛选的波长点位置。

图4 CARS法筛选的波长点Fig.4 Wavelength points screened by CARS method

2.5 建模结果

粉壳蛋校正集60个, 预测集30个, 白壳蛋校正集59个, 预测集30个, 混合样品校正集119个, 预测集60个。

使用ELM算法建模时, 输入层和隐含层之间的连接权值是随机设定并通过代码随机生成, 隐含层和输出层之间的连接权值通过求解方程组确定, 只需调整隐藏层节点数, 增加节点数可以提高模型的拟合能力, 也会增加过拟合的风险。 对本数据, 通过交叉验证方式选择最合适的节点数为50。

在使用CNN算法建模时, 优化器选择为Adam梯度下降算法, 根据梯度的一阶矩估计和二阶矩估计来自适应调整学习率; 激活函数选择ReLU函数, 可以解决梯度消失问题, 加速网络收敛速度; 选择了L2正则化的方法通过在损失函数中添加权重的平方和来惩罚过大的权重, 以防止过拟合。

在使用PLS-DA算法建模时, 预处理后数据经过交叉验证方法确定主成分数, 白壳蛋样本单独建模时主成分数为5, 褐壳蛋样本单独建模时主成分数为8, 混合样本建模时主成分数为5, 在使用LDA算法建模时无需进行参数设置。 上述方法处理后的数据建立分类模型结果见表1和图5(a— f)。

表1 降维后光谱数据建模结果 Table 1 Spectral data modeling results after dimensionality reduction

图5 定性分析预测集结果
(a): 白壳蛋PLS-DA预测结果; (b): 粉壳蛋PLS-DA预测结果; (c): 混合样品PLS-DA预测结果; (d): 白壳蛋LDA预测结果; (e): 粉壳蛋LDA预测结果; (f): 混合样品LDA预测结果
Fig.5 Qualitative analysis prediction set results
(a): PLS-DA prediction set results for white shell eggs; (b): Results of PLS-DA prediction set for pink eggs; (c): PLS-DA prediction set results of mixed samples; (d): LDA prediction set results for white shell eggs; (e): LDA prediction set results for pink shell eggs; (f): Mixed samples LDA prediction set results

两种线性的建模方法PLS-DA和LDA建立的模型效果最好。 对于单一样本, PLS-DA模型预测集的准确率分别达到了96.67%和100%, LDA达到了100%和86.67%。 对于混合样本, PLS-DA和LDA模型预测集的准确率分别达到了91.67%和98.11%。 采用PLS-DA建立的模型在预测单种样品时准确率较高, 而对于混合样品有明显下降, 可能是由于粉色蛋壳中原卟啉的影响, 导致粉壳蛋光谱数据中一些吸收峰略微有改变, 从而增加了混合样品建模的不稳定性。 采用LDA建立的模型, 对于混合样本和白壳蛋样本预测准确率极高。 另外两种非线性算法(ELM、 CNN)建立的模型准确率都相对较低, 说明非线性算法对于蛋黄颜色分类模型的建立不适用, 通过线性方法LDA建立的分类模型更适合蛋黄颜色检测。

3 结论

近红外光谱检测数据和多变量数据分析方法相结合, 采用MSC和二阶导预处理方法, 有效消除光谱数据无关信息和噪声等带来的影响, 使得鸡蛋样品的光谱数据更加准确地表征蛋黄颜色, CARS提取了预处理矩阵中少数特征变量, 具有最佳的选择能力。 MSC-二阶导-归一化-CARS-LDA的方法对不同蛋壳蛋黄颜色的预测精度最高, 预测准确率达到98.11%, 说明可以通过近红外光谱实现蛋黄颜色的无损判别, 此方法对维护消费者利益和养殖场的鸡饲料成分调控具有重要指导意义。

参考文献
[1] ZHENG Yan, XU Qing-cui, FAN Li-xia, et al(郑颜, 胥清翠, 范丽霞, ). Food and Nutrition in China(中国食物与营养), 2022, 28(1): 45. [本文引用:1]
[2] Rakonjac S, Bogosavljevic B S, Škrbic Z, et al. Biotechnology in Animal Husband ry, 2018, 34(3): 335. [本文引用:1]
[3] Pal M, Molnár J. International Journal of Food Science and Agriculture, 2021, 5(1): 180. [本文引用:1]
[4] Drabik K, Karwowska M, Wengerska K, et al. Animals, 2021, 11(5): 1204. [本文引用:1]
[5] Cendron F, Currò S, Rizzi C, et al. Animals, 2022, 13(1): 77. [本文引用:1]
[6] Antova G A, Gerzilov V T, Petkova Z Y, et al. Journal of the Science of Food and Agriculture, 2019, 99(13): 5890. [本文引用:2]
[7] Nuningtyas Y F, Chang H L, Lin M J, et al. Earth and Environmental Science, 2020, 478(1): 012050. [本文引用:1]
[8] Saleh A A, Gawish E, Mahmoud S F, et al. Sustainability, 2021, 13(8): 4503. [本文引用:1]
[9] Grčevic M, Kralik Z, Kralik G, et al. Journal of the Science of Food and Agriculture, 2019, 99(5): 2292. [本文引用:1]
[10] Milovanovic B, Tomovic V, Djekic I, et al. Journal of Food Measurement and Characterization, 2021, 15(6): 5097. [本文引用:1]
[11] Bovšková H, Míková K, Panovská Z. Czech Journal of Food Sciences, 2014, 32(3): 213. [本文引用:1]
[12] Joubrane K, Mnayer D, Hamieh T, et al. American Journal of Analytical Chemistry, 2019, 10(10): 488. [本文引用:1]
[13] Aboonajmi M, Saberi A, Abbasian Najafabadi T, et al. International Journal of Food Properties, 2016, 19(5): 1163. [本文引用:1]
[14] Chen H, Tan C, Lin Z. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 206: 484. [本文引用:1]
[15] Abdel-Nour N, Ngadi M, Prasher S, et al. Food and Bioprocess Technology, 2011, 4: 731. [本文引用:1]
[16] Roger J M, Mallet A, Marini F. Molecules, 2022, 27(20): 6795. [本文引用:1]
[17] Mishra P, Biancolillo A, Roger J M, et al. Trends in Analytical Chemistry, 2020, 132: 116045. [本文引用:1]
[18] Lee L C, Liong C Y, Jemain A A. Chemometrics and Intelligent Laboratory Systems, 2017, 163: 64. [本文引用:1]
[19] Yun Y H, Li H D, Deng B C, et al. TrAC Trends in Analytical Chemistry, 2019, 113: 102. [本文引用:1]
[20] Fu J, Yu H D, Chen Z, et al. Infrared Physics & Technology, 2022, 125: 104231. [本文引用:1]
[21] Ng W, Minasny B, Malone B P, et al. Computers and Electronics in Agriculture, 2019, 158: 201. [本文引用:1]
[22] Chu X L, Yuan H F, Lu W Z. Progress in Chemistry, 2004, 16(4): 528. [本文引用:1]
[23] Brasil Y L, Cruz-tirado J P, Barbin D F. Food Control, 2022, 131: 108418. [本文引用:1]
[24] Cruz-tirado J P, Lucimar Da Silva Medeiros M, Barbin D F. Journal of Food Engineering, 2021, 306: 110643. [本文引用:1]