高光谱漫反射无损检测鸡蛋受精状态
崔德建1, 柳洋洋1, 夏元天1, 贾伟娥1, 连正兴2, 李林1,*
1.中国农业大学信息与电气工程学院, 北京 100083
2.中国农业大学动物科学技术学院, 北京 100083
*通讯作者 e-mail: lilincau@126.com

作者简介: 崔德建, 1997年生, 中国农业大学信息与电气工程学院硕士研究生 e-mail: 418173531@qq.com

摘要

种鸡蛋孵化期间受精状态的检测需要消耗大量人力、 物力, 并且孵化期间的种鸡蛋不能保证均为健康蛋, 需要能够在孵化早期将无精蛋和死精蛋快速准确挑选出来达到降低生产成本的目的。 以白来航鸡蛋为研究对象, 采用高光谱分选仪批量采集受精、 未受精、 死精三类鸡蛋共119枚在382~1 026 nm范围内的高光谱数据, 其中受精蛋采集孵化3, 5, 7, 9, 11, 13和15 d的数据, 并通过黑白校正方法对原始光谱图做校正处理, 得到其漫反射率, 经过实验对比以及根据实际生产需要, 受精蛋选用孵化3和5 d的光谱数据作为建模数据。 同时提出了一种将光谱数据转换为图像数据的方法, 在最大化保证光谱原始数据的前提下达到了光谱向量数据可视化的效果, 可以有效与深度学习图像识别算法相结合。 采用连续投影算法(SPA)、 竞争性自适应重加权算法(CARS)对光谱波段进行筛选, 建立基于全波段、 CARS筛选的特征波长、 SPA筛选的特征波长与SVM、 RandomForest算法与AlexNet、 MobileNet网络的判别模型, 其中AlexNet-5dFull Wave Bands准确率最高为93.22%。 与通过不同特征波长算法筛选出的数据实验结果对比发现, 经过SPA算法筛选后的特征波长的建模效果相比于CARS效果更好, 其中SVM-SPA3d模型准确率为91.52%, RandomForest-SPA3d模型的准确率为89.83%, AlexNet-SPA3d模型的准确率为89.83%, 表明经过SPA筛选后的特征波长能够保存更多关于种蛋信息差异的有效信息。 研究结果表明, 利用高光谱分选仪对批量种蛋进行漫反射光谱采集, 并将黑白校正后的原始光谱漫反射率数据转换为图像数据, 将转换后的图像数据利用深度学习图像识别算法对鸡蛋的受精状态进行准确、 无损鉴别是可行的, 为后续相关自动化的批量检测提供了技术支持。

关键词: 高光谱漫反射; 判别; 受精蛋; 批量采集; 深度学习
中图分类号:O433 文献标识码:A
Non-Destructive Detection of Egg Fertilization Status Based on Hyperspectral Diffuse Reflectance
CUI De-jian1, LIU Yang-yang1, XIA Yuan-tian1, JIA Wei-e1, LIAN Zheng-xing2, LI Lin1,*
1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
2. College of Animal Science and Technology, China Agricultural University, Beijing 100083, China
*Corresponding author
Abstract

During the incubation period of the breeding eggs, a lot of workforce and material resources are consumed, and the eggs during the incubation period cannot be guaranteed to be healthy fertilized eggs. It is necessary to quickly and accurately select the infertile eggs and dead sperm eggs in the early stage of the breeding eggs to reduce production costs. We take Bailaihang eggs as the research object and use a hyperspectral sorter to collect 119 fertilized, unfertilized, and dead eggs in batches with hyperspectral data in the range of 382~1 026 nm. The original spectrum is corrected by the black and white correction method to obtain the diffuse reflectance of the egg.After experimental comparison and actual production needs, 3d and 5d spectral data are selected as modeling data.We also propose a method to convert spectral data into image data, which achieves the effect of visualizing spectral vector data under the premise of maximizing the guarantee of the original spectral data and can be effectively combined with deep learning image recognition algorithms.We use SPA and CARS to filter the spectral bands and establish a discriminant model based on the full band, the characteristic wavelengths filtered by CARS, the characteristic wavelengths filtered by SPA and SVM, the Random Forest algorithm and AlexNet, MobileNet network. The highest accuracy rate of AlexNet-5d Full Wave Bands is 93.22%. By comparing the experimental results of the data after the screening of different characteristic wavelength algorithms, it is found that the modeling effect of the characteristic wavelengths filtered by the SPA algorithm is better than that of CARS. The accuracy of the SVM-SPA3d model is 91.52%. The accuracy of the RandomForest-SPA3d model is 89.83%. The accuracy of the AlexNet-SPA3d model is 89.83%. The results show that the characteristic wavelengths screened by SPA can save more effective information about the difference inbreeding egg information. The research results in this paper show that the diffuse reflectance spectrum values of batches of hatching eggs are collected by a hyperspectral sorter first, and then the original spectral diffuse reflectance data is converted into image data. Combining image data with deep learning image recognition algorithms is feasible to accurately and non-destructively identify the fertilization state of eggs. This study provides technical support for subsequent related automated batch testing.

Key words: Hyperspectral diffuse reflectance; Discrimination; Fertilized eggs; Batch collection; Deep Learning
引言

种鸡蛋的孵化周期大约为21 d, 孵化过程的检测会消耗大量的电力和人力; 送入孵化场的鸡蛋中部分是无精蛋, 并且在孵化过程中由于种种原因会出现死精蛋, 死精蛋会产生有害病菌并对健康种蛋造成影响。 目前国内种鸡蛋的检测方法主要是通过人工照蛋, 通常是在孵化18和19 d时对种蛋进行批量照射后挑出无精蛋, 该方法会消耗大量人力, 并且由于检测时间点为孵化后期, 检测出来的无精蛋也无法作为食用蛋进行出售, 造成了资源浪费。 若能够通过无损检测方法在早期将无精蛋和死精蛋准确、 快速、 批量检测出来, 则可以空出孵化位置孵化更多健康种鸡蛋, 提高孵化效率, 并减少经济损失。

目前国内外学者已经从多个方向对鸡蛋无损检测展开了研究, 光谱技术、 图像技术以及生物电技术等已被成功应用到鸡蛋品质、 受精、 性别等检测中。 Suktanarak[1]等利用高光谱图像技术对鸡蛋内部新鲜度进行无损检测, 结果表明近红外高光谱成像可用于呈现与哈氏单位相关的鸡蛋图像, 从而无损地评价鸡蛋的新鲜度。 Roberta Galli[2]等在不破坏蛋壳内膜的情况下利用近红外拉曼光谱对鸡蛋的性别进行早期鉴定, 准确率可达90%以上。 Coronel-Reyes[3]等利用低成本近红外光谱仪测定鸡蛋在室温下的存储时间, 拟合优度可达84%, 为进一步的工业化生产提供了理论基础。 日本京都大学[4]利用孵化种蛋的不透明值差异对孵化16~18 d的鸡胚胎性别进行无损鉴别, 得出雄鸡胚不同明度要高于雌性鸡胚的结论, 鉴别准确率为84%。 祝志慧[5]等利用机器视觉技术和深度置信网络对早期鸡胚进行性别无损鉴定, 准确率可达83.3%。 汤修映[6]等利用机器视觉技术识别孵化盘上多个鸭蛋的孵化性能, 可以批量识别孵化第5 d的鸭蛋可育情况, 准确率最高可达92.06%。 张伏[7]等利用近红外光谱分析技术对种蛋早期光谱数据的采集位置进行了研究, 表明在鸡蛋赤道侧采集信息更加有效; 本工作ROI的选择参考了该论文的研究结果。 有关研究表明, 受精卵中约有229种蛋白质与未受精的蛋白质存在差异[8]; 且700~900 nm波段范围的光穿透深度大约有4 mm[3], 可以穿过蛋壳达到内部, 因此光谱漫反射技术可以通过照射样品与鸡蛋内部物质发生作用后携带有关信息, 从而实现对样本快速、 无损和更加深入的分析, 达到检测鸡蛋受精状态的目的。

目前大多数鸡蛋透射光谱检测装置只能进行单个检测, 并且建立的模型为二分类模型。 为了提高模型的泛化性和鲁棒性, 并提高光谱的检测效率, 本研究利用高光谱漫反射对批量种蛋进行信息采集, 并采用一种数据转换方法将光谱数据与深度学习图像识别相结合, 探索对受精蛋、 无精蛋、 死精蛋三类鸡蛋的无损检测, 为提高模型的实用性以及检测的高效性提供科学参考。

1 实验部分
1.1 材料

实验样品为白来航鸡蛋, 共计119枚, 其中受精蛋70枚, 无精蛋19枚, 死精蛋30枚; 死精蛋为未正常孵化得到; 受精蛋采用新洁尔灭溶液消毒编号后进行孵化, 孵化温度为37.8 ℃, 湿度为60%, 每隔2 h翻蛋一次。

1.2 高光谱漫反射采集系统与光谱采集

高光谱仪器采用由卓立汉光公司提供位于中国农业大学信电学院的GaiaSorter高光谱分选仪, 其核心部件包括均匀光源、 光谱相机、 电机运动平台, 其参数设置如表1所示, 通过小型传送带装置, 可实现小批量的连续测量。 采集时种鸡蛋放置方式为横向放置。 健康种鸡蛋采集孵化3, 5, 7, 9, 11, 13和15 d的漫反射光谱, 采集装置以及采集方式如图1所示。 光谱数据运用Matlab2016a、 ENVI5.3、 pycharm、 jupyter软件进行处理建模。

表1 高光谱仪器参数设置 Table 1 Setting of hyperspectral instrument parameters

图1 光谱仪器以及拍摄方式Fig.1 Schematic diagram of the spectrometer and photo shooting methods

1.3 光谱漫反射信息提取与预处理

谱区选择对后期光谱信息的分析和建模十分重要, 选取区域过大或过小都会影响分析建模效果。 运用ENVI5.3软件对谱区进行选择。 由于孵化为横向放置, 血线等胚胎的主要物质会漂浮至种蛋中心部位, 所以选择感兴趣区域(region of interest, ROI)为种蛋中心部位, 如图2、 图3所示。

图2 感兴趣区域选择Fig.2 Selection of ROI

图3 批量种蛋的感兴趣区域选择Fig.3 Selection of ROI for batch breeding eggs

由于光源强度在不同波段下不均匀、 样本不规则及成像光谱仪镜头中的暗电流影响, 获取的光谱图像存在较大的噪声和误差。 因此需要进行黑白校正。 焦距调整后采集标准白色校正板的图像W, 再盖住镜头采集全黑的图像D, I为原始图像, R为校正后的光谱图像, 校正方程如式(1)所示。

R=I-DW-D(1)

1.4 种鸡蛋信息人工判别

孵化6 d时, 可通过人工照蛋判别种蛋的受精情况, 受精蛋有明显血丝出现, 无精蛋没有血线出现, 蛋黄分布均匀, 死精蛋由于存放问题以及孵化问题, 蛋壳内物质发生变质, 会出现黑斑点, 红色环状物等, 如图4所示。

图4 种蛋判别
(a): 受精蛋; (b): 无精蛋; (c): 死精蛋
Fig.4 Discrimination of breeding eggs
(a): Fertilized egg; (b): Infertile egg; (c): Sperm-dead egg

1.5 数据降维与建模方法

采用连续投影算法[9]、 竞争性自适应重加权采样法[10]对高光谱数据进行波段筛选从而达到降维效果; 采用随机森林[11]、 支持向量机[12]、 AlexNet[13]、 MobileNet[14]神经网络模型作为建模算法进行对比实验。

1.5.1 数据降维算法

(1)连续投影算法(successive projections algorithm, SPA), 是前向特征变量选择方法。 SPA利用向量的投影分析, 通过将波长投影到其他波长, 比较投影向量大小, 以投影向量最大的波长为待选波长, 然后基于校正模型选择最终的特征波长, 对不同的候选特征子集分别建立多元回归模型。 SPA选择的是含有最少冗余信息及最小共线性的变量组合。

(2)竞争性自适应重加权采样法(competitive adaptive reweighted sampling, CARS)通过加权采样保留偏最小二乘回归模型中回归系数绝对值权重较大的作为变量子集, 并且对该子集建立新的偏最小二乘回归模型。 最后经过多次运算选择RMSECV最小的变量子集作为新的变量。

1.5.2 鸡蛋受精状态检测模型建模算法

(1)随机森林(random forest, RF)是Bagging的一个扩展变体。 它在以决策树为基学习器构建Bagging集成的基础上, 进一步在决策树的训练过程中引入了随机属性选择。 具体来说, 在RF中, 对基决策树的每个结点, 先从该结点的属性集合中随机选择一个包含k个属性的子集, 然后再从这个子集中选择一个最优属性用于划分。

(2)支持向量机(support vector machine, SVM)定义在特征空间上的间隔最大的分类器, 它的学习策略就是间隔最大化, 可以形式化一个求解凸二次规划的问题, 也等价于正则化的合页损失函数的最小化问题。

(3)AlexNet神经网络是2012年ImageNet竞赛冠军获得者Hinton和他的弟子Alex Krizhevsky合作设计的神经网络结构; 神经网络的一个比较严重的问题就是过拟合问题, AlexNet采用了Dropout的方法在全连接层中去掉了一些神经节点, 达到了防止过拟合的目的, 并且可以使用多GPU进行训练, 提高了模型学习效率。

(4)MobileNet是一种构造体量小、 延时低的轻型网络模型结构, 它是基于深度可分离卷积而设计的, 大大减少了参数的数量, 有效提高了模型的运算速度。

2 结果与讨论
2.1 检测鸡蛋受精状态最优天数选择

原始光谱曲线如图5、 图6所示, 可以看出死精蛋的光谱曲线与受精蛋以及无精蛋在400~700 nm之间存在明显差异, 说明其内部物质已经发生较大的变化, 其中。 孵化3和5 d的受精蛋与无精蛋的光谱差异较小, 孵化7和9 d及更多的受精蛋光谱曲线明显低于孵化3和5 d的, 说明内部胚胎发育变化程度较大, 光谱的漫反射率降低, 并且由于孵化7和9 d以及更多天数的无精蛋已经不具备实用价值, 不符合实际生产需要, 所以只采用孵化3和5 d的光谱值进行模型建立。

图5 原始光谱曲线图Fig.5 Original spectra

图6 原始光谱均值曲线图Fig.6 Mean spectral reflectance curves

2.2 数据建模

2.2.1 样本集划分

数据集按照训练集和测试集1:1的比例随机划分, 最终得到60条数据作为训练集、 59条数据作为测试集。

2.2.2 特征波长选择

(1)SPA特征波长选择, SPA算法运行过程如图7、 图8、 图9、 图10所示, 孵化第3和5 d降维后的波段数分别为13和11。

图7 3 d变量组合的RMSE曲线图Fig.7 RMSE for variable combination of data collected on day 3 of hatching

图8 3 d最优波长组合编号索引Fig.8 Number index of optimal wavelength combination for data collected on day 3 of hatching

图9 5 d变量组合的RMSE曲线图Fig.9 RMSE for variable combination of data collected on day 5 of hatching

图10 5 d最优波长组合编号索引Fig.10 Number index of optimal wavelength combination for data collected on day 5 of hatching

(2)CARS特征波长选择, CARS算法运行过程如图11和图12所示, 采样次数均设置为50次, 孵化3和5 d的鸡蛋光谱经过CARS筛选后的波段数量分别为11和18。

图11 3 d种蛋光谱波段的CARS变量筛选过程Fig.11 CARS variable screening process for spectral band of egg hatching on day 3

图12 5 d种蛋光谱波段的CARS变量选择Fig.12 CARS variable screening process for spectral band of egg hatching on day 5

两种算法计算后的波段组合如表2所示, 通过SPA算法筛选后的波段, 有50%分布在近红外波段(780~1 000 nm), 50%分布在可见光波段(380~780 nm)。 由光谱曲线可以看出死精蛋与受精蛋和无精蛋在400~700 nm内的光谱差异较大。 通过CARS算法筛选后的波段也主要分布在该波段, 说明该算法对于样本之间差异性大的波段筛选效果较好, 而对于差异性较小的近红外区域的波段筛选效果较差。 SPA算法不仅考虑了光谱的影响, 更多考虑了种鸡蛋内部信息的影响, 而该影响反映在近红外光谱波段曲线上的差异较弱。 SPA算法中的RMSECV是基于多元线性回归(multiple linear regression, MLR)模型所计算出的, CARS算法中的RMSECV是基于偏最小二乘(partial least squares, PLS)模型所计算出的, 相比于MLR, PLS可以较好地解决多重共线性问题, 所以在选择特征波长较少时, SPA算法相对较好, 而当选择的特征波长较多时, CARS算法相对较好。

表2 特征波长组合 Table 2 Combination of characteristic wavelengths

2.2.3 光谱数据转为图像数据

深度学习是近十年来人工智能领域取得的重要突破, 在计算机视觉等领域的应用取得了巨大的成功。 将每一个样本的全波段光谱数据以及通过CARS、 SPA变量筛选后的波段数据首先通过Reshape方法将1× k的数据转换为n× m矩阵形式的数据, 转换过程如式(2)、 式(3)和式(4), 图13所示, 并将数据同时乘以255, 如式(5)和式(6), 目的是将位于区间[0, 1]的漫反射率值恒等映射到RGB通道[0, 255]区间范围, 这样既保留了原始的光谱数据又方便了模型训练, 并且能够更直观地展示了一维向量立体光谱数据的二维图像形式。 最后将该图像作为AlexNet、 MobileNet卷积神经网络模型的输入数据进行模型学习与建立, 为保证训练数据的一致性, 其生成的图像数据也按照训练集和测试集1:1的比例随机划分。

图13 数据转换过程Fig.13 Data conversion process

original=[w1  wk](2)

k=n×m(3)

Reshape=w11w1mwn1wnm(4)

Result=R11R1mRn1Rnm(5)

Rij=wij×255(6)

通过不同波段筛选方法选择的光谱数据经过数据转换后的部分图像如图14光谱数据图像可视化所示。 通过图像可以直观看出死精蛋的光谱图像数据与受精蛋和无精蛋的差别较大, 而受精蛋与无精蛋的差距较小, 与光谱曲线反映的信息相一致。

图14 光谱数据图像可视化
(a): 受精蛋; (b): 无精蛋; (c): 死精蛋
Fig.14 Visualization of spectral data image
(a): Fertilized egg; (b): Infertile egg; (c): Sperm-dead egg

2.2.4 判别模型建立

将全波段数据、 SPA和CARS降维后的数据以及转换后的图像数据进行建模分析。 模型的判别结果如表3所示, 结果表明孵化5 d的判别效果整体比孵化3 d的判别效果好, 原因是受精种蛋中的物质已经发生了较大的变化, 与未受精种蛋以及死精蛋的光谱存在了较为明显的差异。 判别结果中, 经过SPA变量筛选后的判别效果整体较好, 表明SPA筛选的特征波长能有效反映三类鸡蛋的光谱差异, 并且减少了模型的输入量, 有效地降低了模型复杂度。 在判别模型中, AlexNet-5dFull Wave Bands模型准确率最高可达到93.22%。 整体结果表明基于高光谱漫反射与光谱信息转换图像的相结合为鸡蛋受精状态的判别提供了一种可行的方法。

表3 不同模型的判别结果 Table 3 Discrimination results of different models
3 结论

(1)以白来航种鸡蛋为研究对象, 确定高光谱仪器的参数, 批量采集种蛋孵化3, 5, 7, 9, 11, 13, 15 d, 未受精蛋、 死精蛋的高光谱漫反射数据。 运用SPA、 CARS变量筛选方法, 构建基于SVM、 RandomForest、 AlexNet、 MobileNet神经网络的种蛋信息检测模型。 确定了在孵化3和5 d的光谱信息最适合用于种蛋信息的检测。

(2)通过对降维后的光谱数据以及全波段数据分别建模后对比模型准确率发现, AlexNet- 5dFull Wave Bands的模型准确率最高, 可达93.22%。 经过SPA降维后的数据进行建模的效果整体最好。 表明SPA筛选的特征波长能有效反映三类鸡蛋的光谱差异, 并且减少了模型的输入量, 有效地降低了模型复杂度。

(3)利用GaiaSorter高光谱分选仪对鸡蛋样品进行高光谱漫反射值的批量信息采集, 证明了应用高光谱漫反射批量检测种蛋信息的可行性, 并提出了一种将光谱数据转换为图像数据的方法, 为深度学习与光谱信息相结合以及种蛋其他信息如胚胎性别信息的检测提供了思路。 后续的研究可加大样本量, 从而提高模型的鲁棒性和泛化性。

参考文献
[1] Suktanarak S, Teerachaichayut S. Journal of Food Engineering, 2017, 215: 97. [本文引用:1]
[2] Galli R, Preusse G, Schnabel C, et al. PLOS ONE, 2018, 13(2): e192554. [本文引用:1]
[3] Coronel-Reyes J, Ramirez-Morales I, Fernand ez-Blanco E, et al. Computers and Electronics in Agriculture, 2018, 145: 1. [本文引用:2]
[4] Alin K, Fujitani S, Kashimori A, et al. Computers and Electronics in Agriculture, 2019, 158: 30. [本文引用:1]
[5] ZHU Zhi-hui, TANG Yong, HONG Qi, et al(祝志慧, 汤勇, 洪琪, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(6): 197. [本文引用:1]
[6] Dong J, Lu B, He K, et al. Computers and Electronics in Agriculture, 2021, 184: 106076. [本文引用:1]
[7] ZHANG Fu, CUI Xia-hua, ZHANG Ya-kun, et al(张伏, 崔夏华, 张亚坤, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(10): 3064. [本文引用:1]
[8] Zhang L, Chen J, Fan B, et al. International Journal of Biological Macromolecules, 2020, 152: 1020. [本文引用:1]
[9] Liu Q, Zhang W, Zhang B, et al. Journal of Food Composition and Analysis, 2021: 104349. [本文引用:1]
[10] Xing Z, Du C, Shen Y, et al. Computers and Electronics in Agriculture, 2021, 191: 106549. [本文引用:1]
[11] De Freitas A G M, Minho L A C, Alves De Magalhães B E, et al. Food Chemistry, 2021, 365: 130477. [本文引用:1]
[12] de Santana F B, Otani S K, de Souza A M, et al. Geoderma Regional, 2021, 27: e436. [本文引用:1]
[13] Krizhevsky A, Sutskever I, Hinton G. Communications of the ACM, 2012, 60(6): 84. [本文引用:1]
[14] Sand ler M, Howard A, Zhu M L, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks, 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 4510. [本文引用:1]