鱼粉产地溯源的近红外光谱判别方法研究
李庆波1, 毕智棋1, 石冬冬2
1. 北京航空航天大学仪器科学与光电工程学院, 精密光机电一体化技术教育部重点实验室, 北京 100191
2. 中国农业科学院饲料研究所, 北京 100081

作者简介: 李庆波, 女, 1975年生, 北京航空航天大学仪器科学与光电工程学院副教授 e-mail: qbleebuaa@buaa.edu.cn

摘要

鱼粉是以一种或多种鱼类为组成原料的高蛋白饲料, 其在养殖产业中占据着非常重要的地位。 鱼粉产地众多, 品质参差不齐, 有不法商家以次充好, 为维护市场秩序, 应当建立一种鱼粉的产地溯源方法, 以便更加精准地判别和分析鱼粉的品质。 采用近红外光谱技术并结合化学计量学方法实现对不同产地鱼粉进行快速准确的产地溯源。 采用径向基为核函数的支持向量机进行模式识别, 并采用灰狼算法对以径向基为核函数的支持向量机进行关键参数的选择, 模拟狼群狩猎行为, 由适应度高低来设置等级制度, 有秩序地对目标参数进行逐渐逼近围捕的移动, 每次移动后重新进行适应性评估, 经过狼群等级迭代最终捕获猎物, 搜索到最佳惩罚因子和核函数半径; 最后, 利用最佳参数建立支持向量机模型进行不同产地鱼粉的产地溯源。 灰狼算法可以提高支持向量机算法中关键参数的选择速度和精度, 并提高支持向量机分类正确率。 对来自浙江温岭、 山东荣成、 山东威海、 辽宁大连四个产地的鱼粉样品采样, 共获得144条光谱, 光谱范围为3 700~12 500 cm-1, 用获得的光谱进行产地溯源。 随机选取每个产地样品的70%作为建模训练样本集, 30%作为测试样品集。 首先对原始近红外光谱进行预处理, 采用多元散射校正算法计算所有光谱的平均光谱当作“理想光谱”, 其他光谱对平均光谱进行一元线性回归, 对光谱平移、 偏移进行基线校正。 采用小波变换对原信号分解, 对高频信号进行阈值化处理, 消除高频噪声达到光谱曲线平滑去噪效果; 利用灰狼算法优化的支持向量机进行十次平行实验, 降低误差干扰, 得到产地分类结果: 浙江温岭、 山东荣成、 山东威海、 辽宁大连识别正确率分别为100%, 98.89%, 96.43%和97.78%。 与网格搜索法相比, 改进后的灰狼算法搜索支持向量机的惩罚因子和核函数半径速度更快更精确, 分类准确率更高, 可见灰狼算法优化的支持向量机(GWO-SVM)对鱼粉光谱进行产地溯源是可行的。

关键词: 近红外光谱; 预处理; 灰狼算法; 支持向量机; 鱼粉产地溯源
中图分类号:O657.3 文献标志码:A
Near Infrared Spectral Analysis Algorithms for Traceability of Fishmeal Origin
LI Qing-bo1, BI Zhi-qi1, SHI Dong-dong2
1. Key Laboratory of Precision Opto-Mechatronics Technology, Ministry of Education, School of Instrumentation and Optoelectronic Engineering, Beihang University, Beijing 100191, China
2. Feed Research Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China
Abstract

Fish meal is a kind of high-protein feed made up of one or more kinds of fish, which occupies a very important position in the aquaculture industry. In order to maintain market order, a method of tracing the origin of the fish meal should be established to identify and analyze the quality of the fish meal more accurately. In this paper, near-infrared spectroscopy (NIRS) and chemometrics are used to trace the origin of fish meal from different habitats quickly and accurately. The support vector machine with radial basis function (RBF-SVM) as the kernel function is used for pattern recognition, and the gray wolf algorithm is used to select the key parameters of RBF-SVM. By simulating the hunting behavior of wolves, a hierarchical system is set up according to the fitness level. The target parameters gradually approximate the movement of encirclement. After each movement, the adaptability is re-evaluated. The prey is finally captured through the iteration of wolf pack rank, and the optimal penalty factor and the radius of the kernel function are searched. Finally, the optimal parameters are used to establish the support vector machine model to trace the origin of fish meal from different origins. Grey Wolf algorithm can improve the speed and accuracy of selecting key parameters in the support vector machine algorithm, and improve the classification accuracy of support vector machine. In this paper, 144 spectra of fish meal samples from four fishmeal producing areas in ZhejiangWenling, Shandong Rongcheng, Shandong Weihai and Liaoning Dalian were obtained. The spectrum ranges from 3 700 to 12 500 cm-1. The origin of fish meal was traced by the obtained spectra. Seventy percent of the samples from each producing area was randomly selected as the training sample set for modeling and 30 percent as the test sample set. First, the original near infrared spectra are pretreated, and the average spectra of all the collected spectra are calculated by multivariate scattering correction as “ideal spectra”. The other spectra are linearly regressed, and the baseline correction of spectral translation and migration is carried out. The original signal is decomposed by wavelet transform, and the high-frequency signal is thresholded to eliminate the high-frequency noise so as to achieve the smooth denoising effect of the spectral curve. Ten parallel experiments were carried out by support vector machine to reduce error interference, and the classification results were obtained as follows: Zhejiang Wenling, Shandong Rongcheng, Shandong Weihai and Liaoning Dalian were 100%, 98.89%, 96.43% and 97.78%, respectively. Compared with the grid search method, the Improved Grey Wolf algorithm searches for the penalty factor and the radius of the kernel function faster and more accurately, and the classification accuracy is high. It can be seen that the improved grey wolf algorithm's support vector machine (GWO-SVM) is feasible for tracing the origin of fish meal.

Keyword: Near infrared spectroscopy; Preprocessing; Gray wolf algorithm; Support vector machine; Traceability of fish meal origin
引言

随着国内养殖业机械化、 专业化程度的发展, 养殖规模飞速扩大, 中国鱼粉市场不仅对鱼粉的需求量越来越多, 也对鱼粉的品质提出了更高的要求。 而中国的饲料企业如何选择品质好, 质量高的鱼粉是现在面临的困难与考验[1]。 鱼粉质量差异决定了饲养物能否获得充足营养, 鱼粉产地众多, 品质参差不齐, 有不法商家以次充好, 用劣质进口鱼粉或国产鱼粉冒充优质进口鱼粉, 来获取更大的利润[2]。 为了避免这种危害市场秩序的行为需要对鱼粉产地进行溯源研究。

近红外光谱能够反映物质化学组成成分的性质和含量[3, 4], 因此采用近红外光谱技术对鱼粉产地进行溯源识别。 2015年, 宋涛[5]等基于近红外光谱技术对市场上常见的淡水鱼粉、 进口鱼粉和国产鱼粉三类商品化的鱼粉样品进行自动化判别实验。 通过分析鱼粉样品光谱之间的差异, 采用主成分分析法建立鱼粉种类定性判别的分类模型。 Cozzolino D[6]等采用改进的偏最小二乘回归方法建立近红外光谱校准模型, 预测决定鱼粉质量的化学成分。 目前国内外关于鱼粉产地溯源文献较少, 主要集中于进口鱼粉、 国产鱼粉的大类判别或蛋白质、 水分、 盐等鱼粉化学成分含量的定量检测, 其实这种划分十分粗糙, 原产地不同的进口鱼粉之间差异极大, 而即使是国产鱼粉, 原产地不同时其质量差异也十分显著。 由于采集大量原产地明确且没有掺杂的进口鱼粉比较难, 本研究首先以产地来源明确的国产鱼粉为实验对象, 对鱼粉产地溯源进行了研究。 采用灰狼算法[7, 8, 9]优化的支持向量机建立预测模型对国产鱼粉进行更详细的产地区分。 采用支持向量机比偏最小二乘回归和主成分分析法等更适用于鱼粉的定性分析。 灰狼算法寻找支持向量机的关键参数具有速度快, 精确度高的优点, 使鱼粉产地溯源结果更加准确。 建立灰狼优化算法的支持向量机预测模型对鱼粉产地进行溯源, 防止使用低质量产地的鱼粉冒充高质量产地的鱼粉, 对鱼粉产业规范化及饲养行业稳定发展都具有推动作用和意义。

1 实验部分
1.1 样本

共采集144份国产鱼粉, 其中产地为辽宁大连58份、 山东威海46份、 山东荣成30份, 浙江温岭10份, 随机选取每种样品的70%作为建模训练样本集, 30%作为测试样品集(表1)。

表1 鱼粉样品测试训练分组情况 Table 1 Grouping of fish meal sample testing and training
1.2 仪器设备

实验采用德国布鲁克公司的MATRIX-I型近红外光谱仪。 首先预热仪器半小时, 以保证仪器运行的稳定性; 其次, 设置实验参数为: 反射模式下光谱采集间隔为1 nm、 扫描波段为3 700~12 500 cm-1、 扫描次数64, 每个样本扫描两次。 所有实验均采取相同的扫描方法, 并且在相同的实验参数下进行。

1.3 光谱预处理

由于采集到的近红外光谱存在基线漂移和高频噪声, 需要对仪器采集获得的原始光谱数据采取预处理改善。 采用多元散射校正对光谱进行基线校正, 采用小波变换对基线校正后的光谱进行平滑去噪, 消除高频噪声。

1.4 建模方法

1.4.1 支持向量机

支持向量机[10]的原理是将高维数据映射为高维空间的点, 然后寻到一个超平面使高维数据分为两类且两类不同种类数据的间隔最大化。 而高维数据具有线性可分性则可以在该维度分类, 若具有线性不可分性则需要借助核函数将数据映射到更高维的空间分类。

首先将需要分类的数据以及数据的标签输入分类器, 构成特征空间。 设置数据与超平面的距离, 引入拉格朗日函数寻找最佳分类的超平面, 借助核函数简化内积运算。

采用高斯径向基核函数式(1)

K(x, x')=e-x-x'22σ2(1)

得到RBF-SVM分类模型式(2)

f(x)=i=1nαiK(x, x')+b(2)

1.4.2 灰狼算法

传统的寻找最佳参数方法是采用网格搜索法, 对惩罚因子和核函数半径等需要选择的参数在一个设置好范围内采取遍历取值的方法, 经过参数组合对比得出最优结果。 遍历取值搜索参数用时长, 精度由步长取值决定, 计算繁琐。 灰狼算法对最佳参数选择进行了优化, 根据狼群捕食方式将捕食过程用数学方法表达出来。 首先是搜索猎物对猎物进行包围阶段, 狼群在猎物附近的空间范围内随机活动。 随机产生若干组参数, 选出三条适应度最好的狼即α狼、 β 狼、 δ 狼, 通过这三头狼进行目标参数预估, 进行多次迭代移动。

D=|C·XP(t)-X(t)|(3)

X(t+1)=XP(t)-A·D(4)

式(3)和式(4)中D为狼朝猎物移动的距离, X为狼所处的位置, t为迭代次数, AC是系数向量负责提供狼群移动的距离和方向, XP为猎物位置, 式(3)和式(4)是狼移动向量移动到下一代狼的位置。 AC根据式(5)和式(6)进行变化

A=2a·r1-a(5)

C=2r2(6)

式中a为由2线性衰减到0的向量, r1, r2为0到1之间的随机向量。 通过随机向量r1, r2, 更新后的狼到达猎物周围一定范围内的随机位置。 将头三匹狼对猎物包围之后其他狼朝头狼们靠近。 公式如式(7)—式(13)

Dα=|C1·Xα(t)-X(t)|(7)

Dβ=|C2·Xβ(t)-X(t)|(8)

Dδ=|C3·Xδ(t)-X(t)|(9)

X1=Xα-A1·Dα(10)

X2=Xβ-A2·Dβ(11)

X3=Xδ-A3·Dδ(12)

X(t+1)=(X1+X2+X3)/3(13)

式(7)、 式(8)和式(9)分别代表ω 狼朝适应度最好的三头狼移动距离, 式(10), 式(11)和式(12)是ω 狼向其他三头狼靠近的前进方向和距离, 式(13)为ω 狼最终的位置。 最后当满足限制条件时对猎物发出攻击, 最终α狼的位置就是目标参数的位置。

2 结果与讨论
2.1 鱼粉样本的光谱特征曲线

图1为不同产地鱼粉的原始近红外光谱曲线, 需经预处理后, 再对产地进行判别, 图2为多元散射校正后光谱曲线, 经校正后消除基线漂移。 图3为小波变换前后光谱曲线对比图, 其中以波数为横坐标, 范围为3 700~12 500 cm-1, 光谱漫反射率为纵坐标。 通过小波变换后, 在对光谱曲线平滑去噪的同时并没有因此丢失原来信号的轮廓细节, 并达到了消除高频噪声的目的。

图1 鱼粉样品的原始近红外光谱Fig.1 Raw NIR spectra of fish meal samples from four different regions

图2 多元散射校正后鱼粉样品的近红外光谱图Fig.2 NIR spectra of fish meal samples of four different regions after MSC transformation

图3 近红外光谱小波变换前后对比Fig.3 Comparison of NIR spectra wavelet transform before and after

2.2 基于灰狼算法和支持向量机建立鱼粉产地预测模型

对四个产地鱼粉光谱随机选取每个产地样品的70%作为建模训练样本集, 30%作为测试样品集进行十次平行实验, 采用灰狼算法的支持向量机得到分类结果与相同条件下使用网格搜索法寻找惩罚因子和核半径函数的支持向量机, 结果分别见表2表3

表2 GWO-SVM国产、 进口鱼粉产地识别结果 Table 2 Distribution of fishmeal origin based on GWO-SVM
表3 网格搜索法SVM国产、 进口鱼粉产地识别结果 Table 3 Distribution of fishmeal origin based on Grid search-SVM

经过十组平行实验后, GWO-SVM识别鱼粉产地为山东荣成、 山东威海、 辽宁大连的识别正确率相比网格搜索法分别提高13.33%, 5.71%和1.11%, GWO-SVM平均用时大幅缩减。 在鱼粉产地进行多分类溯源时, 使用灰狼算法改进SVM相对于网格搜索法提高了识别的准确度, 用时明显缩短。

3 结论

鱼粉的产地不同导致各产地的鱼粉所含有机物含量和组成不同, 导致各近红外光谱存在一定差异, 通过多元散射校正和小波变换对光谱进行预处理, 采用灰狼优化算法寻找支持向量机最佳惩罚因子和核函数半径, 能够对鱼粉产地正确分类。 灰狼优化算法相对与网格搜索法提高了搜索速度和准确度, 对产地分类的正确率均达到95%以上。 试验结果表明, 采用近红外光谱技术可以快速准确的对鱼粉进行产地溯源。 所采用的灰狼算法结合支持向量机预测模型能够获得很好的分类结果, 为鱼粉产地溯源提供了有效的方法和依据。

参考文献
[1] LIN Yi-qun(林一群). Chinese Abstracts of Animal Husband ry and Veterinary Medicine(中国畜牧兽医文摘), 2014, (11): 38. [本文引用:1]
[2] TENG Xu-xia(滕绪霞). Modern Animal Husband ry Science & Technology(现代畜牧科技), 2014, (5): 63. [本文引用:1]
[3] Mabood F, Jabeen F, Ahmed M, et al. Food Chemistry, 2017, 221: 746. [本文引用:1]
[4] Samuel P P, Chinnu T, Lakshmanan M K. Materials Today: Proceedings, 2015, 2(3): 949. [本文引用:1]
[5] SONG Tao, SONG Jun, LIU Yao-min, et al(宋涛, 宋军, 刘耀敏, ). Food Science(食品科学), 2015, 36(24): 260. [本文引用:1]
[6] Cozzolino D, Chree A, Murray I, et al. Aquaculture Nutrition, 2015, 8(2): 149. [本文引用:1]
[7] Mirjalili S, Mirjalili S M, Lewis A. Advances in Engineering Software, 2014, 69: 46. [本文引用:1]
[8] GUO Zhen-zhou, LIU Ran, GONG Chang-qing, et al(郭振洲, 刘然, 拱长青, ). Application Research of Computers(计算机应用研究), 2017, (12): 89. [本文引用:1]
[9] Faris H, Aljarah I, Al-Betar M A, et al. Neural Computing and Applications, 2018, 30: 413. [本文引用:1]
[10] Khan S, Ullah R, Khan A, et al. Biomedical Optics Express, 2016, 7(6): 2249. [本文引用:1]