三维荧光光谱结合Zernike图像矩快速鉴别掺伪芝麻油
吴希军, 崔耀耀, 潘钊*, 刘婷婷, 苑媛媛
燕山大学测试计量技术及仪器河北省重点实验室, 河北 秦皇岛 066004
*通讯联系人 e-mail: panzh_zach@hotmail.com

作者简介: 吴希军, 1979年生, 燕山大学仪器科学与工程系副教授 e-mail: wuxijun@ysu.edu.cn

摘要

为了实现对掺伪芝麻油的快速鉴别, 应用FS920荧光光谱仪测定样品的三维荧光光谱数据。 将三维荧光光谱图视为灰度图, 在没有任何预处理的前提下, 直接应用Zernike图像矩提取三维光谱灰度图的特征信息, 然后采用类平均法对特征信息进行聚类分析, 从定性角度实现掺伪芝麻油的鉴别, 并解析其组成成分。 最后应用广义回归神经网络(GRNN)对掺伪样本的成分进行定量分析。 聚类分析能够以很高的辨识率来识别掺伪芝麻油, 并能够正确解析其组成成分。 定量模型预测了2组掺伪样本中各成分的相对体积, 其平均相对误差分别为2.23%, 8.00%, 9.70%和9.70%。 分析结果表明, Zernike矩能够有效提取光谱的特征信息, 光谱数据的Zernike矩特征结合聚类分析以及GRNN模型能够获得良好的定性和定量分析结果, 为掺伪芝麻油的鉴别提供了一种新的方法。

关键词: 三维荧光光谱; Zernike图像矩; 聚类分析; 定量分析; 掺伪鉴别
中图分类号:O657.3 文献标识码:A
3D Fluorescence Spectra Combined with Zernike Image Moments for Rapid Identification of Doping Sesame Oil
WU Xi-jun, CUI Yao-yao, PAN Zhao*, LIU Ting-ting, YUAN Yuan-yuan
Key Lab of Measurement Technology and Instrumentation of Hebei Province, Yanshan University, Qinhuangdao 066004, China
Abstract

In order to realize the rapid identification of dopingsesame oil, the three-dimensional fluorescence spectra of the samples were measured by FS920 fluorescence spectrometer.The three-dimensional fluorescence spectrum was regarded as the gray scale graph,and the characteristic information of three-dimensional spectral grayscale was extracted directly by Zernike image moment without any pretreatment.Then, the characteristic information was clustered and analyzed by using the class mean method to identify the doping sesame oil and its constituent components. Finally, the generalized regression neural network (GRNN) was used to quantitatively analyze the components of the dopingsesame oil. Clustering analysis can identify adulterated sesame oil and its composition. The average relative error of the two groups was 2.23%, 8.00%, 9.70% and 9.70%, respectively. The results showed that the Zernike moments can effectively extract the characteristic information of the spectra. The proposed method of Zernike moments combined with clustering analysis and GRNN model can obtain satisfactory qualitative and quantitative analysis results, which will provide a new method for the identification of doping sesame oil.

Key words: Three-dimensional fluorescence spectroscopy; Zernike image moments; Clustering analysis; Quantitative analysis; Adulteration identification
引言

食用油是人们膳食的必备原料。 然而近年来, 不法商贩用劣质油勾兑芝麻香精冒充芝麻油, 严重损害了消费者的和市场的健康发展, 因此有效、 快速的鉴别掺伪油成为研究的热点。 荧光分析法以其高灵敏度、 高选择性、 高信息量、 且不破坏样品结构等优点, 成为诸多研究者在食用油检测领域中广泛采用的方法[1]

荧光光谱的解析和特征信息的有效提取始终是荧光分析中的难点。 近期有研究者将数字图像处理技术中几何图像矩算法与光谱方法结合, 用于对光谱物质的直接定量分析[2, 3, 4], 这些方法无需预处理, 直接提取目标分析物的重要特征, 用于进一步的定性和定量分析, 诸如重叠峰、 噪声和散射等干扰问题可以通过图像矩的多分辨能力来解决。

图像的颜色、 纹理、 形状等特征是最重要也是最直观的信息表现方式。 从低阶到高阶的图像矩描述了图像的整体形状, 其中包括了目标化合物, 噪声和不相关分量的完整信息[2]。 几何矩中的Zernike矩对图形信息的表达高效、 冗余性小[5, 6]。 本文中, 利用FS920稳态荧光光谱仪测定植物油样品的荧光光谱数据, 在没有任何预处理的前提下, 直接应用Zernike矩提取目标分析物的特征, 在此基础上结合聚类分析算法实现了掺伪芝麻油的鉴别, 并用GRNN定量模型对其成分进行了定量分析。 实验结果表明了Zernike矩能够有效提取光谱的特征信息, 验证了该方法用于定性和定量分析的可行性。

1 实验部分
1.1 材料与仪器

从超市及调味品市场购得不同品牌、 同品牌不同批次的芝麻油、 玉米油、 大豆油、 菜籽油和芝麻香精, 其中包括芝麻油样本15个(Z1~Z15), 大豆油样本4个(D1~D4), 玉米油样本7个(Y1~Y7), 菜籽油样本1个(C1), 芝麻香精样本2个(J1, J2); 在实验室配置两组芝麻油掺伪样本: 掺伪样本1: 玉米油和芝麻香精按不同体积比配置混合样本9个(JY1~JY9); 掺伪样本2: 菜籽油和芝麻香精按不同体积比配置混合样本9个(JC1~JC9), 样本分布见表1

表1 植物油样本 Table 1 Vegetable oil samples

采用FS920荧光光谱仪(英国Edinburgh Instruments公司)测量各植物油样本的荧光光谱, 激发波长范围设置为250:10:550 nm, 发射波长范围设置为260:2:750 nm; 激发和发射端狭缝宽度为1.11 mm, 对应光谱分辨率为2 nm。

1.2 荧光光谱数据采集

表1中各样本进行荧光光谱扫描, 得到相应的荧光光谱数据, 样本JY5的等高线图如图1所示。 荧光光谱中荧光强度记为n× m维的矩阵(n对应发射波长, m对应激发波长), 将矩阵中的荧光强度值映射到[0, 255]灰度范围内, 则荧光强度矩阵可以被视为“ 灰度图像” 。 如图2所示, 该图像可以完全地表示三维荧光光谱中的强度。

图1 JY5的三维荧光光谱和等高线图Fig.1 3D fluorescence spectra and contours of JY5

图2 JY5的灰度图Fig.2 The grayscale image of JY5

1.3 数据处理

(1)Zernike矩

基于Zernike矩提取灰度图像的特征, 用f(x, y)表示图像坐标(x, y)处的灰度值, 则该图像的mn重的Zernike矩为

Znm=n+1πxyf(x, y)Vnm* (ρ, θ), (x2+y21)(1)

式中: n为正整数或零, m为整数且 mn, * 表示共轭复数; Vnm(ρ , θ )是计算Zernike矩的变换核, 它将归一化的像素坐标(-1< x, y< 1)映射到单位圆极坐标(ρ , θ )上, 表示为

Vnm(x, y)=Vnm(ρ, θ)=Rnm(ρ)ejmθ, (j=-1)(2)

其中坐标映射关系为ρ = x2+y2, θ =arctan yx; Rnm(ρ )为径向多项式, 表示为

Rnm(ρ)=j=0(n-|m|)/2(-1)j[(n-j)!]ρn-2js!n+|m|2-j!n-|m|2-j!(3)

Zernike矩是图像在Zernike多项式Vnm(ρ , θ )上投影所得到的一组完备正交集, 各矩之间的信息冗余少。 并且Zernike矩具有递归性质, 这使得应用时可采用一些有效的快速算法来保证快速性[5, 6]。 式(1)中存在近似积分引起的计算误差, 该误差随着矩阶数的增加而增大。 因此实际应用时, 所选取的Zernike矩特征并不是越多越好, 当Zernike矩的最大阶数为12时, 被认为是计算复杂度和图像描述能力之间的一个很好的折衷[7]。 因此, 在这项工作中, 我们初步选择表2中的前12阶Zernike矩用于提取样本特征。 由于矩的变化范围较大, 将其作为神经网络的输入特征时, 需对矩取对数。 此外考虑到矩可能含有负数, 在取对数前需先对矩取绝对值。

表2 1~12阶Zernike图像矩 Table 2 From 1 to 12 order Zernike moments

(2)聚类分析

为最大化类间对象的异质性和类内对象的同质性, 聚类

分析把对象集合进行分组, 使同一类中的个体之间相似性强于该个体与其他类对象的相似性[8], 样品间的距离采用欧氏距离, 利用类平均法计算聚类树形图。

设样品X1, X2, …, Xn为总体样本, 记第i个样品Xi=(xi1, xi2, …, xip)(i=1, 2, …, n), 其中第i个样品Xi和第j个样品Xj之间的欧式距离定义为

dij=k=1p(xik-xjk)212(4)

类与类之间的平均距离定义为样品对之间的平方距离的平均值。 XKXL之间的平方距离定义为

DKL2=1nKnLxiXK, xjXLdij2(4)

(3)广义回归神经网络

广义回归神经网络(GRNN)因其良好的非线性映射能力和建模需要样本数量少的优点被应用于本文定量建模[9]。 而且广义神经网络仅涉及Spread一个参数, 文中通过Spread以增量0.1在一定范围内递增来寻找最佳值。 选择样本的Zernike矩特征作为GRNN网络的输入, 相对体积作为输出。

2 结果与讨论

选择适当数量的特征是有效表示原图像信息的重要任务。 特征选择过少不能提供令人满意的结果, 特征选择过多容易出现“ 过度训练” 并降低计算效率[10]。 单阶Zernike矩提取的样本特征信息并不能够完整的描述原图像的所有特征, 因此通过选择适当数量的Zernike矩特征来提高定性和定量精度。

2.1 Zernike矩结合聚类分析鉴别掺伪样本

鉴别样本是否为掺伪芝麻油, 首先应观察样本是否和纯芝麻油属于一类。 利用类平均法将纯芝麻油样本(Z1~Z15)、 芝麻香精样本(J1, J2)分别与掺伪样本1(JY1~JY9)、 掺伪样本2(JC1~JC9)进行聚类, 得到如图3的聚类树形图, 其中横坐标表示样本间的欧式距离, 纵坐标表示样本。 当选取前7阶Zernike矩作为样本的特征信息组合时, 可完全区分掺伪样本。

由图3(a)可知, 26个样本在欧式距离L=7.66以上水平被分为2类, 其中纯芝麻油样本(Z1~Z15)被分为一类, 芝麻香精样本(J1, J2)与掺伪样本1(JY1~JY9)被分为一类; 图3b中26个样本在欧式距离L=6.93以上水平被分为2类, 纯芝麻油样本(Z1~Z15)被分为一类, 芝麻香精样本(J1, J2)与掺伪样本2(JC1~JC9)被分为一类。 由上述结果可知, 样本的Zernike矩特征经聚类分析后可以有效鉴别掺伪样本, 并且可以确定掺伪样本中含有芝麻香精成分。

图3 掺伪芝麻油样本聚类树形图Fig.3 Dendrogram of doping sesame oil

2.2 Zernike矩结合聚类分析鉴别样本成分

掺伪样本被正确区分之后, 仍需对其所含的成分进行鉴别, 以便对该成分进行定量分析。 由大豆油样本(D1~D4)、 玉米油样本(Y1~Y7)、 菜籽油样本(C1)构造样本库。 分别把掺伪样本1(JY1~JY9)、 掺伪样本2(JC1~JC9)与样本库进行聚类分析, 可得如图4所示的聚类树形图。

由图4(a)可知, 21个样本在欧式距离L=6.34以上水平被分为3类, 其中大豆油样本(D1~D4)被分为一类, 菜籽油样本(C1)被分为一类, 玉米油样本(Y1~Y7)与掺伪样本1(JY1~JY9)被分为一类, 因此可以得到掺伪样本含有玉米油; 同样图4b中样本在欧式距离L=6.81以上水平被分为3类, 其中大豆油样本(D1~D4)被分为一类, 玉米油样本(Y1~Y7)被分为一类, 菜籽油样本(C1)与掺伪样本2(JC1~JC9)被分为一类, 因此可以得到掺伪样本含有菜籽油。 由上述结果可知, 样本的Zernike矩特征经聚类分析后能够鉴别掺伪样本的成分。

图4 掺伪芝麻油成分聚类树形图Fig.4 Dendrogram of doping sesame oil’ s ingredients

图5 两种掺伪样本不同成分的GRNN预测结果与实际值对比Fig.5 Comparison of GRNN Predictive Results and Actual Values of two different components of doping sesame oil

2.3 Zernike矩结合GRNN定量分析掺伪样本

通过GRNN对所选取的Zernike矩组合进行回归分析, 选择J1, JY2, JY4, JY6, JY8和Y1和J2, JC2, JC4, JC6, JC8和C1分别作为训练样本, JY1, JY3, JY5, JY7, JY9和JC1, JC3, JC5, JC7, JC9分别为对应的预测样本, 当选取前7阶Zernike矩作为样本的特征信息组合时, 定量误差达到最小值, 预测结果如图5所示。

图5(a)和(b)分别为掺伪样本1、 掺伪样本2的预测结果。 其中(a1)为样本1中的精油的相对体积, (a2)为样本1中的玉米油相对体积; (b1)为样本2中的精油的相对体积, (b2)为样本2中的菜籽油的相对体积。 掺伪样本中各成分的相对体积预测结果的详细分析总结在表3中。

2.4 对比PARAFAC分析

用PARAFAC对掺伪样本(以样本1为例)进行定性和定量分析, 结果如图6所示。 其中(a1)为定性分析时的发射波长, (a2)为激发波长。 可以看出: 两种油样的发射/激发波长在450~550 nm/380~470 nm重叠严重, 用PARAFAC对其进行定性分析时, 在该波段存在较大误差。 掺伪样本定性分析后得到得分矩阵, 对其中的相对荧光强度和相对体积比进行回归分析, 结果如图6所示, 其中(b1)是芝麻香精的相对体积, (b2)是玉米油相对体积。 可看出: 用PARAFAC算法分解得到的两种油样在定量回归分析时未成线性模型, 定量分析时的误差较大。

图6 PARAFAC分析结果Fig.6 PARAFAC results

表3 预测结果的分析及GRNN运行参数 Table 3 Prediction of the results and GRNN operating parameters

PARAFAC算法适用于线性加合体系。 当被研究体系超出浓度适应范围或光谱测量中出现的非线性情况时, Lamber-Beer定律不再适用, 测量结果会出现较大的误差。

2.5 进一步分析

Zernike矩中因近似积分引起的计算误差会随着矩阶数的增加而增大, 这直接影响定性和定量分析的结果, 因此实际应用时所选取的Zernike矩特征并不是越多越好。 并且高阶矩主要描述图像的细节, 这些细节更多表现为图像的噪声及其他无关干扰, 其同样会影响分析结果的准确性。 因此本文最终选择前7阶Zernike矩特征用于定性和定量分析。

3 结 论

以掺伪芝麻油样本为主要研究对象, 提出了一种无需预处理, 直接利用Zernike图像矩提取样本的三维光谱数据的特征, 并结合聚类分析和GRNN对样本进行定性和定量分析的方法。 实现对掺伪芝麻油的鉴别, 并准确解析其组成成分及含量。 实验结果表明该方法能够有效提取光谱的特征, 并能够得到满意的定性和定量结果, 为质监部门及生产企业提供了新的油品鉴别标准及监测手段, 对维护我国食用植物油的食品安全具有重要作用。 在此基础上, 未来的研究会朝着增加样本数量以进一步完善光谱数据库的方向进行, 并分析讨论不同油种之间的特征差异, 提出规则的参数判定条件。 以进一步提高检测的效率和实用性。

The authors have declared that no competing interests exist.

参考文献
[1] WU Xi-jun, TIAN Rui-ling, SUI Meng-fei, et al(吴希军, 田瑞玲, 孙梦菲, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(7): 2155. [本文引用:1]
[2] Zhai H L, Zhai Y Y, Li P Z, et al. Analyst, 2013, 138: 683. [本文引用:2]
[3] Jing C, Bao Q L, Hong L Z, et al. Journal of Chromatography A, 2014, 1352: 55. [本文引用:1]
[4] Chen J, Li B Q, Xu M L, et al. Talanta, 2016, 161: 99. [本文引用:1]
[5] Singh C, Walia E. Pattern Recognition, 2010, 43(7): 2497. [本文引用:2]
[6] Hosny K M. Pattern Recognition Letters, 2010, 31(2): 143. [本文引用:2]
[7] Chen Z, Sun S K. IEEE Transactions on Image Processing, 2010, 19(1): 205. [本文引用:1]
[8] LIU Bing-xin, LI Ying, HAN Liang(刘丙新, 李颖, 韩亮). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(4): 1100. [本文引用:1]
[9] Bendu H, Deepak B B V L, Murugan S. Energy Conversion & Management, 2016, 122: 165. [本文引用:1]
[10] Singh C, Pooja. Optics & Lasers in Engineering, 2011, 49(12): 1384. [本文引用:1]