基于三维荧光光谱和四元数主成分分析的食醋品牌溯源研究
谈爱玲1, 王思远1, 赵勇2, 周昆鹏1, 卢樟健1
1. 燕山大学信息科学与工程学院, 河北省特种光纤与光纤传感重点实验室, 河北 秦皇岛 066004
2. 燕山大学电气工程学院, 河北 秦皇岛 066004

作者简介: 谈爱玲, 1978年生, 燕山大学信息科学与工程学院副教授 e-mail: tanailing@ysu.edu.cn

摘要

提出基于四元数主成分分析的三维荧光光谱特征提取新方法, 并将其运用于品牌食醋溯源研究。 首先利用F7000荧光光谱仪测得不同品牌食醋样本的三维荧光光谱数据, 获取样本的等高线图和三维投影图, 并进行三维荧光等高线图分析; 然后利用激发波长分别为380, 360和400 nm下的发射光谱数据建立食醋三维荧光光谱数据的四元数并行表示模型, 对四元数荧光光谱矩阵进行四元数主成分特征提取, 并基于乘积运算、 模值运算和求和运算三种方法对提取出来的四元数主成分特征进行特征融合; 最后将融合特征作为K近邻分类器的输入, 得到不同食醋品牌的最优分类模型。 分别讨论三种不同特征融合方法和四元数主成分个数与最终模型分类正确率之间的关系。 针对四个不同食醋品牌120个样本的分析结果可得: 基于求和特征融合运算所得到的融合特征可以利用最少的特征数目, 建立最优的溯源模型, 样本预测集溯源正确率可达100%。 研究结果表明: 四元数主成分特征提取和特征融合方法能够并行表示三维荧光光谱数据所蕴含的丰富信息, 为三维荧光光谱数据分析提供新思路。

关键词: 三维荧光光谱; 食醋溯源; 四元数主成分分析; 特征提取; K近邻
中图分类号:O657.3 文献标志码:A
Research on Vinegar Brand Traceability Based on Three-Dimensional Fluorescence Spectra and Quaternion Principal Component Analysis
TAN Ai-ling1, WANG Si-yuan1, ZHAO Yong2, ZHOU Kun-peng1, LU Zhang-jian1
1. School of Information Science and Engineering, Yanshan University, The Key Laboratory for Special Fiber and Fiber Sensor of Hebei Province, Qinhuangdao 066004, China
2. School of Electrical Engineering, Yanshan University, Qinhuangdao 066004, China
Abstract

A new method was put forward to study vinegar brand traceability based onthree-dimensional fluorescence spectra technology combined with quaternion principal component analysis. Firstly, the three-dimensional fluorescence spectral data of vinegar samples with different brands were acquired by F7000 fluorescence spectrometer. The contour and 3D fluorescence spectra about four different brands vinegar were acquired and the three-dimensional fluorescence contour maps were analyzed; Then the parallel quaternion matrix representation model of vinegar three-dimensional fluorescence spectral data was established by using the emission spectral data under excitation wavelength of 380, 360 and 400 nm respectively. The quaternion features were extracted using quaternion principal component analysis, and the exacted quaternion principal components were conducted feature fusion based on operations of multiplication, modulus and summation respectively; At last, the fusion features were as the input of K-Nearest Neighbors, and the optimal classification model of vinegar brand traceability was made. The relationships between the model classification accuracy and the three different feature fusion methods and the number of quaternion principal components were discussed. According to the analysis results with 120 vinegar samples of four different brands, the fusion feature obtained by summation operation can establish the best traceability model by using the least number of features, and the accuracy of the prediction set can reach 100%. The results of this study showed that the quaternion principal component feature extraction and feature fusion methods can represent the rich information contained in the three-dimensional fluorescence spectral data in parallel, which provides a new idea for the analysis of three -dimensional fluorescence spectral data.

Keyword: Three-dimensional fluorescence spectra; Vinegar brand traceability; Quaternion principal component analysis; Feature extraction; K-Nearest Neighbors
引 言

食醋在我国有着悠久的历史, 是人民日常生活必备的酸性调味品。 食醋含有各种丰富的营养成分, 同时具有食疗保健和药用的功能。 目前, 我国不同产地的食醋品牌很多, 因为原材料和加工工艺的不同, 不同产地的品牌食醋在质量、 营养价值和价格等方面有较大差异, 但消费者仅从外观或味道上难以区别[1]。 由于利益驱使, 市场上出现了不法商贩以次充好, 甚至制假勾兑的行为, 不仅损害了消费者的权益, 也影响了正规品牌食醋的声誉和经济效益, 严重扰乱了市场秩序。 因此, 对食醋产地和品牌的溯源研究具有重要的实际意义。

目前, 食醋品牌溯源或分类的研究有基于无机元素含量测定的气相色谱-质谱法、 气体传感器阵列法, 这些方法仪器设备昂贵, 需要用试剂对样品进行处理, 操作较繁琐[2]; 另外, 国外有利用红外光谱法对高质量酒醋分类的研究[3], 国内也有利用近红外光谱技术对不同品牌食醋溯源的研究, 但模型预测正确率有待提高。 荧光光谱法具有灵敏度高、 操作简单、 样品用量少、 分析速度快、 无污染等优点, 已成为一种重要的物质定性、 定量分析方法, 近年来被广泛应用在食品、 药品和环境检测等领域[4, 5]。 国外有学者利用荧光光谱法结合化学计量学方法对西班牙葡萄酒醋进行鉴别认证的研究[6], 但对不同的品牌食醋进行溯源和鉴别的研究还相对较少。

三维荧光光谱数据含有丰富的信息, 在数据处理上, 用矩阵表示荧光强度, 行和列分别对应不同的激发波长和发射波长, 每个矩阵元素表示在波长为λ EX的激发光激发下发射波长为λ EM时的荧光强度, 称为激发-发射矩阵(EEM)[7]。 常规方法利用三维荧光光谱法对食醋进行鉴别时, 通常是提取最佳激发波长下, 峰值位置及荧光强度等光谱波形特征信息, 并没有基于化学计量学建立分类模型。 建模时仅选择最佳激发波长下的一条发射谱线并不足以表达样本的全部荧光光谱信息, 因此本文提出基于四元数方法并行表示多个激发波长下的发射光谱, 充分利用食醋荧光光谱信息, 从而建立食醋品牌鉴别的最优分类模型。

四元数是爱尔兰科学家Hamilton为解决建立三维复数空间的问题, 在1843年首次提出的数学概念, 四元数代数是复数在四维实空间的不可交换延伸[8]。 近二十年来, 四元数发展十分迅速, 在彩色图像处理、 姿态控制、 机器人和模式识别等领域得到广泛应用, 同时已提出了四元数奇异值分解、 四元数主成分分析、 四元数小波等算法[9, 10]。 本文主要基于四元数主成分分析算法(quaternion principal component analysis, QPCA)进行食醋三维荧光光谱的并行特征提取, 从而进行食醋品牌溯源。 通过测量不同品牌食醋的三维荧光光谱, 对光谱激发-发射矩阵进行四元数并行表示, 并进行四元数主成分特征提取和特征融合运算, 融合特征作为K近邻分类器(K-nearest neighbors, KNN)的输入, 从而建立食醋品牌的最优分类模型。

1 实验部分
1.1 样品

所用样品全部购自于当地大型超市, 分别为江苏恒顺品牌、 山东鲁花品牌、 山西紫林品牌和天津天立四种不同品牌不同生产批次的食醋样本, 每个品牌均采集30组, 共120组样本, 所有食醋生产日期均在2016年9月— 2017年5月之间。

1.2 仪器与参数

采用日本日立公司生产的F-7000荧光光谱仪采集光谱。 光程为10 mm× 10 mm的无荧光石英比色皿。 激发波长λ ex范围设置为200~890 nm, 步长为20 nm; 发射波长λ em范围设置为220~900 nm, 步长为10 nm, 狭缝宽度5 nm, 扫描速率为30 000 nm· min-1; 光电倍增管电压为700 V, 激发光源为150 W的氙灯。 由于食醋的浓度较高, 为了防止荧光浓度猝灭和有效地采集到样本的三维荧光光谱, 实验中将所有食醋样本均稀释到10%后进行光谱采集。 为减小荧光强度随仪器和光源使用时间变化引起的差异, 保证测量的准确性, 每次采集之前光谱仪先预热20 min, 测量4次后取平均值作为最终测量结果。

1.3 四元数主成分分析

四元数是一个实数标量和三个虚数单位的线性组合, 可以表示为Q=a+bi+cj+dk, 其中, a, b, c, d分别是实部和三个虚部的系数, i, j, k是虚数单位。 纯四元数可以由Q=bi+cj+dk表示, 四元数矩阵是每个元素都是四元数的矩阵。

AN× P的四元数矩阵, 其中, N为样本数, P为每个样本的变量数。 首先, 对A的每一列做均值中心化处理, 得到四元数矩阵H, 则H的协方差矩阵D

D=1NHHT=SST(1)

根据四元数奇异值分解定理[11], 首先将协方差矩阵D转化成P阶的Z矩阵, 则

Z=STSQP×P(2)

然后, 对Z矩阵进行奇异值分解, 得到特征值和特征向量。 在进行奇异值分解时, 首先将四元数矩阵Z进行复表示, Zσ 为四元数矩阵Z的复表示形式, 称为Z在复数域C上的导出阵, 则求矩阵Z特征值就转化为求导出阵Zσ 的特征值, 文献[12]指出, 导出阵的实特征值总是成对出现, 复特征值总是成对共轭出现, 因此设Zσ 的特征值和特征向量分别为式(3)和式(4)

λ1, λ1¯, λ2, λ2¯, , λp, λp¯(3)v1, v1c, v2, v2c, , vp, vpc(4)

其中, vicvi的伴随向量, 则四元数矩阵Z的特征值为λ 1, λ 2, …, λ p。 向量ai=(vi, vic)σ-1为四元数矩阵Z中特征值λ i对应的特征向量, 由于

STSvi=λivi, i=1, 2, , P(5)

两边左乘S, 得到

SSTSvi=λiSvi, i=1, 2, , P(6)

可得D=SSTQ(N×N)2的特征向量为Svi, 即可求得四元数矩阵D的特征值和特征向量。 根据特征值的贡献率选取前M个较大的特征值λ 1, λ 2, …, λ M所对应的特征向量a1, a2, …, aM构成四元数特征空间, 将第i个样本投影到特征空间中得到投影向量为

Wi=[w1, w2, , wM]T(7)

式中, wj=H vjT, j=1, 2, …, M, 其中vj为特征空间, wj为降维后的四元数。

2 结果与讨论
2.1 不同品牌食醋样本三维荧光光谱

实验测得四个不同品牌共120个样本的三维荧光光谱数据, 利用origin软件得到食醋样本的三维荧光光谱图。 图1(a), (b), (c)和(d)分别为江苏恒顺、 山东鲁花、 山西紫林和天津天立四个品牌不同批次样本数据平均后得到的等高线图和三维投影图。 从等高线图和三维投影图可以获得最佳激发波长、 荧光发射波长范围、 发射光谱峰值位置及荧光强度等基本图谱信息, 四个品牌食醋的荧光光谱信息如表1所示。

图1 四个不同品牌食醋的等高线图和三维投影图
(a): 江苏恒顺; (b): 山东鲁花; (c): 山西紫林; (d): 天津天立
Fig.1 The contour and 3D fluorescence spectra about four different brands vinegar
(a): Jiangsu hengshun; (b): Shandong luhua; (c): Shanxi zilin; (d): Tianjin tianli

表1 四个不同品牌食醋的荧光光谱信息 Table 1 Spectral character of four different brands vinegar

从图1和表1可以看出, 四个品牌食醋最佳激发波长均为380 nm, 发射波长范围均为410~900 nm, 激发波长为360和400 nm处发射谱线的荧光强度也较大, 四个不同品牌食醋在三个激发波长处的荧光峰位置比较接近。 虽然由于原材料产地及发酵工艺的差异, 四个不同品牌食醋的荧光峰强度和分布有所不同, 但由于食醋的主要成分是乙酸和一些醇类物质, 这些成分中含有的羧基— COOH基团在380 nm的激发波长下, 能够吸收光子而发出荧光。 因此, 总体上四个不同品牌食醋的荧光光谱特性相似性很大, 不易区分, 需要借助化学计量学方法建立最优分类模型。

由图1所示的食醋原始三维荧光光谱图可以看出, 一级瑞利、 拉曼和二级瑞利散射峰值过高, 掩盖了食醋本身的荧光峰, 所以建模前需要去除散射的影响。 为此根据散射的斜率判断其所在位置, 将该区域上的荧光强度置零。 去除散射光后四个不同品牌食醋的等高线图如图2所示。

图2 去除散射后四个不同品牌食醋的等高线图
(a): 江苏恒顺; (b): 山东鲁花; (c): 山西紫林; (d): 天津天立
Fig.2 The contour spectra about four different brands vinegar after correcting scattering
(a): Jiangsu hengshun; (b): Shandong luhua; (c): Shanxi zilin; (d): Tianjin tianli

2.2 三维荧光光谱四元数并行表示模型

根据2.1中对食醋三维荧光光谱信息的分析, 四个不同品牌食醋在激发波长为380, 360和400 nm处的发射谱线均有较大的荧光光强值, 蕴含了不同品牌食醋的特征信息。 本文利用四元数矩阵将这三个激发波长下的发射谱进行并行表示, 即建立食醋三维荧光光谱的四元数并行表示模型。 利用纯四元数的三个虚部分别表示样本在激发波长λ 1=380 nm, λ 2=360 nm和λ 3=400 nm下, 每一个发射波长对应的荧光强度, 发射波长范围为410~900 nm, 步长为10 nm, 因此, 每个样本均为50个纯四元数荧光光强信息构成的四元数向量, 这样, N个样本在三个激发波长下的发射谱数据就可以表示为一个四元数矩阵A, 如式(8)所示

A=(Imn)N×P, ImnQ(8)

其中, N为样本个数, P为发射波长个数, 矩阵中每个元素Imn为食醋样本在三个激发波长下, 不同发射波长对应的的荧光强度数据, 可以表示为

Imn=Imn(λ1, λEMn)i+Imn(λ2, λEMn)j+Imn(λ3, λEMn)k, m=1, 2, , 120; n=1, 2, , 50(9)

2.3 三维荧光光谱四元数主成分特征提取

根据1.3中所述QPCA的基本原理, 对食醋三维荧光光谱的四元数并行表示矩阵进行四元数主成分特征提取, 得到四元数主成分为QPCt=It1i+It2j+It3k, t=1, …, P。 前5个四元数主成分的累积贡献率已达97.5%, 可以反映食醋三维荧光光谱的主要信息, 因此选择前5个四元数主成分进行特征融合。 对每个四元数主成分QPCt的三个虚部分别进行乘积运算、 模值运算和求和运算, 得到融合实数特征。

图3(a), (b)和(c)分别为四个不同品牌食醋四元数主成分的三个虚部分别进行乘积、 模值和求和三种特征融合运算后的四元数主成分分析图。 从图3(a)中可以看出, 乘积运算后得到四个品牌食醋的前三个四元数作成分相互混杂, 不易区分; 图3(b)表明模值运算后明显改善四种品牌食醋四元数主成分的重叠问题; 从图3(c)可以看到, 四元数主成分三个虚部经过求和特征融合运算后, 同种品牌食醋基本聚类在一起, 不同品牌食醋分界明显。

图3 四元数特征融合运算所得主成分得分图
(a): 乘积特征; (b): 模值特征; (c): 求和特征
Fig.3 Quaternion principal component scores polts of feature fusion
(a): Multiplication feature; (b): Modulus feature; (c): Summation feature

2.4 食醋品牌分类模型建立

食醋分类采用KNN分类算法, KNN算法是一种基于向量间相似度的分类算法, 易于实现, 无需估计参数和训练, 是机器学习的经典算法。 算法首先计算待分类样本与已知类别的训练样本之间的距离, 找到距离与待分类样本数据最近的k个邻居; 再根据这些邻居所属的类别来判断待分类样本数据的类别。 本文中选取最近邻居个数K=3, 采用欧式距离定义样本间的相似性, 采用加权投票法进行最终的类别判定。

针对120个食醋样本的三维荧光光谱数据, 随机选取72个样本作为训练集, 其余48个样本作为预测集, 将四元数主成分分别进行乘积、 模值和求和融合运算后的特征作为KNN分类器的输入, 得到四元数主成分个数与分类正确率的关系分别如图4(a), (b)和(c)所示。

图4 预测集分类正确率与四元数主成分个数关系
(a): 乘积特征; (b): 模值特征; (c): 求和特征
Fig.4 The relationship between the number of quaternion principal components and the classification accuracy of prediction set
(a): Multiplication feature; (b): Modulus feature; (c): Summation feature

由于更多的主成分个数蕴含了更多的光谱信息, 因此, 从图4中可以看出预测集分类正确率整体上基本是随着四元数主成分个数的增加而增大; 四元数主成分经过乘积运算、 模值运算和求和运算特征融合后, 在主成分个数分别为4个、 4个和2个时达到最大值; 模值运算和求和运算后所建立的分类模型正确率均达到100%, 且求和特征所建模型利用的主成分个数更少, 因此所建模型性能最优。

基于四元数求和特征融合运算特征所建的KNN分类模型, 对食醋预测集样本进行预测, 所得分类结果如图5所示, 可以看出, 预测得到的样本品牌与样本实际品牌完全吻合。

图5 求和特征的预测集分类图Fig.5 The actual sample and predict sample of the prediction set with summation feature

四元数主成分分别进行乘积、 模值和求和运算的特征融合, 所得食醋品牌分类结果如表2所示。 由表2可以看出, 乘积特征、 模值特征和求和特征结合K近邻算法所建模型对预测集样本的分类正确率分别达到81.25%, 100%和100%, 结果表明基于求和运算进行特征融合并结合K近邻分类算法可以建立不同品牌食醋分类溯源鉴别的最优模型。

表2 四种不同品牌食醋的预测集识别结果 Table 2 Prediction set recognition results of four different vineagr brands
3 结 论

采集四个不同品牌120个食醋样本的三维荧光光谱, 采集样本的三维荧光光谱数据, 建立激发波长为380, 360和400 nm处的多发射谱融合的四元数并行表示模型, 并利用四元数主成分分析方法进行特征提取, 对前5个四元数主成分分别进行乘积、 模值和求和运算, 基于运算得到的融合特征建立K近邻分类模型, 在四元数主成分个数分别为4个、 4个和2个时, 模型对预测集样本的分类正确率分别达到81.25%, 100%和100%。 结果表明基于求和运算所得到的融合特征可以利用最少的特征数目得到最优的分类模型, 很好地实现对不同品牌食醋的溯源分类。

The authors have declared that no competing interests exist.

参考文献
[1] GUAN Xiao, GU Fang-qing, LIU Jing, et al(管骁, 古方请, 刘静, ). Modern Food Science and Technology(现代食品科技), 2014, 30(11): 200. [本文引用:1]
[2] Zhou Zhilei, Liu Shuangping, Kong Xiangwei, et al. Journal of Chromatography A, 2017, 1487(3): 218. [本文引用:1]
[3] Rocío Ríos-Reina, Raquel M Callejón, Celia Oliver-Pozo, et al. Food Control, 2017, 78(8): 230. [本文引用:1]
[4] Ziya Sahin, Senem Akkoc, Ronald Neeleman, et al. Vaccine, 2017, 35(5): 3026. [本文引用:1]
[5] Alexand er Yu Popik, Evgeniy L Gamayunov. Pacific Science Review A: Natural Science and Engineering, 2015, 17(3): 29. [本文引用:1]
[6] Rocío Ríos-Reina, Saioa Elcoroaristizabal, Juan A Oca?a-González. Food Chemistry, 2017, 230(1): 108. [本文引用:1]
[7] WU Wen-tao, CHEN Yu-nan, XIAO Xue, et al(吴文涛, 陈宇男, 肖雪, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(3): 788. [本文引用:1]
[8] Chen Beijing, Yang Jianhao, Jeon Byeungwoo, et al. Neurocomputing, 2017, 266(5): 293. [本文引用:1]
[9] Ling Sitao, Jia Zhigang, Jiang Tongsong. Computers & Mathematics with Applications, 2017, 73(4): 2208. [本文引用:1]
[10] Fletcher P, Sangwine S J. Signal Processing, 2017, 136(7): 2. [本文引用:1]
[11] Chen Yuhui, Tong Shuiguang, Cong Feiyun, et al. Neurocomputing, 2016, 214(11): 143. [本文引用:1]
[12] ZHU Er-yi, WANG Xiao-hua, HANG Wei(朱尔一, 王小华, 杭纬). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(3): 587. [本文引用:1]