激发-发射荧光矩阵光谱结合多维辩别分析用于葡萄干分类研究
胡乐乾, 马帅, 尹春玲, 刘志敏
河南工业大学化学化工学院, 河南 郑州 450001

作者简介: 胡乐乾, 1970年生, 河南工业大学化学化工学院副教授 e-mail: leqianhu@163.com

摘要

葡萄干因其种类繁杂, 产地来源多, 制作工艺多样, 导致品质各异。 因此需要建立能够科学、 准确的鉴别葡萄干种类、 产地、 品质的分析方法, 以确保葡萄干产品质量、 保护消费者利益、 规范葡萄干商品市场。 该实验基于葡萄干中富含多种荧光物质, 以甲醇为萃取剂, 应用微波提取法, 结合三维荧光光谱技术, 在激发波长300~700 nm, 发射波长360~720 nm范围, 获取三维荧光矩阵数据, 应用多维主成分分析(M-PCA), 多维偏最小二乘辨别分析(N-PLS-DA)和平行因子算法-偏最小二乘辨别分析(PARAFAC-PLS-DA)等多维模式识别方法, 对三种主色为绿色、 两种主色为红色的五个不同种类的葡萄干进了分类研究。 M-PCA研究结果显示不同种类的葡萄干存在聚类趋势, 而N-PLS-DA和PARAFAC-PLS-DA则给出了比较满意的分类结果。 相对而言, 由于PARAFAC-PLS-DA是基于PARAFAC分解得到浓度得分结果基础之上进行的分类, 去除了不相干的冗余信息, 因此取得了100%准确的分类结果。 两种算法的品质因子比较结果也说明基于荧光光谱法和多维模式识别技术相结合的分析技术可以很好的用于葡萄干种类的识别研究, 并有望用于葡萄干质量等级识别及产地追溯。

关键词: 葡萄干; 三维荧光; 多维模式识别; 品质因子
中图分类号:O657.3 文献标志码:A
Modeling Excitation-Emission Fluorescence Matrices with Multidimensional Pattern Recognition Algorithms for Classification of Raisin
HU Le-qian, MA Shuai, YIN Chun-ling, LIU Zhi-min
School of Chemistry and Chemical Engineering, Henan University of Technology, Zhengzhou 450001, China
Abstract

With the improvement of living standards, raisins are accepted by an increasing number of people for its abundant nutrients and delicious. The quality of different kinds of raisins is very distinct because of its wide variety, diverse geographical origin, and various manufacturing technology. It is very important to establish scientific and accurate identification of variety of raisins, geographical origin and quality analysis method. These methods can not only ensure good quality of raisins and protect the consumer’s interest, but also helpful for the maintenance of the market competition order. Raisin can be measured with three-dimensional fluorescence spectrometry methods, for it contains muti-fluorescent components. In this research, fluorescence components in raisins samples were extracted with microwave method with methanol as solvent. Excitation emission spectra were obtained for 150 raisins samples of different varieties by recording emission from 300 to 700 nm with excitation in the range of 360~720 nm. The fluorescence matrix data were then analyzed by multidimensional pattern recognition methods, such as the multidimensional principal components analysis (M-PCA), multi-dimensional discrimination analysis of least squares (N-PLS-DA) and partial least square based on parallel factor algorithm discrimination analysis (PARAFAC-PLS-DA), to classify the variety of raisin. The result of M-PCA revealed the clustering tendency for the different kinds of raisins, and N-PLS-DA and PARAFAC-PLS-DA could give satisfactory classification results. In comparison, The PLS-DA classification model, constructed from PARAFAC model scores, detected the variety of raisins samples with 100% sensitivity and specificity. The study demonstrated that the excitation emission fluorescence spectrometry combining with multidimensional pattern recognition is a valuable and reliable technique for raisins classification. The results also showed that this method is promising to discriminate the quality and trace the geographical origin of raisins.

Keyword: Raisins; Three-dimensional fluorescence spectrometry; Multidimensional pattern recognition; Figure of merit

引 言

葡萄干是指将葡萄通过阳光曝晒、 自然晾干或人工烘干制得的衍生食品。 因其富含果糖、 麦芽糖、 葡萄糖、 蔗糖等多种糖类、 蛋白质、 维生素、 脂肪酸、 黄酮类(白藜芦醇等)和非黄酮类抗氧化合物(如原花青素等多酚), Cu, Zn, Mn, Na, K, Ca, Mg等人体所需的微量元素[1, 2, 3], 及其味道鲜美深受全世界广大消费者的喜爱。 根据美国农业部的统计, 2009年世界葡萄干出口总计超过695 000 t[4]。 葡萄干种类繁多, 仅我国新疆地区所产葡萄干就有30多种。 由于葡萄干生产受到地域、 品种及不同加工工艺的影响, 导致其质量和价格有着非常大的差异。 随着人们生活质量的提高和健康的要求, 对食品真伪、 质量等级、 产地、 种类的识别提出了更高的要求[5, 6]。 因此研究对葡萄干产品的种类识别、 产地溯源及质量评价的分析方法对于保护消费者利益、 保证生产企业的公平竞争及帮助食品监管者有效监督食品质量都有着特别重要的意义。

虽然葡萄干种类繁多, 但其颜色主要有绿、 红和黑三种, 由于生长和加工等条件影响, 其颜色存在深浅不同。 目前的关于葡萄干质量等级的研究还不多, 已有的分级标准主要依据外观和色泽等物理因素进行分级。 传统的方法主要基于人工感官识别, 这种方法不仅费时费力, 同时受检测者的生理及心理因素影响, 存在判定结果不客观等问题。 近年来关于葡萄干的种类识别及质量评价研究是通过各种成像技术, 主要以葡萄干图像的形态、 颜色、 纹理特征为参数, 结合化学计量学分类方法研究葡萄干的品质和等级[7, 8, 9]。 基于葡萄干的化学成分进行种类判别和质量标准的识别还不常见, 可能的原因是目前对葡萄干的质量还没有建立更合理的评价标准, 只有个别研究采用近红外方法对葡萄干等级进行分析研究[10]。 相对于基于物理因素的分类研究, 基于化学成分的分类研究可以取得更加可靠的分析结果, 甚至还可以具体给出某些营养成分的含量, 能更科学的给出葡萄干种类、 产地及质量等级信息。 目前基于化学成分对茶叶[11, 12], 植物油[13]及奶制品[14]等食品的质量识别和分级研究较多, 这些研究多基于现代分析技术与化学计量学方法方法相结合, 都取得了较好的分析结果。 荧光技术具有分析方法简便、 采用分析试样量少、 分析灵敏度高、 选择性强等特点。 已有研究基于荧光技术对葡萄酒的分类及产地识别进行了相关研究[15, 16, 17]。 基于这种思想, 本研究拟利用葡萄干中荧光物质结合三维荧光分析技术对三个主色为绿色和两个主色为红色的五种葡萄干进行种类识别分析研究。 相对二维荧光技术, 三维荧光能够提供相对更多的化学信息等特点, 葡萄干中含有大量可产生荧光的物质, 如氨基酸、 维生素、 黄酮类化合物、 抗氧化剂多酚类物质、 色素等, 不同种类和质量的葡萄干所含这些物质的种类和含量可能不同, 因此有望将荧光技术用作葡萄干的种类识别、 质量评定及产地溯源研究。

1 实验部分
1.1 材料

五种葡萄干样品分别购自当地超市, 它们的详细信息见表1。 乙腈(色谱纯)、 甲醇(色谱纯)购自山东禹王实业有限公司, 无水乙醇(分析纯)购自天津市天力化学试剂有限公司。 本实验所用的蒸馏水均为二次蒸馏水。

表1 五种葡萄干的特征 Table 1 Properties of five kinds of raisins
1.2 样品预处理

取一定量的葡萄干, 切成块状置于表面皿中, 然后放置于电热恒温鼓风干燥箱中, 80 ℃烘干至恒重。 然后将干燥的葡萄干置于搅拌机中粉碎。 以甲醇为溶剂, 固液比为1.0 g/30 mL, 提取方法为微波消解法。 微波条件为60 ℃, 4 min, 10个大气压, 提取后的溶液采用三维荧光进行分析获取数据。

1.3 仪器及参数

WX-8000微波消解仪(上海屹尧仪器科技发展有限公司, 中国)用于葡萄干样品的提取实验。 美国瓦里安公司Varian Cary Eclipse型荧光光谱仪用来采集葡萄干的三维荧光数据。 仪器参数设置: 激发波长范围是在300~700 nm, 发射波长范围是在360~720 nm, 光谱间隔均为2 nm, 狭缝宽度均为10 nm。 每种葡萄干经扫描后得到201× 181荧光光谱矩阵数据, 五种葡萄干(每种葡萄干有30个样品)就是150× 201× 181三维立方数据矩阵备用。 原始光谱在解析前用微波消解后的甲醇溶剂做空白扣除背景。

1.4 数据处理

传统上模式识别主要是基于二维数据的二维模式识别方法, 如LDA(linear discriminant analysis), SIMCA(soft independent modeling of class analogy), K-Means, 包括一些智能分类方法, 如人工神经网络(ANN)等。 如果获取的数据是三维数据时, 采用上述方法时通常将三维数据展开为二维数据, 这样可能会使三维数据信息损失[18]。 目前解决三维数据的模式识别研究还不多见, 已有的研究主要有三类[19]: 多维主成分分析(multilinear principal components analysis, M-PCA), 基于多维数据解析技术与二维分类技术相结合的分类方法(如parallel factor coupling with soft independent modeling of class analogy, PARAFAC-SIMCA)和多维偏最小二乘辨别分析(multilinear partial least squares discriminant analysis, N-PLS-DA)等, 本文拟采用M-PCA[20], N-PLS-DA[21]及PARAFAC-PLS-DA(parallel factor coupling with Partial least squares discriminant analysis)[22]三种算法分别对实验获得150组葡萄干的三维荧光数据进行模式识别分析, 对五种葡萄干进行分类, 同时也比较不同方法识别的效果。

2 结果与讨论
2.1 样品提取条件

为了获取最佳的荧光测量条件, 在荧光分析之前我们分别对提取方法, 提取溶剂, 固液比, 提取时间进行了讨论, 具体讨论结果见图1。 图1(a)为采用甲醇为溶剂, 五种葡萄干采用液-液回流提取(80 ℃下2 h)和微波消解提取(60℃下4 min)的提取效果比较, 可以发现采用液-液回流提取取得的样品的荧光强度(最大激发波长480 nm和发射波长540 nm下, 下同)都没有应用微波4分钟的提取效果好, 而微波提取时间远远低于回流提取2 h, 所以从效率上来讲选择微波消解法提取是比较合适。 图1(b)为四种不同的溶剂: 甲醇、 乙醇、 乙腈及蒸馏水在相同条件下采用微波提取后进行荧光检测的结果, 可以看出采用甲醇提取产生的荧光更强。 图1(c)为分别取和田红葡萄干粉0.2, 0.5, 1.0, 2.0和2.5 g与30 mL甲醇采用微波消解法提取, 从图中发现随着固液比的增加, 提取液的荧光强度呈现先增加后降低的趋势。 可以发现固液比在1.0 g/30 mL时荧光强度最优。 图1(d)为1.0 g和田红葡萄干加30 mL甲醇采用微波消解法, 微波消解时间分别为2, 4, 6, 8和10 min采集得到的荧光光谱数据, 由图可知, 微波消解时间对提取液的荧光强度影响不太大, 因此以4 min微波消解为最佳。 此外, 固液比和消解时间的寻优这只是对一种葡萄干的寻优。 另外四种葡萄干的寻优结果和这种葡萄干结果大致相同, 故不一一举出。

2.2 五种葡萄干三维荧光

根据以上寻优的条件选择最优的条件: 以固液比为1∶ 30(W/V), 溶剂为甲醇, 提取方法为微波消解法, 微波条件为4 min, 获取萃取液后进行荧光分析, 图2为五种葡萄干原始三维荧光光谱图。

图2 五种葡萄干原始三维荧光光谱图Fig.2 Excitation emission (EEM) spectra of five kinds of raisins

通过观察五种葡萄干的三维荧光光谱图可以发现五种葡萄干的荧光谱图形状基本相似, 只是在吸光强度上存在差异, 尤其前三种主体颜色均为绿色的葡萄干形状非常相似, 而后两种主体颜色为红色的葡萄干在激发620 nm和发射450 nm位置有一微小的荧光谱峰, 这与前三种葡萄干的荧光光谱有所不同, 而二者除了在吸光度大小上不同外, 在光谱形状上又非常相似, 因此单从光谱形状上很难对其进行种类识别。 下面分别应用M-PCA, N-PLS-DA, PARAFAC-PLS-DA, 及对荧光产生的数据进一步的分析研究。

2.3 M-PCA

我们首先应用多维主成分分析进行聚类分析, 以观察三维荧光结合模式识别方法用于葡萄干种类辨别的可行性。 所有数据预先经归一化和二阶求导处理。 图3显示了M-PCA取得主成分分析的结果。

图3 主成分分析结果图
+: 绿珍珠; ☆: 王中王; ○: 哈密王; △ : 马奶子; ◇: 和田红
Fig.3 The M-PCA score plots of the raisin based on preprocessed EMMs data
+: LZZ; ☆: WZW; ○: HMW; △ : MNZ; ◇: HTH

由图3可知, 五种葡萄干各自都有明显的聚集趋势, 但是彼此的分类界限不清晰, 各种葡萄干都彼此存在交叉现象, 但是总体体现出集中聚类的倾向。 由于M-PCA本身是一种相对简单的聚类技术, 所以还需要其他的分析方法加以辅助确保分类结果的正确性。 下面分别用N-PLS-DA和PARAFAC-PLS-DA进行判别分析。

2.4 N-PLS-DA

为了取得最好的分类效果, 葡萄干三维荧光光谱数据在进行数据解析之前先进行数据前处理以消除误差影响, 本次研究中获取的三维数据分别采用归一化、 多元散射校正(MSV)、 标准正态变量变换(SNV)、 一阶求导、 二阶求导进行了预处理, 发现经二阶求导后的数据解析结果最好, 因此本研究将二阶求导作为数据预处理方法。 150个样品随机分成两组, 一组是训练集, 由97个葡萄干样品组成。 另一组是预测集, 由53个葡萄干样品组成用来检测预测结果。 用0/1对不同种类葡萄干进行类的编码, 五种样品, 分别编为1/0/0/0/0, 0/1/0/0/0, 0/0/1/0/0, 0/0/0/1/0, 0/0/0/0/1。 通过交互检验确定PLS的隐变量数为13, 在此基础上运行PLS算法, PLS得分结果见图4, 进而进行辨别分析, N-PLS-DA解析得到结果见表2

表2 N-PLS-DA和PARAFAC-PLS-DA对五种葡萄干识别结果 Table 2 Classification results using N-PLS-DA and PARAFAC-PLS-DA

表2显示了N-PLS-DA对五种不同种类的葡萄干的分类结果, 可以发现无论从训练集还是预测集都取得了较好的分类结果, 在训练集中, 除了哈密王(HMW)出现了一个分类错误(误判为王中王WZW), 其他全部分类正确。 在预测集中, 只有一个王中王(WZW)被误判为哈密王(HMW), 其他所有的分类也都是完全正确的。 由此说明利用N-PLS-DA法可建立针对不同种类的葡萄干样本的鉴别模型, 且具有良好的识别效果, 可以用于不同品种的葡萄干的鉴别。 预测出错的原因分析: 葡萄干受到环境、 不同的加工程序、 贮藏条件等外界因素的影响, 预测结果会出现一些稍微的差异。

图4 N-PLS-DA解析得到五种葡萄干的训练集与预测集的得分值
s1: 绿珍珠; s2: 王中王; s3: 哈密王; s4: 马奶子; s5: 和田红
Fig.4 The estimated dummy vectors by N-PLS-DA refer to the variety membershiqs of the samples in the trainging set and the prediction set
s1: LZZ; s2: WZW; s3: HMW; s4: MNZ; s5: HTH

2.5 PARAFAC-PLS-DA

为了进一步做对比分析, 我们应用三维数据校正方法对三维数据进行解析, 求得分析体系包含的化学成分的种类和含量数据, 然后利用这些数据结合二维聚类方法等进行聚类分析。 在用PARAFAC解析三维荧光光谱数据之前, 首先要估计该三维荧光光谱数据所含成分的个数, 即运行PARAFAC算法的化学秩。 为了得到可靠的化学秩, 本研究采用二模子空间比较法(TMSC)[23]及伪样品投影方法(PPT)[24]计算150个葡萄干荧光样品数据的化学秩, 两种算法显示该体系的化学秩的个数均为5。 图5显示的是PARAFAC算法(n=5)预测得到的不同类葡萄干的激发光谱和发射光谱图。

图5 由PARAFAC法解析得到的激发光谱和发射光谱Fig.5 Emission and excitation mode loading vectors from five components PARAFAC model of fluorescence data of raisin samples

由图6中从左到右依次为绿珍珠(LZZ)、 王中王(WZW)、 哈密王(HMW)、 马奶子(MNZ)和和田红(HTH), 图中右侧的1— 5表示五种葡萄干中可以产生荧光的化学成分。 通过观察可以发现, 可以看出不同种类的葡萄干所含荧光物质的含量是不相同的。 其中哈密王和和田红所含五个荧光物质中有四个含量基本一致, 只有第5种物质的含量不同。 另外三种葡萄干中至少都有两个或两个以上荧光物质的含量不相同, 基于这些荧光物质含量的不同, 也可以用不同类型葡萄干的种类分析, 不过采用所含不同荧光成分具体浓度差别进行分类, 相对比较麻烦, 不易确定分类标准, 因此我们在PATRFAC数据解析结果的基础上应用浓度得分矢量结合PLS-DA进行判别分析, 图7为在PATRFAC解析结果的基础上应用PLS算法解析得到的每个葡萄干样品的得分值, 对得分值进行识别可以得到分类结果, 见表2, 可以发现, 应用多维数据解析技术基础上进行的分类完全正确, 没有判别错误和误判。

图6 PARAFAC法解析得到的荧光成分相对浓度Fig.6 PARAFAC model concentration mode loadings

图7 PARAFAC-PLS-DA解析得到五种葡萄干的训练集与预测集的得分值
s1: 绿珍珠; s2: 王中王; s3: 哈密王; s4: 马奶子; s5: 和田红
Fig.7 The estimated dummy vectors by PARAFAC-PLS-DA refer to the variety memberships of the samples in the trainging set and the prediction set
s1: LZZ; s2: WZW; s3: HMW; s4: MNZ; s5: HTH

为了验证和比较分类的效果, 我们对分类的品质因子进行了计算, 这些品质因子主要包括灵敏度(Sensitivity)、 特异性(Specificity)和准确性(Accuracy)[25]表3列出了两种分类方法分析的特征参数, 从这些参数可以发现两种分类方法的灵敏度、 特异性及准确性都比较高, 说明采用多维数据分类方法可以很好的对不同种类的葡萄干样品进行分类研究。 相对而言, 与全光谱N-PLS-DA分析结果相比, 用PARAFAC-PLS-DA取得了更好的分析结果, 这是由于PARAFAC-PLS-DA是基于PARAFAC分解得到的得分结果基础之上进行的分类, 去除了不相干的冗余信息, 因此分类的结果变得更准确。

表3 N-PLS-DA和PARAFAC-PLS-DA的品质因子比较 Table 3 Sensitivity, specificity and accuracy obtained for N-PLS-DA and PARAFAC-PLS-DA
3 结 论

通过三维荧光光谱技术对五种不同种类的葡萄干样品进行检测, 共得到150组样品数据, 结合化学计量学中的M-PCA, N-PLS-DA和PARAFAC-PLS-DA三种多维模式识别算法对五种葡萄干进行分类研究。 M-PCA展示了五种葡萄干聚类的趋势, 后两种算法则取得了较好的分类结果。 相对而言, PARAFAC-PLS-DA取得了完全准确的分类结果。 本研究结果说明基于三维荧光技术, 结合化学计量学中的多维辨别分析方法可以对不同种类的葡萄干进行快速、 准确、 科学的分类识别, 是一种很好的分析方法。 同时从PARAFAC预测结果还可发现, 不同葡萄干中几种荧光成分的含量存在一定的差异, 因为葡萄干中的荧光物质主要是氨基酸、 维生素、 黄酮类化合物、 抗氧化剂多酚类物质、 色素等产生的, 这些物质是对人类健康特别重要的化学物质, 其含量的高低应该作为葡萄干质量高低判别标准的组成部分, 因此本研究有望对建立更加科学的葡萄干质量标准提供参考。

The authors have declared that no competing interests exist.

参考文献
[1] Kanellos P T, Kaliora A C, Tentolouris N K, et al. Nutrition, 2014, 30: 358. [本文引用:1]
[2] Ghrairi F, Lahouar L, Amira E A, et al. Industrial Crops and Products, 2013, 43: 73. [本文引用:1]
[3] Meng J F, Fang Y L, Zhang A, et al. Food Research International, 2011, 44: 2830. [本文引用:1]
[4] Schusler M J, Wang X, Hawkins T, et al. Journal of Nutrition and Health, 2017, 50(3): 203. [本文引用:1]
[5] Karoui R, Blecker C. Food and Bioprocess Technology, 2011, 4(3): 364. [本文引用:1]
[6] Reid M L, O' Donnell C P, Downey G. Trends in Food Science and Technology, 2006, 17: 344. [本文引用:1]
[7] Yu X J, Liu K S, Wu D, et al. Food and Bioprocess Technology, 2012, 5: 1552. [本文引用:1]
[8] Tang J L, Jing X, He D J. Journal of Agricultural Mechanization Research, 2007, 11: 51. [本文引用:1]
[9] Omid M, Abbasgolipour M, Keyhani A, et al. International Journal of Signal and Image Processing, 2010, 1: 31. [本文引用:1]
[10] Huxsoll C C, Bolin H R, Mackey B E. Journal of Food Science, 1995, 60(1): 176. [本文引用:1]
[11] Chen Q S, Guo Z M, Zhao J W. Journal of Pharmaceutical and Biomedical Analysis, 2008, 48: 321. [本文引用:1]
[12] Pongsuwan W, Fukusaki E, Bamba T, et al. Journal of Agricultural and Food Chemistry, 2007, 55(2): 231. [本文引用:1]
[13] Ai F F, Bin J, Zhang Z M, et al. Food Chemistry, 2014, 143: 472. [本文引用:1]
[14] Romdhane K, Josse De B. Food Chemistry, 2007, 102: 621. [本文引用:1]
[15] Airado-Rodríguez D, Durán-Merás I, Galeano-Díaz T, et al. Journal of Food Composition and Analysis, 2011, 24(2): 257. [本文引用:1]
[16] Dufour E, Letort A, Laguet A, et al. Analytica Chimica Acta, 2006, 563: 292. [本文引用:1]
[17] Andreu-Navarro A, Russo P, Aguilar-Caballos M P, et al. Food Chemistry, 2011, 124: 1753. [本文引用:1]
[18] Murphy K R, Stedmon C A, Graeber D, et al. Analytical Methods, 2013, 5(23): 38. [本文引用:1]
[19] Durante C, Bro R, Cocchi M. Chemometrics and Intelligent Laboratory Systems, 2011, 106: 73. [本文引用:1]
[20] Obeidat S M, Al-Ktash M M, Al-Momani I F. Energy Fuels, 2014, 28: 4889. [本文引用:1]
[21] Bro R, Smilde A K, De Jong S. Chemometrics and Intelligent Laboratory Systems, 2001, 58: 3. [本文引用:1]
[22] Lenhardt L, ZekoviĆ I, DramiĆanin T, et al. Applied Spectroscopy, 2014, 68(5): 557. [本文引用:1]
[23] Xie H P, Jiang J H, Long N, et al. Chemometrics and Intelligent Laboratory Systems, 2003, 66: 101. [本文引用:1]
[24] Hu L Q, Wu H L, Jiang J H, et al. Anal. Bioanal. Chem. , 2006, 384: 1493. [本文引用:1]
[25] Callejón R M, Amigo J M, Pairo E, et al. Talanta, 2012, 88: 456. [本文引用:1]