基于小波分解和因子分析的白酒香型和年份鉴定的研究
辜姣1,2, 陈国庆1,2,*, 张笑河1,2, 刘怀博1,2, 马超群1,2, 朱纯1,2, 廖翠萃1,2
1. 江南大学理学院, 江苏 无锡 214122
2. 江苏省轻工光电工程技术研究中心, 江苏 无锡 214122
*通讯联系人 e-mail: cgq2098@jiangnan.edu.cn

作者简介: 辜 姣, 女, 1983年生, 江南大学理学院副教授 e-mail: jiaogu@jiangnan.edu.cn; gujiaoo@foxmail.com

摘要

提出了一种基于小波分解和因子模型分析白酒荧光光谱, 对白酒香型进行分类和年份预测的方法。 白酒的三维荧光光谱包含了其所含荧光物质信息, 对其进行小波分解, 其分解系数与特征峰的强度相关。 选取高斯小波对三维荧光光谱进行分解, 可以避免对二维荧光光谱进行分解时需要选取特定激发波长的问题。 对样品的三维荧光光谱进行小波分解后, 选取第4层近似系数构建正交因子模型, 通过因子载荷系数对白酒进行鉴别。 结果指出, 贡献率较小的因子蕴含着样品的独特信息, 在相似样品的比较中, 不容忽视。 在对10个品牌的白酒进行香型分类时, 先将样品的三维荧光光谱进行高斯小波分解, 使用第4层近似系数进行因子分析, 得到贡献率由大到小的多个因子。 根据因子的载荷系数, 对样品进行聚类分析。 结果表明, 加入贡献率较小的因子可以将正确率提高至90%。 通过对因子载荷系数与年份的相关性分析得出, 贡献率排在前六位的因子和白酒年份关系较大, 而排在后面的因子和白酒年份的相关性较小, 因此可以选取前六位的因子建立白酒年份预测模型。 通过选取不同贡献率的因子对白酒年份进行预测, 其平均误差可降低至0.9年。

关键词: 连续小波分解; 正交因子模型; 年份预测; 三维荧光光谱; 白酒
中图分类号:O657.3 文献标识码:A
Classification and Year Prediction of Chinese Liquors Based on Wavelet Decomposition and Factor Analysis
GU Jiao1,2, CHEN Guo-qing1,2,*, ZHANG Xiao-he1,2, LIU Huai-bo1,2, MA Chao-qun1,2, ZHU Chun1,2, LIAO Cui-cui1,2
1. School of Science, Jiangnan University, Wuxi 214122, China
2. Jiangsu Provincial Research Center of Light Industrial Optoelectronic Engineering and Technology, Wuxi 214122, China
Abstract

In this paper, a method to identify the flavor and year of Chinese liquors was proposed based on continuous wavelet decomposition and factor model on analyzing the fluorescence spectra of liquor. The three-dimensional fluorescence spectrum of liquor contained the information of the fluorescent substance, and its decomposition factor was related to the intensity of the characteristic peak. The decomposition of the three-dimensional fluorescence spectrum by Gaussian wavelet can avoid the problem of selecting the specific excitation wavelength when decomposing the two-dimensional fluorescence spectrum. After the wavelet decomposition of the three-dimensional fluorescence spectrum of the sample, the orthogonal factor model was constructed by the fourth layer approximation coefficient, and the liquor was discriminated by the factor loading. The results showed that the factors with small contribution contain unique information of the sample, which can not be neglected in the comparison of similar samples. In the classification of liquor flavor, the three-dimensional fluorescence spectra of the samples were decomposed by Gaussian wavelet, and the fourth-layer approximation coefficients were used for factor analysis to obtain multiple factors with large and small contribution rates. According to the factor of the factor loading, the cluster analysis was carried out. The results showed that the factor with a small contribution rate can increase the correct rate to 90%. By analyzing the correlation between the factor loading and the year of liquors, the contribution rate of the first six factors was larger than that of the liquor, and the correlation between the factors and the year of liquor was small, so the first six factor can be used to predict the year of Chinese liquors. By selecting the factors with different contribution rates to predict the year of liquor, the average error can be reduced to 0.9 years.

Key words: Continuous wavelet decomposition; Orthogonal factor model; Year prediction; Three-dimensional fluorescence spectrum; Chinese wine
引言

中国白酒有着悠久的历史, 在广大老百姓日常生活中不可或缺。 不同的酿酒工艺使得白酒具有不同的香型, 主要香型有浓香、 酱香、 清香等[1]。 年份是影响白酒价格的一个重要指标, 目前国家没有完善的白酒年份制定标准, 市场上的白酒对年份标识的标准不一[2, 3]。 白酒在酿造过程中, 原材料要经过一系列物理化学变化, 导致白酒体系成分十分复杂, 其分析检测工作往往具有较大难度。 目前对于白酒的鉴别有时依赖人的感官品评, 其准确性和稳定性受到制约。 为此, 寻求一种科学的手段来分析白酒香型、 鉴别白酒年份, 是监督白酒生产质量和规范白酒行业的迫切需要。

由于配方和酿造工艺及白酒成分复杂, 主要成分是水和乙醇, 而其独特风味通常由白酒中种类多但含量少的有机化合物来决定[4]。 对于白酒品质的鉴定, 可以从分析这些有机化合物入手, 但要研究这些有机成分不仅需要找到为数众多的单体, 还必须对整个白酒形成过程有深入了解, 具有一定困难。

白酒是一种典型的液体多组分体系, 目前用于液体多组分体系的检测方法主要有红外光谱技术, 色谱分析技术、 差分脉冲极谱法, 高效液相色谱和质谱法等。 例如, 程平言等[5]使用质谱分析和多变量相结合的方法对不同等级的白酒进行分类鉴别。 刘明等[6]使用反向神经网络和支持向量机对白酒香型进行判定。 Sara Panseri等[7]提出了一种使用固相与气相色谱联用来确定己醛含量变化的方法。 Valeriy Pogorelov等[8]使用傅里叶变换与红外光谱法研究了单羟基醇的聚类过程。 马燕红等[9]利用气相色谱-质谱测定法确定汾酒的年份。 由于荧光是许多物质的显著特性, 因此被广泛应用于多组分体系的分析中[10]。 翁杨等[11]使用三维荧光光谱对白酒进行真伪检验。

液体的三维荧光光谱与其内部的荧光物质密切相关。 三维荧光光谱体现不同激发波长下各个发射波长的荧光强度信息。 与二维荧光光谱的小波分解不同, 对多组分体系的三维荧光光谱进行小波分解, 不需要考虑激发波长的选取, 可以全面考察各个激发波长下的荧光峰变化。 同时选取合适的分解层数, 可以使原始信号达到降噪的效果。 使用小波系数建立正交因子模型, 分析其影响荧光峰的各个因子, 包括公共因子与特殊因子。 这些因子概括了样品的共同性与差异性, 公共因子通常对原始信息的贡献率较大。 在具体应用发现, 公共因子有时不足以体现样品的差异性, 因此需要根据实际情况, 选取贡献率较小的因子进行分析。

本工作将样本的激发-发射矩阵(EEM)进行小波分解后, 通过正交因子模型对其近似系数进行分析。 对每组样品, 提取因子, 并利用因子载荷系数对样品进行分析。 对不同品牌的白酒进行香型鉴定时, 适当加入贡献率较小的因子可以提高准确率。 在对同一品牌的白酒年份进行预测时, 贡献率较小的因子可以使年份预测模型的准确率提高, 取得了较为满意的预测结果。

1 实验部分
1.1 仪器

使用为英国爱丁堡公司生产的荧光衰减曲线瞬态/稳态荧光光谱仪(FLS920, Edinburgh instruments, UK)。 激发与发射狭缝宽度设置为5 nm, 激发时间为0.1 s。 测试样品时激发波长为210~750 nm, 步长为2 nm; 发射波长为215~800 nm, 步长为1 nm。 光谱预处理、 小波分析、 因子分析等程序均在Matlab与SPSS软件环境下进行。

1.2 方法

实验所采用的白酒样品, 均由厂家提供, 包括10个知名品牌的四种香型白酒。 为保护厂家信息, 没有列出具体白酒品牌, 以香型加上字母(如浓香A)表示, 如浓香A、 浓香B、 清香A、 清香B、 豉香A等。

1.3 光谱预处理及数据

通过荧光光谱仪扫描得到样品的激发-发射矩阵, 对所有样本的荧光光谱进行预处理。 采用插值拟合的方法消除水的拉曼影响, 测量过程中避免瑞利散射, 将激发-发射矩阵中的缺失值置零。

1.4 数据处理方法

1.4.1 小波分解

由于荧光光谱仪得到的光谱信号存在明显的噪声, 需要对光谱信号进行降噪处理。 小波分析方法能够实现噪声与信号分离, 从而突出原始信号特征。 鉴定多组分体系可以从其所含多种单体浓度的比较出发, 单体的浓度和单体荧光峰的强度相关。 对于复杂多组分体系, 由于每个单体的荧光强度和浓度之间的关系并不一致, 因而通过研究每个单体的荧光特性来对多组分体系进行鉴别有一定困难。 此外, 如果需要比对的多组分体系所含单体品种较多, 且每种多组分体系还具有各自的特殊性, 则需要对多组分体系的形成过程以及单体成分有较深入的研究, 不易实现。

对多组分体系的荧光光谱可以进行小波分解, 其分解系数与特征峰的强度相关。 由于二维荧光光谱仅针对特定激发波长, 因此在进行二维荧光光谱小波分解前需要选取特定激发波长。 直接对三维荧光光谱进行分解, 可以更全面分析样品信息。 将多组分体系的三维荧光光谱进行小波分解后, 其小波系数可以从一定程度上反映出其所包含荧光单体的浓度信息。

小波分解见式(1)是将信号用不同尺度和平移情况下的小波母函数表示的数学函数[12]。 为了尽可能还原多组分体系所含单体信息, 选择高斯小波包对三维光谱信号进行分解。

g(t)=1(σ2π)1/4exp-t22σ2(1)

连续小波变换是在连续缩放因子和平移因子下的小波变换。 在实际应用中, 连续小波变换时基于高通滤波和低通滤波器算法产生低频组分的近似系数和代表高频组分的细节系数。 每个分解层次都产生近似系数和细节系数, 原始信号可由某层次的近似系数和该层次之前所有层次的细节系数进行重构。 三维小波分解比二维小波分解过程复杂, 但是可以避免选取特定激发波长下构造二维荧光光谱的过程, 对多组分体系的整体荧光信息进行分析。 采取高斯小波是因为其从形状上更加接近于单体荧光峰, 从而保证近似系数与荧光峰强度相关。

图1 某白酒的1~4层高斯小波分解的近似系数Fig.1 Approximation coefficients of 1st~4th level Gaussian wavelet decomposition for a wine

对某白酒样品的三维荧光光谱进行高斯小波分解后, 可以得到系数矩阵。 图1分别表示了对白酒原始三维荧光光谱进行1~4层分解的近似系数。 如图1所示, 分解的层数越小, 近似系数能保留更多的原始信号, 但降噪效果较差; 而层数越大, 曲面也越平滑, 但损失的细节也越多。 为了保留原始信号的较多信息, 且消除一定的噪声, 在进行多次试验后, 选择对原始信号进行4层分解, 并获取分解后的第4层近似系数。

1.4.2 因子分析

因子分析是从数据中提炼潜在因子的过程, 其实质是用潜在的但不能观察的随机变量去描述它们之间的协方差关系。 多组分体系三维荧光光谱的近似系数包含其单体荧光峰信息, 且单体信息不易观察时, 可以用因子分析提炼出多组分体系的相似单体与特殊单体信息。 对于p个多组分体系样品的小波系数集H={h1, h2, …, hp}, 可以构建正交因子模型如式(2)

H=μi+LijFi+εi(2)

其中, μ i为变量i的均值, ε i为第i个特殊因子, Fi为第i个公共因子, Lij为第i个变量在第j个因子上的载荷系数。 对多个多组分体系样品进行因子分析, 公共因子更多的代表它们的共性, 而特殊因子更多的代表它们的特异性。 事实上, 公共因子和特殊因子之间并没有完全的界定。 理论上, 对于p维随机变量一定可以建立p个因子的因子模型。 将这p个因子之间按照其贡献率进行大小排序, 排在前面的多个因子称为公共因子。 贡献率表示这个因子对信息的反映程度, 选取累计贡献率超过一定比率(通常为85%)的因子作为公共因子, 而其他部分合称为特殊因子。 公共因子和特殊因子之间可以互相转化, 使用因子模型对多维随机变量进行分析时, 通常希望能对公共信息部分进行较好的提炼, 因此往往重视公共因子的研究, 而较少考虑特殊因子。

在实验中, 如果对于一个p维向量, 理论上可以提炼出p个因子, 按照其贡献率大小进行排列。 排在前列的因子相较后面的因子更多的反映其相同的部分, 排在后列的部分更多的反映每个样品特殊的部分, 特别是排在尾端的因子可能反映的是信号的噪声。 因此, 使用三维荧光光谱来分析多组分体系的样品时, 对于差别较大的样品, 可以仅选用其贡献较大的因子进行比较, 而对于差别较小的样品, 则应该从样品的特殊性出发, 适当选取其贡献较小的因子进行分析。

2 结果与讨论
2.1 白酒香型的分类

选取4个香型, 来自10个品牌的10个白酒样品进行香型分类, 分别为浓香A、 浓香B、 浓香C、 浓香D、 清香A、 清香B、 芝麻香A、 芝麻香B、 豉香A、 豉香B。 分类方法采用k-均值聚类分析(k=4)。 将样品的三维荧光光谱进行小波分解后, 选取第四层近似系数进行因子分析。 表1列出10个因子的贡献率, 可以发现排在前列的两个因子的累计贡献率已达到85%以上。

表1 因子累计贡献率 Table 1 The cumulative of Variance explained

使用因子对每个样品的载荷系数进行聚类分析, 结果如表2所示。 如果仅使用累计贡献率达到85%以上的因子进行聚类分析, 结果并不理想, 准确率仅能达到百分之80%。 加入贡献率较小的因子后, 准确率可以达到90%。 继续添加贡献率较小的因子后, 准确率会下降。 这是因为, 因子贡献率越大的因子越能代表所有样品的共有部分, 而贡献率越小的因子更能代表各个样品的特征。 如果仅仅考虑样品的公共部分, 无法对这些样品进行区别。 适当加入其特殊部分的因子, 才能够对这些样品进行区别。 而贡献率最小的因子代表的是单个样品的最特殊部分, 有时只是各个信号的噪声或者仅存在某个样品中, 无法用于比较。 使用其系数对白酒进行分类, 反而会降低分类的准确率。 实验结果表明选取4~6个因子进行白酒香型的分类较为合适。

表2 对白酒进行香型分类时使用因子的个数和正确率 Table 2 The correctness of classification on flavors of wine with the number of used factors
2.2 白酒年份与因子载荷系数的相关性

从上述实验可以得出, 比较差异性较小的样品时, 可以适当加入容易被忽视的贡献率较小的因子进行分析, 这些因子可能包含着样品的特殊性信息, 而贡献率最小因子表达样品的独特性, 有时可能仅代表噪声。 对于白酒年份的鉴定, 通常在同一品牌中进行, 样品差异较小, 因此贡献率较大的因子多代表其相同的因素, 不能完全反映其年份的差别。 相反。 贡献率较小的因子可能包含着年份的关键信息。 可以考虑使用它们来估计白酒的年份。

为了研究因子贡献率与年份的相关性, 使用三个品牌年份酒的三维荧光光谱的小波近似系数建立因子模型。 每个品牌选取12个样品, 通过因子模型, 每组样品可以得到12个因子。 由于同一品牌的白酒之间相似性较高, 通常第一个因子的贡献率已经达到85%以上, 可以定义为公共因子。 但年份的信息是一种较为特殊的信息, 因此贡献率较小的因子可能能够反映年份信息。 图2显示的是白酒样品年份与因子贡献率的相关系数的绝对值。 可以看出, 因子与年份相关, 贡献率排在前面的因子载荷系数和年份有很大的相关性, 但贡献率最大的因子往往和年份的相关系数并不最大, 相关性通常从第六个因子开始减弱。 同时, 贡献率排在后面的因子的载荷系数和年份的相关性不大。 这些因子可能代表了每个样品的独特性, 这些独特性往往是针对一两个样品, 不能很好地反映其年份。 结果显示, 分析白酒的年份, 不能仅仅考虑其公共因子, 也应该考虑其他因子的贡献。

图2 3个品牌白酒的因子载荷系数与年份的相关系数Fig.2 The correlation between factor loading and year for wines on 3 brands

2.3 白酒年份预测

为了对白酒年份做出预测, 对于同一个品牌的白酒样品, 将样品平均分为两小组, 每组包含六个样品。 一组作为检验集年份已知(分别为1984, 1994, 1999, 2004, 2009, 2012年), 另一组作为预测集年份未知(实际年份为1989, 1996, 2002, 2006, 2011, 2013年)。 使用高斯小波分解得到三维荧光谱的第四层近似系数, 并使用这些系数建立因子模型。 考察贡献率排在前面的六个因子对年份进行预测。 通过因子分析, 三组白酒样品的前两个因子的贡献率均超过95%, 也就是说, 前两个因子已经蕴含了三维荧光光谱的95%的信息, 可以作为公共因子。 由于白酒的年份信息是一种特殊信息, 因此对白酒年份信息的提炼应该关注公共因子之外的因子。 但是如果选取贡献率非常小的因子, 它们往往代表了一部分噪声, 也会对相似样品的区别产生影响。

由图2得知, 前六位因子的载荷系数与年份酒样品的年份关系较大。 因此, 对于三组样品, 选取贡献率排在前六位的因子对白酒建立年份预测模型。 使用年份已知六个样品的因子载荷系数, 和年份之间建立线性关系, 然后使用年份未知样品的因子的载荷系数对它们进行年份预测, 并计算它们的误差。 表3显示的三个品牌的白酒在选取不同个数的因子进行年份预测时的平均误差绝对值。 可以看出, 当只选取贡献率排在前列的两个因子进行年份预测时, 误差较大, 加入1个贡献率较小的因子时, 误差减小, 通常选取4个因子时, 误差最小。 以此为模型, 对三个品牌白酒的年份酒进行预测, 其平均误差分别为1.5年, 0.9年和1.2年。 但继续增加因子个数, 误差则会增多。

表3 对白酒年份进行预测时使用因子的个数和误差 Table 3 The absolute error of predicted year using different number of factors
3 结 论

白酒是一种复杂的多组分体系, 其三维荧光光谱能够反映其内部荧光物质的信息。 使用高斯连续小波包对三维荧光光谱进行分解时, 不需要选取特定激发波长, 可以更为全面的考察样品信息。 使用小波分解后的第四层近似系数构建正交因子模型, 得到贡献率不同的多个因子。 根据实际情况, 选取合适的因子对样品进行鉴别。 对白酒香型进行分类时, 加入贡献率较小的因子可以将正确率提高至90%。 对白酒年份的比较通常在相似样品间进行, 分析因子载荷系数与年份的相关性。 结果表明贡献率最高的因子与年份的相关性往往不是最强。 按照贡献率大小将因子进行排序, 排在前六位的因子都与年份较为相关。 通过选取不同贡献率的因子建立白酒模型, 其年份的平均误差可降低至0.9年。

The authors have declared that no competing interests exist.

参考文献
[1] FEI Wei(费威). Hournal of Beijing University of Technology(北京工业大学学报), 2014, 14(5): 13. [本文引用:1]
[2] CHENG Jin-song, LI Chun-yang(程劲松, 李春扬). Journal of Food Safety and Quality(食品安全质量检测学报), 2014, 5(7): 2248. [本文引用:1]
[3] HAO Jian-guo, REN Jing-jing(郝建国, 任晶婧). Liquor-Making Science and Technology(酿酒技术), 2011, 5: 106. [本文引用:1]
[4] LI Zhi-bin, LI Jing(李志斌, 李净). Liquor-Making Science and Technology(酿酒科技), 2013, 4: 65. [本文引用:1]
[5] Cheng Pinyan, Fan Wenlai, Xu Yan. Food Research International, 2013, 54(2): 1753. [本文引用:1]
[6] Liu Ming, Han Xiaoming, Tu Kang, et al. Food Control, 2012, 26(2): 564. [本文引用:1]
[7] ZHU Wei-hua, CHEN Guo-qing, ZHU Zhuo-wei, et al(朱卫华, 陈国庆, 朱焯炜, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(5): 1431. [本文引用:1]
[8] Pogorelov V, Doroshenko I, Uvdal P, et al. Molecular Physics, 2010, 108(17): 2165. [本文引用:1]
[9] MA Yan-hong, ZHANG Sheng-wan, LI Mei-ping, et al(马燕红, 张生万, 李美萍, ). Food Science(食品科学), 2012, (10): 184. [本文引用:1]
[10] Panseri S, Soncin S, Chiesa L M, et al. Food Chemistry, 2011, 127(2): 886. [本文引用:1]
[11] WENG Yang, ZHOU Long, MOU Yi, et al(翁杨, 周龙, 牟怿, ). China Brewing(中国酿造), 2012, 31(6): 178. [本文引用:1]
[12] Banskota A, Falkowski M J, Smith A M S, et al. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55(3): 1526. [本文引用:1]