基于荧光光谱—模拟退火法年份白酒中乙酸浓度预测研究
许蕾1, 朱卫华1,*, 姚红兵1,*, 陈国庆2, 乔华3, 朱峰4,5, 耿颖5, 唐春梅1, 何湘1
1.河海大学理学院, 江苏 南京 210098
2.江南大学理学院, 江苏 无锡 214122
3.山西医科大学基础学院化学教研室, 山西 太原 030051
4.中交建机场勘测设计研究院, 广东 广州 510000
5.中交第四航务工程勘察设计院有限公司, 广东 广州 510000
*通讯作者 e-mail: weihua_zhu@126.com; 13705283569@126.com

作者简介: 许 蕾, 女, 2001年生, 河海大学理学院本科生 e-mail: hhu_xulei@163.com

摘要

近年来年份白酒市场中行业规范有所缺失, 因此年份白酒的研究具有深远意义和市场价值。 白酒中单体物质的浓度会随着白酒的年份改变, 检测白酒中单体浓度可用来鉴定白酒质量及其年份。 基于国内某品牌年份原桨白酒的三维荧光光谱, 对其中乙酸浓度进行了建模研究。 对原始光谱进行了小波分解和求导预处理。 研究发现小波分解第一层和第二层呈噪声特征, 浓度信息主要分布在第三层和第四层信号中。 不同激发波长的荧光发射光谱强度分布不同, 如何选择合适的激发波长目前还没有一个统一的方法。 根据小波分解信号引入有效信号强度概念并获得了合适的建模激发波长(200 nm); 导数光谱的细节特征比原始光谱丰富, 光谱求导可以提高光谱的分辨率。 研究了乙酸浓度与荧光光谱的相关性, 原始荧光光谱与乙酸浓度之间相关性较小, 小波分解光谱和导数光谱与浓度的相关性达0.8以上, 且呈现出更多离散化的相关性特征峰。 因此, 小波分解光谱和导数光谱中包含更多乙酸浓度信息且分布比原始光谱更广。 基于荧光光谱和模拟退火法研究了乙酸浓度偏最小二乘法(PLS)多元回归模型。 研究发现原始光谱的乙酸浓度预测集的均方根误差高达70.03 mg·L-1, 模型效果较差; 小波分解光谱和导数光谱由于光谱之间多重相关性降低且分辨率提高的特点, 模型预测效果更好, 其中二阶导数光谱的乙酸浓度预测集的均方根误差和相关系数分别为20.32 mg·L-1和0.999 8, 建模效果最好。 基于1 000次循环执行模拟退火算法建模得到的光谱信息密度曲线显示出二阶导数光谱比原始光谱包含更多的乙酸浓度信息。 以乙酸为例, 为年份白酒中物质浓度预测提供了一种简易的光学方法, 研究方法对研究多组分渐变体系浓度预测具有一定的参考价值。

关键词: 荧光光谱; 年份白酒; 乙酸; 模拟退火算法
中图分类号:O433.4 文献标志码:A
Prediction of Acetic Acid Concentration in Chinese Liquors Based on Fluorescence Spectrumand Simulated Annealing Algorithm
XU Lei1, ZHU Wei-hua1,*, YAO Hong-bing1,*, CHEN Guo-qing2, QIAO Hua3, ZHU Feng4,5, GENG Ying5, TANG Chun-mei1, HE Xiang1
1. College of Science, Hohai University, Nanjing 210098, China
2. School of Science, Jiangnan University, Wuxi 214122, China
3. Department of Chemistry, Basic College of Shanxi Medical University, Taiyuan 030051, China
4. CCCC Airport Investigation and Design Institute Co., Ltd., Guangzhou 510000, China
5. CCCC-FHDI Engineering Co., Ltd., Guangzhou 510000, China
*Corresponding authors
Abstract

In recent years, the industry of vintage liquor market is not standardized. It is of deep significance and market value to study year liquor. The concentration of monomer in liquor will change with liquor age, so the detection of monomer concentration in liquor can be used to identify liquor quality and age. In this paper, based on the three-dimensional fluorescence spectrum of a certain domestic puree liquor brand, the concentration prediction model of acetic acid is studied. The main contents and innovations are as follows: Firstly, wavelet decomposition and derivative preprocessing are performed on the original spectrum. It is found that the first layer and the second layer of the wavelet mainly present the characteristics of noise, the concentration information is mainly distributed in the third and fourth layer signals. The intensity distribution of fluorescence emission spectra with different excitation wavelengths is different. At present, there is no unified method to select the appropriate excitation wavelength. According to wavelet decomposition signal, this article introduced effective signal strength and obtained the proper modeling excitation wavelength (200 nm). The derivative spectrum has more detailed features than the original spectrum, which can improve the spectral resolution. Secondly, the correlation between acetic acid concentration and fluorescence spectrum was studied. In general, the correlation between the original fluorescence spectrum and the concentration of acetic acid is not high. The correlation between the wavelet decomposition spectrum and derivative spectrum and the concentration is more than 0.8 and shows more discrete correlation peaks. Therefore, the wavelet decomposition spectrum and derivative spectrum contain more information about the acetic acid concentration, which has a wider distribution than the original spectrum's. Finally, the partial least squares (PLS) multiple regression model of acetic acid concentration was studied based on fluorescence spectra and simulated annealing. The results show that the root means square error of the prediction set of acetic acid concentration in the original spectrum is as high as 70.03 mg·L-1, so its model's effect is poor. Wavelet decomposition spectrum and derivative spectrum have better prediction effect because the multiple correlations between the spectra is reduced, and the resolution is improved. The second derivative spectral modeling is the best. The root mean square error of the prediction set is 20.32 mg·L-1, and the correlation coefficient is 0.9998. The spectral information density curve based on 1000 simulated annealing algorithms shows that the second derivative spectrum contains more acetic acid concentration information than the original spectrum. This study provides a simple optical method for predicting the concentration of substances in the year liquor. The research methods have a certain reference value for studying the concentration prediction of multi-component gradual change system.

Keyword: Fluorescence spectrum; Year liquor; Acetic acid; Simulated annealing algorithm
引言

由于储存年份的差别, 白酒的质量会有所不同, 一般具有一定窖藏年限的白酒的口感会比普通白酒醇厚不少。 但是年份白酒制造的行业规范有所缺失, 许多商家利用勾兑劣质酒非法敛财, 使得市场上年份酒真假难辨, 因此, 年份白酒成分的研究意义深远。 白酒的成分较为复杂, 其中水和乙醇的含量大约为0.98, 而剩下含量小于0.03的微量物质对白酒品质的影响也不容小觑[1, 2], 如在白酒酿造过程中产生的少量乙酸对白酒的品质有一定的影响[3, 4]。 一般白酒储藏年份和白酒风味密切相关。 白酒中单体物质的浓度也会随着白酒的年份改变, 因此检测白酒中单体浓度可用来鉴定白酒质量及其年份。

化学分析方法和色谱分析方法是常见的酒类检测方法, 例如赵晨婕等利用液液萃取-气相色谱法测定了发酵液中己酸含量[5], 曹荣升等探讨了液-液萃取法检测白酒中塑化剂破乳化方法[6]。 传统化学分析方法及部分色谱分析方法需要借助仪器分解鉴定样品中的成分, 或者使用试剂鉴定组分, 操作繁琐, 对样品需求量过高, 且会损伤样品, 检测时间长。

分子荧光作为一种灵敏度高、 检测速度快且比较成熟的光谱技术已经得到了广泛的应用[7]。 研究表明, 不同品种、 同一品种不同年份的白酒在紫外光激发下能够产生不同特征的三维荧光光谱。 基于光谱与成分浓度的相关性可以构建年份白酒检测技术。 白酒内荧光物质种类丰富, 分子荧光光谱线宽大, 多种物质的荧光会出现交叉, 使得光谱分辨率不高。 必须使用一定的处理手段降低光谱信息的叠加及多重相关性才能建立高精度预测模型。 已有研究表明光谱求导可以提高光谱的分辨率[8], 年份白酒荧光光谱具有严重相关性, 求导和小波分解能降低光谱不同变量间的相关性[9]。 由于偏最小二乘法具有消除自变量之间的相关性等特点, 在光谱分析等领域获得了广泛的应用。 本工作研究了乙酸浓度与荧光光谱的相关性, 探索了乙酸浓度偏最小二乘法多元回归模型以及光谱中乙酸浓度信息分布。

1 实验部分
1.1 仪器

Edinburgh FLS920P(英国)稳态-瞬态荧光光谱仪用来测量白酒荧光光谱。 激发波长范围200~600 nm, 步长5 nm。 发射波长范围200~600 nm, 步长1 nm。 日本津岛GC-2010气相色谱仪用来测定不同年份白酒中乙酸浓度。

1.2 样品

实验样品为20个国内某品牌原桨年份白酒, 其中15个为训练样本, 5个为预测样本。

2 结果与讨论
2.1 白酒荧光光谱

图1是10年期白酒的三维荧光光谱, 其他年份白酒的三维荧光光谱总体上较为相似。 实验发现激发波长不同时, 二维荧光光谱明显不同; 激发波长一定时, 二维荧光光谱随年份的不同而有所不同。 已知白酒中很多微量成分随年份的变化而变化, 因此, 三维荧光光谱与白酒中微量成分浓度之间存在一定的相关性。

图1 10年期白酒三维荧光光谱Fig.1 3D fluorescence spectrum of ten-year liquor

2.2 光谱分解与求导

虽然荧光光谱数据可以反映样品本身信息, 但是如样品的背景、 噪声、 杂散光和仪器的响应等一些与待测样品自身性质无关的物质也会对结果产生干扰, 将最终影响模型的建立和预测精度。 需要运用一些如求导和小波变换等预处理方法降低与光谱数据不相关信息如噪音等物理因素带来的影响。

图2(a, b)是某一样本的荧光光谱四层小波分解图。 由图可知, 细节信号中第一层和第二层信号的噪声特征明显, 所以浓度信号主要分布在第三层和第四层中。

图2 小波分解信号
(a): 近似信号; (b): 细节信号
Fig.2 Signals of wavelet decomposition
(a): Approximate signal; (b): Detail signal

图3(a, b)分别为某样品白酒原始光谱的一阶与二阶导数光谱, 很明显导数光谱的细节特征更丰富。 已知求导后数据的测量误差也会被放大, 为了降低这种放大效应, 本文只对原始光谱的一阶、 二阶导数进行讨论。

图3 年份白酒导数光谱(激发波长200 nm)
(a): 一阶导数光谱; (b): 二阶导数光谱
Fig.3 Derivative spectrum of vintage liquor (excitation wavelength: 200 nm)
(a): First derivative spectrum; (b): Second derivative spectrum

2.3 有效信号强度

小波分解得到的四层信号中, 浓度信息主要存在于高频信号中, 而前两层信号主要呈现噪声的特征, 所以用第三和第四层高频信号之和除以总强度来表示有效信号, 定义有效信号强度为[9]

SI=20lg(I3+4/I0)(1)

式(1)中, SI为有效信号强度, dB; I3+4为小波分解第三层和第四层细节信号强度之和, I0为总的光谱强度。

图4为某一年份白酒在激发波长分别为200, 320和540 nm下荧光光谱的有效信号强度随发射波长变化的曲线。 从图4可以看出, 在激发波长为200 nm时有效信号强度最好、 最稳定, 浮动在-30~-70 dB范围。 当激发波长增加至320 nm时, 有效信号强度随发射波长变化呈现较大的波动, 在发射波长300~450 nm之间, 有效信号强度由-20 dB减少到了-100 dB, 在580 nm处又剧增至-20 dB。 当激发波长为540 nm时, 在发射波长300~350 nm范围内, 有效信号强度低于激发波长为200和320 nm的情况; 在发射波长380~500 nm范围内, 有效信号强度高于激发波长为320 nm时的情况, 但略低于激发波长为200 nm的情况; 在发射波长500~550 nm范围内, 有效信号强度远高于激发波长是320 nm的情况, 略高于200 nm的情况。 在550~600 nm范围内, 有效信号强度低于激发波长为200 nm时的情况, 高于320 nm时的情况, 且波动极大。 综上分析, 激发波长为200 nm时, 在较大发射波长范围内有效信号强度均较高, 因此, 选择激发波长为200 nm的光谱进行建模。

图4 有效信号强度Fig.4 Diagram of effective signal intensity

2.4 乙酸浓度与光谱的相关性

荧光光谱是分子在紫外光激发下产生电子能级光跃迁形成的光谱。 白酒样品经单色光照射后形成的光谱中分布了关于白酒中各种物质的信息, 但是在不同的波段, 特定物质的浓度和其荧光强度的相关性会不同。 相关系数反映了浓度信息在不同波段上的分布特征, 荧光强度和浓度之间的相关性可以用如式(2)表示

RY/i=absn=1N(xn/i-x̅i)(yn-y̅)n=1N(xn/i-x̅i)2n=1N(yn-y̅)2(2)

其中, abs取绝对值。

式(2)中, i是波长, xn/i是荧光强度, yn是乙酸的浓度, RY/ixn/iyn的相关系数, N是样本大小。 分析乙酸浓度与荧光强度的相关性, 有助于了解浓度信息的分布, 为建立预测模型提供参考。

图5为原始三维荧光光谱与乙酸浓度的相关性图, 总体而言, 两者的相关性较小。 从图5还可发现, 在年份白酒三维光谱荧光峰的位置(激发波长300 nm, 发射波长320 nm)处, 原始光谱荧光强度与浓度相关系数低于0.2。 表明该年份白酒三维荧光光谱荧光峰处乙酸的浓度信息包含较少, 浓度信息分布的波长范围较广, 需要利用多元回归方法才能获取高精度的预测模型。

图5 乙酸浓度与原始三维光谱的相关性Fig.5 The correlation between concentration and original 3D spectra

图6(a, b)分别为一阶导数与二阶导数光谱与乙酸浓度的相关性, 大部分波长处的相关性在0.8以上。 与原始光谱(图5)相比, 一阶导数光谱和二阶导数光谱中浓度信息分布更加丰富且离散性好。

图6 导数光谱与乙酸浓度相关性
(a): 一阶导数光谱; (b): 二阶导数光谱
Fig.6 The correlation between derivative spectra and concentration
(a): First order derivative spectra; (b): Two order derivative spectra

图7(a, b)分别给出了第三层和第四层小波分解高频信号与乙酸浓度的相关程度。 与导数光谱一样, 小波分解光谱也包含有更多的乙酸浓度信息, 且第三层包含更多的乙酸浓度信息。

图7 小波分解光谱与乙酸浓度相关性图
(a): 第三层细节信号; (b): 第四层细节信号
Fig.7 The correlation between wavelet decomposition spectra and concentration
(a): Detail signal in the 3rd layer; (b): Detail signal In the 4th layer

2.5 建模与分析

采用模拟退火算法选择波长, 用偏最小二乘法(PLS)构建多元预测模型。 PLS理论参考文献[11, 12], 模拟退火算法是一种寻找全局最优的方法, 在退火过程中每个种群随着温度控制的概率进行进化和被选择[10]。 在300~600 nm区间的300个发射波长中随机选择20个波长的组合作为初状态。 模拟退火算法的参数设置为: 初始温度和终止温度分别为120和10 ℃, 退火比例为0.9%, 种群数量为20, 变异个数为2。

表1给出了模拟退火法对原始光谱、 导数光谱和小波光谱循环执行1 000次模拟退火算法获得的最佳建模的结果。 由表1可知, 原始光谱建模的预测集均方根误差RMSEV高达70.03 mg·L-1, 建模效果较差, 这是因为原始光谱中存在较高的噪声以及变量间存在高相关性。 第四层小波分解光谱建模效果较好, 其预测集的RMSEV和Rv分别为25.04 mg·L-1和0.997 5。 二阶导数光谱预测集的RMSEV和Rv分别为20.32 mg·L-1和0.999 8, 模型效果最好。 图8为200 nm波长光激发下二阶导数光谱建模散点图, 散点处数字为白酒年份, 乙酸浓度信息较分散分布在300~600 nm发射波段中。 预测集均方根误差最小的波长组合确定为最优建模波段, 二阶导数光谱最佳建模波段为322, 331, 345, 354, 367, 373, 382, 420, 429, 433, 443, 475, 519, 522, 528, 529, 545, 553, 558和594 nm。

表1 模拟退火法建模结果 Table 1 Modeling result of simulated annealing method

图8 二阶导数光谱建模结果散点图Fig.8 Scatter diagram of second derivative spectral modeling results

为了比较乙酸浓度在光谱中信息分布, 图9给出了1 000次退火算法建模获得原始光谱和二阶导数光谱信息密度分布曲线, 其他光谱信息密度分布曲线变化大致相同。 由图9可知, 次数N(横坐标值)越高, 信息密度越小, 这表明浓度信息主要存在于少量的波长内。 从图9可以发现原始光谱的低次信息密度较高, 如40次信息密度为0.72, 而二阶导数光谱40次信息密度为0.67; 高次信息密度则是二阶导数光谱更高, 如二阶导数光谱的100次信息密度为0.16, 原始光谱的100次信息密度为0.12, 二阶导数光谱200次信息密度为0.026, 而原始光谱200次信息密度为0.013。 因此, 二阶导数光谱比原始光谱包含有更丰富的乙酸浓度信息。

图9 光谱信息密度分布曲线Fig.9 The curve of information density distribution of spectrum

3 结论

(1)小波分解第一层和第二层高频信号主要呈现噪声的特征, 浓度信息主要分布在三、 四层高频信号中。 不同激发波长的荧光发射光谱强度分布不同, 有效信号强度概念可以获得比较合适的建模激发波长。

(2)年份白酒原始荧光光谱与乙酸浓度之间的相关性较小, 小波分解光谱和导数光谱与乙酸浓度有较高的相关性且浓度信息分布范围广且离散性更好。

(3)基于模拟退火算法—偏最小二乘法研究了年份白酒中乙酸浓度的预测模型。 原始光谱建模效果较差; 小波分解光谱和导数光谱建模效果比较理想, 其中小波第四层光谱模型的乙酸浓度预测误差为25.04 mg·L-1; 二阶导数光谱建模效果最好, 预测集均方根误差为20.32 mg·L-1。 光谱信息密度曲线表明二阶导数光谱比原始光谱包含更多的乙酸浓度信息。

参考文献
[1] XIONG Yan-fei, MA Zhuo, PENG Yuan-song, et al(熊燕飞, 马卓, 彭远松, ). China Brewing(中国酿造), 2019, 38(11): 1. [本文引用:1]
[2] HUANG Wei, CHENG Ping-yan, ZHANG Jian, et al(黄魏, 程平言, 张健, ). Liquor-Making Science & Technology(酿酒科技), 2020, (4): 85. [本文引用:1]
[3] SONG Xin-shu, CHEN Guo-qing, ZHU Zhuo-wei, et al(宋鑫澍, 陈国庆, 朱焯炜, ). Laser Technology(激光技术), 2018, 42(4): 531. [本文引用:1]
[4] HAI Chao(海超). Liquor Making(酿酒), 2020, 47(3): 14. [本文引用:1]
[5] ZHAO Chen-jie, PAN Ming, LIU Nian, et al(赵晨婕, 潘明, 刘念, ). Food Research and Development(食品研究与开发), 2020, 41(2): 160. [本文引用:1]
[6] CAO Rong-sheng, WANG Shao-lei, WANG Ling-hong, et al(曹荣升, 王少磊, 王灵红, ). Liquor-Making Science & Technology(酿酒科技), 2019, (11): 79. [本文引用:1]
[7] QIU Xiu-zhen, PENG Cui-hong, WANG Shao-ling, et al(丘秀珍, 彭翠红, 王少玲, ). Journal of Instrumental Analysis(分析测试学报), 2015, 34(12): 1403. [本文引用:1]
[8] HE Xin-long, WANG Ji-fen(何欣龙, 王继芬). Laser Technology(激光技术), 2020, 44(3): 333. [本文引用:1]
[9] ZHU Wei-hua, CHEN Guo-qing, ZHU Zhuo-wei, et al(朱卫华, 陈国庆, 朱焯炜, ). Measurement, 2017, 97: 156. [本文引用:2]
[10] Levent Aydin, Seçil Artem H, Selda Oterkus. Designing Engineering Structures using Stochastic Optimization Methods. Boca Raton: CRC Press, 2020. 10. [本文引用:1]
[11] Krakowska B, Custers D, Deconinck E, et al. Analyst, 2016, 141(3): 1060. [本文引用:1]
[12] Olivieri A C. A Practical Approach. Cham: Springer International Publishing, 2018. 103. [本文引用:1]