中红外光谱技术在浓香型白酒原酒关键指标分析中的应用
周军1,2, 杨洋2, 姚瑶2, 李子文3, 王健3, 侯长军1,*
1.重庆大学生物工程学院, 重庆 400044
2.泸州老窖股份有限公司, 四川 泸州 646000
3.中国食品发酵工业研究院有限公司, 北京 100015
*通讯作者 e-mail: houcj@cqu.edu.cn

作者简介: 周 军, 1971年生, 重庆大学生物工程学院高级工程师 e-mail: zhouj@lzlj.com

摘要

基于中红外光谱分析技术对浓香型白酒原酒中总酸及己酸乙酯的关键指标含量进行检测分析, 采用标准正态变换(SNV)方法对数据进行预处理, 结合组合间隔偏最小二乘波段选择法(SiPLS)及遗传算法(GA)对各指标的特征吸收波长进行筛选, 最终采用偏最小二乘法(PLS)建立分析模型, 通过决定系数 R2、 预测标准偏差(RMSEP)、 性能和标准差之比(RPD)以及实际生产的独立测试样品对所建模型效果进行评价, 探索中红外光谱分析技术结合波段筛选用于白酒原酒关键指标的定量分析效果。 结果表明: 采用中红外全光谱397~4 000 cm-1波段所建模型效果并不理想, 总酸及己酸乙酯模型的RMSEP值分别达到0.156及0.981, R2仅有0.666及0.453, RPD值为1.731及1.213, 代表模型整体的相关拟合效果并不理想, 预测误差较大, 无法应用于实际生产。 而采用GA在SiPLS波段优化基础上进一步进行特征变量筛选后, 所建模型效果有了非常显著的提升, 总酸及己酸乙酯两项指标的GA-SiPLS模型均体现出了较高的预测精度, R2分别提升到了0.993及0.997, RMSEP值分别降低到0.023及0.077, RPD值提升至11.739及15.455, 变量数也分别从935个降低到55及40个, 在保留关键信息变量, 体现原酒中总酸及己酸乙酯指标特征吸收的同时, 有效减轻了模型的复杂程度, 同时提高了模型运算速度及预测效果, 充分体现了波段筛选对于中红外光谱分析技术应用于白酒原酒关键指标定量分析的重要性, 也说明了中红外光谱技术结合波段筛选在白酒品质控制及原酒成分分析中的巨大潜力。 考虑到白酒成分复杂, 大部分关键品质指标含量相对较低, 而中红外吸收区域的基频吸收强度具有比倍频、 合频吸收强数十倍的特点, 中红外光谱可能比其余光谱技术更适用于白酒液体样品的快速分析, 为白酒酿造过程的品质控制提供技术借鉴, 同时为酒类品质的快速分析方法开拓提供新的思路。

关键词: 白酒; 中红外光谱分析技术; 定量分析; 波段筛选
中图分类号:O657.3 文献标志码:A
Application of Mid-Infrared Spectroscopy in the Analysis of Key Indexes of Strong Flavour Chinese Spirits Base Liquor
ZHOU Jun1,2, YANG Yang2, YAO Yao2, LI Zi-wen3, WANG Jian3, HOU Chang-jun1,*
1. Bioengineering College of Chongqing University, Chongqing 400044, China
2. Luzhoulaojiao Co., Ltd., Luzhou 646000, China
3. China National Research Institute of Food & Fermentation Industries Co., Ltd., Beijing 100015, China
*Corresponding author
Abstract

Quantitative analysis of total acid and ethyl caproate content of key indicators in strong flavour Chinese spirits base liquor(SACSL)based on mid-infrared spectroscopy technology, data preprocessing using standard normal transformation (SNV) method, combined with combined interval partial least squares band selection method (SiPLS) and genetic algorithm (GA) to screen the characteristic absorption wavelength of each index, and finally use partial least squares (PLS) to establish an analysis model, through the determination coefficient R2, prediction standard deviation (RMSEP), performance and standard deviation ratio (RPD) and the actual production of independent test samples to evaluate the effect of the built model, and explore the effect of mid-infrared spectroscopy analysis technology combined with band screening for quantitative analysis of key indicators of SACSL. The results show that the effect of the model built using the mid-infrared full spectrum 397~4 000 cm-1 band is not ideal. The RMSEP values of the total acid and ethyl caproate models reach 0.156 and 0.981, respectively, the R2 is only 0.666 and 0.453, and the RPD value is 1.731 and 1.213, the overall fitting effect of the representative model is not ideal, the prediction error is large, and it cannot be applied to actual production. After the further screening of characteristic variables based on the optimization of the SiPLS band using GA, the effect of the built model has been significantly improved. The GA-BiPLS model with two indicators of total acid and ethyl caproate showed higher prediction accuracy, R2 is increased to 0.993 and 0.997, RMSEP value is reduced to 0.023 and 0.077, RPD value is increased to 11.739 and 15.455, and the number of variables is also reduced from 935 to 55 and 40, respectively, while retaining key information variables to reflect the base wine. While the index characteristics of total acid and ethyl caproate are absorbed, it effectively reduces the complexity of the model, and at the same time improves the calculation speed and prediction effect of the model, which fully reflects the application of band screening to the application of mid-infrared spectrum analysis technology to the quantification of key indicators of SACSL. The importance of analysis also illustrates the great potential of mid-infrared spectroscopy technology combined with chemometric methods in the quality analysis of liquor. Considering the complex composition of liquor, most of the key quality indicators are relatively low, and the fundamental frequency absorption intensity of the mid-infrared absorption region is dozens of times stronger than the frequency doubled and combined frequency absorption. Mid-infrared spectroscopy may be more suitable than other spectroscopy techniques. The rapid analysis of liquor liquid samplesprovide technical reference for the quality control of the liquor brewing process, and provide new ideas for the rapid analysis of liquor quality.

Keyword: Chinese spirits; Mid-infrared spectroscopy analysis technology; Quantitative analysis; Band selection
引言

中国白酒具有悠久的历史, 在我国经济发展建设及食品轻工业行业中占据着重要的地位。 而白酒原酒是发酵后的酒醅经过蒸馏工艺后得到的半成品酒, 原酒的品质直接影响成品酒的质量, 因此虽然不同酒厂进行成品酒勾兑的方式不同, 但原酒关键组分的品质把控是必不可少的[1]。 总酸及己酸乙酯作为原酒的关键品质指标, 在酒体呈香及风味协调方面发挥着重要的作用, 尤其是己酸乙酯, 作为浓香型白酒的主体香味物质, 含量是否合理、 谐调是构成优质浓香型白酒质量的关键[2]。 目前传统国标对这两项指标所规定的方法分别是化学滴定法及色谱法, 存在着检测过程复杂费时、 消耗化学试剂等缺点, 且对操作人员的技术水平有一定要求, 每天需配备大量的专业技术人员耗费时间做重复性的分析工作, 无法满足白酒酿造过程中原酒快速分析的迫切需求。

中红外及近红外光谱作为能够实现快速分析的检测技术, 具有检测效率高、 分析便捷实用等优点[3]。 已被广泛应用于白酒原料、 半成品、 成品的品质定量分析及真伪、 年份等真实性特征鉴别应用中[4, 5, 6, 7]。 尤其是近红外光谱技术, 在酒醅的关键指标分析方面, 行业已基本实现了较为成熟的实际应用[8]。 然而, 由于液体白酒, 尤其是原酒中的呈香物质含量较低, 同时近红外也存在着光谱谱型并不突出, 解析难度大导致对于低含量指标的定量模型构建难度大、 预测误差偏高等问题[9], 使得近红外光谱在液体白酒中并无十分成熟的实际应用。 而中红外光谱分析技术多用于结构分析中, 在定量分析中的应用较少, 近年来, 也有极少的报道对中红外光谱技术在液体白酒成分分析方面进行了探索研究, 但均未对相关模型的构建进行深入的优化及阐述[9, 10], 当前研究中也并未对原酒中总酸及己酸乙酯的红外特征吸收位置有明确的结果。

本研究拟采用中红外光谱分析技术针对浓香型白酒原酒中的关键指标总酸及己酸乙酯含量进行快速分析研究, 结合遗传算法(genetic algorithms, GA)、 组合间隔偏最小二乘波段选择法(synergy interval PLS, SiPLS)对原酒红外光谱进行变量选取, 探究波段优化对原酒关键指标中红外建模分析的影响, 并结合偏最小二乘法构建快速分析模型, 为白酒原酒品质的快速分析提供一定参考依据。

1 实验部分
1.1 仪器及参数

使用FTB傅里叶变换红外分析仪(珀金埃尔默仪器有限公司)。 仪器光源为黑体空腔光源, 检测器为DTGS, 配有36 μ m直径透射样品室。 光谱范围为4 000~397 cm-1, 分辨率为8 cm-1, 扫描次数32; 利用配套软件Result Plus采集白酒样品的红外光谱。

1.2 材料

本研究构建模型所用及在实际生产中验证模型效果的浓香型白酒原酒样品分别为248和60个, 来自泸州老窖股份有限公司酿酒生产车间, 采用透射方式采集白酒原酒样品的红外光谱, 同时为校正样品间因散射现象对光谱引起的误差影响, 采用标准正态变换(SNV)方法对光谱数据进行预处理。 原酒样品总酸及己酸乙酯理化值根据GB/T10345— 2007《白酒分析方法》中所规定, 分别采用指示剂法及气相色谱法进行测量。

1.3 方法

1.3.1 样品集的划分

在剔除了2个异常样品的基础上, 通过二比一的分配原则对参与模型构建的246个原酒样品进行校正集和验证集分配。 同时为保证校正集集合的代表性, 研究采取Kennard-Stone(K-S)法根据不同样品间的马氏距离进行建模样品分配。 最终分别选择了校正集及验证集样本164和82个。 校正集与验证集白酒原酒样品的总酸及己酸乙酯含量值统计如表1所示。

表1 校正集与验证集统计结果 Table 1 Statistical results of Calibration set and validation set

1.3.2 特征波长选取

实验采用遗传算法(genetic algorithms, GA)[11]进行原酒红外光谱总酸及己酸乙酯指标的特征吸收波长提取。

当应用遗传算法进行处理的样品量过多时, 可能会导致最终筛选的结果存在过拟合的风险。 因此先利用组合间隔偏最小二乘波段选择法(SiPLS)[12]对全光谱935个波长变量进行初步选择, 再结合GA优化建模变量点, 最终以此构建白酒原酒关键指标的定量分析模型。

1.3.3 数据处理与分析

GA及SiPLS算法采用MATLAB软件进行实现, SNV光谱预处理及偏最小二乘模型计算应用UnscramblerX10.3光谱分析软件(挪威CAMO公司)实现, 模型的精确度与稳定性通过决定系数R2、 预测标准偏差(root mean square error of prediction, RMSEP)及性能和标准差之比(ratio of performance to standard deviate, RPD)进行评价。 R2越接近1, RMSEP越接近0, 同时RPD越大, 表示模型效果越好[13]

2 结果与讨论
2.1 光谱波段优选

2.1.1 组合间隔偏最小二乘波段选择法(SiPLS)

将原酒红外全谱区波段共935个变量点等距均分成k个子波段(k=15~25, 间距为2), 在不同子波段划分情况下, 分别就不同组合数(2~4)进行SiPLS运算。

经过数据处理分析, 总酸和己酸乙酯指标当k为17, 组合数分别为4和2时, SiPLS所得交互验证均方差(RMSECV)值最小, 分别为0.030 81及0.105 6, 所对应的变量区间分别为1 246~1 454, 1 882~2 090, 2 519~2 727及3 792~4 000 cm-1和1 246~1 454, 2 519~2 727 cm-1, 分别挑选出220和110个变量点, 占全谱区的23.5%和11.8%。

2.1.2 遗传算法(GA)

采用GA分别对经SiPLS筛选出的原酒总酸及己酸乙酯指标的特征变量进一步优化。 图1(a, b)中分别展示了在GA运算过程中总酸及己酸乙酯指标的各变量进行迭代的频次, 依据频次从高到低的方式逐步筛选波长变量参与模型构建, 通过RMSECV值进行比较, 当其最小时所用变量为最佳的变量波长点。 总酸及己酸乙酯两个指标分别选择了被选用5次和7次以上的变量点分别计55和40个, 占全谱区的5.9%和4.3%。

图1 各变量被选用的频次图
(a): 总酸; (b): 己酸乙酯
Fig.1 The frequency of each variable by chosen
(a): Total acid; (b): Ethyl caproate

2.2 偏最小二乘法(partial least squares, PLS)分析模型的建立与评价

在上述各波段筛选方法的优化基础上, 采用特征波长建立白酒原酒总酸及己酸乙酯含量指标的全光谱-PLS, SiPLS以及GA-SiPLS的定量分析模型, 并从整体上来对模型效果进行评价, 具体模型各指标效果如表2所示。

表2 白酒原酒两项指标的不同PLS模型及性能分析结果 Table 2 Different PLS model of two properties in base wine and the result of performance evaluation

表2可知, 白酒原酒总酸及己酸乙酯两项指标在采用中红外全光谱397~4 000 cm-1谱区波段建立校正模型时, 效果均不理想, RMSEP值分别达到0.156及0.981, 而R2仅有0.666及0.453, RPD值为1.731及1.213, 代表模型整体的相关拟合效果不理想, 预测误差较大, 不能应用于实际生产中原酒关键指标的快速分析检测。 而在经SiPLS及GA算法进行特征波段筛选后, 模型效果有了非常显著的改善, R2分别提升到了0.993及0.997, RMSEP值分别降低到0.023及0.077, RPD值提升至11.739及15.455, 以上数据均表明经波段筛选后, 原酒模型的预测效果有了非常显著的提升, 同时参与建模的波长点也分别从935个降低到55及40个, 既筛选出了研究对象指标的特征信息变量, 又有效降低了模型的繁复水平, 提高了模型运算速度及预测效果。

而相较于SiPLS模型, 采用GA在其基础上进一步筛选特征波点建立的模型效果更为优秀。 图2(a)和(b)中分别展示了对于总酸及己酸乙酯两项指标, GA-SiPLS方法优选的特征波长在白酒原酒中红外全光谱区的分布情况, 图中红色谱段为优选出的特征吸收波长, 与C— O和O— H等主要基团的基频振动吸收峰位置相对应, 如图2(a)中2 500~2 700 cm-1处由于羧酸羧基形成二聚体的氢键作用强, 而使OH伸缩振动形成的诸多弥散小吸收峰, 1 257及1 280 cm-1附近羧酸C— OH的伸缩振动吸收, 以及图2(b)中1 270~1 290 cm-1处酯类化合物中与羰基相连的C— O基团伸缩振动的基频吸收等[14], 均体现出了白酒原酒样品中总酸及己酸乙酯指标的特征吸收。

图2 GA-SiPLS选择的变量分布情况
(a): 总酸; (b): 己酸乙酯
Fig.2 The distribution diagram of variables selected by GA-SiPLS
(a): Total acid; (b): Ethyl caproate

2.3 PLS模型验证

采用配套设备获取实际生产中50个原酒样品的光谱通过模型进行预测, 并结合理化真值绘制模型对比图, 如图3(a, b)所示, 白酒原酒样品总酸及己酸乙酯指标的数据点紧密贴合在标准拟合线两端, 同时经成对t检验, 检测值与理化真值间无显著差异(p> 0.05)。 总酸及己酸乙酯模型验证数据R2分别为0.986及0.998, RMSEP分别为0.027及0.110, 代表红外检测结果较为精确。

图3 GA-SiPLS模型实测值与预测值的分布
(a): 总酸; (b): 己酸乙酯
Fig.3 Distribution of predicted and reference values in GA-SiPLS models
(a): Total acid; (b): Ethyl caproate

3 结论

基于中红外光谱分析技术对浓香型白酒原酒中的关键指标进行了定量分析, 得出以下结论:

两种波段筛选方法所建立的模型相较于全光谱所建模型表现出了明显的优势, 同时遗传算法在组合间隔偏最小二乘法变量筛选基础上进行的进一步波长优化, 在保留关键波长点, 体现原酒样品指标特征吸收的同时剔除了大量无用信息, 说明波长优化对于中红外光谱定量分析的重要性。

中红外光谱分析技术结合波段筛选方法所建立的原酒关键指标定量模型经独立验证均获得了较高的预测精度, 表明中红外光谱技术结合波段筛选在白酒品质控制及原酒成分分析中的巨大潜力中, 可能比其余光谱技术更适用于白酒液体样品的快速分析, 尤其是一些含量较低的关键指标, 为白酒酿造的品质控制提供技术借鉴, 同时为酒类品质的快速分析方法开发提供新的思路。

参考文献
[1] CHEN Fei, ZHANG Liang, HUO Dan-qun, et al(陈飞, 张良, 霍丹群, ). China Brewing(中国酿造), 2017, 36(10): 5. [本文引用:1]
[2] LI Jun-hui, LIU Ying-jie, SUI Li-na, et al(李俊辉, 刘英杰, 隋丽娜, ). China Brewing(中国酿造), 2019, 38(1): 1. [本文引用:1]
[3] Li Zongpeng, Wang Jian, Xiong Yating, et al. Vibrational Spectroscopy, 2016, 84: 24. [本文引用:1]
[4] MAI Shu-kui, YANG Yang, ZHAO Xiao-bo, et al(买书魁, 杨洋, 赵小波, ). Food Science and Technology(食品科技), 2019, 44(2): 301. [本文引用:1]
[5] LIU Jian-xue, YANG Guo-di, HAN Si-hai, et al(刘建学, 杨国迪, 韩四海, ). Food Science(食品科学), 2018, 39(2): 281. [本文引用:1]
[6] LIANG Jun-fa, WU Wen-lin, CHEN Dai-wei, et al(梁俊发, 吴文林, 陈代伟, ). Science and Technology of Food Industry(食品工业科技), 2016, 37(15): 309. [本文引用:1]
[7] WEI Ji-ping, WANG Jun-quan(魏纪平, 王俊全). Food Research and Development(食品研究与开发), 2017, 38(8): 146. [本文引用:1]
[8] DENG Bo, SHEN Cai-hong, DING Hai-long, et al(邓波, 沈才洪, 丁海龙, ). China Brewing(中国酿造), 2020, 39(9): 13. [本文引用:1]
[9] GE Xiang-yang, LI Xiao-huan, LIU Jun, et al(葛向阳, 李晓欢, 刘俊, ). Liquor Making(酿酒), 2018, 45(4): 100. [本文引用:2]
[10] LIU Shi-xue, WANG Xiu-ju, LI Jing, et al(刘石雪, 王秀菊, 李静, ). Liquor-Making Science & Technology(酿酒科技), 2020, (3): 41. [本文引用:1]
[11] Aouadni I, Rebai A. Annals of Operations Research, 2017, 256(1): 1. [本文引用:1]
[12] Zhou S, Yin Q, Lu L, et al. Infrared Physics & Technology, 2017, 80. [本文引用:1]
[13] Sheng Xiaohui, Li Zongpeng, Li Ziwen, et al. Spectroscopy Letters, 2020, 53(4): 1. [本文引用:1]
[14] WENG Shi-fu, XU Yi-zhuang(翁诗甫, 徐怡庄). Fourier Transform Infrared Spectroscopy Analysis(傅里叶变换红外光谱分析). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2016. 337. [本文引用:1]