反向传播神经网络结合紫外-近红外融合光谱对“互助”青稞酒的判别研究
赵玉霞1, 张明锦1,3,*, 王茹1, 张世芝2, 殷博1,3
1.青海师范大学化学化工学院, 青海 西宁 810016
2.青海民族大学化学化工学院, 青海 西宁 810016
3.青海省环境功能材料先进技术与应用重点实验室, 青海 西宁 810016
*通讯作者 e-mail: zhangmingjin@qhnu.edu.cn

作者简介: 赵玉霞, 1999年生,青海师范大学化学化工学院硕士研究生 e-mail: 2234261649@qq.com

摘要

“互助”青稞酒作为保护地理标志产品, 对其准确评价分类具有重要意义。 紫外光谱(UV)和近红外光谱(NIR)技术具备快速、 准确、 无损检测、 无需样品预处理等优势, 在食品等领域已广泛应用。 本研究采用UV、 NIR及紫外-近红外中级数据融合光谱(UV-NIR)结合反向传播神经网络(BPNN)法建立了快速、 无损、 高效的“互助”青稞酒判别分类模型。 由于光谱特征峰叠加干扰, 未经优化的光谱受到噪声和基线漂移等影响, 采用标准正态变量变换(SNV)、 Savitzky-Golay平滑(SG)、 一阶导数(1D)和二阶导数(2D)4种预处理方法对光谱进行去噪处理。 相对单一光谱, 融合光谱能够互补多元化学信息, 提高分类模型性能, 通过竞争自适应重加权采样(CARS)、 连续投影算法(SPA)、 主成分分析(PCA)、 变量投影重要性分析(VIP)和变量组合集群分析(VCPA)5种变量筛选方法选择特征变量, 达到优化模型性能及融合两种光谱有效信息。 选择最佳方法建立单一光谱和融合光谱的BPNN模型。 结果表明, UV光谱经SNV预处理以SPA选择30个特征变量建立的分类模型识别效果最好, 分类准确率为100%, MSE值、RP2、 R(Train)、 R(Validation)、 R(Test)和R(All)分别为0.018 0、 1、 0.928 3、 0.958 7、 0.913 0、 0.929 7; NIR和UV-NIR经SG预处理后以PCA分别选择84和106个特征变量建立的分类模型识别效果最好, NIR光谱分类准确率为100%, MSE值、RP2、 R(Train)、 R(Validation)、 R(Test)和R(All)分别为0、 1.000、 1.000、 1.000、 1.000、 1.000; UV-NIR光谱分类准确率为100%、 MSE值、RP2、 R(Train)、 R(Validation)、 R(Test)和R(All)分别为0.005 7、 1.000、 1.000、 0.987 1、 0.991 3、 0.996 4; 与单一光谱建模相比, 融合光谱可明显提高分类模型的预测能力和稳健性, 实现“互助”青稞酒的快速、 无损分析。

关键词: “互助”青稞酒; 紫外光谱; 近红外光谱; 光谱融合; 变量筛选; 反向传播神经网络(BPNN)模型
中图分类号:O657.3 文献标志码:A
Discriminative Study on Huzhu Qingke Liquor by Back Propagation Neural Network Combined With Ultraviolet-Near Infrared Fusion Spectroscopy
ZHAO Yu-xia1, ZHANG Ming-jin1,3,*, WANG Ru1, ZHANG Shi-zhi2, YIN Bo1,3
1. College of Chemistry and Chemical Engineering, Qinghai Normal University, Xining 810016, China
2. College of Chemistry and Chemical Engineering, Qinghai Minzu University, Xining 810016, China
3. Qinghai Key Laboratory of Advanced Technology and Application of Environmentally Functional Materials, Xining 810016, China
*Corresponding author
Abstract

Chinese Huzhu Qingke Liquor is a protected geographical indication product, and it is of great significance for its accurate evaluation and classification. Due to the advantages of ultraviolet (UV) and near-infrared (NIR) spectroscopy, such as fast, accurate, non-destructive detection and no sample pretreatment, are widely used in food and other fields. In this study, a fast, nondestructive, and efficient discriminative classification model for Huzhu Qingke Liquor was established based on UV, NIR, and UV-NIR intermediate data fusion spectroscopy (UV-NIR) combined with theback-propagation neural network (BPNN) method. Since the unoptimized spectra are affected by noise and baseline drift due to the superimposed interference of spectral eigenpeaks, the spectra are denoised using four preprocessing methods, namely, standard normal variable transform (SNV), Savitzky-Golay smoothing (SG), first-order derivative (1D) and second-order derivative (2D). Further, relative to a single spectrum, the fused spectrum can complement the diversified spectroscopic information and improve the performance of the classification model, so the feature variables are selected by five variable screening methods, namely, competitive adaptive reweighted sampling (CARS), successive projection algorithm (SPA), principal component analysis (PCA), variable projection importance analysis (VIP), and variable combinatorial clustering analysis (VCPA) to achieve the optimization of model performance and the purpose of fusing the effective information of two spectra. Finally, the best method for establishing the BPNN model for single and fused spectra was selected. The results show that the classification model established by selecting 30 feature variables by SPA after SNV preprocessing for UV spectra has the best recognition effect, with a classification accuracy of 100%. The MSE value,RP2, R(Train), R(Validation), R(Test) and R(All) were 0.018 0, 1, 0.928 3, 0.958 7, 0.913 0, and 0.929 7, respectively; PCA selected the NIR and UV-NIR after SG preprocessing with 84 and 106 The classification model built by feature variables had the best recognition effect, and the NIR spectral classification accuracy was 100%, with MSE value,RP2, R(Train), R(Validation), R(Test)and R(All)of 0, 1.000, 1.000, 1.000, 1.000 and 1.000. respectively, UV-NIR spectral classification accuracy was 100%, MSE,RP2, R(Train), R(Validation), R(Test), and R(All) were 0.005 7, 1.000, 1.000, 0.987 1, 0.991 3 and 0.996 4, respectively; the fusion spectra can significantly improve the predictive ability and robustness of the classification model compared with the single-spectrum modeling, thus realizing the rapid and non-destructive analysis of Huzhu Qingke Liquor.

Keyword: Chinese “Huzhu” Qingke Liquor; Ultraviolet spectroscopy; Near-infrared spectroscopy; Spectral fusion; Variable screening; BPNN modeling
引言

白酒是中国传统的本土蒸馏饮品, 通常由多种谷物制作而成, 包括高粱、 大米、 小麦和玉米等。 作为中国饮食的重要组成部分, 白酒有悠久历史, 与中国文化有密切关系[1], 在我国社会及食品行业发展中具有十分重要的作用[2]。 白酒酿造过程中, 发酵生香、 蒸馏增香, 可见不仅发酵过程, 蒸馏过程对原酒的品质影响也很大[3, 4]。 “ 互助” 青稞酒是中国原产地保护地理标志产品, 其原料为高原青稞, 其独特的酿造技术、 工艺等, 是青海、 西藏人民喜爱的白酒饮品之一。 青稞酒挥发性组分及原酒的光谱学特性受产酒地区、 生产厂家及酒品种的影响而存在差异[5], 为进一步提高品牌的国内和国际竞争力, 发展地方经济支柱产业, 对“ 互助” 青稞酒进行快速质量评价及掺假识别等研究是行业需要解决的科学问题, 也是产业发展需要解决的技术问题。

长期以来白酒的鉴别方法有两种, (一)专业品酒师用自己的语言描述白酒的各种口味属性来评定原酒的质量等级, 此评定过程受主观因素的影响, 很难得到准确的结果[6]。 (二)传统的分析检测方法, 多种色谱方法应用于白酒物质的鉴定, 如气相色谱、 气相色谱-质谱、 气相色谱-嗅觉测定等[7, 8, 9], 而这些方法成本高、 费时、 费力, 不能满足原酒快速分析的需要。 近年来, 光谱技术结合化学计量学对白酒基酒进行定量、 定性分析研究成为一种发展趋势, 何苗[10]通过紫外光谱、 近红外光谱和三维荧光光谱结合线性判别分析(linear discriminant analysis, LDA)、 支持向量机(support vector machine, SVM)和反向传播神经网络(back propagation neural network, BPNN)等化学计量学方法对不同品牌白酒及同一品牌不同系列的白酒等进行区分鉴别; 周瑞[11]等通过傅里叶变换中红外光谱结合蚱蜢算法优化支持向量机和误差反向传播人工神经网络建模, 实现无损、 快速判别不同类型浓香型白酒; Ding[12]等通过三维荧光光谱结合PCA-SVM方法对209个中国清香型白酒进行了质量控制和等级鉴定的研究。 上述研究, 均通过光谱技术结合化学计量学方法为白酒领域分析提供了可靠的鉴别方案。 由于紫外光谱(ultraviolet, UV)、 近红外光谱(near infrared spectroscopy, NIR)有分析步骤简便、 分析时间短、 对白酒样品醛、 酸、 酯等微量有机物具有选择吸收特性等优势, 近年来很多人采用UV、 NIR光谱对白酒进行了定性研究。 张正勇等[13]通过紫外可见光谱结合化学计量学构建了古井贡酒与紫外可见最大吸收峰强度关系, 从而达到白酒年份酒的快速鉴定。 刘明坤等[14]采用近红外光谱分别建立兰陵浓香型白酒全发酵过程入池、 出池酒醅整体模型, 使得分析工作效率显著提高。 可见UV、 NIR光谱能够满足白酒的鉴别研究, 目前光谱结合化学计量学分析中, UV和NIR光谱联用技术结合化学计量学的报道很少见。

在光谱数据建模前, 为了提高模型稳健性和运算效率, 一般对光谱进行预处理和波长特征变量的筛选[15], 而在实际运算中, 并非所有的模型优化方法均能提高模型预测性能, 因此建模时, 应选取合适的模型优化方法, 提高模型分类预测能力, 减小判别分类误差[16]。 由于BPNN具有处理非线性问题和高维数据的优势, 可以通过训练来自适应调整网络参数和权值, 具有良好的泛化能力, 在模式识别、 数据分类等领域具有广泛应用。 本研究提出一种基于UV、 NIR和紫外-近红外中级数据融合光谱(UV-NIR)结合化学计量学算法的“ 互助” 牌青稞酒快速鉴别方法。 通过收集“ 互助” 牌青稞酒、 非互助青稞酒和其他品牌青稞酒的UV、 NIR光谱数据, 经适当的方法预处理后进行变量筛选, 将两种单一光谱的特征变量矩阵串联在一起组成中级数据融合光谱矩阵, 采用筛选的特征变量建立BPNN模型, 最终探究预处理方法、 变量筛选方法与光谱类型的最佳分类识别组合方案, 为“ 互助” 牌青稞酒品质的快速分析提供一定的参考依据。

1 实验部分
1.1 材料

白酒样品: 共113个, “ 互助” 牌青稞酒共43种, 购于青海青稞酒股份有限公司专营店; 其他品牌青稞酒53种、 非青稞原料白酒17种, 均购于西宁市各大商场。

甲醇: 色谱纯, 赛默飞世尔科技(中国)有限公司。

无水乙醇: 分析纯, 中国医药集团有限公司。

1.2 仪器与设备

Lambda系列紫外/可见分光光度计: 美国PerkinElmer公司。

Antaris Ⅱ 近红外光谱仪: Thermo Fisher Scientific公司。

1.3 方法

1.3.1 光谱数据采集

取适量样品于1 cm石英比色皿中, 以无水乙醇为参比, 用紫外光谱仪在200~400 nm波长范围内以1 nm间隔扫描光谱, 每个样品扫描3次, 取平均光谱作为样品紫外吸收光谱, 每个样品光谱含201个波长变量; 采用近红外光谱仪透射模式在835~2 630 nm波长范围内扫描样品, 扫描32次, 分辨率为0.38 nm, 每个样品重复测量3次, 取平均光谱即为样品NIR光谱, 每个样品含2 206个波长。 应用采集的UV、 NIR光谱, 分别考察单一光谱、 UV-NIR建立BP模型的样品判别效果。

1.3.2 光谱数据预处理

原始UV、 NIR光谱由于基线漂移[17]、 光散射[18]等产生噪声影响, 在建立模型之前对样品光谱进行预处理消除无关信息的干扰并提取有效信息, 对后续建模的精度具有重大影响。 本研究考察标准正态变量变换(standard normal variate transform, SNV)、 Savitzky-Golay平滑(SG)、 一阶导数(first derivative, 1D)和二阶导数(second derivative, 2D)4种预处理方法对模型的适配性。

1.3.3 数据集的划分

通过Kennard-stone(K-S)[19]方法将白酒样品以7∶ 3比例划分为训练集和测试集, 训练集含79个样本, 测试集含34个样本, 参与识别“ 互助” 牌青稞酒模型的建立。

1.3.4 特征变量筛选

当建模变量数过高时, 不仅耗费大量的建模时间, 更严重的情况可能还会造成维数灾难而难以得到模型计算结果[18], 通过重要特征变量的筛选不仅达到特征提取, 降低数据建模维数, 也可避免光谱中不相关的强吸收峰对分类模型稳健性的影响。 本研究主要采用文献中应用相对比较广泛的几种方法。 在上述预处理方法的基础上进一步筛选特征光谱变量, 主要考察竞争自适应重加权采样(competitive adaptive reweighted sampling, CARS)、 连续投影算法(successive projections algorithm, SPA)、 主成分分析(principal component analysis, PCA)、 变量投影重要性分析(variable importance of projection, VIP)和变量组合集群分析(variable combination population analysis, VCPA)五种变量筛选方法。

CARS[20]算法基于“ 适者生存” 原则, 采用蒙特卡洛随机取样方式, 从校正集中选出一部分样本建模, 通过动态调整光谱特征的权重, 并在稳定时停止采样, 以保留重要特征, 降低数据量和复杂度。 CARS算法的关键为竞争自适应重加权机制, 使用衰减指数法(exponentially decreasing function, EDF)选择波长, 然后使用自适应性权重法优化波长变量, 挑选交叉验证均方根误差最小的变量子集。 本研究UV、 NIR光谱采样次数分别为3、 5次时, 交叉验证均方根误差最小, 选择该采样次数作为CARS算法筛选变量时的参数。

SPA算法是一种前向变量循环选择方法, 目的是找到对样本分类有贡献的关键波长, 而不是使用所有可用的波长[21], 该算法通过找到不相关的波长集合来选取最重要波长, 并逐步缩小这个集合的大小, 实现数据的压缩和特征提取。 通过SPA算法可以选择关键波长的集合, 以避免光谱噪声和不相关波长对数据分析的干扰[22], SPA选择变量的原则是, 新选择的变量是所有剩余变量中前一个选择变量的正交子空间上投影值最大的一个, 以最小化冗余, 提高模型的准确性。

PCA[23]方法在数据降维转换过程中, 得到得分矩阵T和载荷矩阵P, 其中载荷即为该变量表达信息的权重值, 权重绝对值越大, 代表该变量在光谱信息中越重要。 通过设定载荷绝对值阈值的方法筛选得到重要的特征变量。 考察原始UV、 NIR光谱不同载荷绝对值阈值选取重要性变量。

VIP算法[24]计算每个波长的变量投影重要性系数, 并分析VIP系数对目标值的解释能力这两方面的影响作用。 其中变量对目标值的解释能力以通过计算所得VIP系数来表示, 若VIP系数对目标值的解释能力很强, 其VIP值会很大, 该变量会被作为重要变量保留下来。 VIP分析通过计算每个波长的VIP系数, 对各波长按其VIP系数值降序排序, 再按一定规则进行逐步波长筛选。 所有波长的VIP值平方的平均值等于1, 因此有学者提出“ VIP 是否大于1” 作为波长重要性评价标准, 筛选得到特征波长[25, 26]

VCPA[27]采用二元矩阵抽样(binary matrix sampling, BMS), 该抽样方法考虑了变量间可能存在的交互效应, 通过变量间可能存在的交互影响使用指数递减函数(exponential decreasing function, EDF)强制减少变量, 挖掘出贡献较大的变量, 应用模型总体得到的具有较低交叉验证均方根误差的变量子集建模。 VCPA算法采用了简单而有效的“ 适者生存” 原则来实现选择最佳变量子集。

1.3.5 模型评价

采用BPNN模型建立识别“ 互助” 牌青稞酒、 其他品牌青稞酒和非青稞酒的分类数学模型, 如图1所示BPNN模型方法流程图。 BPNN模型运用分类准确率、 决定系数(determination 邹coefficient of prediction, RP2)、 均方误差函数(mean squared error, MSE)以及校正集、 测试集、 验证集和整体模型效果的相关系数(correlation coefficient, R)指标对预测结果进行最终评价。 分类准确率代表模型预测正确的样本数占总样本数的比例, 衡量模型的预测准确性, 分类准确率越高, 说明模型预测能力越好。 RP2和R代表实际类别和预测类别的拟合程度, 范围在0~1之间, 其值越接近1, 模型的预测结果越准确。 MSE函数衡量模型预测结果与实际结果之间的差异程度, MSE值越接近0, 模型的预测结果越接近实际结果[28]

图1 BPNN模型流程Fig.1 Flowchart of BP model

2 结果与讨论
2.1 模型优化

2.1.1 紫外、 近红外光谱预处理

对白酒UV、 NIR光谱进行分别进行SNV、 SG、 1D和2D预处理, 图2和图3分别为113个白酒样本UV、 NIR预处理光谱。

图2 不同方法预处理后的UV光谱图
(a): SG; (b): SNV; (c): 2D; (d): 1D
Fig.2 UV specura after pretreatment with different methods
(a): SG; (b): SNV; (c): 2D; (d): 1D

图3 不同方法预处理后的NIR光谱图
(a): SG; (b): SNV; (c): 2D; (d): 1D
Fig.3 NIR spectra after pretreatment with different methods
(a): SG; (b): SNV; (c): 2D; (d): 1D

图2(a— d)所示, 在UV光谱区域, 200~220、 260~280 nm出现明显的吸收峰, 分别为羧基和糠醛吸收峰[28], UV光谱通过预处理后在一定程度上消除毛刺峰现象。

图3(a— d)中, 白酒NIR光谱高度重叠, 难以区分目标组分的光谱信息, 因此必须借助化学计量学手段进行判别分析。 白酒中含有大量的水和醇, 以及微量的风味物质酯、 酸、 醛, 在2 350、 2 306和2 270 nm附近为CH3、 CH2、 CH的合频吸收, 水的合频吸收峰约2 270 nm; 约2 069 nm是— OH的合频吸收区域; 1 936 nm附近为RCOOH、 RCOOR的特征吸收区域; 1 460 nm附近为ROH、 H2O、 CH3、 CH2、 CH的一倍频吸收区域。

2.1.2 主成分分析

将UV、 NIR经SG 预处理全光谱进行主成分分析, UV光谱前3个主成分累积方差贡献率达到90.86%, NIR光谱前3个主成分累积方差贡献率达到99.11%, 说明前3个主成分能代表样本的大部分信息, 可以构建三维PCA散点图对三类样本间的差异进行初步分析, 结果如图4(a, b)所示。 由图4(a), “ 互助” 牌青稞酒和非互助牌青稞酒的主成分散点呈聚类趋势, 分类较好, 但非青稞酒没有明显的聚类现象; 由图4(b), 三类样本的主成分散点分布互相交叉, 相同类别之间没有明显的聚类现象。 分析认为三类样本在主成分方向具有一些相似性, 导致它们在这个方向上不能完全分离。 UV和NIR全光谱进行PCA处理后的前3个主成分不能对目标样本进行正确分类, 因此需要采用模式识别方法进一步分析。

图4 光谱的前3个主成分得分图
(a): UV光谱; (b): NIR光谱
Fig.4 Plot of the first 3 principal component scores of the spectra
(a): UV spectra; (b): NIR spectra

2.1.3 特征变量选择

图5(a)和(b)分别为UV、 NIR经过SG预处理光谱后用SPA方法进行变量筛选时选择的变量数与建立BPNN模型分类准确率的关系, 图中分类准确率越高、 MSE值越小, 说明模型效果越优。 由图5(a), 选择5~50个变量时, 其分类准确率均为100%, 因此重点关注MSE值变化。 当SPA方法选择15个特征变量建模时, 其MSE值最小为0.005 6, 因此UV原始和其他预处理光谱采用SPA变量筛选方法建立BPNN模型时均选择15个特征变量。 由图5(b), 相比于其他特征变量数建模, 选择325、 350和375个变量时, 分类准确率最高均为91.18%, 而选择325个特征变量建模时, 其MSE值最小为0.0775, 因此NIR原始和其他预处理光谱采用SPA变量筛选方法建立BPNN模型时均选择325个变量数。

图5 (a)UV光谱SPA选择变量数与模型指标的关系图; (b)NIR光谱SPA选择变量数与模型指标的关系图Fig.5 (a) Plot of the number of UV spectral SPA selection variables versus model metrics; (b) Plot of the number of NIR spectral SPA selection variables versus model metrics

图6(a)和(b)分别为UV和NIR经过SG预处理光谱采用PCA载荷绝对值阈值筛选特征变量时, 不同阈值与分类准确率与MSE之间的关系。 通过选取两种光谱不同载荷绝对值阈值下的变量建立BPNN模型, 通过图6(a), UV的SG预处理光谱选择阈值大于0.025和大于0.05时分类准确率均能达到100%, 其中阈值大于0.05时MSE更小为0.035 9, 因此UV原始和其他预处理光谱均选择PCA载荷绝对值阈值大于0.05的变量建立BPNN模型。 由图6(b), NIR光谱的SG预处理光谱选择PCA载荷绝对值阈值大于0.04和0.1时, 分类准确率均为70.59%, 其中阈值大于0.1时MSE值较小为0.139 1, 因此NIR原始和预处理光谱均选择PCA载荷绝对值阈值大于0.1的变量建立BPNN模型。

图6 (a)UV光谱PCA阈值与模型指标的关系图; (b)NIR光谱PCA阈值与模型指标的关系图Fig.6 (a) Qlot of UV spectral PCA thresholds versus model metrics; (b) Plot of NIR spectral PCA thresholds versus model metrics

本研究UV、 NIR光谱CARS方法采样次数分别为3、 5次时, 交叉验证均方根误差最小, 选择该采样次数作为CARS算法筛选变量时的参数。 VCPA筛选特征变量时依据经验选取500和50分别作为BMS和EDF运行参数。

图7(a)是对预处理后的光谱, 经不同的方法筛选特征变量后, 用BPNN建模所得的预测效果。 由图7(a)观察, 通过对原始光谱和预处理后的光谱用CARS筛选变量并建模, UV-SG与UV-NIR-SNV的BP模型 RP2为1, 说明UV-SG-CARS与UV-NIR-SNV-CARS模型优化组合预测能力良好, 其中UV-2D和NIR-RAW光谱通过CARS变量筛选后BP模型的 RP2< 0.6, 表明这两种模型优化组合方法不能建立具有良好预测能力的BPNN模型。 图7(b)表明UV-SNV和UV-SG的BP模型 RP2均为1, 优于其他模型优化组合。 UV-2D、 NIR-2D和UV-NIR-2D预测能力都较差, 说明通过2D预处理后进行SPA变量筛选不能选择到准确识别分类的重要变量。 图7(c)中, UV-RAW和经过预处理光谱建立BPNN模型整体分类效果最优, UV-NIR建模分类效果次之, NIR光谱建模分类效果最差, 其中UV-RAW和UV-SG的BP模型 RP2为1, UV-2D的BPNN模型 RP2> 0.87, 说明均具有良好的预测能力; 另外MUV-NIR-RAW和SNV、 SG预处理光谱建立BPNN模型 RP2> 0.75, 说明其也具有一定的预测能力, 而NIR光谱只有通过SNV和SG预处理后其预测效果有所改善, 原始光谱与1D和2D预处理光谱建立的BPNN模型不具备准确识别目标对象的能力。 图7(d)中, UV-SNV、 UV-SG预处理光谱建立的BPNN模型 RP2为1, UV-RAW的建立BPNN模型 RP2> 0.9, 说明这三种光谱通过PCA筛选的变量建立了具有良好分类能力的BPNN模型, 而UV-1D和UV-2D光谱 RP2< 0.6, 说明UV光谱经过1D、 2D预处理后使用PCA方法筛选的变量建立模型的预测效果不佳。 NIR原始与各预处理光谱通过PCA方法筛选变量, 模型的整体预测效果优良, 其中NIR-SG、 NIR-SNV和NIR-1D建立BPNN模型的 RP2为1, 并且NIR-2D、 NIR-RAW建模的BP模型 RP2> 0.95, 表明NIR原始和预处理光谱通过PCA方法筛选特征变量显著改善建立BPNN模型的分类效果。 与UV光谱相似, UV-NIR在SNV和SG预处理下通过PCA筛选的特征变量建立BP模型 RP2为1, UV-NIR-1D和UV-NIR-2D光谱在PCA变量筛选后建立的BP模型 RP2> 0.75, 表明模型有一定的预测能力。 图7(e)中, UV、 NIR、 UV-NIR的原始及预处理后的光谱所得模型整体预测能力均较好, 除UV-NIR经过SG和1D预处理光谱筛选变量建模的 RP2在0.88~0.9以外, 其余预处理光谱通过VCPA建模 RP2均大于0.9, 另外UV-1D、 NIR-2D和UV-NIR-2D通过VCPA方法筛选变量建模, BP模型 RP2均为1。 相比于其他变量筛选方法, 1D和2D预处理光谱结合VCPA方法能够建立具有良好预测能力的模型, 改善其建模效果。 VCPA变量筛选方法对于UV、 NIR和UV-NIR原始及预处理光谱建立模型整体预测能力最佳。

图7 光谱预处理后经不同方法筛选变量所得BPNN模型预测结果
(a): CARS; (b): SPA; (c): VIP; (d): PCA; (e): VCPA
Fig.7 Prediction results of the BPNN model after spectral preprocessing by different methods of screening variables
(a): CARS; (b): SPA; (c): VIP; (d): PCA; (e): VCPA

对于UV、 NIR以及UV-NIR三类光谱数据, 其预处理方法与变量筛选方法的最佳组合列于表1, CARS、 SPA、 PCA、 VIP筛选变量建模通过SG和SNV预处理光谱即可达到建立优良预测性能的BPNN模型要求, VCPA变量筛选方法与1D、 2D预处理方法结合建模能够满足准确分类预测的效果。

表1 光谱预处理方法与变量筛选方法建立 BPNN模型的最佳组合 Table 1 Optimal combination of spectral preprocessing methods and variable screening methods for BPNN modeling

表1所述最佳组合方法分别对UV、 NIR和UV-NIR三类光谱数据进行处理, 并建立BPNN模型, 所得的特征变量数、 模型预测能力指标分别见表2表3表4

表2 UV光谱最佳模型优化组合评价指标对比表 Table 2 Comparison of evaluation indexes of the optimal model optimization combination for UV spectroscopy
表3 NIR光谱最佳模型优化组合评价指标对比表 Table 3 Comparison of evaluation indexes of the best model optimization combination for NIR spectroscopy
表4 UV-NIR融合光谱最佳模型优化组合评价指标对比表 Table 4 Comparison of evaluation indexes of the optimal model optimization combination of UV-NIR fusion spectra

表2, UV光谱每种最佳模型优化组合方法的分类准确率均为100%, 即 RP2为1, 很难判断哪种组合最优, 但通过模型优化组合所筛选的变量数和MSE、 R(Train)、 R(Validation)、 R(Test)、 R(All)指标能够判断出最优的组合方法, 在表1中, UV光谱在SNV-SPA组合方法下MSE为0.018 0, 筛选的变量数为30, R指标均大于0.9, 且R(All)指标值在上述组合方法中最高为0.929 7, 与其他组合方法相比, 筛选变量数较少, MSE值最小, R指标值最高, 因此将SNV-SPA组合作为UV光谱最优模型优化组合。 1D-VCPA分类准确率为100%, 筛选的特征变量数在这些组合中最少, 而其MSE值较大, 可能的原因是其筛选变量数过少, 丢失光谱重要分类信息导致。

表3, NIR光谱中SG-PCA、 1D-PCA和2D-VCPA组合方法建模, 分类准确率和 RP2均达到100%和1, 且筛选变量数均较少, 说明这两种模型优化组合方法均能达到优秀的分类效果, 而通过其他指标的比较分析, SG-PCA方法MSE值比1D-PCA和2D-VCPA分别降低了0.187 1和0.009 8, 且R(All)指标值比1D-PCA和2D-VCPA分别提高了0.094 0和0.071 2, 因此NIR光谱更适合用SG-PCA方法处理后建立BPNN模型。 经过SNV预处理后, 比较SPA和VIP变量筛选方法建立BP模型的各指标, NIR光谱经过SPA方法筛选变量建立模型优于VIP方法。

由于UV、 NIR光谱共有2276个波长变量, 光谱进行低级数据融合难以运行BP模型, 只能采取利用得到的中级数据融合光谱建立BPNN模型。 由表4, 上述模型优化组合方法得到的UV-NIR融合光谱均能达到良好的分类效果, 其中SNV-CARS、 SG-PCA、 SNV-PCA、 2D-VCPA组合方法的BPNN模型分类准确率和 Rp2均达到100%和1, 比较4种模型优化组合方法, SG-PCA组合方法MSE值最低, R(All)指标值最高, SG-PCA方法筛选的变量数为106, 运行BP模型耗时较短, 因此UV-NIR-SG-PCA模型优化组合方法建立的BP模型分类预测能力最佳。

表2表3表4分析可知, UV-NIR建立模型各评价指标整体效果优于使用UV、 NIR单一光谱建立的模型效果。 图8(a, b)为UV-NIR-SG-PCA模型优化方法后建立BP模型的分类效果, 其模型预测和识别能力均能达到100%。

图8 最佳模型优化组合方法BPNN模型效果图
(a): 最佳模型优化组合BPNN模型混淆聚阵; (b): 最佳模型优化组合BPNN模型预测类别和实际类别对比
Fig.8 BPNN model effect of the best model optimization combination method
(a): Confusion matrix of the BPNN model of the best model optimisation approah; (b): Comparison of predicted and actual categories of the BPNN model of the best model optimisation approach

3 结论

BPNN模型相比于PCA分析, 在分类鉴别目标对象时更有优势。 BPNN模型性能随选取方法的变化而互有差异, 且并非所有方法都能使模型得到优化。 对于鉴别“ 互助” 牌青稞酒的预测模型, UV光谱进行SNV-SPA模型优化组合方法, BPNN模型各指标得到不同程度的改善; 对于NIR光谱, 当选取SG-PCA模型优化组合方法后, BPNN模型分类鉴别效果最优; 选用SG-PCA模型优化组合方法得到的UV-NIR建模, BPNN模型预测能力最强; 通过模型优化组合方法得到的UV-NIR与单一光谱建立的BPNN模型预测分类效果相比, UV-NIR建立模型的各指标值比UV、 NIR单一光谱建立模型各指标值均有一定程度的提高。 进一步证明光谱融合技术能更多地体现不同类型白酒的差异, 对青稞酒的快速识别与分类更加有效。

参考文献
[1] McGovern P E, Zhang J, Tang J, et al. Proceedings of the National Academy of Sciences, 2004, 101(51): 17593. [本文引用:1]
[2] ZHOU Jun, YANG Yang, YAO Yao, et al(周军, 杨洋, 姚瑶, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(3): 764. [本文引用:1]
[3] Ding X, Wu C, Huang J, et al. Journal of Food Science, 2015, 80(11): C2373. [本文引用:1]
[4] Yan S, Wang S, Wei G, et al. Journal of the Institute of Brewing, 2015, 121(1): 145. [本文引用:1]
[5] Fan Q, Wang X, Zhao Y, et al. Flavour and Fragrance Journal, 2019, 34(6): 514. [本文引用:1]
[6] Cheng P, Fan W, Xu Y. Food Research International, 2013, 54(2): 1753. [本文引用:1]
[7] Jia W, Fan Z, Du A, et al. Food Chemistry, 2020, 324: 126899. [本文引用:1]
[8] Niu Y, Zhu Q, Xiao Z. Food Research International, 2020, 131: 108986. [本文引用:1]
[9] Yan Y, Chen S, Nie Y, et al. Food Research International, 2020, 131: 109043. [本文引用:1]
[10] HE Miao(何苗). Master Dissertation(硕士论文). Chongqing University(重庆大学), 2022. [本文引用:1]
[11] ZHOU Rui, CHEN Xiao-ming, ZHANG Li-li, et al(周瑞, 陈晓明, 张莉丽, ). Food and Fermentation Industry(食品与发酵工业), 2023, 49(5): 88. [本文引用:1]
[12] Linzhi D, Yongrong S, Xin W, et al. Journal of Food Composition and Analysis, 2023, 123. [本文引用:1]
[13] ZHANG Zheng-yong, SONG Chao, SHA Min, et al(张正勇, 宋超, 沙敏, ). Brewing Technology(酿酒科技), 2016, (11): 20. [本文引用:1]
[14] LIU Ming-kun, HAN Qi-ying, YAN Chang-jie, et al(刘明坤, 韩奇颖, 闫长杰, ). Brewing Technology(酿酒科技), 2022, (3): 116. [本文引用:1]
[15] CHU Xiao-li, CHEN Pu, LI Jing-yan, et al(褚小立, 陈瀑, 李敬岩, ). Journal of Analytical Testing(分析测试学报), 2020, 39(10): 1181. [本文引用:1]
[16] YU Si-ming, YAO Yan, LIU Ying, et al(俞思名, 姚燕, 刘颖, ). Journal of China University of Weights and Measures(中国计量大学学报), 2024, 35(1): 28. [本文引用:1]
[17] DONG Xin-luo, LIU Jian-xue, HAN Si-hai, et al(董新罗, 刘建学, 韩四海, ). Journal of Analytical Testing(分析测试学报), 2020, 39(11): 1427. [本文引用:1]
[18] HUANG Jun-shi, WANG Dong-xin, XIONG Ai-hua, et al(黄俊仕, 王冬欣, 熊爱华, ). Journal of Jiangxi Agricultural University(江西农业大学学报), 2020, 42(6): 1270. [本文引用:2]
[19] Cai J J. Journal of Heredity, 2008, 99(4): 438. [本文引用:1]
[20] Li H, Liang Y, Xu Q, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[21] Qu J, Sun D, Pu H. Water, Air, & Soil Pollution, 2017, 228(5): . [本文引用:1]
[22] Mário César Ugulino Araújo, Saldanha T C B, Galvo R K H, et al. Chemometrics & Intelligent Laboratory Systems, 2001, 57: 65. [本文引用:1]
[23] Jiao Z, Zhong Y W, Quan M Y, et al. Microchemical Journal, 2021, 160(PB): 105662. [本文引用:1]
[24] Oussama A, Elabadi F, Platikanov S, et al. Journal of the American Oil Chemists' Society, 2012, 89(10): 1807. [本文引用:1]
[25] Wold S, Johansson E. 3D QSAR in Drug Design, 1993, 1: 523. [本文引用:1]
[26] Jiang H, Xu W, Ding Y, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 228(C): 117781. [本文引用:1]
[27] Yun Y, Wang W, Deng B, et al. Analytica Chimica Acta, 2015, 86214. [本文引用:1]
[28] LI Na, CHEN Wei, ZHANG Jie, et al(李娜, 程伟, 张杰, ). Brew Wine(酿酒), 2018, 45(6): 63. [本文引用:2]