DPLS和SVM的掺假花椒粉近红外光谱定性鉴别
吴习宇1,3, 祝诗平1,*, 王谦2, 龙英凯2, 徐丹3, 唐超1
1. 西南大学工程技术学院, 重庆 400716
2. 国网重庆市电力公司电力科学研究院, 重庆 401123
3. 西南大学食品科学学院, 重庆 400716
*通讯联系人 e-mail: zspswu@126.com

作者简介: 吴习宇, 1978年生, 西南大学工程技术学院博士研究生; 西南大学食品科学学院讲师 e-mail: xiyu.w@163.com

摘要

花椒是我国的八大调味料之一。 目前花椒市场掺假现象较为多见, 为实现掺假花椒粉的快速定性鉴别, 采用了近红外光谱结合化学计量学方法进行了探讨。 将麦麸粉、 稻糠粉、 玉米粉和松香粉以1 Wt/Wt.%的递增梯度分别掺入红花椒粉和青花椒粉中, 制备掺假浓度范围为1~54 Wt/Wt.%的掺假花椒粉样品, 以掺假花椒粉和纯花椒粉共462份样品依次采集其800~2 500 nm范围的漫反射近红外光谱。 采用主成分分析法(PCA)对光谱数据进行分析, 前3个主成分累计贡献率达98.72%, 做出的得分图表明PCA法对掺假的花椒粉具有较好的区域划分。 347份样本作为校正集, 以特征谱区2 000~2 200 nm范围的257个采样点的光谱信号作为输入, 采用判别偏最小二乘法(DPLS)和支持向量机(SVM)建立定性鉴别模型, 经不同光谱预处理, 对115份验证集样本进行预测, 总体鉴别正确率在97.39%~100%之间, 表明该方法是快速定性鉴别掺假花椒粉的一个有效手段。

关键词: 花椒粉; 近红外光谱; 主成分分析; 判别偏最小二乘法; 支持向量机; 掺假
中图分类号:TS207.3 文献标识码:A
Qualitative Identification of Adulterated Huajiao Powder Using Near Infrared Spectroscopy Based on DPLS and SVM
WU Xi-yu1,3, ZHU Shi-ping1,*, WANG Qian2, LONG Ying-kai2, XU Dan3, TANG Chao1
1. College of Engineering and Technology, Southwest University, Chongqing 400716, China
2. Chongqing Electric Power Corporation Research Institute, Chongqing 401123, China
3. College of Food Science, Southwest University, Chongqing 400716, China
Abstract

Huajiao is one of the “eight famous condiments” in China. Some cheaper adulterants were found to be added into Huajiao powder and in order to identify adulterated Huajiao powder qualitatively and quickly, a direct detecting method using near infrared (NIR) spectroscopy coupled with discriminant partial least squares (DPLS) and support vector machine (SVM) had been developed in this study. Wheat bran, rice bran, corn flour and rosin powder with 1 Wt/Wt.% incremental concentration gradient were mixed with red Huajiao powder and green Huajiao powder separately and the adulterated Huajiao powder with range of 1~54 Wt/Wt.% were prepared. Diffuse NIR spectra (800~2 500 nm) of pure and adulterated Huajiao powder were acquired. Principal component analysis (PCA) on the spectral data of all 462 samples was used and the first three principal components accounted for 98.72% of total variation. It was effective for clustering different adulterated Huajiao powder from the main composition PC1, PC2 and PC3 score plot. 347 samples as a calibration set and with the characteristic band spectrum 2 000~2 200 nm as input, kinds of qualitative models with different spectra pretreatment were established using DPLS and SVM analysis, which were for predicting the rest 115 samples. Results showed that, using different pretreatment methods, and the qualitative identification accuracy of the validation set were between 97.39%~100%, in which adulterated Huajiao powder could be identified totally. NIRS based on DPLS and SVM is a rapid and nondestructive tool for the qualitative analysis of adulterated Huajiao powder.

Key words: Huajiao powder; Near infrared spectroscopy; Principal component analysis; Discriminant partial least squares; Support vector machine; Adulterants
引言

花椒是芸香科(Rutaceae)花椒属(Zanthoxylum L.)植物青花椒或红花椒的干燥成熟果皮[1], 在我国的使用历史十分悠久, 在四川菜系中得以广泛应用。 为了方便调味和使用, 花椒常被磨成花椒粉。 由于花椒粉售价相对较高, 一些不良企业和经营商受到利益驱使, 将其他成本较低的杂质掺入花椒粉中售卖。 在花椒粉中掺入麦麸粉、 玉米粉、 稻糠粉、 松香粉和中药药渣是目前常见的花椒粉掺假手段。 在检测时通常采用感官识别、 碘化钾鉴别淀粉类物质, 显微镜识别、 气相色谱法或气质联用分析等方法[2], 但这些方法具有局限性或者操作过程繁琐、 耗时长。 因此, 建立一种快速检测花椒粉是否掺假的技术方法十分必要。

近红外光谱(near infrared spectroscopy, NIRS)是近年来发展起来的快速无损检测手段, 具有分析成本低、 速度快、 样品可无预处理等优点[3, 4]。 目前, 结合化学计量学方法, NIRS已被广泛运用于食品品质的定量与定性分析中[5, 6]。 在基于近红外光谱的食品掺假鉴别方面, 有对葛根粉[7]、 牛奶[8]、 食用油[9]等掺假鉴别的相关报道, 本研究尝试采用近红外光谱技术结合判别偏最小二乘法(discriminant partial least squares, DPLS)和支持向量机(support vector machine, SVM)对掺入麦麸粉、 稻糠粉、 玉米粉和松香粉的花椒粉进行快速定性鉴别研究, 为加强花椒市场管理提供相关的技术参考依据。

1 实验部分
1.1 材料

收集花椒共30种, 分别来自四川、 陕西、 云南、 贵州、 山东和重庆的厂家或农家, 样品的品质、 性状、 产地都存在差异, 因而具有较好的代表性。

使用高速万能粉碎机(Pulverisette 14型, 德国FRITSCH公司, 0.5 mm标准筛孔)粉碎花椒样品, 得到纯花椒粉样品30个(红花椒粉16个, 青花椒粉14个)。 市购麦麸、 稻糠、 玉米、 松香采用同样方法分别粉碎, 得到同粒度的麦麸粉、 稻糠粉、 玉米粉和松香粉, 用电子分析天平(FA2004A型, 精度0.000 1 g, 上海精天)准确称量, 将四种粉末按1 Wt/Wt.%的梯度分别随机添加入红花椒粉和青花椒粉中, 得到掺假浓度范围为1~54 Wt/Wt.%的掺假红花椒粉样品和掺假青花椒粉样品各216个, 制备好后, 将以上共462份纯花椒粉及掺假花椒粉试样分别进行装袋并编号, 在12 h内完成所有样品的近红外光谱扫描。

1.2 仪器及条件

采用布鲁克公司的MPA型近红外光谱仪(BRUKER, 德国), PbS检测器, 附积分球及石英样品杯, 对样品进行漫反射光扫描。 扫描前光谱仪开机预热30 min, 以保证样品测定的稳定性, 光谱扫描波长范围800~2 500 nm, 光谱采样间隔1.25 nm, 扫描次数32次, 每次取10 g样品在室温25 ℃下装入石英样品杯中, 每个样品采集三次, 取均值。

光谱数据采集由近红外光谱仪自带的OPUS 7.0软件采集, 操作系统为Win 7.0。

1.3 化学计量学方法

为消除光谱信号的基线漂移、 随机噪声、 光散射、 样本不均匀等的影响, 采用了光谱数据预处理; 为了揭示样本的主要特点和集群, 对所有样品及其掺假花椒粉样品的光谱数据进行主成分分析(principal component analysis, PCA)[10], PCA用数量较少的新变量代替原始变量, 且最大限度地表征原变量的数据结构特征, 其中新变量被称为主成分(PCs), 为原始变量的线性组合[11]

采用有监督的模式识别方法DPLS和SVM分别建立定性分析模型。 DPLS是基于判别分析基础上的偏最小二乘法(partial least squares, PLS)算法[12], 它用类别信息矩阵C代替了偏最小二乘法回归模型中的浓度矩阵Y。 为了决定混合物中某种物质的类归属, C矩阵必须能够描述特定种类的样品, 设有pm个样品, 则Cm× p矩阵, C矩阵每列代表一个样品类别, 混合物中以“ 1” 表示属于此类, 以“ 0” 表示属于其他类, 即ci, j=1表示第i个样本属于第j类, 而ci, j=0表示第i个样本不属于第j类, 用PLS建立回归模型, 当新的样本输入模型时, 根据判别模型可计算得到新的类别向量, 判断其类别归属。

SVM是一种以结构风险最小化为基础思想的模式识别算法, 在小样本数据集的分类中有显著优势[13], 常用的支持向量机核函数有线性核函数、 多项式核函数、 径向基核函数(radial basis function, RBF)、 多层感知核函数等[14], 其中, 应用最广泛的是RBF核, 它可将一个样本映射到更高维的空间, 需要确定的参数也较少。 对于RBF核函数的参数寻优, 采用了网格搜索算法、 遗传算法(genetic algorithms, GA)和粒子群算法(particle swarm optimization, PSO)遍历设定范围内惩罚参数c和核函数参数g的组合建立SVM分类模型[15], 并以验证集样本计算模型的精度, 最终选出最优的参数组合。

定性分析模型的评价指标为鉴别正确率(correct identification rate, CIR), 即正确判断的样品数占全部样品数的百分比。

DPLS, SVM分析在Matlab R2015a (The MathWorks, U.S.A.)完成, 操作系统为Win 10.0。

2 结果与讨论
2.1 近红外漫反射光谱

图1为纯花椒粉和掺假花椒粉的近红外光谱图, 纯花椒粉及各掺假花椒粉的近红外光谱图无太大差异, 吸收峰形和位置都较为相似, 无法通过近红外图谱直观鉴别, 需要将样品的光谱数据结合化学计量学方法进行分析及判别。

图1 纯花椒粉和掺假花椒粉样品的近红外光谱图Fig.1 NIR spectra of pure and adulterated Huajiao powder samples

在全光谱范围内对样品的光谱数据进行PCA分析, 前5个主成分的方差贡献率分别为81.56%, 14.13%, 3.03%, 0.99%和0.10%, 累计方差贡献率为99.81%, 其中前3个主成分的累计方差贡献率已达98.72%, 仅用前3个主成分在空间上的投影分布就基本可以表征样品的分布特征信息。 对前3个成分的标准化得分做散点图, 如图2所示。 从图中可以看出, 1~54 Wt/Wt.%不同浓度梯度下的掺假花椒粉在PC1, PC2和PC3的标准化得分散点图分布较为集中, 且掺假花椒粉随着掺假物浓度比例的增加, 在PC图上所对应的点有规律地逐渐发散, 具有相同掺假物的分布以及相似掺假比例的样品之间的距离更近, 掺假浓度低的集中在中间位置, 表明由于不同掺假成分比例, 能够从近红外光谱得以分析。 但纯花椒粉的分布较为分散, 这可能是由于样品数量较少, 且在制备掺假花椒粉样品时为随机取纯花椒粉。 此外, 不同掺假物花椒粉样品在分布上也有重叠的现象, 因此, 仅使用主成分分析不能完全将掺假花椒粉识别, 故在主成分分析的基础上, 还需采用有监督的模式识别方法进行定性分析。

图2 掺假花椒粉样品PC得分图Fig.2 PCA score plots (PC1, PC2 and PC3) for adulterated Huajiao powder samples

2.2 定性分析模型的建立与验证

全波段从800~2 500 nm共有2 317个点, 若采用全光谱计算计算量较大, 且某些区域的光谱信息较弱, 缺乏和样品组成的相关关系信息, 因此, 利用PCA分析, 得到主成分PC1和PC2在整个波长范围内的载荷图, 如图3所示。 PC1和PC2载荷图显示波长范围2 000~2 200 nm的光谱信息与样品信息密切相关, 且由于主成分PC1和PC2累计方差贡献率达95.69%, 可以很好地解释原变量, 因此, 2 000~2 200 nm是掺假花椒粉极敏感的特征谱区, 在全波段内选出波长在2 000~2 200 nm范围的257个采样点的反射值作为输入变量, 分别建立DPLS和SVM鉴别模型。

图3 PC1和PC2在全波段载荷图Fig.3 Loading plot of PC1 and PC2 in the whole spectral range

采用DPLS作为建模算法在全部462份样品中随机选取出347份作为校正集, 利用2 000~2 200 nm内的257个采样点数据及花椒粉掺假类别值进行定性分析模型的建立, 其中保证347份校正集样品中有纯花椒粉23份, 掺入麦麸粉、 稻糠粉、 玉米粉、 松香粉的掺假花椒粉各81份。 余下115份样品为验证集, 包括纯花椒粉7份, 掺入麦麸粉、 稻糠粉、 玉米粉、 松香粉的掺假花椒粉各27份。 对光谱数据进行不同的预处理, 以校正集建立定性分析模型, 再使用验证集进行验证, 预测结果如表1所示。 从表中看出, 各种光谱预处理方法的结果均较好, 总体鉴别正确率在98.26%~100%之间, 其中效果最差的是“ SNV+一阶导数(Savitzky-Golay卷积)” 预处理方法, 掺假花椒粉误判数为2, 光谱预处理方法为“ SNV” 时效果最好, 纯花椒粉和掺假花椒粉误判数均为0, 可以100%识别出纯花椒粉及掺假花椒粉, 鉴别结果如图4所示。 可见, 采用DPLS方法所建立的模型可以很好地定性鉴别以上四种掺假物的掺假花椒粉及纯花椒粉。

表1 DPLS定性分析模型验证结果 Table 1 Results of validation of DPLS analysis models

图4 DPLS定性分析模型验证结果(SNV预处理)Fig.4 Result of validation of DPLS analysis model (SNV pretreatment)

采用SVM作为建模算法, 按照以上方法对全部样品进行划分校正集和验证集, 347个样品组成的校正集建立SVM模型, 115个样品组成的验证集进行模型的验证。 应用SVM建立识别模型, 首先需要解决的是选择核函数, 本实验中对分类问题采用径向基函数, 该方法可以将非线性样本数据映射到高维特征空间, 可以处理具有非线性样本关系的样本数据。 确定核函数后, 对径向基函数参数惩罚参数c、 核函数参数g进行优化, 表2中为采用Grid(网格), GA, PSO三种搜索方法得到的最佳参数及鉴别结果, 由表可看出, 采用SVM方法对掺假花椒粉的总体鉴别正确率相比于DPLS方法略差, 但仍然高于97%, 最差的PSO搜索参数建立的SVM模型, 对验证集115个样品预测, 出现3个误判数。

表2 SVM模型参数及验证集总体鉴别正确率 Table 2 Parameters of calibration and discriminating results of validation of SVM analysis models
3 结 论

在花椒粉中, 添加了不同含量的麦麸粉、 稻糠粉、 玉米粉和松香粉, 探讨了基于近红外定性鉴别掺假花椒粉的可行性。 应用主成分分析结合DPLS和SVM方法建立的定性分析模型, 选取特征波段, 在不同光谱预处理情况下, 鉴别准确率较为一致, 掺假浓度为1 Wt/Wt.%时也能够有效鉴别。 这说明利用近红外光谱定性分析方法对于掺假含量极低的花椒粉均可以很好地鉴别出来, 该方法无需样品预处理, 检测成本低, 对食品掺假的快速检测, 具有一定的实际应用的价值。

The authors have declared that no competing interests exist.

参考文献
[1] SONG Rong, JIA Xiao-juan, SHAO Yan-chun(宋蓉, 贾晓娟, 邵彦春). Chinese Agricultural Science Bulletin(中国农学通报), 2014, 30(21): 263. [本文引用:1]
[2] PENG De-chuan, YAN Hong, XIN Song-lin(彭德川, 阎红, 辛松林). Modern Food Science and Technology(现代食品科技), 2010, 26(9): 1018. [本文引用:1]
[3] Teye E, Huang Xingyi, Lei Wu, et al. Food Research International, 2014, 55: 288. [本文引用:1]
[4] Bevilacqua M, Bucci R, Materazzi S, et al. Food Chemistry, 2013, 140(4): 726. [本文引用:1]
[5] Martins Nascimento P A, de Carvalho L C, Cunha Junior L C, et al. Postharvest Biology Technology, 2016, 111: 345. [本文引用:1]
[6] Schmutzler M, Huck C W. Food Control, 2016, 66: 27. [本文引用:1]
[7] CHEN Jia, LIU Jia, MA Ya-qin, et al(陈嘉, 刘嘉, 马雅钦, ), Food Science(食品科学), 2014, 35(8): 133. [本文引用:1]
[8] Santos P M, Pereira-Filho E R, Rodriguez-Saona L E. Food Chemistry, 2013, 138(1): 19. [本文引用:1]
[9] Sinelli N, Cerretani L, Di Egidio V, et al. Food Research International, 2010, 43(1): 369. [本文引用:1]
[10] Galtier O, Dupuy N, Le Dreau Y, et al. Analytica Chimica Acta, 2007, 595(1-2): 136. [本文引用:1]
[11] Luna A S, Da Silva A P, Pinho J S A, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013, 100: 115. [本文引用:1]
[12] YAN Yan-lu, CHEN Bin, ZHU Da-zhou, et al(严衍禄, 陈斌, 朱大洲, ). Near Infrared Spectroscopy-Principles, Technologies and Applications(近红外光谱分析的原理、 技术与应用). Beijing: China Light Industry Press(北京: 中国轻工业出版社), 2013. 128. [本文引用:1]
[13] MA Wen-qiang, ZHANG Man, LI Zhong-xin(马文强, 张漫, 李忠新). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2015, 46(12): 128. [本文引用:1]
[14] LIU Xue-mei, ZHANG Hai-liang(刘雪梅, 张海亮). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2012, 43(11): 160. [本文引用:1]
[15] WANG Xiao-chuan, SHI Feng, YU Lei, et al(王小川, 史峰, 郁磊, ). 43 Cases for Neural Network Analysis Using MATLAB(MATLAB神经网络43个案例分析). Beijing: Beihang University Press(北京: 北京航空航天大学出版社), 2013. [本文引用:1]