近红外光谱技术鉴别花椒产地
吴习宇1,2, 祝诗平1,*, 黄华1, 徐丹2, 郭启高3
1. 西南大学工程技术学院, 重庆 400716
2. 西南大学食品科学学院, 重庆 400716
3. 西南大学园艺与园林学院, 重庆 400716
*通讯联系人 e-mail: zspswu@126.com

作者简介: 吴习宇, 1978年生, 西南大学工程技术学院博士研究生, 西南大学食品科学学院讲师 e-mail: xiyu.w@163.com

摘要

采集四川、 重庆、 云南、 贵州、 陕西五省市8个不同产地205个花椒样品的近红外光谱, 使用主成分分析(principal component analysis, PCA)、 判别偏最小二乘法(discriminant partial least squares, DPLS)分析了花椒产地的分类鉴别。 结果表明: 在12 500~3 800 cm-1波数范围内, 采用不同的光谱预处理方法可以建立较为稳健的DPLS模式识别模型, 对不同产地的花椒有较好的分类鉴别。 其校正集交叉验证除了经一阶微分预处理的模型识别率为99.39%外, 其他预处理方法识别率均为100%, 独立验证集总体识别正确率在85.37%~97.56%之间, 其中经标准正态变量变换(standard normal variate, SNV)、 多元散射校正(multiplicative scatter correction, MSC)预处理后的DPLS判别模型效果最好, 误判数仅分别为1个, 表示该方法在花椒产地识别中具有可行性。

关键词: 花椒; 近红外光谱; 产地; 主成分分析; 判别偏最小二乘法
中图分类号:TS207.7 文献标志码:A
Near Infrared Spectroscopy for Determination of the Geographical Origin of Huajiao
WU Xi-yu1,2, ZHU Shi-ping1,*, HUANG Hua1, XU Dan2, GUO Qi-gao3
1. College of Engineering and Technology, Southwest University, Chongqing 400716, China
2. College of Food Science, Southwest University, Chongqing 400716, China
3. College of Horticulture and Landscape, Southwest University, Chongqing 400716, China
*Corresponding author
Abstract

Identification method of 205 Huajiao samples from 8 different geographical origins by near infrared spectroscopy coupled with principal component analysis (PCA) and pattern recognition based on discriminant partial least squares (DPLS) was proposed in this paper. In the spectra region between 12 500~3 800 cm-1, predictive models with different pretreatments of calibration set were built separately, and robust models indicating these geographic origins of Huajiao samples could be achieved using DPLS pattern recognition method. The correct identification rates of the independent validation set were between 85.37%~97.56%, in which DPLS discriminant model with standard normal variate (SNV) or multiplicative scatter correction (MSC) preprocessing was best. The method was effective in Huajiao origin recognition.

Keyword: Huajiao; Near infrared spectroscopy; Geographical origin; PCA; DPLS
引 言

花椒属(Zanthoxylum L.)植物为芸香科(Rutaceae)多年生木本落叶灌木或小乔木, 全世界约有250种, 分布于亚洲、 美洲、 非洲及大洋洲的热带和亚热带地区, 其中我国约有39种, 14个变种[1]。 大部分花椒品种仍处于野生状态, 人工栽培花椒属植物主要品种为竹叶花椒(Zanthoxylum armatum DC.)和花椒(Zanthoxylum bungeanum maxim.), 按照果实颜色通常分为青花椒和红花椒, 栽培地区主要集中在亚洲的中国、 日本和韩国, 其中我国是花椒栽培的起源国[2], 也是栽培面积最大的国家, 目前种植面积已经超过12万公顷, 并逐渐形成了四川金阳、 茂汶和汉源、 重庆江津、 陕西韩城等花椒种植基地[3]

花椒中的主要化学成分有生物碱、 酰胺、 木脂素、 挥发油、 脂肪酸、 香豆素等, 现代天然产物化学和药理学研究表明花椒中的这些生物活性成分具有抗氧化、 抗肿瘤、 消炎及抑菌防腐的功能[4]。 国内外众多学者对花椒的成分及含量做了大量研究和报道[5, 6, 7], 研究结果表明同种花椒在不同栽培地区的化学成分确实存在一定的差异, 此外, 也有众多研究发现不同种或不同品系的花椒间化学成分也有较大差异[8, 9]。 如邓振义等的研究结果[10], 说明了花椒化学成分的含量和组成不仅跟提取部位、 提取方法有关, 很大程度上取决于花椒自身品种和产地环境。 但随着花椒深度开发和利用得到越来越多的重视, 市场需求快速增长, 随之而来的是市场上以劣充优、 以陈冒新、 掺假掺杂等现象层出不穷。 一方面, 消费者开始更多地关心他们所消费的农产品的来源与真实性, 另一方面, 企业与花椒原产地渴望寻求保护自身品牌的有效方法, 因此研究开发出一种简单、 快速、 无损的花椒产地鉴别检测方法。 具有重要的现实意义。 近红外光谱技术具有无污染、 非破坏性、 分析成本低、 速度快等特点广泛用于农产品、 食品、 药品等的定性与定量分析[11]。 目前, 近红外光谱技术已成功应用于玛咖产地溯源[12]、 茶油产地溯源[13]、 咖啡产地溯源[14]等, 但对花椒产地溯源还未有相关报道。 本文将花椒复杂的化学组分作为整体, 采用近红外漫反射光谱构建花椒的图谱库, 同时结合模式识别方法对不同产地的花椒样品进行模式识别研究, 建立一种快速、 简单、 准确的花椒产地鉴别方法, 为保证名品花椒、 产地优选提出新的方法。

1 实验部分
1.1 材料

收集来自四川、 重庆、 陕西、 云南、 贵州五省市8个产地的花椒, 其中106种为红花椒, 99种为青花椒, 经鉴定, 样品来源见表1。 每种花椒样品过80目筛滤除细小杂质, 分别称取50 g装入PP食品袋编号, 用于花椒的原产地近红外鉴别。

表1 205份花椒样品产地状况表 Table 1 Original area of 205 Huajiao samples
1.2 仪器

MPA型近红外光谱仪及漫反射附件(德国BRUKER公司), 波长范围12 500~3 800 cm-1, 附PbS检测器及积分球, 样品杯材质为石英。

1.3 方法

1.3.1 光谱采集

光谱扫描前将近红外光谱仪开机预热30 min, 以保证样品测定的稳定性。 光谱扫描波数12 500~3 800 cm-1, 扫描分辨率8 cm-1, 扫描次数32。 将样品依次取25 g装入石英样品杯中, 每个样品采集三次光谱, 取其平均光谱作为该样品的光谱进行后续分析。

实验中, 将采集的样品光谱数据分为两个部分, 第一部分为校正集, 随机从8个产地样品中取出, 数量如下: 四川茂汶红花椒14个、 四川汉源红花椒32个、 陕西韩城红花椒39个、 重庆江津青花椒12个、 云南昭通青花椒16个、 四川汉源青花椒16个、 四川金阳青花椒20个、 贵州关岭青花椒15个, 共164个样品。 第二部分为验证集, 为余下的41个样品。

光谱数据采集由近红外光谱仪自带的OPUS7.0软件采集, 操作系统为Win 7.0。

1.3.2 数据分析

1.3.2.1 主成分分析

主成分分析是一种数据降维方法, 它用数量较少的新变量成为原始变量的线性组合, 且尽可能多地表征原变量的数据结构特征, 这些新变量被称为主成分(PCs)[15]。 主成分得分图(score)是经主成分分析降维后得到, 前三个主成分(PC1, PC2和PC3)在得分图上显示了光谱矩阵的主要信息, 相似的样品在得分图上集聚, 反映了样品总体特征的分布情况[16]

1.3.2.2 判别偏最小二乘法

偏最小二乘法(partial least squares, PLS)指将n个样品m个组分的浓度矩阵Y=(yi, j)n× m和仪器测定的n个样品p个波长点处吸光度矩阵X=(xi, j)n× p分解为特征向量形式

Y=UQ+FX=TP+E

其中UT分别为nd列的浓度特征因子矩阵和吸光度特征因子矩阵, Qd× m阶浓度载荷阵, Pd× p阶吸光度载荷阵, FE分别为n× m, n× p阶浓度残差阵和吸光度残差阵。

然后, 建立PLS回归模型

U=TB+Ed

其中Ed为随机误差矩阵, Bd维对角回归系数矩阵。

对未知待测样品, 如果吸光度向量为x, 则其浓度可以求解为

y=x(UX)'BQ

在PLS算法中, 如果用表示类别属性的二进制变量替代矩阵中的浓度变量, 以计算光谱向量与类别向量的相关关系, 称为判别偏最小二乘法[17]Y=(yi, j)n× m改为如下类别矩阵形式

Y=10001000010001000001

其中, Y矩阵每列代表一个样品类别, 混合物中以“ 1” 表示属于此类, 以“ 0” 表示属于其他类, 即yij=1表示第i个样本属于第j类, yij=0表示第i个样本不属于第j类。 建立PLS回归模型并设定类别属性鉴别阈值θ 。 预测时, 对k个未知样品, 根据其光谱矩阵X=(xi, j)n× p, 可求得该模型预测值yk× m, 对yk× m的第i行, 求出其最大值

yi=max(yi1, yi2, , yim)

yi> θ 则认为yi所在的列数j即为第i个样品的所属类别, 反之, 则第i个样品不属于已知的任何类。

1.3.2.3 鉴别指标

定性分析模型的评价指标为鉴别正确率(correct identification rate, CIR), 即正确判断的样品数占全部样品数的百分比。

数据分析在Matlab R2015a (The MathWorks, USA)完成, 操作系统为Win 10.0。

2 结果与讨论
2.1 样本的近红外光谱

图1为花椒样品的原始近红外光谱图, 可以看出原始光谱在波数8 420, 6 750, 5 840, 5 170, 4 700和4 300 cm-1附近有明显吸收峰, 8 420, 5 840和4 300 cm-1处吸收峰可能是由C— H基团的合频、 二倍频和三倍频吸收造成。 因为O— H伸缩振动的二倍频区在6 700 cm-1附近、 H2O的一个合频吸收区在5 155 cm-1附近, 6 750和5 170 cm-1位置的吸收应该是由花椒中水分引起。 此外, 从图中还可以看出, 由于近红外光谱信息重叠严重, 各样品的特征信息很难从峰位等方面直观鉴别。 因此, 必须经过合适的数学方法处理提取特征信息后, 才能利用近红外结合化学计量学方法对花椒样品进行定性分析。

图1 样品的近红外光谱Fig.1 NIR spectra of 205 samples

2.2 主成分分析

在全光谱波长范围内, 对8个产地的花椒样品近红外光谱进行主成分分析, 最佳主成分数为19, 图2反映的是整个花椒样品集中样品点在PC1, PC2及PC3上的聚类, 前3个主成分的方差贡献率分别为92.17%, 4.64%和1.81%, 累计方差贡献率达到98.62%, 故样品在该平面上的投影分布可以充分表征样品在多维空间中的分布特征。 从图2中也可以看出, 对8个产地的样品光谱数据进行主成分分析, 基本可以分开, 在一定程度上反映了与样品品种、 产地相关的信息和特征。 3个红花椒和5个青花椒在距离上明显分开, 说明品种相同其内部品质的差异更小; 四川汉源红花椒和四川茂汶红花椒相距更近, 甚至有重叠, 部分重叠的情况也出现在重庆江津青花椒和四川汉源青花椒的分布上, 这可能是由于地理位置、 气候、 土壤等因素较接近引起。 因此, 仅使用主成分分析不能完全将产地识别, 故在主成分分析的基础上, 还需采用有监督的模式识别方法进行定性分析。

图2 花椒主成分(PC1, PC2, PC3)得分图Fig.2 PCA score (PC1, PC2, PC3) for Huajiao samples

2.3 定性分析模型的建立与检验

利用校正集164个样品的全光谱数据及产地来源, 采用DPLS作为建模算法分别建立花椒产地鉴别的定性分析模型, 基于鉴别的正确率作为评价指标, 比较并选择最佳模型。 为了选择合适的因子数和避免过拟合, 首先采用了校正集的交叉验证, 在交叉验证时, 校正集的其中一个样品被用来检验余下样品所建立的校正模型, 模型被重复直至每一个样品均被检验。 为消除光谱信号的基线漂移和随机噪声, 提高模型的预测准确性和稳定性, 采用了原始光谱(None)、 一阶导数(the first derivative)、 二阶导数(the second derivative)等预处理方法, 为消除样本粒度分布不均匀引起的散射, 采用了散射校正(multiplicative scatter correction, MSC)、 标准正态变换(standard normal variate, SNV)进行光谱预处理, 模型的误判数和识别正确率见表2。 由表2可以看出, 除了“ 一阶导数” 预处理方法的DPLS模型误判数为1以外, 其他预处理方法后的校正集模型交叉验证识别正确率均为100%, 说明利用DPLS方法的模型可以很好地鉴别不同产地的花椒。

表2 不同预处理DPLS定性分析模型交互验证结果 Table 2 Results of calibration set of analysis models with different pretreatments

使用不属于校正集中已训练样品的独立验证集41个样本来检验DPLS模型, 无预处理方法时的验证集预测结果如图3所示, 为了方便对各个产地的花椒进行区分和标识, 图3中将各产地花椒按表1中的序号(1— 8)来表示。 设定± 0.5的阈值, 即将位于值范围0.5~1.5之间的预测值判别为“ 1” , 将位于1.5~2.5之间的预测值判别为“ 2” , 以此类推, 对各个产地的花椒进行识别。 表3为各种光谱预处理下建立的DPLS模型进行检验集验证的结果, 由表可以看出, 不同的预处理方法识别正确率不同, 八种预处理方法的DPLS模型的检验集总体识别正确率在85.37%~97.56%之间, 其中四川茂汶红花椒、 云南昭通青花椒、 四川汉源青花椒和贵州关岭青花椒样本均可以被100%识别, 识别正确率最低的是重庆江津青花椒(验证集样品数为4), 最多时有2个误判数, 识别正确率只有50%, 这可能是由于该产地的样品数量较少引起, 也有可能是由于重庆和四川两地样本距离较近, 花椒生长环境差异小, 产生某些样本识别错误的结果。 总体识别率最高的预处理方法为SNV和MSC, 41个验证集样本总的误判数均只有1个, 识别正确率为97.56%, 采用DPLS建模方法可以较好地鉴别花椒的产地。

图3 验证集DPLS预测值(无预处理)Fig.3 Predicted value of validation set of DPLS analysis model without pretreatment

表3 不同预处理验证集的预测结果 Table 3 Results of validation models with different pretreatments
3 结 论

采用近红外光谱判别花椒产地, 利用DPLS模式识别方法建立定性鉴别模型, 并使用了多种光谱预处理方法, 模型基本能够正确识别8个产地的花椒, 其检测结果较为理想。 近红外光谱技术鉴别花椒产地具有可行性且效果较好, 该方法无需样品预处理, 检测成本低, 为花椒产地的识别及追溯提供了技术支持, 可以有效控制以次充优、 假冒伪劣等掺假手段, 为名优名品花椒、 具有地理标志保护花椒的鉴别提供了简便快捷的检测新思路, 具有广阔的应用前景。

The authors have declared that no competing interests exist.

参考文献
[1] HUANG Cheng-jiu(黄成就). Rutaceae, Dicotyledoneae, Angiospermae. Flora Reipublicae Popularis Sinicae. Vol. 43(中国植物志, 第43卷). Beijing: Science Press(北京: 科学出版社), 1997. 13. [本文引用:1]
[2] ZHENG Dian-sheng, LIU Xu, LI Yu(郑殿升, 刘旭, 黎裕). Journal of Plant Genetic Resources(植物遗传资源学报), 2012, 13(1): 1. [本文引用:1]
[3] LI Li-xin, YANG Tu-xi, WEI An-zhi, et al(李立新, 杨途熙, 魏安智, ). Acta Agriculturae Boreali-Sinica(华北农学报), 2016, 31(5): 122. [本文引用:1]
[4] Negi J S, Bisht V K, Bhand ari A K, et al. African Journal of Pure and Applied Chemistry, 2011, 5(12): 412. [本文引用:1]
[5] YU Xiao-qin, ZHENG Xian-yi, KAN Jian-quan, et al(余晓琴, 郑显义, 阚健全, ). Food Science(食品科学), 2009, 30(15): 45. [本文引用:1]
[6] ZHANG Jing-wen, ZHAO Lei, SHI Bo-lin, et al(张敬文, 赵镭, 史波林, ). West China Journal of Pharmaceutical Sciences(华西药学杂志), 2016, 31(2): 109. [本文引用:1]
[7] Huang S, Zhao L, Zhou X L, et al. Chinese Chemical Letters, 2012, 23(11): 1247. [本文引用:1]
[8] Ito C, Katagiri H, Sato A, et al. Natural Medicines, 1997, 51(3): 249. [本文引用:1]
[9] YANG Zheng, GONG Jing-xin, ZHANG Ling, et al(杨峥, 公敬欣, 张玲, ). Journal of Chinese Institute of Food Science and Technology(中国食品学报), 2014, 14(5): 226. [本文引用:1]
[10] DENG Zhen-yi, SUN Bing-yin, KANG Ke-gong, et al(邓振义, 孙丙寅, 康克功, ). Acta Agriculturae Boreali-Occidentalis Sinica(西北农业学报), 2005, 14(3): 107. [本文引用:1]
[11] Aland er J T, Bochko V, Martinkauppi B, et al. International Journal of Spectroscopy, 2013. 1. [本文引用:1]
[12] WANG Yuan-zhong, ZHAO Yan-li, ZHANG Ji, et al(王元忠, 赵艳丽, 张霁, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(2): 394. [本文引用:1]
[13] WEN Tao, ZHENG Li-zhang, GONG Zhong-liang, et al(文韬, 郑立章, 龚中良, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(16): 293. [本文引用:1]
[14] Marquettia I, Link J V, Lemes A L G, et al. Computers and Electronics in Agriculture, 2016, 121: 313. [本文引用:1]
[15] Luna A S, Da Silva A P, Pinho J S A, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013, 100(12): 115. [本文引用:1]
[16] Teye E, Huang X Y, Lei W, et al. Food Research International, 2014, 55(12): 288. [本文引用:1]
[17] ZHU Shi-ping, LIANG Jing, TU Da-wei, et al(祝诗平, 梁晶, 屠大伟, ). Journal of Southwest University·Natural Science Edition(西南大学学报·自然科学版), 2012, 34(5): 1. [本文引用:1]