基于近、 中红外光谱法融合判定黑果枸杞产地及品质信息
李亚惠1, 李艳肖2,*, 谭伟龙3, 孙晓霞1, 石吉勇1, 邹小波1,*, 张俊俊1, 蒋彩萍1
1.江苏大学食品与生物工程学院, 江苏 镇江 212013
2.江苏大学农业装备工程学院, 江苏 镇江 212013
3.东部战区疾病预防控制中心消毒与媒介生物防治所, 江苏 南京 210000
*通讯联系人 e-mail: 5983459@qq.com; zou_xiaobo@ujs.edu.cn

作者简介: 李亚惠, 1991年生, 江苏大学食品与生物工程学院博士研究生 e-mail: yahui_lee@126.com

摘要

黑果枸杞属药食同源植物, 富含多糖、 蛋白质、 矿物质、 花青素等生物活性物质, 具有清除自由基、 抗氧化、 美容养颜及调节人体免疫系统的作用, 引起国内外研究者的极大关注, 备受消费者的追捧。 我国幅员辽阔, 黑果枸杞的种植主要分布于新疆、 西藏、 内蒙古、 青海、 宁夏等地, 不同产地受海拔、 日照、 环境因素的影响所产黑果枸杞品质也不尽相同。 针对市场上不同产地黑果枸杞产地信息标注混乱, 品质参差不齐而导致市场混乱现象, 利用近、 中红外光谱技术结合化学计量学方法对黑果枸杞的产地品质信息进行区分。 首先对所收集不同产地的5种, 共计190个黑果枸杞样本进行近、 中红外光谱采集及多糖含量的测定, 利用主成分分析(PCA)对所采集的原始数据进行降维处理并采用偏最小二乘-支持向量机(LS-SVM)对其进行定性区分。 结果显示, 经PCA处理后的三维主成分得分图可明显地将黑果枸杞的光谱数据按照产地类型分为5大类, 进一步采用LS-SVM对其进行处理, 得出融合光谱与单一近、 中红外光谱所建LS-SVM模型相比, 融合光谱所建模型的预测能力优于单一一种光谱所建模型的预测能力, 当主成分数为9时, 近、 中红外融合光谱的校正集识别率达到100%, 预测集识别率达到99.17%。 采用联合区间偏最小二乘(Si-PLS)对多糖含量进行定量预测, 结果显示, 近、 中红外光谱融合后建立Si-PLS预测模型的校正集相关系数( Rc)为0.976 9, 交互验证均方根误差(RMSECV)最小为2.08%, 预测集的相关系数( Rt)达到0.967 0, 均方根误差(RMSEP)为2.40%。 另外用15个新的黑果枸杞样本对所建立最佳Si-PLS模型进行验证, 验证模型的 Rt和RMSEP分别为0.947 7和2.57%, 结果证明研究所建最佳Si-PLS模型的鲁棒性好、 精确度高。 结合LS-SVM、 Si-PLS的近、 中红外融合光谱技术, 可以精简、 优化模型, 达到快速、 准确地识别黑果枸杞的产地品质信息的目的。

关键词: 红外光谱; 黑果枸杞; 多糖; 光谱融合; 联合区间偏最小二乘
中图分类号:O657.3 文献标志码:A
Rapid Identification and Evaluation of Lycium Ruthenicum Murr. by Near-Infrared and Fourier Transform Infrared Spectroscopy
LI Ya-hui1, LI Yan-xiao2,*, TAN Wei-long2, SUN Xiao-xia1, SHI Ji-yong1, ZOU Xiao-bo1,*, ZHANG Jun-jun1, JIANG Cai-ping1
1. School of Food and Biological Engineering (Agricultural Product Processing and Storage Lab), Jiangsu University, Zhenjiang 212013, China
2. School of Agricultural Equipment Engineering, Jiangsu University, Zhenjiang 212013, China
3. Department of Vector Control, Huadong Research Institute for Medicine Biotechnics, Nanjing 210000, China
*Corresponding authors
Abstract

Lycium ruthenicum Murr. is a kind of traditional food with abundant nutrition such as polysaccharides, proteins, minerals and anthocyanins. It has a long history used as medicinal and food plants in China, meanwhile it has functions of scavenging free radicals, anti-oxidation, beautifying and regulating the human immune system. Lycium ruthenicum Murr. is mainly distributed in Tibet, Xinjiang, Inner Mongolia, Qinghai and Ningxia and so on. Different kinds Lycium ruthenicum Murr. have different kinds of quality. All of that can be calculated to high altitude, big diurnal amplitude and environmental aspect in different regions. Thereby, with the increase of demand for black Goji berry, there are miscellaneous black Goji berry priced at different price in the market. In order to rapidly and efficiently deter minute geographical origin and categories in Lycium ruthenicum Murr., Near infrared (NIR) and Fourier transform infrared (FTIR) spectroscopy was employed with the help of chemometrics. Five kinds of Lycium ruthenicum Murr. were analyzed. The 175 Lycium ruthenicum Murr. can be classified into 5 groups. Least-squares support vector machine (LS-SVM) was first performed to calibrate the discri mination model to identify the geographical origins and categories of Lycium ruthenicum Murr. LS-SVM model based on the combination of two spectroscopies were superior to those from either FTIR or IR spectra and the recognition rate of LS-SVM reached up to 99.17%, which showed excellent generalization for identification results. Polysaccharide contents were closely related with the quality of Lycium ruthenicum Murr. Synergy interval partial least squares (Si-PLS) was applied to develop the prediction model of polysaccharide contents. The model was optimized by a leave-one-out cross-validation, and its performance was tested according to the root mean square error of the cross validation (RMSECV) and correlation coefficient ( Rc) in the calibration set. Experimental results showed that the optimum results of the Si-PLS model were achieved as follow: RMSECV=2.08%, Rc=0.976 9 and root mean square error of prediction (RMSEP)=2.40%, and correlation coefficient ( Rt)=0.967 0 in the prediction set. Finally, the robustness of the LS-SVM model obtained was checked with the 15 new samples that did not belong to the calibration set. And, the calibration model obtained during the work was applied and the calibration values were compared with the external validation values. Si-PLS model provided RMSEP and Rt were 0.947 7 and 2.57% in external validation The overall results sufficiently demonstrate that the spectroscopy coupled with chemometrics has the potential to distinguish Lycium ruthenicum Murr.

Keyword: Infrared Spectroscopy; Lycium Ruthenicum Murr.; Polysaccharide; Data fusion; Synergy interval partial least squares
引言

黑果枸杞(Lycium Ruthenicum Murr.)属茄科(SoLanceae)枸杞属(Lycium L.)落叶多棘刺多年生灌木, 主要分布于我国新疆、 青海、 甘肃等地, 中亚、 高加索和欧洲皆有零星分布[1]。 黑果枸杞富含花青素、 多糖等活性成分, 其中多糖含量所占比例较高, 是发挥其功能的主要物质, 具有抗氧化、 清除自由基、 延缓衰老等作用, 可用于治疗心热病、 心脏病、 月经不调等[2]。 黑果枸杞的保健及药理作用使得市场上对其需求量急剧增长, 导致不法商贩以次充好、 以假乱真, 用其他产区黑果枸杞冒充青海优产区黑果枸杞, 用外形与黑果枸杞相似、 内部成分却相差甚远的白刺来冒充黑果枸杞, 严重扰乱黑果枸杞市场[3, 4]。 而消费者仅仅从外观上根本无法区分黑果枸杞的产地品质信息, 因此有必要研究黑果枸杞的产地品质区分, 规范黑果枸杞市场。

目前常用的农产品产地品质区分方法主要有外观鉴别法、 生物学方法和光谱学方法。 外观鉴别法主要依赖人工的主观经验, 利用肉眼获取外观特征信息, 用手、 口等获取组织信息, 凭借经验进行区分[5]。 生物学方法主要利用样品的蛋白质信息或者DNA序列在物种内具有特异性和种间性对物种进行鉴定[6]。 外观鉴别法主要凭借个人经验, 主观性强, 鉴别准确性差; 生物学方法可以鉴定到种, 但是程序复杂、 成本高, 难以准确区分其产地信息。 本研究采用操作简单、 精确度高的光谱技术, 利用不同物质中各基团特征吸收波长的差异, 将不同产地的同种产品加以区分, 实现对黑果枸杞的快速、 无损检测[7, 8]

1 实验部分
1.1 试验材料

样品: 青海野生黑果枸杞35粒, 青海人工种植黑果枸杞35粒, 新疆优等黑果枸杞35粒, 新疆次等黑果枸杞35粒, 青海白刺35粒, 另额外随机选取5个产地黑果枸杞共15粒。

主要试剂与设备: 浓硫酸、 浓盐酸、 苯酚、 葡萄糖、 乙醇, 均为分析纯, 购自中国国药集团化学试剂有限公司。 多功能酶标仪(瑞士, Tecan Infinite PRO TWIN 200), 旋转蒸发器(南通普瑞仪器科技有限公司), 循环水多用真空泵(郑州紫拓仪器设备有限公司), 天平(美国, SARTORIUS), Antarisn II型近红外光谱仪(美国, Thermo Fisher), Nicolet is50傅里叶变换红外光谱仪(美国, Nicolet)。

1.2 黑果枸杞多糖的测定

首先, 将黑果枸杞置于在干燥箱内1~2 d, 至其脱水恒重, 再参照汪河滨[9]方法最终制得黑果枸杞多糖粉末; 其次, 采用苯酚-硫酸法比色测定糖含量[10], 参照文献方法制定标准曲线; 最终, 根据式(1)和式(2)计算出多糖得率。

换算因子f

f=WcD(1)

多糖含量(%)=cDfW×100(2)

式中, W为供试样本多糖的重量(mg); c为供试液中葡萄糖浓度(mg· mL-1); D为多糖的稀释因素(mL)。

1.3 光谱采集

光谱采集前, 将黑果枸杞置于干燥箱1~2天脱水至恒重。 采用积分球漫反射采样方式采集近红外光谱信息, TE-InGaAs检测器, 波数范围10 000~4 000 cm-1, 扫描次数为32次; 分辨率为8 cm-1, 波数间隔为3.853 6 cm-1; 同时采用衰减全反射ATR附件采集中红外光谱信息, 波数范围4 000~600 cm-1, 扫描次数32, 分辨率4 cm-1; 数据采集过程中, 保持室内温度、 湿度基本不变。

1.4 光谱预处理

光谱信息易受高频随机噪声、 基线漂移、 样本本身和光散射等影响, 需对原始光谱进行预处理, 减少这些因素干扰[11, 12]。 采用Matlab R2013 软件对所采集的样品原始光谱数据进行标准正态变量变换(standard normal variable transformation, SNV)预处理, 图1(a, b)分别为经SNV预处理之后的红外与中红外光谱图。

图1 SNV预处理后的黑果枸杞近红外光谱图(a)和中红外光谱图(b)Fig.1 SNV spectra of Lycium Ruthenicum Murr. gathered by NIR (a) IR (b)

1.5 数据处理与模型评价

主成分分析(principal component analysis, PCA)是一种多元数据统计处理方法, 可对光谱数据进行压缩, 消除众多信息中共存、 重叠的部分。 经PCA处理后的新变量是互不相关的, 使少数的变量可替代原有变量信息, 在不丢失有用信息的前提下保留原光谱数据特征。

偏最小二乘-支持向量机(least-squares support vector machine, LS-SVM)建立在VC(vapnik-chervonenkis dimension)维理论和结构风险最小化原理基础之上, 对于VC维, 其值越大推广能力越差, 风险越大, 降低VC维会降低置信风险, 提高分类的准确性。 通过核函数将数据从原始特征空间映射到高维特征空间, 使线性内积运算非线性化, 在特征空间建立使分类间隔最大化的最优超平面, 并基于此实现对未知样本的判别[13]

联合区间偏最小二乘(synergy interval partial least squares, Si-PLS)是建立在常规区间偏最小二乘法基础上的一种谱区筛选方法, 它将同一次区间划分中精度较高的几个局部模型所在的子区间联合起来, 得到相关系数最大且误差最小一个组合区间, 共同预测农产品品质指标。

2 结果与讨论
2.1 黑果枸杞多糖含量

随机选取120个样本为校正集样本, 剩余的55个样本为预测集样本。 由表1可知, 不同产地黑果枸杞多糖含量具有明显差异; 新疆优等黑果枸杞的多糖含量平均值最高为28.10%, 这归因于新疆地区日照强、 昼夜温差大有助于糖分的积累; 校正集黑果枸杞多糖含量为1.90%~36.23%, 变化范围大于预测集黑果枸杞的多糖含量变化范围(1.90%~29.21%), 表明黑果枸杞样品校正集所建立的模型能较好地适用于预测集样品。

表1 黑果枸杞多糖含量(%) Table 1 The Polysaccharide contents (%) of Lycium Ruthenicum Murr.
2.2 不同产地黑果枸杞的主成分分析

图2(a)和(b)分别为5种黑果枸杞近、 中红外光谱的三维主成分得分图, 可以看出, 黑果枸杞可明显聚为5类。 新疆优等、 次等黑果枸杞产地相同但等级差异较大, 体现在外形、 颜色和内部成分上差异大, 经PCA处理后可明显区分; 青海野生、 人工种植黑枸杞生长环境相似, 则化学成分相似, 经PCA处理后两者在空间上可明显区分, 同时又有小部分交叉; 白刺外形与黑果枸杞相似但化学成分差异巨大, 经PCA处理后单独聚为一类。 总体而言5类黑果枸杞可明显区分但又有部分交叉, 需要进一步运用化学计量学方法对其进行建模区分。

图2 黑果枸杞近红外光谱(a)和中红外光谱(b)主成分分析三维得分图及融合光谱LS-SVM结果图(c)Fig.2 Score cluster plot of Lycium Ruthenicum Murr. gathered by NIR (a) IR (b) and Discrimination rates of LS-SVM models (c) after data fusion

2.3 LS-SVM模型的建立及预测结果

经PCA处理后, 取前10个主成分所对应的光谱信息作为输入变量, 采用交叉验证法与网格搜索法对参数进行寻优计算, 以均方根误差最小来确定最优(γ , σ 2)组合。 由表2可知, 融合光谱所建LS-SVM模型识别率高于单一一种光谱模型的识别率分别为100.00%和99.17%, 最佳主成分数为9, 最佳参数(γ , σ 2)为(9.506 48, 35.100 4)。 图2(c)为融合光谱LS-SVM模型各主成分下识别率, 取前9个主成分时可很好地对黑果枸杞进行正确识别, 确定为最优模型。

表2 近、 中红外光谱LS-SVM识别模型结果 Table 2 Discrimination rates of LS-SVM models
2.4 Si-PLS模型的建立及预测结果

为了避免全光谱中存在的大量共线和无关变量, 采用联合区间偏最小二乘(Si-PLS)从全波段中筛选出与多糖最相关的特征谱区, 以提高模型的可靠性。 Si-PLS将整个光谱区域分别划分为10, 11, …, 30个子区间, 再分别联合2, 3和4个子区间进行建模, 对比各模型得到的交互验证均方根误差(root mean square error of the cross validation, RMSECV), 发现基于融合光谱联合4个子区间建立模型时, 相关系数(correlation coefficient, Rc)达到0.976 9, RMSECV最小为2.08%, 效果最优, 详细结果见表3。 采用最佳4个联合子区间建立Si-PLS模型结果见图3(a), 预测集的相关系数(correlation coefficient, Rt)达到0.967 0, 均方根误差(root mean square error of prediction, RMSEP)为2.40%, 表明Si-PLS模型可以达到较准确预测黑果枸杞多糖含量的目的。

图3 黑果枸杞校正集和预测集(a)、 验证集(b)的Si-PLS模型散点图Fig.3 Calibration versus prediction by Si-PLS in calibration set (a) and External validation (b)

2.5 不同光谱模型的比较

表2表3可知, 中红外光谱模型精度略优于近红外光谱, 主要原因是中红外光谱反映的是分子振动的基频信息, 敏感性比近红外光谱高几个数量级, 吸收峰尖锐, 重叠峰少, 有更多特征吸收峰, 建模效果更好[14]; 融合光谱建立的LS-SVM、 Si-PLS模型与单独光谱建立模型相比, 模型精度更高, 主要原因在于两种光谱融合后扩大信息来源, 获取更多有效信息, 模型的准确性和稳健性都有所提高。

表3 Si-PLS子区间优选结果 Table 3 Discrimination rates of Si-PLS models
2.6 融合光谱判定黑果枸杞品质信息的验证

基于上述所选黑果枸杞多糖含量的最佳模型, 重新选取同批次黑果枸杞样本, 对其进行多糖含量和光谱信息的采集, 将所测光谱信息带入最佳融合光谱模型以验证所建立最佳预测模型的准确性和鲁棒性。 模型的验证结果如图3(a, b)所示, 新样本的预测值与实测值之间RMSEP和Rt分别为2.57%和0.947 7均方根误差小, 相关性好, 表明联合[11 19 21 23]子区间建立的融合光谱黑果枸杞中多糖含量最佳模型准确性高, 鲁棒性好。

3 结论

利用近、 中红外光谱仪采集不同产地、 不同品质黑果枸杞的光谱信息, 测定黑果枸杞多糖含量作为品质指标。 试验结果表明, 融合后的近、 中红外光谱, 扩大了信息来源、 有用信息更丰富、 增强了容错性, 所建立的LS-SVM和Si-PLS模型准确度优于单一光谱模型准确度。 采用近、 中红外融合光谱联合LS-SVM建立模型对黑果枸杞进行定性分析, 当主成分数为9时, 模型的校正集识别率达到100%, 预测集识别率达到99.17%; 利用Si-PLS将近、 中红外融合光谱的全光谱分为24个子区间, 在主成分数为10, 联合[11 19 21 23]4个子区间建立模型, 筛选出最优变量, 模型的相关系数达到0.976 9, RMSECV为2.08%; 同批次新样本验证所建立最佳融合光谱模型的结果表明, 预测值与实测值之间RMSEP和Rt分别为2.57%和0.947 7, 均方根误差小, 相关性好, 所选融合光谱最佳预测模型的准确性高, 鲁棒性好, 可完全满足红外光谱技术对黑果枸杞产地及品质检测的要求。

参考文献
[1] LIN Li, ZHANG Pei-si, JIN Ling, et al(林丽, 张裴斯, 晋玲, ). China Pharmacy(中国药房), 2013, (47): 4493. [本文引用:1]
[2] Li Yahui, Zou Xiaobo, Shen Tingting, et al. Food Analytical Methods, 2016, 10(4): 1. [本文引用:1]
[3] GU Xuan, ZHANG Xiao-qin, SONG Xiao-na, et al(顾选, 张晓芹, 宋晓娜, ). Chinese Materia Medica(中国中药杂志), 2014, (24): 4759. [本文引用:1]
[4] LOU Tao-tao, TUO Yang-ling, JIN Ling, et al(娄涛涛, 陀扬凌, 金玲, ). China Pharmacy(中国药房), 2016, (9): 1245. [本文引用:1]
[5] SHI Ji-yong, ZOU Xiao-bo, ZHAO Jie-wen, et al(石吉勇, 邹小波, 赵杰文, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2015, (7): 210. [本文引用:1]
[6] Dong-mei, HUANG Yuan, WEN Hui, et al(吕冬梅, 黄原, 文慧, ). Food Science(食品科学), 2015, (9): 248. [本文引用:1]
[7] GONG Xiao-yu, QIU Shuang-feng, PENG Wei, et al(巩晓宇, 邱双凤, 彭炜, ). Evaluation and Analysis of Drug-Use in Hospitals of China(中国医院用药评价与分析), 2016, (7): 883. [本文引用:1]
[8] Shi Jiyong, Zhang Fang, Wu Shengbin, et al. Food Chemistry, 2019, (274): 925. [本文引用:1]
[9] WANG He-bin, BAI Hong-jin, WANG Jin-lei(汪河滨, 白红进, 王金磊). Acta Agriculturae Boreali-Occidentalis Sinica(西北农业学报), 2007, (1): 157, 175. [本文引用:1]
[10] WANG Jian-hong, CHEN Xiao-qin, YUAN Hui(汪建红, 陈晓琴, 原惠). Journal of Xinjiang Normal University(新疆师范大学学报), 2009, (3): 78, 91. [本文引用:1]
[11] SHI ji-yong, HU Xue-tao, ZHU Yao-di, et al(石吉勇, 胡雪桃, 朱瑶迪, 等). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2016, (2): 245. [本文引用:1]
[12] Shi Jiyong, Hu Xuetao, Zou Xiaobo, et al. Food Chemistry, 2017, (229): 235. [本文引用:1]
[13] LIANG Long, FANG Gui-gan, WU Ting, et al(梁龙, 房桂干, 吴珽, ). Journal of Instrumental Analysis(分析测试学报), 2016, (1): 101. [本文引用:1]
[14] Huang Lin, Zhao Jiewen, Chen Quansheng, et al. Food Chemistry, 2014, 145(7): 228. [本文引用:1]