近红外光谱技术快速检测莲子粉
付才力1, 李颖1, 陈荔凡1, 汪少芸1, 王武2,*
1. 福州大学生物科学与工程学院, 福建 福州 350116
2. 福州大学电气工程与自动化学院, 福建 福州 350116
*通讯联系人 e-mail: wangwu@fzu.edu.cn

作者简介: 付才力, 1978年生, 福州大学生物科学与工程学院副研究员 e-mail: caili_fu@hotmail.com

摘要

莲子是我国重要的药食同源食物, 与莲子营养价值相当、 便于食用的莲子粉备受消费者青睐。 为保证莲子粉的品质, 利用近红外光谱(NIRs)技术对掺杂小麦粉、 玉米粉和地瓜粉的莲子粉进行鉴定, 在样品类别已知下利用支持向量机(SVM)、 最小二乘支持向量机(LS-SVM)、 偏最小二乘法-判别分析(PLS-DA)模型进行判别, 在样品类别未知下基于聚类算法进行判别。 同时, 对莲子粉中水分含量利用偏最小二乘(PLS)回归进行定量分析。 结果表明, LS-SVM模型对纯莲子粉样品与掺入小麦粉、 玉米粉和地瓜粉的莲子粉样品的判别率达到100%; 基于聚类算法能够有效识别掺入5%地瓜粉、 小麦粉和玉米粉的莲子粉样品; PLS模型对莲子粉中水分含量预测综合性能良好, 其中经过标准化预处理得到模型效果最佳, 其Rc2, RMSEC,Rp2和RMSEP分别达到0.973 2, 0.111 5, 0.969 5和0.118 9。 近红外光谱技术能为隐蔽的莲子粉掺杂的鉴别以及莲子粉中水分含量监控提供一种快速、 准确、 无损检测的分析方法, 为保证高档次莲子品质提供一种有益的思路。

关键词: 莲子粉; 近红外光谱; 偏最小二乘; 最小二乘支持向量机; 聚类算法
中图分类号:O657.33 文献标志码:A
Rapid Detection of Lotus Seed Powder Based on Near Infrared Spectrum Technology
FU Cai-li1, LI Ying1, CHEN Li-fan1, WANG Shao-yun1, WANG Wu2,*
1. College of Biological Science and Engineering, Fuzhou University, Fuzhou 350116, China
2. College of Electrical Engineering and Automation, Fuzhou University, Fuzhou 350116, China
Abstract

Lotus seed is an important medicine and edible food, but to dry lotus seeds cook requires a long time, so lotus seed powder is more popular by consumers to adapt to the modern fast-paced way of life. In this paper, lotus seed powder adulterated with sweet potato powder, corn flour and wheat flour were identified by near infrared spectroscopy (NIRs) technique. Support vector machine (SVM), least squares support vector machine (LS-SVM) and partial least squares discriminate analysis (PLS-DA) were used to identify the model when thecategory was known, and the clustering algorithm was usedotherwise. In addition, the moisture content of lotus seeds powder was quantitatively analyzed by partial least squares (PLS) regression. The results showed that the discrimination accuracy of LS-SVM modelis 100%, and the clustering algorithm could effectively identify the 5% adulteration ofsweet potato powder, corn flour and wheat flour. Moreover, performance of PLS model to predict the moisture content in the lotus seed powder is good, and the accuracy of model by Normalize was satisfactory with the coefficients of determination of calibration (Rc2=0.973 2), the coefficients of determination of prediction (Rp2=0.969 5), root mean square errors of calibration (RMSEC=0.111 5), and good root mean square errors of prediction (RMSEP=0.118 9). The results showed that the near infrared spectroscopy is a fast, accurate and nondestructive analysis method to rapidly identify the lotus seed powder, accurately determinate the water content in lotus seed powder, and availably provide a useful idea for quality testing of daily food.

Keyword: Lotus seed powder; Near infrared spectroscopy; Partial least squares; Least squares support vector machine; Clustering algorithm

引 言

莲子在中国有着3 000多年的文化历史, 被中国卫生部列为我国重要的药食同源食物。 莲子不仅富含蛋白质, 碳水化合物和脂肪, 而且还含有大量的微量元素, 包括钙, 磷, 铁, 维生素VB, VC和VE[1]。 此外, 莲子核含有生物碱, 如非结晶生物碱N-9, 留丝氨酸以及生物活性成分, 包括芦丁、 金丝桃苷和类黄酮等[2]。 现代药理学研究表明, 莲子具抗氧化、 镇静、 抗衰老等功能[3, 4, 5, 6, 7]。 但由于干莲子煮制时间长, 为适应现代快节奏生活方式, 营养价值相当、 便于食用的莲子粉备受消费者青睐。

莲子粉的品质保证主要有问题: 一是在利益驱动下, 存在隐蔽的掺杂问题, 例如面粉、 地瓜粉等掺入莲子粉以降低成本, 有效检测莲子粉掺杂问题对维护消费者权益具有重要意义; 二是食品的保存, 莲子粉中主要成分是淀粉[7], 淀粉易受潮霉变, 控制水分含量对于保持莲子粉品质、 防腐变质起重要作用。

近红外光谱(near infrared spectrum, NIRs)通过检测含氢基团(— CH, — OH, — NH, — SH)的振动组合频与倍频的吸收, 具有无需预处理、 检测速度快、 效率高等优点。 近年来, 近红外光谱技术已在多个领域得到广泛应用, 是鉴别掺杂问题的有效手段, 并能够有效预测相关组分的含量[8, 9, 10, 11, 12]。 利用近红外光谱技术检测莲子粉的研究报道不多。

利用NIRs对莲子粉实现以下两部分鉴别: (1)对掺杂小麦粉、 玉米粉和地瓜粉的莲子粉进行鉴定, 在类别已知下, 运用支持向量机(support vector machine, SVM)、 最小二乘支持向量机(least squares support vector machine, LS-SVM)、 偏最小二乘法-判别分析(partial least squares discriminate analysis, PLS-DA)模型进行判别; 在未知类别下, 运用聚类算法进行判别; (2)对莲子粉中水分含量进行定量分析。 旨在为隐蔽的莲子粉掺杂的鉴别以及莲子粉中水分含量监控提供一种快速、 准确、 无损检测的分析方法。

1 实验部分
1.1 样品制备

从市场上采购方家铺子、 金唐、 五分文、 八荒等品牌的干莲子40份(其中湘莲(XL)20份、 建莲(JL)20份)。 每个样品利用超微粉碎机粉碎, 过60目筛网, 编号, 并置于干燥器中密封保存。 (1)掺杂样品的制备: 小麦粉、 玉米粉和地瓜粉购于当地的永辉超市, 将上述磨粉的莲子样品掺入5%~25%不等的小麦粉、 玉米粉和地瓜粉, 每个样品平行10份, 共计150份样品, 充分混匀备用。 (2)莲子粉中水分含量测定方法: 采集上述40份莲子粉末样品, 根据GB 5009.3— 2010测定莲子粉中水分含量, 所测结果见表1

表1 水分含量分布统计 Table 1 The distribution statistics of moisture content
1.2 光谱数据的采集

实验采用Thermo公司生产的ANTARISⅡ 型傅里叶变换近红外光谱分析仪, 配有高灵敏度InGaAs检测器、 内置自动金箔背景采集方式和配置样品杯旋转器及石英样品杯积分球系统, 扫描范围为4 000~10 000 cm-1, 分辨率为8 cm-1, 扫描32次。 在室温下测定, 用空气作为测量背景, 空气湿度为60%。 每个样品采集3条光谱, 在Matlab (R2013b)上编写程序对光谱数据进行分析。

1.3 模型建立

1.3.1 定性分析模型建立

在类别已知下, 为实现莲子粉和掺杂莲子粉有效区分, 运用SVM, LS-SVM和PLS-DA模型进行鉴别。 PLS-DA是一种用于判别分析的多变量统计分析方法, 其所需样本数少, 并可减少变量间多重共线性产生的影响。 SVM是建立在统计学习理论的VC维理论和结构风险最小原理的基础上, 根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中, 在机器学习中, SVM可以分析数据, 识别模式, 用于分类和回归分析[13]。 LS-SVM将PLS和SVM相结合, 能有效的描述数据之间的复杂非线性特征, 且对数据样本的依赖性小。 此外, 标准SVM需要求解一个二次函数的最优化问题, 而LS-SVM 将原SVM建模优化问题转化为线性方程组的求解问题, 各取所长, 不仅降低模型运行的复杂程度, 而且提高模型的泛化能力。

若是样品类别未知, 采用聚类算法进行判别分析。 Rodriguez等[14]于2014年为聚类算法提供一种新的思路, 能够实现聚类中心自动确定, 该聚类算法基于两个假设: (1)聚类中心点的局部密度高于附近邻居点, 聚类中心点被具有较低局部密度的邻居点包围, 并且不同的聚类中心点有较大的距离; (2)噪声点具有较大的距离和相应较小的局部密度ρ

设聚类的数据集合D=(X1, X2, …, Xn), 对于要处理的数据Xi都需要计算局部密度ρ i和距离δ i。 其中任意数据Xi的局部密度ρ i的计算有两种, 分别如式(1)和式(2)

Cut⁃offkernel:ρi=jχ(dij-dc)χ(x)=1, x< 0; 0, x0; (1)Gaussiankernel: ρi=je-(dijdc)(2)

对于任意的数据Xi, 计算到具有更高局部密度的其他数据对象的最小距离δ i的公式为

δi=minj:ρj> ρi(dij)(3)

对于数据集合D=(X1, X2, …, Xn), 每一个数据点Xi获取对应的局部密度ρ i和距离δ i, 以ρ 为横轴和δ 为纵轴对应的二维图称为决策图。 拥有较大的ρ δ 为聚类中心, 而有较小的ρ 和有较大的δ 是原始数据的离群点。

1.3.2 定量分析模型建立

偏最小二乘(partial least squares, PLS)回归是最常用的定量分析方法, 以往, 模型式的方法和认识性的方法之间的界限分得十分清楚。 而偏最小二乘则把两者结合, 实现回归建模和数据结构简化[15]。 为了更好且直观地评价模型的泛化能力, 采用校正均方根误差(root mean squared error of calibration, RMSEC)、 预测均方根误差(root mean square errors of prediction, RMSEP)、 校正相关系数(correlation coefficient of calibration, Rc2)、 预测相关系数(correlation coefficient of prediction, Rp2)作为模型的评价指标。

2 结果与讨论
2.1 定性分析

2.1.1 光谱分析

图1为在4 000~10 000 cm-1范围莲子粉掺杂地瓜粉、 玉米粉和小麦粉的原始光谱。 其中, 在4 453 cm-1处的吸收带是C— H组合和O— H倍频, 而在约4 300~4 320 cm-1处的吸收带由亚甲基中的C— H组合频, 5 200~6 000 cm-1为C— H的倍频吸收, 6 000~7 000 cm-1为O— H或N— H二级倍频, 8 300 cm-1为各组中C— H拉伸三级倍频[16, 17]。 从图中可以看出, 不同掺杂类型的四类样品的峰位置和峰强度相似性很高。 将纯莲子粉样品与掺入5%~25%不等的小麦粉、 玉米粉和地瓜粉分别记为Classes1, Classes2, Classes3和Classes4, 利用主成分分析法初步分析, 从图2三维主成分分布图中可以看出, 不同掺假的莲子分别分布于不同的区域, 说明利用近红外光谱技术结合化学计量学方法鉴别莲子掺假是可行的。

图1 莲子粉掺杂地瓜粉、 玉米粉和小麦粉的近红外光谱图Fig.1 NIR spectra of lotus seed powder adulterated with sweet potato powder, corn flour and wheat flour

图2 样品主成分分析得分分布图Fig.2 The score plot of the principal component analysis

2.1.2 莲子掺杂模型分析

在样品类别已知为四类下, 为实现莲子粉和掺杂莲子粉的有效区分, 运用SVM, LS-SVM和PLS-DA模型进行鉴别, 从表2可以看出, 三种模型中, LS-SVM模型的效果最佳, 对纯莲子粉样品与掺入小麦粉、 玉米粉和地瓜粉的莲子粉样品的判别率达到100%, 说明利用近红外光谱技术结合LS-SVM可以实现莲子粉掺假的有效判别, 在一定程度上简化标准SVM的建模过程, 加快收敛速度, 并降低模型运行时的复杂程度, 提高模型的泛化能力。

表2 莲子粉掺杂地瓜粉、 玉米粉和小麦粉的判别结果 Table 2 The results of lotus seed powder adulterated with sweet potato powder, corn flour and wheat flour by three discriminant analysis models

上述模型是建立在已知类别的基础上, 若掺杂的类别未知, 对莲子粉样品采用聚类算法判别, 通过分析样品的偏差度, 实现莲子粉鉴定。 在算法中拥有较大的ρ δ 为聚类中心, 而有较小的ρ 和有较大的δ 是原始数据的离群点。 从图3可知, 单一莲子样品中, 仅有一个聚类中心具有较大ρ δ 值, 说明样本偏差度小, 判别结果相对准确, 而对于掺入5%地瓜、 小麦和玉米粉的莲子粉样品, 在决策图中可以明显看出具有两个聚类中心点, 说明样品内部存在偏差, 与莲子样本的决策图存在差异, 说明样品之间差异较大。 因此, 通过该聚类算法, 可有效鉴别莲子粉的品质问题。

图3 聚类算法决策图
(a): 纯莲子粉; (b): 莲子粉掺杂5%地瓜粉; (c): 莲子粉掺杂5%小麦粉; (d): 莲子粉掺杂5%玉米粉
Fig.3 The decision diagram of clustering algorithm
(a): Pure lotus seed powder; (b): Lotus seed powder adulterated with 5% sweet potatopowder; (c): Lotus seed powder adulterated with 5% wheatmeal; (d): Lotus seed powder adulterated with 5% corn flour

图4 PLS模型在不同预处理下预测值和真实值分布
(a): Raw; (b): MSC; (c): SNV; (d): Nor; (e): SG-FD; (f): SG-SD
Fig.4 Scatter plots of measured values and predicted values of PLS model by different pretreatments
(a): Raw; (b): MSC; (c): SNV; (d): Nor; (e): SG-FD; (f): SG-SD

2.2 基于PLS模型的莲子粉水分含量检测

在原始光谱波段区间4 000~10 000 cm-1利用PLSR建立模型, 采用留一交互检验法(leave-one-out cross validitioon)确定最佳的因子数。 为了从光谱图中提取与化学组成相关的信息, 消除样品中与浓度无关的其他影响因素的干扰, 采用合适的光谱预处理方法对于建立可靠、 稳定模型至关重要。 运用以下5种预处理方法: 多元散射校正(multiplicative scatter correction, MSC), 标准正态变量变换(standard normal variate, SNV), SG卷积平滑一阶(savitzky-golay first-derivative, SG-FD), SG卷积平滑二阶(savitzky-golay second-derivative, SG-SD), 标准化(normalize)等对光谱进行预处理。

表3可以看出, 不同预处理下PLS模型的最佳因子数分别是12, 16, 16, 17, 3和3, 在此基础上建立PLS回归模型。 其中经过标准化预处理得到模型效果最佳, Rc2, RMSEC, Rp2和RMSEP分别达到0.973 2, 0.111 5, 0. 969 5和0.118 9。 结果表明, 利用近红外光谱技术结合PLS模型可以实现莲子粉中水分含量的快速、 准确测定。

表3 不同预处理下莲子粉PLS模型结果 Table 3 The PLS model of lotus seed powder by different pretreatments
3 结 论

通过收集样品在4 000~10 000 cm-1的近红外图谱, 并利用化学计量学方法对图谱进行分析。 结果表明, 在样品类别已知下, LS-SVM模型对纯莲子粉样品与掺入小麦粉、 玉米粉和地瓜粉的莲子粉样品判别率达到100%; 在样品类别未知下, 基于聚类算法能够有效识别掺入5%地瓜粉、 小麦粉和玉米粉的莲子粉样品; 同时, 对莲子粉中水分含量利用PLS回归进行定量分析, PLS模型对莲子粉中水分含量预测综合性能良好, 其中 Rc2, RMSEC, Rp2和RMSEP分别达到0.973 2, 0.111 5, 0. 969 5和0.118 9。 研究表明, 近红外光谱技术能实现莲子粉中水分含量的快速、 准确测定, 同时为隐蔽的莲子粉掺杂问题鉴别提供一种快速、 高效、 无损检测的分析方法, 对市场的产品掺杂检测上给予一定的指导价值。

The authors have declared that no competing interests exist.

参考文献
[1] Wu J Z, Zheng Y B, Chen T Q, et al. Food Chemistry, 2007, 105: 540. [本文引用:1]
[2] Bhat R, Sridhar K R. Food Chemistry, 2008, 107: 174. [本文引用:1]
[3] Kim M J, Shin H S. Food Science and Biotechnology, 2012, 21: 1761. [本文引用:1]
[4] Xu L, Fu HY, Cai CB, et al. Journal of Analytical Methods in Chemistry, 2014, 2015: 345352. [本文引用:1]
[5] Yen G C, Duh P D, Su H J. Food Chemistry, 2005, 89: 379. [本文引用:1]
[6] Yen G C, Duh P D, Su H J, et al. Food Chemistry, 2006, 94: 596. [本文引用:1]
[7] ZHENG Bao-dong, ZHENG Jin-gui, ZENG Shao-xiao (郑宝东, 郑金贵, 曾绍校). Acta Nutrimenta Sinica(营养学报), 2003, 25(2): 153. [本文引用:2]
[8] Shen F, Yang D, Ying Y, et al. Food and Bioprocess Technology, 2012, 5: 786. [本文引用:1]
[9] Zontov Y V, Balyklova K S, Titova A V, et al. Journal of Pharmaceutical & Biomedical Analysis, 2016, 131: 87. [本文引用:1]
[10] Zhang L G, Zhang X, Ni L J, et al. Food Chemistry, 2014, 145: 342. [本文引用:1]
[11] Márquez C, López M I, Ruisánchez I, et al. Talanta, 2016, 161: 80. [本文引用:1]
[12] Chen L, Xue X, Ye Z, et al. Journal of Food Chemistry, 2011, 128: 1110. [本文引用:1]
[13] Ukil A. Computer Science, 2002, 1: 1. [本文引用:1]
[14] Rodriguez A, Laio A. Science, 2014, 344: 1492. [本文引用:1]
[15] Esposito V V, Russoliuo G. Wiley Interdisciplinary Reviews: Computational Statistics, 2013, 5: 1. [本文引用:1]
[16] Workman J, Weyer L. Practical Guide to Interpretive Near-Infrared Spectroscopy, CRC Press, 2007. 310. [本文引用:1]
[17] Xu L, Shi P T, Ye Z H, et al. Food Chemistry, 2013, 141: 2434. [本文引用:1]