基于LS-SVM和THz光谱技术的面粉中苯甲酸检测研究
胡军, 刘燕德*, 孙旭东, 欧阳爱国, 蔡会周, 刘洪量
华东交通大学机电与车辆工程学院, 江西 南昌 330013
*通讯联系人 e-mail: jxliuyd@163.com

作者简介: 胡 军, 1992年生, 华东交通大学机电与车辆工程学院博士研究生, 教师 e-mail: 1825868002@qq.com

摘要

面粉(小麦粉)是中国北方大部分地区的主食, 苯甲酸是重要的酸型食品防腐剂, 为了便于食品长期保存, 往往会添加苯甲酸以便延长食品保存时间。 但食用添加苯甲酸过量的小麦粉会对身体健康产生严重危害。 太赫兹技术是一种新兴的检测技术, 由于处于特殊的0.1~10 THz的太赫兹频段, 在食品安全检测方面体现出了很强的应用潜力。 主要致力于探索太赫兹光谱技术检测苯甲酸的合理性、 可行性, 利用太赫兹时域光谱技术对面粉中的食品添加剂苯甲酸进行实验研究。 实验获取了面粉和苯甲酸的太赫兹时域光谱和频域光谱, 其吸收系数显示苯甲酸的特征吸收峰在1.94 THz波段, 面粉的太赫兹吸收系数几乎以一定的斜率增加, 说明可以用THz-TDS(Terahertz time domain spectrum)技术对面粉中的苯甲酸进行特征识别。 为建立面粉中添加剂苯甲酸的定量检测模型, 实验获取了面粉中掺杂不同百分比(质量分数)苯甲酸的太赫兹时域光谱, 计算得到吸收系数谱。 实验发现吸收峰幅度的变化是与苯甲酸的含量成正比的, 苯甲酸含量增加吸收峰幅度变大。 首先探索了不同光谱预处理方法对太赫兹光谱的影响, 采用如平滑校正、 多元散射校正、 基线校正和归一化等方法对原始光谱进行校正处理。 校正之后, 建立相应的PLS (partial least squares)模型以选择最优预处理方法。 然后分别建立苯甲酸浓度和太赫兹吸收系数的MLR (multiple linear regression)、 PLS和LS-SVM(partial least squares support vector machines)回归模型, 并对比分析不同模型的优劣。 将光谱数据归一化后建立的PLS模型更具有优势, 预测相关系数 Rp为0.979, 预测均方根误差RMSEP为1.30%。 LS-SVM与PLS和MLR模型相比, LS-SVM模型可以获得更好的建模结果, LS-SVM的预测相关系数 Rp为0.987, 预测均方根误差RMSEP为1.10%。 利用MLR方法仅使用1.946和1.869 THz两个波段点进行建模, 建模效果预测相关系数 Rp为0.955, 预测均方根误差RMSEP为1.90%。 通过该研究为面粉中苯甲酸添加剂的无损检测提供了新的解决方案, 也为其他类型的添加剂的检测提供了方法指导, 对促进面粉行业的健康发展具有重要的意义。

关键词: 面粉; 太赫兹光谱; 偏最小二乘支持向量机; 苯甲酸; 波段比
中图分类号:O439;O433.4 文献标志码:A
Quantitative Determination of Benzoic Acid in Flour Based on Terahertz Time-Domain Spectroscopy and LS-SVM
HU Jun, LIU Yan-de*, SUN Xu-dong, OUYANG Ai-guo, CAI Hui-zhou, LIU Hong-liang
School of Mechatronics Engineering, East China Jiaotong University, Nanchang 330013, China
*Corresponding author
Abstract

With the further development of terahertz technology, terahertz has shown its unique advantages in food safety detection. Flour (wheat flour) is the staple food in most areas of northern China. Besides, benzoic acid(BA), as the important preservative of acid food, is often added to extend the preservation time of food. However, the excessive use of food additives would cause serious damage to human health. This paper explores the feasibility of detecting food additives through terahertz technology and conducts empirical study on benzoic acid in flour by terahertz time-domain spectroscopy (THz-TDS) technology. The terahertz time-domain and frequency domain spectrum of the mixed samples (flour and benzoic acid) were obtained. As shown by absorption coefficients, benzoic acid presented obvious absorption peak at 1.94 THz. Meanwhile, the absorption coefficient of flour increased at a certain slope, which indicated that the characteristic identification of benzoic acid in flour could be carried out by terahertz technology. In order to establish the quantitative detection model of benzoic acid additive in flour, terahertz time-domain spectra of benzoic acid doped with different percentages (mass fraction) in flour were collected, and the absorption coefficient spectrum was obtained through calculation. It was found that the absorption peak amplitude enjoys positive correlation with benzoic acid content. As for the detection method, firstly, explore the effects of different spectral pretreatment methods on THz spectroscopy, and then adopt methods like Smoothing, Multiple Scatter Correction (MSC), Baseline and Normalization to carry out correct processing. After correction, PLS model was established to select the optimal pretreatment method. Secondly, establish PLS and LS-SVM regression models for the determination of benzoic acid content in flour. The experimental results verify that PLS model established after normalization was more optimal, with correlation coefficient of prediction ( rp) of 0.979 and root mean square error of prediction (RMSEP) of 1.30%. By comparison, it was proved that the most optimal quantitative determination model of benzoic acid content in flour is LS-SVM model with correlation coefficient of prediction ( rp) of 0.987 and root mean square error of prediction (RMSEP) of 1.10% after the normalization of terahertz absorption coefficient. MLR model was established by only two bands of 1.946 and 1.869 THz with correlation coefficient of prediction ( rp) of 0.955 and root mean square error of prediction (RMSEP) of 1.90%. It is concluded that a new solution for the nondestructive detection of benzoic acid additives in flour was developed, and method guidance was provided for the detection of other types of additives, all of which have an important significance for the healthy development of flour industry.

Keyword: Food additive; Terahertz spectroscopy; LS-SVM; Benzoic acid; wheat flour
引 言

食品安全与我们每个人的生活密切相关。 虽然苯甲酸常作为食品防腐剂使用, 但食用添加过量苯甲酸的食品会对人体健康造成极大伤害[1]

目前, 对面粉的品质检测更多是借助于化学方法检测, 国内外较常用的检测方法分为生物测定方法和理化分析法。 其中, 生物测定方法主要包括免疫分析法和生物传感器法, 理化分析法主要有气相色谱法和液相色谱法等[4]。 这些检测方法大多属于有损检测, 而且检测成本高、 操作复杂[2, 3]。 因此, 探索一种简单、 快速、 实时的面粉质量和安全检测方法是非常迫切的。 THz的波谱范围介于远红外和微波之间, 频率范围为0.1~10 THz之间, 各种有机分子的弱相互作用, 低频振动吸收频率均位于THz频段, 具有独特的检测优势[5]。 太赫兹波具有安全性高、 透视性好以及波谱分辨能力强等特点, 因此太赫兹光谱技术在很多领域都具有广阔的应用前景[6, 7]

近年来, 利用太赫兹时域光谱检测技术开展食品方面的检测研究已成为研究热点。 Liu等[8]采用太赫兹光谱与化学计量工具相结合的方法, 利用太赫兹光谱测定脂肪酸的差异来鉴别掺假食品, 实验结果验证了太赫兹光谱鉴别掺假食品具有可行性。 Lu等[9]采用太赫兹时域谱(THz-TDS)与化学计量学相结合, 对具有相似化学结构和性质的谷氨酸和谷氨酰胺二元混合物进行定性和定量的分析, 成功地对混合物中两种氨基酸组分THz谱进行解析。 Ge等[10]通过太赫兹光谱技术获取了黄曲霉毒素B1在频率范围0.4~1.6 THz光谱信息并且建立了回归预测模型, 这极大的证明了太赫兹对黄曲霉毒素B1检测的可行性。

目前, 关于通过太赫兹光谱法定量检测添加到面粉中的苯甲酸的研究很少。 本文利用太赫兹光谱检测技术建立MLR[11, 12]、 PLS[13]和LS-SVM[14, 15, 16]检测模型, 评估上述模型并探索最佳定量测定模型。

1 实验部分
1.1 材料

本实验所用面粉购买于某大型超市, 苯甲酸样品购买于阿拉丁试剂官网, 其纯度为分析纯度大于或等于99.7%。 按照设计的浓度梯度配制样品(浓度分别为0.04%, 0.08%, 0.1%, 0.2%, 0.4%, 0.5%, 1%, 1.5%, …, 20%), 苯甲酸含量的浓度范围在0.040%~19.99%不等。 本次实验样品经过研磨、 烘干、 称量、 混合、 压片等步骤进行制备。 按照上述方法依次制备44组不同浓度梯度面粉和苯甲酸混合样品。 每个浓度梯度样品制备4个, 共得到混合样品176个, 另外分别制备一组面粉和一组苯甲酸样品作为对照。 所有样本采用K-S(kennard-stone)算法将样本按照3:1左右的比例划分为建模集和预测集, 分别建立对应模型。 如表1为面粉中苯甲酸含量真值在建模集和预测集中的分布统计结果。

表1 面粉中苯甲酸含量真值在建模集和预测集的分布统计 Table 1 Benzoic acid content distribution of modeling and prediction
1.2 光谱采集

本实验采用的检测装置是日本Advantest公司的 TAS7500太赫兹时域光谱仪, 频谱测量范围设置为0.1~5.0 THz, 仪器的分辨率设置为7.6 GHz, 扫描次数为4 048次· 点-1, 该装置包括两个超短脉冲光纤激光器, 脉冲中心波长为1 550 nm, 最大输出功率为50 mW, 系统扫描采样率8 ms· 次-1。 为了减少随机误差对实验结果所造成的影响, 对每个样本进行了4次测量。

1.3 参数提取方法

根据Timothy[17]和Duvillaret[18]等提出的光学参数提取模型, 采用快速傅里叶变换(FFT)获取了THz脉冲在频率上的频谱分布, 可表述为式(1), A(ω )表示电场幅值, ϕ (ω ) 为电场的相位, E(t)为太赫兹时域波形。

E(ω)=A(ω)exp[-(ω)]=E(t)exp(-iωt)dt(1)n(ω)=φ(ω)cωL+1(2)α(ω)=2k(ω)ωc=2dln4n(ω)ρ(ω)(n(ω)+1)2(3)

其中, ω 是频率, k(ω )为消光系数、 ρ (ω )为幅值比函数, φ (ω )为参考信号和样本信号的相位差, d为样品厚度, c为真空中的光速。 式(2)和式(3)分别为计算检测样品的折射率、 吸收系数的公式。

1.4 模型评价方法

本文对面粉样品的太赫兹光谱进行校正处理, 建立PLS模型, 并通过所建立的PLS模型评价其预处理方法, 选择最佳预处理方法。 将最佳预处理后的太赫兹光谱分别建立相应的PLS和LS-SVM光谱检测模型。 本模型评价的关键是建模集和预测的相关系数和均方根误差参数。 建模集参数预测集Rc和RMSEC以及预测集参数Rp和RMSEP系数共同决定了检测模型的质量好坏。 检测模型的相关系数越高, 均方根的误差越小, 则模型的精度越高。 RMSEC的数值和RMSEP的数值越接近, 则建立的模型就越稳定。 利用Matlab2014b软件进行相关分析和建立LS-SVM模型。

1.5 相关分析

采用两波长比值的相关分析方法, 找出本计算定量分析的最佳波长对。 后续分析共采用1.0~3.0 THz频段的光谱合计264个变量。 波长对的决定系数R2计算如式(4)所示, 计算评价指标R2值越大越好。

R2=r12+r22-2r1×r2×rx1-rx2(4)

其中, γ 为苯甲酸的浓度值, r1γ x1间的相关系数, r2γ x2间的相关系数, rx为波长x1和波长x2间的相关系数, R2为波长x1和波长x2的决定系数。

1.6 最小二乘支持向量机

最小二乘支持向量机是一种针对小样本建立的统计学方法[14, 15, 16], 常用的核函数是线性核函数(Link-kernel)及径向基核函数(RBF-kernel), 其公式如式(5)和式(6)所示。 其中xi表示为样本点, xj表示为核函数中心点, γ 为分布参数, σ 2是内核参数, 表示径向基函数的方差。

K(xi, xj)=xixj(5)K(xi, xj)=exp(-xi-xj2/2σ2)(6)

2 结果与讨论
2.1 纯面粉与添加剂样品的太赫兹光谱响应特性分析

太赫兹光谱中信息丰富, 包含了吸收系数、 折射率、 介电常数、 相位角等太赫兹光学参数, 可多维度反映物质的内部信息。 如图1为面粉、 纯苯甲酸以及其混合物的太赫兹光谱吸收系数谱图, 考虑到前端和后端存在较多的噪声干扰, 为便于后期数据处理, 截取光谱的频率范围为1.0~3.0 THz频段的光谱。 纯面粉的光谱吸收系数谱图接近直线, 随着频率的增加, 面粉样品的吸收系数曲线缓慢上升。 纯品的苯甲酸在1.94 THz有明显的峰值, 在2.46 THz处也有一个较弱的吸收峰。 不同浓度苯甲酸下的太赫兹光谱吸收系数的吸收峰位吻合, 在1.94 THz的位置有较强的吸收峰, 并且可以观测到吸收强度随面粉中苯甲酸浓度的增加而增加。 混合样品的原始太赫兹光谱波形整体接近一致, 但在一定的波段内吸收峰的强度有区别。 由于面粉中苯甲酸浓度越高, 样品对太赫兹光谱的吸收也就越强烈。

图1 面粉、 纯苯甲酸以及其混合物的太赫兹光谱吸收系数谱图Fig.1 Absorbance spectra of mixture, wheat flour and BA samples in the 1.0~3.0 THz frequency region

2.2 纯面粉和添加剂样品的太赫兹光谱相关分析

为找到面粉苯甲酸混合样品太赫兹吸收系数中表现出最大差异相关性的两个波段点, 在1.0~3.0 THz的区域计算所有可能的波段比组合。 选择决定系数(R2)最高的频率对作为最佳波段比。 如图2所示为波段比相关系数的等值线图。 观察到最高决定系数为0.916, 其分别对应1.946和1.869 THz。

图2 面粉苯甲酸混合物太赫兹光谱吸收系数在1.0~3.0 THz区域相关分析结果Fig.2 Results of correlation analysis in the regions of 1.0~3.0 THz

2.2 添加苯甲酸的面粉样品太赫兹光谱的校正处理

由于太赫兹光谱仪对环境的要求非常苛刻, 为减小在实验过程中实验仪器振动、 噪声等原因导致的太赫兹光谱漂移、 光散射等现象, 通过适当的预处理可消除部分干扰, 从而获得更好的建模效果。 本文主要采用以下校正方法, 如平滑校正、 多元散射校正、 基线校正、 归一化等方法进行校正处理, 通过偏最小二乘模型评估校正处理效果。

对添加苯甲酸面粉的太赫兹光谱进行不同的预处理之后建立PLS模型。 参与建模的太赫兹光谱数据有176个, 将太赫兹光谱数据分成44个预测集和132个校正集。 将建模集与预测集的相关系数和均方根误差进行比较, 可以评估校正处理效果的好坏。 表2为添加苯甲酸面粉的太赫兹光谱不同预处理PLS建模结果, 经归一化校正处理的建模效果最佳, 归一化处理可以很好的校正由于微小光程差引起的太赫兹光谱的变化, PLS模型预测集的相关系数为0.979, 预测均方根误差为1.30%。

表2 面粉的太赫兹光谱吸收系数校正处理PLS建模效果 Table 2 Result of THz PLS model by Correction processing
3 混合面粉样品定量分析模型建立
3.1 添加苯甲酸面粉样品多元线性回归模型

R2值最大时, 面粉苯甲酸混合样品的太赫兹吸收系数在1.94和1.86 THz两个频率位置。 利用多元线性回归算法(MLR)建立太赫兹光谱吸收系数与苯甲酸浓度之间的相关分析模型, 结果如表3所示, 以1.94和1.86 THz比值建立的MLR模型性能优于其他单点建立的MLR模型。 MLR模型的预测集相关系数为0.955, 预测均方根误差为1.9%。 该模型只需要两个波段点即可建立模型, 模型简单, 数据计算量少, 但最佳模型的精度略低于PLS模型。

表3 面粉混合样品太赫兹光谱吸收系数MLR模型的建模结果 Table 3 Terahertz spectral absorption coefficient MLR modeling of BA and flour mixed samples
3.2 添加苯甲酸面粉样品太赫兹光谱PLS模型建立

偏最小二乘法(PLS)常用样品浓度真值与样品光谱矩阵之间的关系, 将矩阵分解及矩阵回归并为一步。 图3是添加苯甲酸面粉的THz吸收系数的回归系数, 回归系数较大的1.94 THz频率在PLS模型中起着重要作用。 正相关系数与苯甲酸浓度响应呈正相关, 负相关系数与苯甲酸浓度响应呈负相关。 面粉的太赫兹光谱吸收系数PLS建模效果, 其预测集相关系数为0.979, 预测均方根误差为1.30%。

图3 添加苯甲酸的面粉THz吸收系数回归系数Fig.3 The regression coefficient of PLS model

3.3 添加苯甲酸面粉样品太赫兹光谱LS-SVM模型建立

最小二乘支持向量机[14, 15, 16](LS-SVM)是基于统计学习理论而发展起来的一种机器学习方法, 其关键指标参数为输入向量、 核函数种类及其相应的参数。 径向基RBF核函数和线性Lin核函数为LS-SVM的两种典型的核函数。 表4为添加苯甲酸面粉的太赫兹光谱吸收系数建模效果, 采用RBF核函数时, 其参数组合为γ =16 690, σ 2=229.418, 此时LS-SVM模型效果最佳, 其预测集相关系数与预测集均方根误差分别为0.987和1.1%。 结果表明: RBF核函数模型的效果总体优于Lin核函数。 原因可能是RBF径向基核函数的泛化能力更强, 并且可以逼近任意非线性函数。 它能很好的处理面粉中苯甲酸含量与面粉样品苯甲酸太赫兹光谱数据的非线性关系。

表4 面粉混合样品太赫兹光谱吸收系数LS-SVM建模结果 Table 4 Terahertz spectral absorption coefficient LS-SVM modeling of BA and flour mixed samples
3.4 混合面粉样品THz光谱MLR, PLS和LS-SVM 模型对比

评估最佳MLR, PLS和LS-SVM模型的实际预测能力是利用预测集中的44个未知样本进行的。 如图4为混合样品的苯甲酸浓度含量不同模型预测值与真值的拟合图。 与MLR模型和PLS模型相比, LS-SVM模型具有最高的预测精度, 其预测相关系数(Rp)和预测均方根误差(RMSEP)分别为0.987, 1. 10%。 结果表明: 混合样品的苯甲酸浓度可以通过复杂的LS-SVM机器学习方法来确定。 综上所述, LS-SVM比MLR, PLS更适用于苯甲酸浓度的测定, 因为LS-SVM模型具有较高的准确性, 但是MLR用两个波段点也取得了较好的建模效果。

图4 混合样品的苯甲酸浓度含量不同建模预测值结果Fig.4 Predicted results of MLR, PLS and LS-SVM models

4 结 论

利用THz光谱结合LS-SVM的机器学习方法可以测定面粉中苯甲酸的浓度。 与PLS模型和MLR模型相比, LS-SVM模型可以获得更好的建模结果。 LS-SVM的预测相关系数Rp为0.987, 预测均方根误差RMSEP为1.10%。 苯甲酸在1.94 THz处呈现最大吸收峰。 MLR方法仅仅使用1.946和1.869 THz两个波段点进行建模, 建模效果预测相关系数Rp为0.955, 预测均方根误差RMSEP为1.90%。 该实验成功的验证了运用太赫兹光谱检测技术对添加了苯甲酸的面粉检测的可行性, THz技术与LS-SVM模型相结合, 改变了传统方法检测面粉中苯甲酸添加剂时存在的费时费力、 成本高昂等问题, 具有较强的现实意义。

参考文献
[1] Bilge G, Sezer B, Eseller K E, et al. Food Chemistry, 2016, 212: 183. [本文引用:1]
[2] Huang M, Kim M S, Delwiche S R, et al. Journal of Food Engineering, 2016, 181: 10. [本文引用:1]
[3] LI Bin, LONG Yuan, LIU Huan, et al(李斌, 龙园, 刘欢, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(2): 1. [本文引用:1]
[4] Qin J, Xie L, Ying Y. Food Chemistry, 2015, 170: 415. [本文引用:1]
[5] Mathanker S K, Weckler P R, Wang N. Transactions of the ASABE, 2013, 56(3): 1213. [本文引用:1]
[6] Jiang L, Li M, Li C, et al. Journal of Infrared, Millimeter, and Terahertz Waves, 2014, 35(10): 871. [本文引用:1]
[7] Lu S H, Li B Q, Zhai H L, et al. Food Chemistry, 2018, 246: 220. [本文引用:1]
[8] Liu J. Optical and Quantum Electronics, 2017, 49: 1. [本文引用:1]
[9] Lu S, Zhang X, Zhang Z, et al. Food Chemistry, 2016, 211: 494. [本文引用:1]
[10] Ge H, Jiang Y, Lian F, et al. Food Chemistry, 2016, 209: 286. [本文引用:1]
[11] Sousa S I V, Martins F G, Alvim-Ferraz M C M, et al. Environmental Modelling & Software, 2007, 22(1): 97. [本文引用:1]
[12] Cheng J, Sun D. LWT-Food Science and Technology, 2015, 63(2): 892. [本文引用:1]
[13] Ali F, Rasoolimanesh S M, Sarstedt M, et al. International Journal of Contemporary Hospitality Management, 2018, 30(1): 514. [本文引用:1]
[14] Jiang J, Tan Q, Li W, et al. Transactions of Tianjin University, 2017, 23(3): 237. [本文引用:3]
[15] Baek S H, Lim H B, Chun H S. Journal of Agricultural and Food Chemistry, 2014, 62(24): 5403. [本文引用:3]
[16] Huang M, Kim M S, Delwiche S R, et al. Journal of Food Engineering, 2016, 181: 10. [本文引用:3]
[17] Dorney T D, Baraniuk R G, Mittleman D M. J. Opt. Soc. Am. A, 2001, 18: 1562. [本文引用:1]
[18] Duvillaret L, Garet F, Coutaz J L. Appl. Opt. , 1999, 38: 409. [本文引用:1]