基于QPSO-MLSSVM算法的拉曼光谱检测四组分调和油含量
张燕君, 张芳草, 付兴虎*, 徐金睿
燕山大学信息科学与工程学院, 河北省特种光纤与光纤传感重点实验室, 河北 秦皇岛 066004
*通讯联系人 e-mail: fuxinghu@ysu.edu.cn

作者简介: 张燕君, 女, 1973年生, 燕山大学信息科学与工程学院教授 e-mail: yjzhang@ysu.edu.cn

摘要

提出了一种运用量子粒子群(quantum-behaved particle swarm optimization, QPSO)算法优化多输出最小二乘支持向量机(multi-output least squares support vector machine, MLSSVM)的新混合优化算法。 该算法结合激光拉曼光谱技术可实现对四组分食用调和油中花生油、 芝麻油、 葵花油和大豆油的快速定量鉴别。 采用基线校正去除背景荧光, 结合Savitzky-Golay Filters光谱平滑法对原始拉曼光谱进行预处理。 构建基于QPSO-MLSSVM混合优化算法的定量分析模型, 并采用20个组分组成的预测集对其进行模型校验。 实验结果表明, 基于QPSO-MLSSVM混合优化算法的定量分析模型对于四组分调和油的预测效果良好, 均方差(mean square error, MSE)为0.0241, 低于0.05, 各油分预测相关系数均高于98%。 研究结果充分表明, 应用激光拉曼光谱技术结合QPSO-MLSSVM算法, 对四组分调和油中各油分进行快速定量检测可行, 具备较强的自适应能力和良好的预测精度, 可以满足多组分调和油的成分鉴别。

关键词: 拉曼光谱; 食用调和油; 量子粒子群算法; 最小二乘支持向量机; 定量检测模型
中图分类号:TN247 文献标志码:A
Raman Spectra Based on QPSO-MLSSVM Algorithm to Detect the Content of Four Components Blent Oil
ZHANG Yan-jun, ZHANG Fang-cao, FU Xing-hu*, XU Jin-rui
School of Information Science and Engineering, The Key Laboratory for Special Fiber and Fiber Sensor of Hebei Province, Yanshan University, Qinhuangdao 066004, China
Abstract

This paper presents a new hybrid optimization algorithm based on the multi-output least squares support vector machine (MLSSVM) which is optimized by quantum-behaved particle swarm optimization (QPSO). The rapid quantitative identification for the peanut oil,sesame oil, sunflower oil and soybean oil in the four - component edible blending oil can be realized with the algorithm combined with laser Raman spectroscopy. The background fluorescence was removed by baseline correction, and Savitzky-Golay filters spectral smoothing method is used for the pretreation of original Raman spectra. The quantitative analysis model based on QPSO-MLSSVM hybrid optimization algorithm is established, and the prediction set composed of 20 components is used to verify the model. The experimental result shows that it is effective for the prediction of four-component blending oil with the quantitative analysis model based on QPSO-MLSSVM hybrid optimization algorithm, and the Mean Square Error (MSE) is 0.024 1, which is less than 0.05, the correlation coefficients of each component were above 98%. The results show that it is feasible to detect the content of each oil of four-component blending oil by laser Raman spectroscopy combined with QPSO-MLSSVM algorithm, it has strong adaptive ability and good prediction accuracy that can satisfy the multi-component mixed oil component identification.

Keyword: Raman spectroscopy; Edible blend oil; Quantum particle swarm optimization (QPSO); Least squares support vector machine (SVM); Quantitative detection model
引 言

随着时代的发展, 食用油健康观念受到人们的重视, 由多种精炼油脂调配而得[1]的营养调和食用油, 作为一种新的饮食搭配选择进入了人们的视线。 与此同时, 部分黑心商家利用消费者心理, 在制作调和油的过程中掺杂品质低劣的油品, 谎称营养均衡, 获取暴利。

由于掺伪的油品种类及掺伪方式多种多样, 研究人员对其进行鉴别的工作面临着极大的挑战。 邓平建等[2]使用聚类分析法, 先后实现了掺伪橄榄油、 花生油和芝麻油的拉曼光谱快速检测; 刘燕德等[3]应用激光拉曼光谱法结合化学计量方式, 将支持向量机(support vector machine, SVM)与线性偏最小二乘法(linear partial least squares, PLS)相结合并加以利用, 实现了三组分食用调和油的定量检测; 陶春先等[4]利用三维荧光光谱技术, 分析了食用油中掺入煎炸油后谱峰的强度及特征值。 上述方法研究的调和油所含组分一般为两种及三种, 且大多是在线性条件下进行分析, 不能满足日常检测需求, 难以建立针对更多组分的混合油品、 应用更为广泛的定标模型。 基于此, 本研究提出了基于量子粒子群算法优化多输出最小二乘支持向量机(QPSO-MLSSVM)的混合优化算法, 并对四组分混合食用油进行定量检测, 为激光拉曼光谱法对多组分食用调和油含量进行快速无损检测提供了可行的理论依据。

1 混合优化算法基本原理
1.1 基于多输出最小二乘法的支持向量机

MLSSVM在处理非线性、 高维度的问题上, 求解速度快, 方便描述非线性关系, 改良了传统SVM算法, 降低了SVM的计算复杂度, 转化了二次规划问题。 训练集 {(xi, yi)}i=1MRn×Rm, 其中n和m分别为样本变量的输入和输出个数, M为样本总数。 设函数

fi(x)=< wi, x> +bi, i=1, 2, , m(1)

式(1)中, wiM维向量, xM维输入变量, bi为调节参数, < > 表示求内积。

根据结构风险最小化原则, 将回归优化问题构建为求极小值问题[5, 6]

minJ=12i=1mwij2+ci=1mj=1M|fi(xj)-yij|s.t:|fi(xj)-yij|< εi(2)

式(2)中, 第一项体现泛化能力, 控制模型复杂度, 第二项体现真实值与预测值之间的精准程度, 即模型误差, 参数c调节两项的权重。 wijm× n的矩阵。 wij维数未知, 直接求解困难极大, 因此将此优化问题转化到其对偶空间中进行求解。

将Lagrange(拉格朗日)等式引入式(2)得

L=12i=1mwij2+ci=1mj=1M|ξij+ξij* |-i=1mj=1Maij(εi+ξij-yij+fi(xj))-i=1mj=1Maij* (εi+ξij* +yij-fi(xj))-i=1mj=1M(ηijξij+μij* ξij* )(3)

式(3)中, ξ ijξij* 为大于0的松弛因子。

选取径向基函数(Radial basis function)为MLSSVM模型中的核函数[7], 以此计算空间内积。 该函数表示为

K(x, xi)=exp-x-xi22σ2, σ> 0(4)

式(4)中, σ 为核宽度, xi是期望值, 也称为中心值。

Lagrange等式应满足Karush-Kuhn-Tucker条件, 即式(5)

Lwij=0wij=j=1M(aij-aij* )xjLbi=0j=1M(aij-aij* )=0Lξij=0c=aij+ηijLξij* =0c=aij* -ηij* (5)

将式(4)所得结果回代到Lagrange等式中, 得到该优化函数的对偶方程

maxW(aij, aij* )=-12i=1mj, k=1M(aij-aij* )(aik-aik* )×K(xj, xk)+i=1mj=1M(aij-aij* )yij-i=1mj=1M(aij+aij* )εi(6)

基于上述过程可得bi, 因此MLSSVM的模型为式(7)

fi(x)=j=1M(aij-aij* )K(x, xi)+bi, i=1, 2, , m(7)

1.2 QPSO算法优化支持向量机

在PSO算法中, 粒子群运动速度受限, 无法保证寻得基于整个可行解区间的最优值, 故而PSO算法易陷入部分早熟性收敛[8]。 为提高PSO算法在整个可行解区间的搜索能力, 基于粒子满足聚集态的特性, SUN等[9]提出了具有量子特征的粒子群算法, 其更新过程如式(8)— 式(11)

mbest=1Mi=1MPiPCij=φPij+(1-φ)Pgjxij(t+1)=PCij±α|mbestj-xij(t)|ln1u(8)

粒子速度更新公式

vij(t+1)=ωvij(t)+c1r1j[Pij(t)-xij(t)]+c2r2j[Pgj(t)-xgj(t)](9)

式(9)中, M是粒子群的规模, mbestmbestj分别是对全部个体和j维上的当前最佳位置求中心点, Pi是第i个粒子当前的最佳位置; PijPgj分别是第i个粒子和第g个粒子群在第j维上的最优位置, φ ⊂(0, 1), PCij是介于PijPgj之间的可求随机位置; u⊂(0, 1), α 被称为控制系数, 计算公式为式(10)

α=0.5+0.5×(Tmax-T)/Tmax(10)

式(10)中, Tmax为最大迭代次数。

基于以上理论, 先对QPSO的种群规模M、 最大迭代次数Tmax进行初始化, 再对MLSSVM两个关键参数Cσ 进行完善, 选取样本均方差(MSE)为粒子群适应度函数, 即

fitness(σ, γ)=1Mi=1M(yi-y^i)2(11)

式(11)中, yi为实际值, y^i为预测值; 优化目标是fitness(σ , γ )达到极小值。 借助QPSO算法对Cσ 进行完善[10], 可以提高MLSSVM算法的训练精度及泛化能力。

2 实验部分
2.1 测试仪器与样品制备

使用的BWS465-785S便携式拉曼光谱仪, 是必达泰克公司生产的光谱范围为0~3 500 cm-1新型光谱仪。 选择激发光源波长为785 nm, 设置拉曼光谱仪激光功率百分比为60%(最大激发功率为300 mV), 每个样本扫描10次, 取均值, 积分时长设置600 ms。 通过BWRam4TM软件进行光谱预处理, 获取光谱特征值, 根据获得的特征值建立模型, 并测试其预测功能, 最后得到结果并分析。

实验选取精炼的花生油、 芝麻油、 大豆油、 玉米油为原始油品, 四种食用油均购自秦皇岛某大型超市, 其纯度均已得到认证。 各混合样本总体积为10 mL, 根据一定的比例配置成百分比不同的84组样本。 随机抽取20组实验样本作模型测试集, 其他64组为模型训练集。 样本制备组分如表1所示, 其中, ①, ②, ③和④分别代表大豆油、 花生油、 葵花仁油、 芝麻油的百分比含量。 配置好的样品在离心管中静置12 h, 确保分子充分扩散均匀。

表1 84组混合油样品组分表 Table 1 Table of 84 groups of mixed oil samples
2.2 光谱数据采集及处理

实验时, 拉曼光谱仪预热15 min, 将配置好的样品一次性用滴管吸取3 mL置入样品池, 放入遮光罩中进行避光静置, 10 min后将光纤探头手柄置“ on” , 用激光进行测量, 各光谱在测量之前进行了去除暗电流处理。 随机选取60组样品油集中观测有效光谱(选取光谱范围200~3 000 cm-1)如图1(a)所示。

图1 (a)60组样品有效拉曼光谱; (b)背景扣除; (c)平滑处理; (d)归一化处理Fig.1 (a) Raman spectra of 60 samples; (b) Background removal; (c) Smoothed; (d) Normalized

由对图1(a)可知, 用拉曼光谱检测法测试样品池中不同比例的混合油, 发现随着分子式基团浓度发生变化, 特征峰位移基本相同, 但峰明显改变。 混合食用油样本的特征峰位移在870.45, 969.34, 1 080.22, 1 263.94, 1 302.11, 1 438.81, 1 656.6和1 745.24 cm-1八处较为明显, 且具有代表性, 在图中分别标志为1~8号。 从原始光谱可以看出, 因受到背景荧光[11]的影响, 原始光谱出现了基线漂移和峰值淹没情况, 拉曼光谱信噪比较低, 影响了对特征峰的观测及数据处理。 故在数据处理之前, 需进行预处理工作。 从图1(a)中随机选取一条谱线, 频谱预处理过程如下:

首先, 扣除背景。 定义背景荧光为背景电信号及样品中的气泡因子等导致的信号干扰。 用极值判断的思想定位原始光谱区间波谷, 即若存在一点, 其前后相邻点的相对强度均大于该点, 则定义该点为基点; 基线则为一条穿过基点的光滑曲线, 反映背景强度; 借助惩罚最小二乘法线性拟合的方式得出光谱背景[12], λ 是该拟合方法中平衡精度与基线光滑度的权值参数, 通过调整λ 值, 可以得出符合要求的基线, 经过多次尝试, 选择λ =939 216; 通过BWRam4TM软件采集到信号后, 利用数据读取功能将原始光谱信号与基线信号分别读取为数字形式, 在原始光谱数据中对基线数据做扣除运算, 即可将有用信号保存下来, 背景荧光信号去除掉。 光谱中拉曼峰值已经较为明显, 如图1(b)中圆圈所示。

其次, 平滑处理。 选用Savitzky-Golay Filters平滑法进行光谱数据处理, 因其在滤除噪声的同时可保持原信号谱宽、 强度及形状不发生改变, 该滤波原理是局部多项式时域最小二乘法拟合, 经此预处理后的谱图见1(c)。

最后, 谱线归一化。 选取特征峰位移为1 438.81 cm-1 处对应的特征峰强度作为最大值, 归一化能够简化计算, 缩小量值, 提高预测模型的准确度, 经归一化的光谱图如1(d)所示。

3 结果与讨论

建立QPSO-MLSSVM模型及测试的过程如图2所示。

图2 预测模型过程图Fig.2 Block diagram of prediction model

按照图2的建立模型流程, 随机选取64组样本, 通过拉曼光谱的数据采集及处理得训练集, 提取特征峰强度Xs作为输入, 训练集已知类别信息Ys(训练集中各样本四种食用油比例)作为输出, 分别建立基于MLSSVM算法的预测模型和基于QPSO-MLSSVM混合优化算法的预测模型, 其中, QPSO算法属于迭代优化, 完善MLSSVM算法中的参数Cσ , 以提升该模型的泛化能力及预测精准度; 其余20组作为测试集, 同训练集, 将特征峰强度Xl作为已有模型的输入, 通过模型运算得到预测输出Yp, 将测试集已知类别信息Yl(测试集中各样本四种食用油比例)与Yp进行最小均方差(MSE)运算来评价模型精准度, 相关系数(R)来评价模型的预测关联度。 测试集样本数据MSE及的R计算公式为式(12)和式(13)

MSE=i=1M(yi-y^i)2M(12)R=Mi=1Myiy^i-i=1Myi×i=1My^iMi=1Myi2-i=1Myi2×Mi=1My^i2-i=1My^i2(13)

式中, M: 样本个数, yi: 实际值, 即实验设定值, y^i: 预测值, 即实验所得值。

将整理好的数据分别输入到基于MLSSVM和QPSO-MLSSVM预测模型进行对比, 得到的各模型最小均方差(MSE)与建模时间(Elapsed Time)如表2所示。 在QPSO-MLSSVM预测模型中随机选取10组数据做食用调和油中四组分的实际值及预测值的相关度分析, 其线性拟合结果如图3所示。

图3 QPSO-MLSSVM模型测试集中真实值与预测值相关度曲线
(a): 大豆油; (b): 花生油; (c): 葵花油; (d): 芝麻油
Fig.3 Correlation curves between predictions and actual values of QPSO-MLSSVM model
(a): Soybean oil; (b): Peanut oil; (c): Sunflower seed oil; (d): Sesame oil

表2 模型测试结果比较 Table 2 Comparison of model test results

为作对比, 将该组数据通过MLSSVM预测模型与BP神经网络预测模型, 并对四个组分实际值及预测值进行相关度分析, 再将三种预测模型的线性拟合结果作比较, 得到结果如图4所示, 将三组相关度分析(R2)数据制成对比表如表3所示。

表3 相关度分析结果比较 Table 3 Comparison of correlation analysis

图4 三种模型预测结果中真实值与预测值相关度曲线
(a): 大豆油; (b): 花生油; (c): 葵花油; (d): 芝麻油
Fig. 4 Correlation curves between actual and prediction values of three models
(a): Soybean oil; (b): Peanut oil; (c): Sunflower seed oil; (d): Sesame oil

两组相关性分析图中, 横纵坐标均表示在各混合油样品总量为10 mL的前提下, 各组分油品的含量, 故横纵坐标单位是mL, 而不是百分比。

表2及图3中分析可知, 基于QPSO-MLSSVM预测模型较传统MLSSVM模型在对食用调和油中的四种组分的预测中, 具有更小的MSE与更短的Elapsed Time; 结合表3相关数据及图4对比, 可见对于拉曼光谱测调和油组分含量的实验, BP神经网络的预测精度低于SVM相关的预测模型精度, 而由量子粒子群算法优化后的最小二乘支持向量机模型(QPSO), 在预测食用调和油组分含量时, 预测精度更加理想。 因此, 利用QPSO算法在整个可行解区间较强的搜索能力, 丰富种群中粒子寻优的搜索范围, 优化了MLSSVM算法中的C和σ 两个重要参数的取值方式, 使得基于QPSO-MLSSVM混合优化算法的新预测模型具有优良的预测精度、 迅速的建模时间, 对全局参数最优组合的收敛速度极快, 可为更多组分组合的食用调和油含量分析快速无损检测提供支持。

4 结 论

提出了利用拉曼光谱技术结合QPSO-MLSSVM混合优化算法对四组分食用调和油进行快速的定量检测的方式。 通过暗电流扣除、 背景扣除、 光谱平滑、 最大值归一化四个步骤对原始光谱进行预处理, 选取QPSO算法优化MLSSVM的重要参数Cσ , 提高了传统MLSSVM的计算精度, 提升了收敛速度; 结果表明, 新方法对于四组分食用调和油中各成分油品进行快速定量鉴别方案可行, 且具备良好的实时性、 较高的预测精准度, 预测MSE为0.024 1, 建模时间为0.021 840 s, 四组分食用调和油中大豆油、 花生油、 葵花油、 芝麻油的预测值与真实值的相关系数分别为0.987 35, 0.994 95, 0.985 12, 0.991 25。 因此, 该方法更可行地完成了多组分调和油的定量分析。

The authors have declared that no competing interests exist.

参考文献
[1] ZHANG Zhuo, QIAN Jun-lei(张茁, 钱俊磊). Chinese Science and Technology(中国科技技术), 2013, (9): 104. [本文引用:1]
[2] DENG Jian-ping, LI Hao, YANG Dong-yan, et al(邓建平, 李浩, 杨冬燕, ). Journal of Food Safety & Quality(食品安全质量检测学报), 2014, (9): 2689. [本文引用:1]
[3] LIU Yan-de, JIN Tan-tan, WANG Hai-yang(刘燕德, 靳昙昙, 王海洋). Optics and Precision Engineering(光学精密工程), 2015, 23(9): 2490. [本文引用:1]
[4] TAO Chun-xian, RUAN Jun, SHU Shun-ming, et al(陶春先, 阮俊, 舒顺明, ). Chinese Journal of Lasers(中国激光), 2016, (1): 213. [本文引用:1]
[5] ZHAO Yan-tao, SHAN Ze-yu, CHANG Yue-jin, et al(赵彦套, 单泽宇, 常跃进, ). Chinese Journal of Scientific Instrument(仪器仪表学报), 2017, 38(2): 489. [本文引用:1]
[6] ZHANG Yi, CHEN Guo-qing, ZHU Chun, et al(张毅, 陈国庆, 朱純, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(12): 3978. [本文引用:1]
[7] XU Hui-rong, XU Wen-hao, CHEN Hua-rui, et al(徐惠荣, 徐文豪, 陈华瑞, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2014, 45(2): 194. [本文引用:1]
[8] ZHUANG Jia-xiang, JIANG Hai-yan, LIU Lei-lei, et al(庄嘉祥, 姜海燕, 刘蕾蕾, ). Scientia Agricultura Sinica(中国农业科学), 2013, 46(11): 2220. [本文引用:1]
[9] Sun Jun, Wua Xiaojun, Vasile Paladeb, et al. Information Sciences, 2012, 193(15): 81. [本文引用:1]
[10] HUANG Guo-quan, YOU Xin-hua(黄国权, 尤新华). Laser Journal(激光杂志), 2015, 36(3): 96. [本文引用:1]
[11] GAO Guo-ming, LI Xue, QIN Zong-ding, et al(高国明, 李雪, 覃宗定, ). Acta Optica Sinica(光学学报), 2013, 33(2): 258. [本文引用:1]
[12] Seong Joon Baeka, Aaron Parka, Jinyoung Kima, et al. Chemometrics and Intelligent Laboratory Systems, 2009, 98(1): 24. [本文引用:1]