近红外光谱结合灰狼算法优化支持向量机实现烟叶产地快速鉴别
耿莹蕊1, 沈欢超1, 倪鸿飞2, 陈勇1, 刘雪松1,*
1. 浙江大学药学院, 浙江 杭州 310030
2. 浙江大学智能创新药物研究院, 浙江 杭州 310018
*通讯作者 e-mail: liuxuesong@zju.edu.cn

作者简介: 耿莹蕊, 1998年生, 浙江大学药学院现代中药研究所硕士研究生 e-mail: 22019084@zju.edu.cn

摘要

烟草是一种成分复杂的天然植物, 地理位置、 生长条件等外界因素直接影响着烟叶的品质; 我国烟叶种植范围十分广泛, 每个产区种植的烟叶都有其独特的风格特征, 不同产区的烟叶配比对卷烟的质量起着决定性的作用。 为实现烟叶产地准确、 快速判别, 基于近红外光谱(NIRS), 采用灰狼算法(GWO)优化的支持向量机(SVM)算法实现烟叶产地鉴别分类。 以8个产地的824个烟叶样本为研究对象, 基于x-y距离样本集划分(SPXY)方法得到校正集617个和验证集207个样品。 首先应用最佳波长筛选方法, 如竞争自适应加权采样(CARS)和随机青蛙(RF)算法减少光谱冗余信息, 最终从1 609个变量中分别获得141和534个与产地相关的重要变量, 并以此输入SVM作为建模数据, 接下来在相同搜索范围内比较了粒子群优化算法(PSO)、 遗传算法(GA)和GWO对SVM分类模型的优化效果。 结果表明, 经RF筛选后的光谱变量较CARS具有更好的产地建模性能, 其中RF-GWO-SVM对8个产地烟叶的整体判别正确率达到了96.62%, 相较于RF-PSO-SVM和RF-GA-SVM正确率更高。 同时, RF-GWO-SVM的运行时间分别比RF-PSO-SVM和RF-GA-SVM的运行时间缩短156和131 min, RF-GWO-SVM具有精度更高、 寻优速度更快等优点。 GWO对于SVM模型参数具有更高效的优化能力, 可用于烟叶产地快速鉴别模型的建立。

关键词: 近红外光谱技术; 灰狼算法; 支持向量机; 烟叶; 产地鉴别
中图分类号:O657.33 文献标志码:A
Support Vector Machine Optimized by Near-Infrared Spectroscopic Technique Combined With Grey Wolf Optimizer Algorithm to Realize Rapid Identification of Tobacco Origin
GENG Ying-rui1, SHEN Huan-chao1, NI Hong-fei2, CHEN Yong1, LIU Xue-song1,*
1. College of Pharmaceutical Sciences, Zhejiang University, Hangzhou 310030, China
2. Innovation Institute for Artificial Intelligence in Medicine of Zhejiang University, Hangzhou 310018, China
*Corresponding author
Abstract

Tobacco is a natural plant with complex compositions, the quality of tobacco leaves is directly affected by several external factors such as geographic location and growth conditions. Tobacco leaves are widely planted in China, and they cultivated in different areas, they have different styles. Different blended ratios play a decisive role in the quality of cigarettes. Thus, there is an emerging need for accurate and rapid identification of the origin of tobacco leaves. Near-infrared spectroscopy technology provides a new rapid, and convenient method to automatically evaluate tobacco areas. On this basis, we proposed the grey wolf optimizer (GWO) algorithm to optimize the performance of the support vector machine model (SVM) for the first time to identify and classify tobacco leaves from different origins. This study was conducted with 824 tobacco leaf samples from eight different origins, and 617 training set samples and 207 test set samples were obtained using Set partitioning based on joint x-y distance (SPXY). The wavelength selection methods such as Competitive adaptive reweighted sampling (CARS) and Random frog (RF) algorithms were applied to reduce spectral redundant information and screen the characteristic wavelengths in the -full spectrum of the samples, and 141 and 534 were selected from all 1 609 variables, respectively. Then they were used as the input parameters of the SVM classifier. The optimization effect of GWO on the SVM model was contrasted to the Particle swarm optimization (PSO) and Genetic algorithm (GA) optimization in the same search range. The analysis showed that the spectral variables screened by RF had a better modeling performance than CARS. Among them, the RF-GWO-SVM model achieved the best predictive performance with an accuracy of 96.62% in identifying tobacco leaves from 8 producing areas. More than that, the running time of RF-GWO-SVM was 156 and 131 min shorter than RF-PSO-SVM and RF-GA-SVM, respectively. To sum up, RF-GWO-SVM has the advantages of higher accuracy and faster convergence speed. It can be seen that GWO has a more efficient optimization capability for model parameters, and the support vector machine model optimized by GWO can be used for rapid identification of tobacco origin.

Keyword: Near-infrared spectroscopy; Grey wolf optimizer; Support vector machine; Tobacco; Origin identification
引言

在烟草行业中, 种植产区是烟叶品质分类管理的重要依据, 目前大多企业依靠外观评价和传统化学分析方法对烟叶产地进行鉴别, 存在主观性强、 准确性低、 费时费力等缺点。 因此, 建立一种快速有效的非人工烟叶产地鉴别方法具有重要意义。

近红外光谱(near infrared spectroscopy, NIRS)技术, 具有快速、 高效、 无损等优点, 已在烟草行业中得到广泛应用[1, 2], 但由于近红外光谱数据维数高、 信息量大, 往往需要结合多种化学计量学方法, 以提取关键光谱信息构建与烟叶产地之间的联系, 实现烟叶种植区域的识别[3]。 支持向量机(support vector machine, SVM)是一种监督式机器学习算法, 它在解决小样本非线性数据的分类回归方面具有强大的能力。 惩罚因子C和核参数σ 是SVM模型的关键参数, 其设置对模型预测能力具有较大的影响。 目前已有遗传算法(genetic algorithm, GA)、 粒子群算法(particle swarm optimization, PSO)等优化算法被用于SVM参数寻优, 并成功应用于烟叶质量评价中[4, 5]。 虽然这些优化算法使得SVM模型效果得到改善, 但仍然存在收敛速度慢、 易陷入局部最优等问题。

灰狼算法(grey wolf optimizer, GWO)作为一种高效的优化算法, 相较于其他寻优算法, 具有参数更少、 收敛性更强的特点, 已成功应用于工程损耗定量检测[6]、 电力质量控制[7]、 食品溯源[8]等领域。 本研究基于近红外光谱技术, 首次将基于GWO优化的SVM算法应用于烟叶产地分类模型建立, 以提高烟叶产地判别准确率, 降低建模成本。

1 实验部分
1.1 数据收集

烟叶样本来源于中国八个省份, 包括福建省、 广西壮族自治区、 贵州省、 河南省、 湖北省、 湖南省、 四川省和云南省, 共824份烟叶样本, 由浙江中烟工业有限责任公司提供。 实验采用Antaris Ⅱ FT-NIR(Thermo Fisher Scientific)分析仪, 波数范围为10 000~3 800 cm-1, 分辨率为8 cm-1, 每条光谱代表64次扫描的平均值。 由于八个烟叶产区地理位置比较接近, 因此产地来源分辨具有一定难度。

1.2 光谱预处理

为了消除基线漂移, 降低噪声干扰, 同时又能保证校正后不会过多地降低频谱的信噪比。 采用Savitzky-Golay(SG)卷积平滑结合一阶导数(first derivative, 1st D)对光谱进行预处理。

1.3 特征变量选取

为了获得更稳定的近红外判别分析模型, 剔除光谱中的无关变量[9], 分别采用竞争自适应重加权采样(competitive adaptive reweighted sampling, CARS)和随机青蛙(random frog, RF)算法对全波长的特征变量进行提取以降低数据维度, 从而可以输入较少变量以提高分析速度。

1.4 基于GWO-SVM的产地识别模型

1.4.1 支持向量机(SVM)

SVM是Vapnik等在1995年基于统计学习理论(statistic learning theory, SLT)所提出的新型模式识别方法。 SVM可以很好地解决实际中线性不可分问题, 它以最大间隔超平面为原则, 首先将非线性原始数据映射到一个新的高维空间, 然后在新的维度空间利用核函数从训练数据中学习分类模型, 找到恰好能将数据分开的超平面, 这样就将问题成功转化为高维线性可分问题[10]

1.4.2 粒子群优化(PSO)

PSO算法又称为鸟群觅食算法。 在PSO中, 粒子是随机生成的, 这些粒子会根据当前的特征行为和位置动态变化随时调整搜索位置, 每组粒子会跟踪先前的最佳位置和适应度进行最优解的寻找, 而每一个粒子找到的最优解会引导其他粒子收敛到最佳方案, 利用粒子群之间的竞争和协作完成每一次迭代, 在粒子不断演化的过程中, 根据当前最优值搜索到适应性最大的解, 则成为全局最优解[11]

1.4.3 遗传算法(GA)

遗传算法是基于生物在自然界中“ 适者生存, 优胜劣汰” 的进化机制所演化出的一种寻找全局最优解的搜索算法, 通过模拟自然界中生物进化、 遗传变异来实现全局寻优[12]。 在初始种群中, 某些适应度大的个体被选为父代, 父代间进行交叉和突变操作, 以此产生适应度更大的子代, 组成新种群, 再评估每一个体的适应度值, 选择值得进行下一代遗传的个体, 进行下一次迭代。 为了找到合适的遗传个体, 每一个个体都会经过预先设定的适应度函数进行选择, 以使得新一代的染色体比上一代有所提升, 在这样反复的遗传演化过程, 好的基因被遗传, 呈现劣势的基因被淘汰。

1.4.4 灰狼算法(GWO)

GWO的提出是受到了来自于自然界中灰狼生存等级和捕猎的启发[13], GWO模拟了灰狼族群中严格的统治阶级, 并通过灰狼种群捕猎阶段中跟踪、 追逐、 包围、 攻击等行为寻找最优解, 以此实现对支持向量机等智能算法的优化。 采用GWO优化函数进行建模时, α 表示最合适的解决方案, 其次分别是β δ , β δ 主要负责辅助α 进行决策, 并且听从α 的指令进行猎捕, 狼群最低等级是ω , 它们必须跟随α β δ 的领导对猎物进行围攻, 以此寻找全局最优解。

在狩猎过程中, 狼群的包围行为由式(1)和式(2)表示

D=|CXp(t)-X(t)|(1)

Xt+1=Xpt-AD(2)

式中, D为当前灰狼与猎物间的距离; AC为系数向量; t为当前迭代次数; Xp为猎物位置向量。

A=2ar1-a(3)

C=2r2(4)

式中, a会随着迭代次数从2线性减小到0; r1r2是[0, 1]之间的随机向量。

在搜索空间, α , β δ 这三个最优解的位置起着关键的作用, 由这三者预估猎物的大致位置, 而ω 会根据这三者更新自己在猎物周围的位置, 以此实现对猎物的最终包围狩猎。

Dα=|C1Xα(t)-X(t)|Dβ=|C2Xβ(t)-X(t)|Dδ=|C3Xδ(t)-X(t)|(5)

X1=Xα-A1DαX2=Xβ-A2DβX3=Xδ-A3Dδ(6)

X(t+1)=X1+X2+X33(7)

式(5)中, Xα, XβXδ分别表示α , β δ 狼当前的位置向量, Dα, DβDδ分别是三只狼与猎物之间的距离。 由式(6)可知, ω 狼的位置在α , β δ 狼指导下不断调整以更靠近猎物, X(t+1)表示ω 狼最终的位置。

1.4.5 GWO-SVM

采用选择高斯核函数作为支持向量机的核函数, 此时SVM受到惩罚因子C和高斯核参数σ 的影响。 在此, 使用GWO算法来对SVM进行参数优化, 通过不断迭代优化, 寻找最佳的参数Cσ , 提高模型的准确率, 降低识错率[14]。 GWO-SVM算法过程如下:

(1) 将烟叶样本数据划分为训练集和测试集, 并对光谱数据进行归一化处理。

(2) 初始化SVM的参数, 并设置SVM中Cσ 作为GWO优化值。

(3) 根据Cσ 初始化狼群的位置, 使用训练样本对SVM模型进行训练, 并将初始位置输入模型, 以计算灰狼个体的适应度值。

(4) 保留具有最优适应度值的α , β , δ 三只狼, 并根据当前最优适应度值, 更新每只狼的位置。

(5) 若已达到最大迭代次数, 则终止迭代循环, 输出由最优位置得出的全局最优参数Cσ , 若未到达最大迭代次数, 则返回步骤4继续进行迭代。

(6) 输出最优参数Cσ , 并对训练数据重新进行SVM训练。

(7) 通过GWO-SVM模型对测试样本进行预测, 并对模型性能进行评价。

以上数据处理均在Windows 10操作系统下, 使用MATLAB R2018 b进行。

2 结果与讨论
2.1 样本划分

图1用不同颜色的曲线展示了824份不同产区烟叶样品的原始近红外漫反射光谱, 八个省份样本的原始近红外光谱并无太大差距, 可见烟叶产地的鉴别有一定难度。 使用基于x-y距离样本集划分(set partitioning based on joint x-y distance, SPXY)算法按照7∶ 3的比例进行样本划分, 将824个烟叶样本划分为617个校正集样本和207个验证集样本。

图1 烟叶样品的原始近红外光谱图Fig.1 Raw NIR spectra of tobacco leaf samples

表1 不同产地烟叶样本划分情况 Table 1 Training and testing sample sizes of tobacco from different regions
2.2 特征变量筛选

2.2.1 CARS法

在CARS算法中, 将蒙特卡洛采样运行次数设置为100次, 通过五折交叉验证选择具有最小均方根误差(root mean square error of cross validation, RMSECV)模型所对应的波长变量。 图2(a)显示了蒙特卡洛采样次数和采样变量数之间的关系, 前20次采样中, 采样变量数快速下降, 主要反映的是消除无信息变量的过程, 下降至一定程度后趋于平缓。 从图2(b)中可以观察到当采样次数达到37时, 对应的RMSECV最小为1.72。 图2(c)显示的是随着采样次数不同而变化的变量系数, 图中用“ * ” 描述了最小RMSECV所对应的最佳特征波长。 结果, CARS选择了141个变量。

图2 CARS变量筛选优化结果
(a): SG+1st D处理后的波长数随采样运行次数而变化; (b): SG+1st D处理后的RMSECV随采样运行次数而变化; (c): SG+1st D处理后变量系数随采样运行次数变化
Fig.2 CARS variable screening results
(a): Number of wavelengths changed with sampling runs; (b): RMSECV changed with sampling runs; (c): Variable coefficient changed with sampling runs

2.2.2 RF法

随机青蛙算法通过计算每个建模变量被选择的概率, 从中选出被选概率高的变量组合成为特征波长; 由于随机青蛙采用蒙特卡洛随机采样, 因此为了降低随机性, 将所有波长变量运行1 000次, 计算平均筛选概率[15], 设置0.04为筛选阈值, 最终从1 609个变量中选出534个变量作为特征变量, 结果如图3所示。

图3 RF变量筛选结果Fig.3 RF variable screening results

2.3 不同优化模型分析

为了准确对比各优化算法的分类效果, 考虑了不同的控制参数, 三种优化算法均设置相同的参数: 种群规模为20, 最大进化次数k为200, Cσ 的搜索范围为(0.01, 100)。

分类模型的性能使用准确度和混淆矩阵来评估, 混淆矩阵主要用于比较客观结果和实际类别。 下面分别计算了PSO-SVM, GA-SVM和GWO-SVM模型的分类准确度和混淆矩阵, 结果见表2和图4。 混淆矩阵用横坐标表示真实类别, 纵坐标表示预测结果, 以此描述模型对单个产地的判断分类性能, 颜色越深, 代表正确分类的数量越多, 图4中对角线的颜色越深, 代表准确率越接近100%, 分类性能越好。

表2 不同模型分类效果 Table 2 Classification effects of different models

图4 不同分类模型的混淆矩阵
(a): RF-PSO-SVM; (b): RF-GA-SVM; (c): RF-GWO-SVM
Fig.4 Confusion matrices of different classification models
(a): RF-PSO-SVM; (b): RF-GA-SVM; (c): RF-GWO-SVM

表2的结果统计可以看出, 在建立烟叶产地分类的SVM模型过程中, 采用RF筛选出的波长组合, 三种模型的判别准确度更高, 其中RF-GWO-SVM的分类正确率最高, 达到96.62%, 说明RF算法具有良好的关键信息筛选能力; 从运行时间来看, GWO-SVM相比于其他两种模型, 寻优时间大大缩短。 这很好的说明, 在相同的测试样本、 相同搜索条件下, GWO算法对SVM的两个参数寻优具有更快速、 更优化的能力, GWO-SVM模型对于烟叶产地的识别效果明显优于PSO-SVM和GA-SVM。

根据混淆矩阵结果, GWO-SVM模型识别正确率达到100%的有五个省份, 分别是福建省、 河南省、 湖北省、 湖南省和云南省, 河南省的分类正确率比其他模型提升了3.03%, 湖南省的分类正确率比其他模型提升了12.5%~18.75%; 但对于来自广西壮族自治区的样本识别仍然不理想, 原因可能是广西的烟叶样本总数仅60个, 分到验证集仅8个, 面对类别不平衡样本时, SVM模型的分类精度受到较大影响。 另外, 将贵州烟叶错分至湖北和湖南, 可能是因为几个省份地理位置接近, 经纬度相似, 烟叶样本中化学成分与物理特征差异不够明显, 从而造成误分。 除此之外, 各个地区的烟叶产地鉴别都得到了很高的精度, RF-GWO-SVM的总体正确率达到了96.62%, 分别比RF-PSO-SVM和RF-GA-SVM提高了1.45%和2.42%。 从预测结果可以得出结论, GWO-SVM的识别效果明显优于其他两个模型。

3 结论

基于近红外光谱技术, 以824份来自8个省份的烟叶样品为研究对象, 采用CARS和RF进行特征变量筛选, 通过GWO算法对SVM中参数Cσ 进行优化, 并建立烟叶产地分类模型。

将GWO-SVM应用于烟叶产地分类, 与PSO-SVM和GA-SVM相比, 该算法所建立的分类模型具备更佳的分类识别性能, 对烟叶产地有更高的判别精度, 总体识别正确率达到96.62%。 同时该算法寻优速度快, 计算成本低, 可以更高效获得SVM模型全局最优参数。 因此, 基于灰狼算法优化的支持向量机模型用于烟叶产地分类是一种更有效、 更强大的方法, 为NIRS技术实现烟叶产地高效鉴别提供参考。

参考文献
[1] Zimmer G F, Santos R O, Teixeira I D, et al. Journal of Chemometrics, 2020, 34(12): e3303. [本文引用:1]
[2] Wu Lijun, Wang Baoxing, Zhang Lei, et al. Journal of Near Infrared Spectroscopy, 2020, 28(3): 153. [本文引用:1]
[3] Xiang Boka, Cheng Changhe, Xia Jun, et al. Vibrational Spectroscopy, 2020, 111: 103182. [本文引用:1]
[4] Li Ruidong, Zhang Xiaobing, Li Keqiang, et al. Spectroscopy Letters, 2020, 53(9): 685. [本文引用:1]
[5] Gu Li, Xue Lichun, Song Qi, et al. Journal of Bioinformatics and Computational Biology, 2016, 14(6): 1650033. [本文引用:1]
[6] Deng Jun, Chen Weile, Liang Ce, et al. Journal of Loss Prevention in the Process Industries, 2021, 71: 104439. [本文引用:1]
[7] Subudhi U, Dash S. Journal of Industrial Information Integration, 2021, 22: 100204. [本文引用:1]
[8] LI Qing-bo, BI Zhi-qi, SHI Dong-dong(李庆波, 毕智棋, 石冬冬). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(9): 2804. [本文引用:1]
[9] Li Tao, Su Chen. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2018, 204: 131. [本文引用:1]
[10] Ren Guangxin, Liu Ying, Ning Jingming, et al. Journal of Food Composition and Analysis, 2021, 98: 103810. [本文引用:1]
[11] Tharwat A, Schenck W. Expert Systems with Applications, 2020, 167(5): 114430. [本文引用:1]
[12] Zhang Jiawei, Tittel F K, Gong Longwen, et al. Environmental Modeling & Assessment, 2016. 21(4): 531. [本文引用:1]
[13] Mirjalili S, Mirjalili S M, Lewis A. Advances in Engineering Software, 2014, 69: 46. [本文引用:1]
[14] Zhang Lin, Sun Jun, Zhou Xin, et al. Journal of Food Processing and Preservation, 2020, 44(8): e14591. [本文引用:1]
[15] Zhang Dongyan, Yang Yi, Chen Gao, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 248: 119139. [本文引用:1]