作者简介: 陈晓玉, 女, 1983年生, 燕山大学信息科学与工程学院副教授 e-mail: chenxiaoyu@ysu.edu.cn
海面溢油是海洋污染的重要形式之一, 溢油在风化迁移过程中, 形成如水包油, 油包水, 水包油包水等乳化液, 其中水包油类型的乳化液受水分子的影响较大, 荧光特性不突出, 导致轻质油乳化液分类的困难, 因此如何进行高效识别, 对污染治理有重要意义。 选取常见的几种轻质油分别与海水、 乳化剂按照不同配比混合配置水包油类型的轻质油乳化液。 采用实验室搭建的便捷激光诱导荧光(LIF)系统探测轻质油乳化液的荧光光谱。 构建麻雀搜索算法(SSA)优化支持向量机(SVM)的分类模型(以下简称SSA-SVM), 实现乳化阶段溢油的分类识别。 采用主成分分析法(PCA)对荧光光谱进行降维, 选取累计贡献率为99%的前三个主成分作为输入, 轻质油的种类作为输出; 采用SSA迭代得到SVM的最优参数, 并构建SSA-SVM分类模型; 最后将测试集样本代入到模型中进行分类识别, 识别准确率为100%。 该研究同时构建了粒子群算法(PSO)优化支持向量机模型(简称PSO-SVM)和遗传算法(GA)优化支持向量机模型(简称GA-SVM)作为对照, 实验结果表明, SSA-SVM相比PSO-SVM和GA-SVM, 测试集的轻质油乳化液分类识别准确率同比提升1.77%和3.04%; 并且适应度曲线在第2代就达到最高, 优于PSO的第4代和GA的第36代, 收敛速度更快。 采用激光诱导荧光技术实现了水包油类型的轻质油乳化液的分类识别, 推进了海面溢油区域分类探测机理的发展; 提出的SSA-SVM模型, 为轻质油乳化液的分类识别研究提供了新思路。
Oil spills at sea are one of the important forms of Marine pollution. In weathering and migration, oil spills will form emulsions such as oil-in-water, water-in-oil, water-in-oil-in-water, and other emulsions. Among them, water molecules greatly affect oil-in-water emulsions, and their fluorescence characteristics are not prominent, making it difficult to classify and identify light oil emulsions. It has important significance for pollution control in the future. Several common light oils were selected to mix with seawater and emulsifiers in different proportions to prepare the light oil emulsion of the oil-in-water type. A convenient laser-induced fluorescence (LIF) system built in the laboratory was used to detect the fluorescence spectra of light oil emulsions. In this paper, the classification model of the sparrow search algorithm (SSA) optimized support vector machine (SVM) (from now on referred to as SSA-SVM) is constructed to realize the classification and identification of oil spill in the emulsion stage. Firstly, principal component analysis (PCA) was used to reduce the dimension of the fluorescence spectrum, and the first three principal components with a cumulative contribution rate of 99% were selected as inputs, and the type of light oil was taken as the output; after that, SSA is used to obtain the optimal parameters of SVM iteratively. Then, the SSA-SVM classification model was constructed. Finally, samples from the test set are substituted into the model for the classification identification, and the identification accuracy is 100%. In this study, the particle swarm optimization (PSO) support vector machine model (from now on referred to as PSO-SVM) and genetic algorithm optimization support vector machine model (from now on referred to as GA-SVM) were constructed at the same time as a comparison. From the experimental results, compared with the PSO algorithm and GA algorithm, the SSA algorithm improved the classification and recognition accuracy of the test set's lightweight oil emulsions by 1.77% and 3.04% year-on-year. The fitness curve reached the highest in the 2nd generation, which is better than the 4th generation of PSO and the 36th generation of GA, and the convergence speed is faster. In this study, the laser-induced fluorescence technique is used to realize the classification and identification of light oil emulsions of oil-in-water type, which promotes the development of the classification and detection mechanism of oil spill area on the sea surface, and the proposed SSA-SVM model provides a new way of classification and identification of light oil emulsions.
海面溢油进入海洋环境之后, 受到风、 浪、 水生物、 温度、 光照等众多因素的影响, 海水和溢油不断混合, 逐渐形成如水包油、 油包水和水包油包水三相乳液等混合类型[1]。 水包油类型的溢油乳化液相比于其他类型, 其溢油含量更少, 往往处于溢油事故发展初期。 对其进行分类识别有利于查找污染源头, 减少溢油损失和环境危害, 在海洋环境检测中具有重大意义。
激光诱导荧光(laser induce fluorescence, LIF)采用激光光源激发海水和溢油各种成分的荧光光谱, 被认为是海面溢油最重要和有效的检测手段[2, 3]。 目前基于LIF遥感技术对油膜的探测主要集中在未乳化阶段的油膜, 对于乳化阶段油膜检测的研究较少。 袁丽等[4, 5]采用LIF探测到不同的轻质油乳化液的荧光光谱具有差异; 轻质油乳化液处于不同水油混合物类型时, 水分子的荧光特性对荧光光谱的影响不同。 为轻质油乳化物在相同类型时的分类鉴别提供了依据。 轻质油乳化液的荧光特性在水包油类型时受水分子的影响较大, 荧光特性不突出, 导致了轻质油乳化液识别的困难。
支持向量机(support vector machine, SVM)是以统计学原理中结构风险最小化为基础的机器学习算法, 通过将待解决的问题转化成一个二次规划的凸优化问题, 使用内积函数将非线性的输入空间转换到高维空间, 在解决小样本、 非线性的高维数据方面有着独特的优势[6, 7]。 徐向君等[8]将SVM与光谱结合用于对不同茶叶品种进行分类鉴定; 王书涛等[9]将SVM与荧光光谱结合用于山梨酸钾浓度的预测。 惩罚因子c和核参数g对于SVM的分类结果至关重要, 但其在选择上往往存在一定的经验成分, 往往使用算法来进行参数寻优。 胡鸿志[10]等证明SSA优化分类型支持向量机在预测刀具磨损状态上比PSO和GA算法更加精确。 在面对水包油类型的轻质油乳化液荧光特性不明显的情况, 本研究提出采用SSA对SVM参数进行优化, 结合荧光光谱法对水包油类型的轻质油乳化液进行分类识别, 结果表明SSA-SVM模型对轻质油乳化液的定性结果优于PSO-SVM和GA-SVM模型。
支持向量机作为机器学习领域的一个热点, 通过建立的一套完整的理论算法, 极大地降低了算法设计的复杂性。 核函数的引入, 巧妙的将线性不可分的问题转化为非线性可分。 其原理是将低维空间中不可分的向量映射到高维空间, 借由核方法将映射函数的内积定义为核运算, 从而避免高维空间中内积的显示计算, 简化计算过程。 本实验建立的模型中, 选用径向基核函数, 见式(1)和式(2)
式中: xi和xj为两个特征向量, δ 为径向基的宽度, g为内核参数。
支持向量机的参数惩罚因子c, 主要作用是调节优化方向中的间隔大小和分类准确度偏好的权重, 即误差容忍度。 c越大, 对误差容忍度越低, 易过拟合; c越小, 越易忽视误差, 易欠拟合。 g是径向基函数自带的参数, 决定了数据映射到新特征空间后的分布, g越大, 支持向量越少, 而g越小, 支持向量越多, 支持向量的个数影响着训练和预测的速度。 参数c和g的选择对最终分类准确率有关键作用, 因此通过麻雀搜索算法进行迭代寻找最优的参数组合(c, g)。
Xue等在2020年提出的麻雀搜索算法(sparrow search algorithm, SSA)[11]是一种新型智能算法, 对麻雀种群觅食和反捕食行为的模拟, 因其具有寻优能力强, 收敛速度快等优点被广泛于各项领域[12]。 本工作采用麻雀搜索算法作为一种优化算法, 模仿麻雀种群的捕食模式寻找支持向量机的最优惩罚因子c和最优核参数g。
麻雀搜索算法主要包括三种类型的麻雀, 发现者、 加入者和侦察者, 分工协作找到全局最优解。 这种算法是直接对结构对象进行操作, 搜索范围广, 易找到最优解。 种群中发现者负责为加入者提供搜索范围和方向; 加入者寻找食物, 并监视发现者争夺食物; 而侦察者的存在是为了保证整体麻雀的捕食率, 在发现捕食者后, 立即发出警告, 提醒整体雀群到达安全地带。
第一步: 模型的初始(c, g)随机产生, 使用SVM的分类准确率作为麻雀种群X=[x1, x2, …, xn]的适应度, 每一只麻雀的状态xi对应一组SVM的参数(ci, gi), 并设置种群大小及比例, 将训练集样本输入模型进行参数找寻。
第二步: 当种群位置发生变动, 适应度也随之更新, 之后进行多次迭代, 最终搜索到全局最优解, 即为最优(c, g)参数组合。 将得到的(c, g)作为测试模型的输入参数, 再进行测试集的预测输出。
采用光学平台搭建便携式LIF光谱分析系统[13, 14]。 系统由激光器(电源和NDV4542激光二极管)激发光源, 由激光传输光纤传输激光信号, 最后由光谱仪(Avantes公司生产的AvaSpec-ULS2048型号光纤光谱仪)采集后通过计算机进行处理和分析。 仪器参数设置: 激发光源波长405 nm, 光谱探测范围440~540 nm, 光源功率60 mW, 光谱仪积分时间为200 ms。
采用市售柴油、 煤油、 航空煤油、 白油, 加入乳化剂的方法制备轻质油乳化物。 选取的两种乳化剂分别为Tween80和Span80, 配置含油率5%、 8%、 10%、 13%、 15%、 18%、 20%、 23%、 25%、 28%和30%的11种浓度的乳化液样本。 含油率的计算公式为
式(3)中, woil、 wwater和wemul分别是油的质量、 水的质量和乳化剂的质量。
乳化液配置完成后, 撇去表面的泡沫, 取定量乳化液, 采用搭建的LIF平台对每个样品选取6个点进行测量(保证激光器距离乳化液的距离不变), 并且每个点测量10次, 之后取平均值作为该点的光谱数据。 对每种轻质油乳化液样本的11个浓度进行测量, 共得到66组数据。 同时用显微镜采集乳化液的内部油滴分布图片, 确保所有种类的轻质油乳化液的含油率小于30%时均处于水包油阶段。
激光照射轻质乳化油的表面时, 轻质油的荧光基团受到激光诱导产生荧光特征光谱是识别乳化轻质油的重要依据。 采集到的四种轻质油乳化液的荧光光谱在减去背景光和SG平滑处理后如图1(a— d)所示, 实验选择荧光光谱的检测波段范围为440~540 nm。
由图1(a— d)可以看出, 四种轻质乳化油的荧光光谱之间具有差异, 而仅依靠人工识别存在困难, 需要进一步采用算法区分。 柴油乳化液的主要荧光峰有两个, 分别在460和490 nm附近; 航空煤油乳化液的主要荧光峰在455 nm附近, 在波长480 nm之后有一些小型荧光峰; 煤油的荧光峰主要集中在480~510 nm之间; 白油的主要荧光峰在480 nm附近。 其中柴油和航空煤油、 煤油和白油的荧光光谱相似程度较高。
如图2所示, 在入射光强度不变的情况下, 当柴油乳化液的含水率升高, 荧光相对强度则会随着荧光产量的降低而降低[4], 导致乳化轻质油的荧光特性不够突出, 给油品种类的区别带来了困难。 需要借助其他分类识别算法对轻质油乳化液进行识别与区分。
采用实验所搭建的LIF检测系统采集4种轻质油乳化液, 共计264组荧光光谱数据。 根据上述采集到的光谱数据, 构建264× 174的光谱矩阵。 由于光谱矩阵中包含较多的线性相关信息, 若不做处理将影响下一步算法识别能力。 经PCA主成分分析, 前3个主成分的贡献率分别为82.48%、 16.03%和0.87%, 累计贡献率达到了99%, 说明前3个主成分囊括的信息足以代表上述轻质油乳化液的荧光光谱, 采用主成分分析法有效简化了样本的荧光数据。 并且较全光谱数据, PCA降维之后数据的样本维数从174个降低到3个, 测试集样本的识别率提升了0.5%。 说明采用主成分分析(principal component analysis, PCA)方法对光谱矩阵进行特征提取, 削弱了光谱矩阵中的线性相关量, 提高了分析效率。
本实验共获得264组轻质油的荧光光谱数据, 为确保测试集的可靠性和独立性, 在进行模型训练之前, 按照7∶ 3的比例将样本集随机划分为训练集和测试集, 其中训练集有185组样本, 用于模型的构建, 测试集有79组样本, 用于检测模型的预测能力。
本实验用于训练及预测的SVM模型均采用LIBSVM工具箱[15]。
设置模型参数初始值: 麻雀种群大小popsize=50; 迭代次数maxgen=100; 发现者比例PD=0.7; 预警值ST=0.6; 惩罚因子c∈ [0.1, 100]; 核参数g∈ [0.01, 1 000]; 交叉验证折数v=5。
将训练样本代入SSA-SVM模型中, 采用设置好的参数对模型进行迭代优化, 得到最佳参数组合(c, g)=(56.677 3, 0.01)。
SSA优化过程的适应度曲线如图3所示, 适应度在第2代就已经达到最大值且之后一直保持不变, 并且最佳适应度和平均适应度的曲线位置差距较小, 表明SSA的拟合度较好。
分别使用GA和PSO对SVM参数进行优化, 其适应度曲线由图4(a, b)所示, PSO的适应度在第4代达到最大, GA的适应度直到第36代才达到最大, 且两者的最佳适应度曲线和平均适应度曲线都相差较大, 尤其是PSO, 因此拟合效果都不如SSA算法。
将以上三种方法训练得到的最佳参数c和g代入SVM分类模型中, 对乳化液样本进行分类。
SSA-SVM、 GA-SVM和PSO-SVM的分类结果如表1所示, 表1中SSA-SVM在测试集轻质油乳化液的分类准确率和稳定迭代次数方面均优于GA-SVM和PSO-SVM, SSA-SVM可以更加确准地对轻质油乳化液进行识别。
![]() | 表1 轻质油乳化液分类结果对比 Table 1 Comparison of classification results of light oil emulsion |
采用激光诱导荧光技术快速获取水包油类型的4种轻质油乳化液的荧光光谱, 由于荧光光谱受到水分子的影响, 其轻质油乳化物的荧光特性不够突出, 因而给轻质油乳化液的分类造成了困难。 本研究采用SSA算法优化SVM对轻质油乳化液进行分类鉴别, 与PSO-SVM、 GA-SVM模型相比, 其收敛速度快, 拟合度高, 且对测试集轻质油乳化液的分类识别准确率达100%。 SSA-SVM模型的识别率高, 对环境无污染, 节省了大量人力、 物力, 实现了海面溢油污染物中水包油类型的轻质油乳化油分类识别, 推进了海面溢油区域分类探测机理的发展。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|