数字图像识别在混合油类三维荧光光谱分析中的应用
孔德明1,4, 崔耀耀2,*, 孔令富2, 王书涛1, 史慧超3
1. 燕山大学电气工程学院, 河北 秦皇岛 066004
2. 燕山大学信息科学与工程学院, 河北 秦皇岛 066004
3. 北京化工大学信息科学与技术学院, 北京 100029
4. Department of Telecommunications and Information Processing, Ghent University, B-9000 Ghent, Belgium
*通讯联系人 e-mail: cuiyaoyao@stumail.ysu.edu.cn

作者简介: 孔德明, 1983年生, 燕山大学电气工程学院副教授 e-mail: demingkong@ysu.edu.cn

摘要

海上溢油已成为全球环境污染的重要问题之一, 溢油严重破坏了海洋生态的平衡, 并导致人类健康受到危害。 因此, 研究高效的溢油检测方法对保护海洋生态环境具有重要意义。 三维荧光光谱技术因能获得溢油的“指纹”图谱而成为溢油鉴别领域的有效分析手段, 其与平行因子分析算法相结合获得了良好的溢油鉴别效果。 但平行因子算法在使用过程中需要确定不同石油产品本身所适用的浓度范围, 且其对预估计组分数敏感, 组分数选择是否准确直接影响最终定性定量结果, 这些问题都会对油类检测造成使用上的限制。 油类组分极为复杂, 其中各组分间不存在统一的线性浓度范围, 其相互之间还受到荧光猝灭效应的影响。 直接对未经稀释的油类样本进行光谱数据采集, 所获得的三维荧光光谱会因样本中组分的种类及其含量不同而存在较大差异, 导致对三维荧光光谱数据进行解析的平行因子分析算法不再适用。 但组分的种类及含量相近的油样其光谱特征相似度较高, 并且随着特定组分及其含量的改变, 其光谱形状的变化规律也较为明显。 基于此, 将三维荧光光谱和数字图像识别相结合, 提出一种针对混合油类样本的辨识方法。 首先, 利用五种矿物油(汽油、 柴油、 航空煤油、 机油和润滑油)配制三类混合油样本, 其中每类混合油是用其中两种不同矿物油以不同体积比直接混合配制而成; 然后利用FS920荧光光谱仪获取样本的三维荧光光谱数据, 并对该数据进行求导及灰度化预处理, 进而得到三维荧光导数光谱灰度图; 其次提取样本三维荧光导数光谱灰度图的颜色、 纹理和形状等数字图像特征; 最后, 通过Fisher判别分析建立样本的分类模型, 采用逐步回归建立混合油样本各组分相对体积的定量模型。 分类模型对三类混合油样本的分类及识别效果良好。 所建立的定量模型的线性相关性 R大于0.99, 显著性检验 p值小于0.05。 研究结果表明, 三维荧光光谱的数字图像特征可以被本文所述方法有效提取并用于对油类样本的定性定量分析。 该研究为海面溢油检测提供了一种简单、 可靠的识别方法。

关键词: 溢油检测; 三维荧光光谱; 数字图像识别; Fisher判别; 逐步回归
中图分类号:O433.4 文献标志码:A
The Application of Digital Image Recognition to the Analysis of Three-Dimensional Fluorescence Spectra of Mixed Oil
KONG De-ming1,4, CUI Yao-yao2,*, KONG Ling-fu2, WANG Shu-tao1, SHI Hui-chao3
1. School of Electrical Engineering, Yanshan University, Qinhuangdao 066004, China
2. School of Information Science and Engineering, Yanshan University, Qinhuangdao 066004, China
3. School of Information Science and Technology, Beijing University of Chemical Technology, Beijing 100029, China
4. Department of Telecommunications and Information Processing, Ghent University, B-9000 Ghent, Belgium
*Corresponding author
Abstract

Oil spill has become one of the most serious problems in global environmental pollution and brings a serious threat to the marine ecological balance and human health. Therefore, it is of great importance to study efficient oil spill detection methods to protect the marine ecological environment. As three-dimensional fluorescence spectra technology has advantages of getting oil spill fingerprints, it has become an important analytical method in the field of oil spill identification. A satisfactory oil spill identification effect was obtained by combining 3D fluorescence spectra technology with the parallel factor (PARAFAC) analysis algorithm. The applicable concentration range for different oils should be determined before the implementation of PARAFAC algorithm. Besides, PARAFAC is sensitive to number of components. The selection of number of components directly affects qualitative and quantitative analysis results. The method of 3D fluorescence spectra technology combined with PARAFAC is limited in real sea surface oil spill due to above reasons. The composition of oil spill is extremely complex, in which each component not only has a uniform concentration linear range but also is affected by the fluorescence quenching. Due to different content of components, the three-dimensional fluorescence spectra of the oil spill sample (sample is not diluted) are quite different. Some algorithms (such as parallel factor analysis) that resolve the three-dimensional fluorescence spectra are no longer applicable. With the change of the type and content of the sample components, the change rule of the three-dimensional fluorescence spectra image characteristics is also obvious. Therefore, a novel detection method for oil spill based on 3D fluorescence spectra technology and digital image recognition is proposed in this paper. Firstly, three types of mixed oil samples were formulated. Each type of mixed oil was directly mixed with two types of five mineral oils (gasoline, diesel, jet fuel, engine oil, lubricating oil) at different volume ratios. The three-dimensional fluorescence spectral of samples were obtained by FS920 fluorescence spectrometer. The corresponding three-dimensional fluorescence derivative spectral grayscale image was obtained by preprocessing of derivation and graying. Then, the digital image features such as color, texture and shape of three-dimensional fluorescence derivative spectral grayscale image were extracted. Finally, the classification and quantitative models of samples were established by fisher discriminant and stepwise regression respectively. The classification model has good classification and recognition effect on three types of mixed oil samples. The linear correlation coefficient R of the quantitative model is greater than 0.99. The significance test p-value of the quantitative model is less than 0.05. The results show that the digital image characteristics three-dimensional fluorescence spectral can be effectively extracted by our method and used for the qualitative and quantitative analyses of oil samples. The study provides a simple and accurate identification method for sea surface oil spill.

Keyword: Oil spill; Three-dimensional fluorescence spectra; Digital image recognition; Fisher discriminant; Stepwise regression
引 言

海上溢油污染已成为全球环境问题的焦点之一, 溢油给海洋生态环境平衡和人类健康带来了严重威胁[1, 2]。 因此, 研究快速、 实用的海面溢油样品分析技术, 对于相关部门进行应急处理以及保护海洋生态环境具有重要的实用价值。

目前, 国际海事组织(IMO)主要推荐荧光光谱法、 气相色谱法、 红外光谱法以及色/质谱联用法等作为溢油鉴别的主要方法。 其中三维荧光光谱法可以获得样本的“ 指纹” 图谱, 是复杂污染环境中辨识污染源的最有效方法之一, 被广泛应用于海面溢油鉴别[3, 4]。 周艳蕾等[5]使用三维荧光光谱法结合平行因子算法对多种原油及燃料油样本进行了分析, 对风化及未风化油品均获得了较好的识别效果。 Christensen等[6]使用三维荧光光谱与气相色谱对丹麦Baltic Carrier溢油进行了分析, 对其中的轻质燃料油和润滑油实现了准确的识别。

数字图像识别技术已成功应用于许多领域[7, 8], Zhai等[7]应用数字图像识别技术对多种药物的高效液相色谱进行了分析, 获得了准确的定性定量结果。 潘钊等[8]利用Tchebichef矩对掺伪芝麻油三维荧光光谱进行了分析, 准确识别掺伪芝麻油成分及其含量。 本文利用五种燃料油直接以不同比例混合配制了三类混合油样本, 首先将采集的三维荧光光谱数据进行求导和灰度化处理。 然后提取其三维荧光导数光谱灰度图像的颜色、 纹理及形状等数字图像特征。 最后通过Fisher判别分析建立样本的分类模型, 采用逐步回归确定混合油中各组分相对含量, 从而建立了一种辨识混合油类的新方法。

1 实验部分
1.1 材料与仪器

取汽油(G)、 柴油(D)、 航空煤油(J)、 机油(M)以及润滑油(L) 5种燃料油样本; 按照表1中的体积比, 用精密移液器吸取相应体积的汽油、 机油到烧杯中并充分震荡, 配制汽油和机油的混合油样本; 同样分别配制柴油和机油的混合油样本以及航空煤油和润滑油的混合油样本; 样本详细信息如表1所示, 为验证试验过程以及本文所述方法的稳定性, 配制重复样本GM10, DM10以及样本JL10— JL18。 应用英国Edinburgh Instruments公司生产的FS920稳态荧光光谱仪采集样本的荧光光谱。

表1 混合油样本 Table 1 Mixed oil samples

其中设置激发和发射端的狭缝宽度为0.44 mm; 设置激发波长范围为300:10:580 nm, 发射波长范围为320:10:600 nm; 为避免瑞利散射干扰, 设置发射起始波长滞后激发起始波长20 nm, 所有实验均在室温下进行。

1.2 三维荧光光谱数据的采集及预处理

采集表1中所有样本的三维荧光光谱数据, 其为n× m维的荧光强度矩阵(n对应发射波长, m对应激发波长)。 由于混合油样本由两种纯油液相互混合配制, 其组分极为复杂, 其中产生荧光效应的各种组分并不存在统一的线性浓度范围, 且相互之间存在很强的荧光猝灭影响, 因此该类高浓度混合油样本荧光光谱形状会随组分的种类及其含量的改变而产生较大的变化。 以汽油和机油的混合油样本为例, 其中G, GM1— GM10以及M的三维荧光光谱图如图1所示。 从GM1到GM10随着汽油含量的减少及机油含量的增加, 样本受到荧光猝灭的影响逐渐增加, 其三维荧光光谱的相对荧光强度逐渐降低, 并且汽油光谱特征逐渐减弱, 机油光谱特征逐渐凸显。 样本GM5与GM10光谱形状基本一致, 相对荧光强度相近, 表明组分、 含量相同的样本其光谱特征基本稳定。 样本的光谱特征随各组分含量改变而产生的变化规律明显, 相邻样本光谱特征相似。 由图1可知, 混合油样本各组分光谱重叠严重, 样本各自的特征及其相互之间的变化规律不易被辨识。 为增加各样本间的分辨率, 对光谱数据进行一阶导数处理。 以GM5为例, 其三维荧光导数光谱如图2所示。 将求导后的三维荧光光谱数据中荧光强度值映射为灰度值, 则三维荧光导数光谱变为可以被数字图像识别技术处理的灰度图像, 如图3所示。

图1 部分样本的三维荧光光谱Fig.1 Three-dimensional fluorescence spectra of selected samples

图2 GM5三维荧光导数光谱Fig.2 Three-dimensional fluorescence derivative spectra of GM5

图3 GM5三维荧光导数光谱灰度图Fig.3 Three-dimensional fluorescence derivative spectra grayscale image of GM5

1.3 数据处理

1.3.1 数字图像识别

本文分别提取三维荧光导数光谱灰度图像的颜色(即灰度值)、 纹理以及形状特征。 用f(x, y)表示灰度图像矩阵(M× N)的灰度分布函数, 图像的颜色特征对应三维荧光光谱图中相对荧光强度, 而相对荧光强度对应样品中特定组分的含量, 即颜色特征可以表征样品中特定组分含量的变化。 本文分别用均值μ 、 方差σ 以及偏度ζ 表示颜色特征:

μ=x=1Ny=1Mf(x, y)N×M(1)σ=x=1Ny=1M(f(x, y)-μ)2N×M12(2)ζ=x=1Ny=1M(f(x, y)-μ)3N×M13(3)

图像的纹理特征描述了灰度分布在空间位置上的规律。 灰度共生矩阵则反映出图像灰度关于方向、 相邻间隔和变化幅度的综合信息, 能够直观地描述图纹理的纹理状况。 本文分别用能量(ASM)、 对比度(CON)、 相关性(COR)、 熵(ENT)和均匀度(IDM)来表征灰度共生矩阵的特征。

ASM=x=1Ny=1Mf(x, y)2(4)CON=x=1Ny=1M(x-y)2f(x, y)2(5)COR=x=1Ny=1M(x-x̅)(y-y̅)f(x, y)σxσy(6)

式(6)中,

x̅=x=1Nxy=1Mf(x, y)y̅=y=1Myx=1Nf(x, y)σx2=x=1N(x-x̅)2y=1Mf(x, y)σy2=y=1M(y-y̅)2x=1Nf(x, y)ENT=-x=1Ny=1Mf(x, y)lgf(x, y)(7)IDM=x=1Ny=1Mf(x, y)1+(x-y)2(8)

利用Zernike矩提取图像的形状特征, 其(n+m)阶的Zernike矩定义为

Znm=n+1πxyf(x, y)Vnm* (ρ, θ)(9)

其中, x2+y2≤ 1, n为正整数或零, m为整数且|m|≤ n, * 表示共轭复数; Vnm(ρ , θ )是计算Zernike矩的变换核, 它将归一化的像素坐标(-1< x, y< 1)映射到单位圆极坐标(ρ , θ )上, 表示为

Vnm(x, y)=Vnm(ρ, θ)=Rnm(ρ)ejmθ, (j=-1)(10)

其中, 坐标映射关系为ρ =(x2+y2)1/2, θ =arctan(y/x); Rnm(ρ )为径向多项式, 表示为

Rnm(ρ)=j=0(n-|m|)2(-1)j[(n-j)!]ρn-2js!n+|m|2-j!n-|m|2-j!(11)

利用所提取的颜色、 纹理和形状特征构造样本的特征向量Xi=(xi1, xi2, … , xip), 其中i代表第i个样本, p是图像特征的维数。

1.3.2 Fisher判别分析

Fisher判别分析是将样本投影到最佳的矢量鉴别空间。 本文对训练样本的特征Xi=(xi1, xi2, …, xip)进行投影, 表示为

yj=i=1ntixim(12)

式中, yj为第j判别式, j=1, 2, …, n, ti为投影系数。 该判别式的判别效率为λ j(组间离差平方和/组内离差平方和)应充分大, 使得各组的投影点最大限度分开, 其对区分各组的贡献率为λ j/ l=1nλ l(l=1, 2, …, n)。

利用选定的r个判别式对验证样本进行判别, 得到验证样本的判别式得分向量(y1, y2, …, yr), 同时计算第i组训练样本组均值的判别式得分向量(yi1, yi2, …, yir), 计算两个向量之间的欧式距离, 若

j=1r(yj-y̅ij)2=min1hkj=1r(yj-y̅hj)2(13)

则验证样本和该组样本属于一类。

1.3.3 逐步回归

本文选用逐步回归[9]对三维荧光光谱所提取的数字图像特征进行优选, 逐步回归可根据数字图像特征对混合油中目标组分相对体积的影响大小, 将对目标组分相对体积影响显著的数字图像特征引入方程, 而剔除影响不显著的数字图像特征, 最终得到最优回归方程。

2 结果与讨论
2.1 定性分析

将混合油样本按照其组分分为“ GM类” 、 “ DM类” 、 “ JL类” , 并将GM10, DM10, JL10— JL18作为验证集样本, 剩余样本作为训练集样本。 利用Fisher判别对训练集样本的图像特征进行训练, 得到最佳分类判别式如下,

第一判别式:

y1=0.012 4x1-0.268 1x2+0.004 7x3+0.001 2x5-0.518 1x6+0.000 1x7+0.812 0x8-0.009 1x9-0.011 9x10+0.008 5x11

第二判别式:

y1=0.027 2x1+0.018 0x2-0.000 9x3-0.004 0x5+0.535 5x6+0.006 7x7-0.843 7x8+0.003 9x9-0.011 7x10-0.003 9x11

两个判别式的贡献率分别为0.708 6和0.291 4。 计算样本在两个判别式上投影后的投影矩阵, 并根据所有样本的两个判别式得分绘制散点图, 如图4所示。 黑色散点为训练集样本, 红色散点为验证集样本。 由图中散点分布可知, 3类混合油样本分离效果良好。 其中, DM类和GM类含有相同的机油组分, 因此第一判别式得分区间基本重合, 第二判别式得分则能够区分DM类和GM类两类混合油样本。 JL类组分与前两类混合油组分不同, 利用第一判别式得分即可与前两类混合油基本分离。

图4 混合油样本的判别式得分散点图Fig.4 Discriminant score scatter plot of mixed oil samples

2.2 定量分析

三维荧光光谱的形状以及相对荧光强度的变化规律反映了混合油样本中不同组分及含量的变化规律。 利用逐步回归对混合油样本三维荧光光谱的颜色、 纹理及形状特征进行分析, 建立混合油样本中目标组分的相对体积V和其光谱图像特征之间的定量模型。 以GM类混合油样本为例, 其中, 汽油的定量模型为

VG=0.7419-0.4886x9+0.4174x13+0.0781x47RMSE:0.0132; Rsquared:0.999; pvalue:1.08×10-10

机油的定量模型为

VM=0.2581+0.4886x9-0.4174x13-0.0781x47RMSE:0.0132; Rsquared:0.999; pvalue:1.08×10-10

其中, VGVM分别为汽油和机油的相对体积; xi为三维荧光光谱的图像特征; 定量模型的线性关系用均方根误差(RMSE)、 相关性(R-squared)及显著性检验p值(p-value)评价。 模型的线性相关性R均大于0.99, 显著性检验p值均小于0.05, 表明线性关系显著, 光谱的图像特征能够良好的表征混合油样本中特定组分的变化规律并用于对其进行准确的定量分析。 VGVM的线性关系分别如图5(a)和(b)所示。

图5 GM混合油样本的定量模型Fig.5 Quantitative model of GM mixed oil samples

2.3 对比分析

以GM混合油样本为例, 利用平行因子分析算法对其进行因子数为2的定性分析, 解析结果如图6所示。 由于混合油样本中各组分之间存在很强的荧光猝灭影响, 其中不同组分的含量改变时, 所产生的荧光光谱形状会发生较大的改变。 混合油所产生的三维荧光光谱数据不是三线性数据, 并不适用于平行因子算法解析。 因此利用平行因子算法解析得到的各组分光谱与其真实光谱之间存在着较大的差异。

图6 GM混合油样本各组分真实光谱与解析光谱Fig.6 Actual spectra and analytic spectra of components of GM mixed oil samples

3 结 论

对海面溢油进行快速准确的辨识是解决溢油污染问题的前提基础。 首先对样本的光谱数据进行了求导及灰度化处理, 然后提取了其颜色、 纹理及形状等数字图像特征, 最后通过Fisher判别建立样本的分类模型, 该模型能够对三类混合油进行准确分类, 采用逐步回归建立了混合油中各组分相对体积的定量模型, 模型的线性相关性R大于0.99。 本文为海面溢油检测提供了一种实用的新方法。

参考文献
[1] LIAO Guo-xiang, YE Jin-qing, HAN Jun-song, et al(廖国祥, 叶金清, 韩俊松, ). Marine Environmental Science(海洋环境科学), 2017, 36(2): 266. [本文引用:1]
[2] Chen H, Liu S, Xu X R, et al. Marine Pollution Bulletin, 2015, 90(1-2): 181. [本文引用:1]
[3] YANG Li-li, WANG Yu-tian, LU Xin-qiong(杨丽丽, 王玉田, 鲁信琼). Chinese Journal of Lasers(中国激光), 2013, 40(6): 0615002. [本文引用:1]
[4] WU Xi-jun, TIAN Rui-ling, DU De-qin(吴希军, 田瑞玲, 杜德琴). Acta Metrologica Sinica(计量学报), 2016, 37(6): 657. [本文引用:1]
[5] ZHOU Yan-lei, ZHOU Fei-fei, JIANG Cong-cong, et al(周艳蕾, 周飞飞, 姜聪聪, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(2): 475. [本文引用:1]
[6] Christensen J H, Hansen A B, Mortensen J, et al. Analytical Chemistry, 2005, 77(7): 2210. [本文引用:1]
[7] Zhai H L, Hu F D, Huang X Y, et al. Analytica Chimica Acta, 2010, 657(2): 131. [本文引用:2]
[8] PAN Zhao, CUI Yao-yao, WU Xi-jun, et al(潘钊, 崔耀耀, 吴希军, ). Chinese Journal of Luminescence(发光学报), 2018, 39(4): 568. [本文引用:2]
[9] YOU Shi-bing, YAN Yan(游士兵, 严研). Statistics & Decision(统计与决策), 2017, (14): 31. [本文引用:1]