对称点模式-深度卷积神经网络的红外光谱识别方法
郝惠敏1,2, 梁永国1,2, 武海彬1,2, 卜明龙1,2, 黄家海1,2,*
1.太原理工大学, 新型传感器与智能控制教育部重点实验室, 山西 太原 030024
2.太原理工大学机械与运载工程学院, 山西 太原 030024
*通讯作者 e-mail: huangjiahai@tyut.edu.cn

作者简介: 郝惠敏, 1971年生, 太原理工大学副教授 e-mail: haohuimin@tyut.edu.cn

摘要

红外光谱分析在自然科学、 工程技术等诸多领域发挥着重要作用。 随着计算机和人工智能技术的不断发展, 对红外/近红外光谱分析提出了更高的要求。 深度学习以人工神经网络为架构, 通过对数据进行分层特征提取完成特征/表征学习, 在解析数据细节特征方面具有独特的优势, 在计算机视觉、 语音识别、 疾病诊断等多领域得到成功应用。 尽管深度学习在图像、 音频、 文字分析方面获得了较好的效果, 但是在红外/近红外光谱数据分析中的应用还十分有限。 针对深度学习的卷积运算, 首先将一维傅里叶变换(Fourier transform infrared spectroscopy, FTIR)红外光谱数据通过对称点模式(symmetrized dot patterns, SDP)变换为二维RGB彩色图像, 然后将SDP变换得到的彩色图像数据作为VGG(oxford visual geometry group)深度卷积神经网络的输入进行深度学习, 建立基于红外光谱数据的分类识别模型。 对不同浓度甲烷(CH4)、 乙烷(C2H6)、 丙烷(C3H8)、 正丁烷(C4H10)、 异丁烷(iso-C4H10)、 正戊烷(C5H12)、 异戊烷(iso-C5H12)七种单组分烷烃及其混合气体SDP转化获得的224×224彩色(RGB)图像, 呈现出显著差别, 且更符合VGG卷积运算的数据格式。 将SDP-VGG方法应用于气测录井中甲烷浓度范围的识别: 气测录井气体为上述七组分烷烃气体的混合气体, 其中主要成分甲烷的浓度范围按照<20%, 20%~40%, 40%~60%, 60%~80%, 80%~100%分为5类, 不同七组分烷烃混合气体样本的红外光谱由红外光谱仪在波数范围为4 000~400 cm-1、 间隔12 nm的条件下扫描获得。 在未经过特殊预处理和特征提取的情况下, 采用随机选择的4 500个样本, 由SDP-VGG法建立的七组分混合气体甲烷浓度范围识别模型, 对5种甲烷浓度范围的识别准确率达到91.2%, 优于相同红外光谱数据所建立支持向量机(support vector machine, SVM)和随机森林(random forest, RF)模型的识别准确率88.7%和86.2%。 研究表明, SDP结合深度学习可以准确提取红外光谱数据的关键特征, 提高了红外光谱识别的准确率, 是一种更为有效的红外光谱分析方法, 具有广阔的应用前景。

关键词: 对称点模式图像; VGG深度卷积神经网络; FTIR; 光谱分析
中图分类号:TG115 文献标志码:A
Infrared Spectrum Recognition Method Based on Symmetrized Dot Patterns Coupled With Deep Convolutional Neural Network
HAO Hui-min1,2, LIANG Yong-guo1,2, WU Hai-bin1,2, BU Ming-long1,2, HUANG Jia-hai1,2,*
1. Key Lab of Advanced Transducers and Intelligent Control System, Ministry of Education and Shanxi Province, Taiyuan University of Technology, Taiyuan 030024, China
2. College of Mechanical and Vehicle Engineering, Taiyuan University of Technology, Taiyuan 030024, China
*Corresponding author
Abstract

Infrared spectrum analysis plays an important role in many fields such as natural science, engineering technology, and so on. With the continuous development of computer and artificial intelligence technology, higher requirements have been imposed on infrared/near-infrared spectral analysis. Based on artificial neural networks, the deep learning algorithm performs representation learning by extracting hierarchical features from data layer by layer. It has unique advantages in analyzing the details features of data. It has been successfully applied in many fields such as computer vision, speech recognition, and disease diagnosis. Although deep learning has achieved good results in the analysis of images, audio, and text data, its application in infrared/near-infrared spectral analysis is still very limited. A deep learning convolution operation method for infrared spectroscopic analysis is presented. Firstly, one-dimensional Fourier Transform Infrared Spectroscopy (FTIR) data are transformed into two-dimensional RGB color image data through Symmetrized Dot Patterns (SDP), and then, the transformed SDP color image data is fed into the VGG (Oxford Visual Geometry Group) deep convolutional neural network for deep learning to establish a classification and recognition model. By SDP transformation, the infrared spectra of sevensingle-component gases of different concentrations, including methane (CH4), ethane (C2H6), propane (C3H8), n-butane (C4H10), iso-butane (iso-C4H10), n-pentane (C5H12), iso-pentane (iso-C5H12), and its mixtures convert to 224×224 color images. The SDP transformed images show a significant difference in the distribution of the pattern points and are more in line with the data format of the VGG convolution operation. The SDP-VGG method is used to identify the methane concentration range in gas logging: the gas logging gas is a mixture of the above seven components of alkanes, and the concentration ranges of methane are divided into five categories: <20%, 20%~40%, 40%~60%, 60%~80%, and 80%~100%. The infrared spectra of different seven-component alkane mixed gas samples are collected by the infrared spectrometer in the wavenumber range of 4 000~400 cm-1 and scanning interval 12 nm. Without special pre-processing and feature extraction, 4 500 samples are used to establish the identification model of various methane concentration ranges by the SDP-VGG method. The recognition accuracy of the SDP-VGG model reached 91.2%, which is better than the recognition accuracy of 88.7% and 86.2% of the Support Vector Machine (SVM) and Random Forest (RF) models established by the same infrared spectral data. The research shows that SDP combined with deep learning can accurately extract the key features of infrared spectra. It is a more effective infrared spectral analysis method, which improves the recognition accuracy of the infrared spectrum and has broad application prospects.

Keyword: SDP; VGG deep convolutional neural network; Infrared spectrum; Spectral analysis
引言

当被测物选择性吸收特定波长红外线而引起分子振动能级和转动能级跃迁时, 可以根据分子对特定波长红外光的电磁辐射、 吸光度、 散射等情况, 通过分析被测物的吸收红外光谱得出被测物的种类和浓度等信息。 尽管化学计量学和机器学习的发展为红外光谱分析提供了行之有效的方法和工具, 但是, 如何进一步提高微弱变化、 严重交叉敏感及高度重叠光谱的分析准确度仍然是科研工作者们不断追求的目标。

作为机器学习最重要的一个分支, 深度学习由于其对细节特征更高的识别精度而成为近年来的研究热点。 自1980年福岛邦彦提出基于人工神经网络框架的新认知机后, 标准反向传播算法[1]、 有监督的反向传播算法[2]等先后被引入人工神经网络, 使之逐渐成为计算机视觉、 语音识别等诸多领域的先进识别算法。 2006年, 加拿大多伦多大学的Geoffrey Hinton教授解析了多隐层人工神经网络优异的特征学习能力, 并通过无监督学习的逐层预训练有效克服了深度神经网络在训练上的难度[3], 使得人工神经网络再一次引起了人们的关注。 2015年, Geoffrey Hinton教授提出了接近人脑的深度学习框架[4], 采用与传统神经网络结构类似但方法不同的训练逐层提取数据特征, 最终实现了对数据的精确辨识。 此后, 深度学习被视为实现人工智能的重要手段, 并在AlphaGo[5, 6]、 疾病诊断[7]、 手写字符识别[8]等领域发挥了重要作用。 然而, 当前深度学习方法的应用对象大多为图像数据, 在光谱领域, 识别对象集中在核磁共振图像光谱[9, 10]上, 对红外和近红外光谱分析的应用还十分有限, 仅限于对光谱进行特征提取[11, 12]

为进一步提高红外/近红外光谱的分析准确度, 提出一种SDP结合深度学习的红外光谱识别方法, 首先将红外光谱数据采用SDP投射到极坐标中, 形成由若干散点构成的可视化RGB彩色图像, 然后将该彩色图像作为VGG深度卷积神经网络的输入进行多隐层深度学习, 建立红外光谱的识别模型, 经过多层特征提取, 最大限度地获取光谱数据的有用信息, 最终实现对红外光谱数据的高效准确识别。

1 实验部分
1.1 SDP图像转化

SDP图像是1986年由Clifford A Pickover提出的类雪花的极坐标图像转换方法。 这种方法最初是为了将人类肉眼无法识别其特性的时域和频域信号转换成极坐标中的图形, 使得原始信号中的特征以图形的方式表现出来, 从而在视觉上更容易识别。 SDP的基本思想是将原始数据集O(w)中的各纵坐标点Oj(w)(j=1, 2, 3, …, m, m为原始数据集中纵坐标的个数)经过式(1)和式(2)的运算转换成极坐标中成对的模式点Si, j(ρ j, θ i, j+)和Si, j(ρ j, θ i, j-), 其中ρ j为极半径; 极角θ i, j+θ i, j-沿角度为θ i的极轴对称, θ i= 360°ni, n为要投射的数据组数, i=1, 2, 3, …, n

ρj=Oj-MB-Mβ1(1)

θi, j+=θi+ρj+l=360°ni+Oj+l-MB-Mβ2θi, j-=θi-ρj+l=360°ni-Oj+l-MB-Mβ2(2)

式中, BM分别是原始数据集O(w)纵坐标的最大值和最小值; l为原始数据集O(w)横坐标的取值间距, l=1, 2, 3, … ; β 1为极半径放大倍数, β 2为极角放大倍数。

将数据投射为类似雪花的6角形, 因此, n=6, 原始数据投射到极坐标中分6个区域分布, 各区域的极轴角度为θ i=360° /6的整倍数; 每个区域中, θ i, j+θ i, j-对称分布在θ i两侧。 SDP转化过程中, β 1β 2为主要优化参数。

经过SDP转化, 原始红外光谱数据(波数范围: 4 000~400 cm-1; 扫描间隔: 12 nm; 光谱数据维度: 1 866)成为224× 224的RGB彩色图像。

1.2 VGG深度卷积神经网络

VGG是由牛津大学计算机视觉组(visual geometry group)的Karen Simonyan和Andrew Zisserman提出的深度卷积神经网络[13], 在2014年的ImageNet Large-Scale Visual Recognition Challenge竞赛中获得第2名而被用在图像特征提取中。 VGG网络的优点是结构简洁, 整个网络均使用3× 3的卷积核和2× 2的最大池化核, 该网络用多个连续3× 3的小滤波器卷积核来替代大的卷积核, 并将AlexNet网络3× 3的池化核替换为2× 2的最大池化核。 在VGG网络中, 3× 3的小卷积核大大减小了计算量, 减少了卷积层参数, 更易于训练, 同时多个连续的小卷积核扩大了感受野, 文献[24]阐述了两个3× 3卷积堆叠获得的感受野大小, 相当一个5× 5的卷积, 而3个3× 3卷积堆叠获取到的感受野相当于一个7× 7的卷积; 相对小的池化核可以更好地捕捉图像局部的差异, 更有利于提取其丰富的细节特征, 从而提高分析准确度。

VGG卷积神经网络有16~19层, 文中采用VGG19网络, 结构如表1所示。

表1 VGG19的网络结构 Table 1 Network structure of VGG19

VGG19网络一共19层, 输入数据为原始红外光谱数据经过SDP转化后的彩色图像, 其全连接层FC采用256个节点, 分类种类为5类。

1.3 油气层录井应用

气测录井是发现和评价石油天然气资源的重要技术手段。 其中, 利用钻遇地层层内特定成分对气测录井进行解释和评价具有十分重要的意义。 例如, 气测录井混合气体中含量最多的甲烷气体的浓度范围对勘探开发薄层、 裂缝型油气资源、 非常规油气资源就十分重要。 气测录井气体包括甲烷、 乙烷、 丙烷、 正丁烷、 异丁烷、 正戊烷及异戊烷等七种气体, 其中, 主要成分为甲烷, 通常情况下, 其余组分气体浓度均不大于甲烷的浓度。 将上述七种混合气体按CH4的浓度(c)分成5类: < 20%, 20%~40%, 40%~60%, 60%~80%和80%~100%, 5类中其他6种气体的浓度均不大于甲烷的浓度, 表2给出了上述5种混合气体的几个示例。 表2中Y1相应的红外光谱如图1所示。

表2 依据甲烷浓度分类的5种气测录井气体示例 Table 2 Example of 5 kinds of gas logging gas mixtures classified by methane concentration

图1 表2中Y1类混合气体的红外光谱Fig.1 Infrared spectra of 7-component gas mixture of Y1 in Table 2

采用SDP对七组分烷烃混合气体的红外光谱进行极坐标变换, 而后输入VGG19网络进行分类识别。 同时, 将未经过SDP转化的原始红外光谱数据采用SVM和RF建立分类模型进行分类识别, 并与SDP-VGG分类结果进行对比研究。

2 结果与讨论
2.1 气体红外光谱数据的SDP变换

(1)单组分气体红外光谱的SDP变换

对甲烷、 乙烷、 丙烷、 正丁烷、 异丁烷、 正戊烷及异戊烷七种组分气体分别进行SDP变换, 优化后的参数l=1; β 1=2, β 2=4, 变换得到的彩色图像如图2— 图4所示。 图2为不同浓度甲烷的SDP转化图像, 图3为除甲烷外, 其他6种气体SDP转化的图像。

图2 不同浓度甲烷气体红外光谱转化的SDP图形Fig.2 SDP figures transformed from infrared spectra of methane of various concentrations

图3 其他六种烷烃气体红外光谱转化的SDP图形Fig.3 SDP figures transformed from infrared spectra of six kinds of alkane gases

图4 多组分烷烃混合气体红外光谱转化的SDP图形Fig.4 SDP figures transformed from infrared spectra of 7-component alkane gas mixtures

图2中, (a)— (c)甲烷的浓度依次为60%, 40%和5%。 由图可见, 原始光谱数据在极坐标中按照每隔60° 的极轴对称分布, 最大极半径设置为2。 在每一个60° 的区间内, 极半径的原点对应甲烷在波数3 014.66处红外光谱的第一吸收峰, 极半径为2的点对应光谱数据的基准线数据1; 沿极轴方向随着极半径的增大, 各点对应逐渐远离峰值的光谱数据; 极坐标原点外侧, 离极轴最近的点对应甲烷在波数1 301.91处红外光谱的第二吸收峰, 极轴两侧对称分布点的密集程度体现红外光谱吸收峰的宽度, 随着极角的增大(对称侧极角减小), 各点对应逐渐远离峰值的光谱数据, 而甲烷浓度越大, 红外吸收峰宽度越宽, 则在极轴附近分布的点就越多。

图3中, (a)— (f)依次为12%乙烷、 5%丙烷、 4%正丁烷、 4%异丁烷、 3%正戊烷以及3%异戊烷的红外吸收光谱经SDP变换后的图像。 由图3可见, 尽管七种烷烃气体的吸收峰存在严重交叠, 但其SDP图像却表现出不同的特征: 红外光谱的主特征吸收峰依然对应SDP图中极坐标的原点; 次特征吸收峰对应的SDP点集中在最靠近极轴的位置, 且分布在不同的极半径上; 吸收峰宽度对应的点呈现不同的分布密度, 吸收谱线涵盖波长范围越大的红外光谱其对应SDP的瓣形越宽。

(2)多组分烷烃混合气体红外光谱SDP转换后图像

表1中Y1类的Y1-1, Y1-2和Y1-3为例, SDP优化后的参数l=1; β 1=2, β 2=4, 最大极半径取1。 图4中, (a)— (c)依次为表2中Y1-1, Y1-2和Y1-3七组分烷烃混合气体红外光谱转化后的SDP图形。 图4中显示, Y1-1的主、 次吸收峰对应极坐标原点附近的渐变趋势点和极半径为0.8附近的密集点, 从点的密集程度可以看出集中在极坐标原点的SDP点对应混合气体红外光谱的主吸收峰。 同样地, Y1-2和Y1-3的SDP点呈现类似的分布, 在较小波数区域, Y1-3存在多个较尖锐的吸收峰, 因此, 在极轴附近密集地分布了多个SDP点, 由于Y1-3的光谱在主吸收峰处出现饱和, 因此, 极坐标原点处分布的点相对分散; Y1-2介于Y1-1和Y1-3之间, 因此, Y1-2对应的SDP图像较Y1-1和Y1-3分散, 但其3个主次吸收峰仍然十分明显, 而且三个图形视觉上的区别十分显著。

经过SDP转化的光谱数据展现出十分明显的变化, 这一变化不仅仅是为视觉观察提供了帮助, 同时相当于对光谱数据进行了归一化预处理, 并使原始一维的光谱数据变换成了224× 224的RGB彩色图像数据。 将经过SDP转化后的图像输入卷积神经网络进行深度学习, 使得卷积运算更简便, 从而大大降低了卷积网络的运算复杂性。

2.2 VGG分类模型

从5类气测录井七组分混合气体的每一类中任意选择1 000个样本, 共5 000个样本的红外光谱进行SDP转化, 转化参数为: l=1; β 1=2, β 2=4, 最大极半径取1, 获得5 000个224× 224的RGB彩色图像, 将这5 000个图像数据任意选择4 500个作为训练样本输入VGG进行深度学习, 建立气测录井七组分混合气体甲烷浓度范围识别模型, 以剩余500个未经过训练的图像数据作为检验样本, 对模型的效果进行检验。

在VGG经过2 000次迭代后, 对4 500个训练样本的识别准确率稳定在1.0, 如图5所示。 停止迭代, 相应500个检验样本的识别精度为0.912。

图5 VGG训练迭代趋势曲线Fig.5 Iteration trend of training VGG

采用相同但未经过SDP变换的训练样本原始光谱数据分别建立SVM和RF七组分混合气体甲烷浓度范围识别模型, SVM和RF模型对4 500个训练样本的最佳识别准确率分别为94.6%和93.8%, 对应500个检验样本的识别准确率分别为88.7%和86.2%。 造成SVM和RF识别准确率较低的主要原因是光谱数据严重重叠造成的交叉敏感, SVM和RF方法对光谱数据特征提取能力相对不足。

经过优化后VGG, SVM和RF模型的参数见表3。 VGG模型中批尺寸(Bath size)、 正则化参数(L2)、 保留率(Keep prob)、 学习率(Learningrate)分别为: 75, 0.005, 0.7及0.005; SVM模型选用高斯核, 其惩罚因子(C)、 sε 分别为: 100, 2.6和0.01; RF模型的决策树个数(n_estimators)和最大特征数(max_features)分别为200和3。

表3 优化的模型参数 Table 3 Optimized parameters of various models
3 结论

将红外光谱转化为SDP彩色图像后输入VGG深度学习网络, 实现了红外光谱的分类识别。 红外光谱经过SDP图像转化后, 呈现出显著的可识别特征并使其更适合VGG网络的卷积运算; 所建立红外光谱SDP-VGG识别模型对气测录井七组分气层混合气体的识别结果表明: 对甲烷浓度范围分别是< 20%, 20%~40%, 40%~60%, 60%~80%和80%~100%的5类七组分烷烃混合气体, SDP-VGG的识别准确率为91.2%, 优于直接用红外光谱建立SVM和RF识别模型88.7%和86.2%的识别准确率。 研究表明, SDP-VGG分析方法为红外光谱分析提供了一种新的思路, 扩展了深度学习方法在红外光谱分析领域的应用, 提高了红外光谱识别的准确率, 或可用于红外光谱或近红外光谱的定量分析。

参考文献
[1] Rumelhart David E; Hinton Geoffrey E, Williams Ronald J. Nature, 1986, 323(6088): 533. [本文引用:1]
[2] Lalis Jeremias, Gerardo Bobby, Byun Yung-Cheol. International Journal of Multimedia and Ubiquitous Engineering, 2014, 9(8): 149. [本文引用:1]
[3] Hinton G E, Salakhutdinov R R. Science, 2006, 313(5786): 504. [本文引用:1]
[4] Le Cun Y, Bengio Y, Hinton G. Nature, 2015, 521(7553): 436. [本文引用:1]
[5] Silver D, Schrittwieser J, Simonyan K, et al. Nature, 2017, 550(7676): 354. [本文引用:1]
[6] Silver D, Huang A, Maddison C J, et al. Nature, 2016, 529(7587): 484. [本文引用:1]
[7] De Fauw J, Ledsam J R, Romera-Paredes B, et al. Nature Medicine, 2018, 24(9): 1342. [本文引用:1]
[8] Lake B M, Salakhutdinov R, Tenenbaum J B. Science, 2015, 350(6266): 1332. [本文引用:1]
[9] Kyathanahally S P, Döring A, Kreis R. Magnetic Resonance in Medicine, 2018, 80(3): 851. [本文引用:1]
[10] Qu X, Huang Y, Lu H, et al. Angewand te Chemie International Edition, 2019, 201908162. [本文引用:1]
[11] Zhang J, Liu W, Hou Y, et al. Analytical Letters, 2018, 51(7): 1029. [本文引用:1]
[12] LE Ba Tuan, XIAO Dong, MAO Ya-chun, et al(LE Ba Tuan, 肖冬, 毛亚纯, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(7): 2107. [本文引用:1]
[13] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. The 3rd International Conference on Learning Represantations (ICLR2015). 2015, arXiv: 1409. 1556. [本文引用:1]