基于双向长短期记忆网络的太赫兹光谱识别
虞浩跃, 沈韬*, 朱艳, 刘英莉, 余正涛
昆明理工大学信息工程与自动化学院, 云南 昆明 650504
*通讯联系人 e-mail: shentao@kmust.edu.cn

作者简介: 虞浩跃, 1992年生, 昆明理工大学硕士研究生 e-mail: yuhaoyue1012@163.com

摘要

特征提取是太赫兹光谱识别的关键处理步骤, 通常利用降维方法作为特征提取手段。 然而, 当一些化合物的太赫兹光谱曲线整体差异度较小时, 降维方法往往会缺失样本差异的重要特征信息, 从而导致分类错误。 如果不采用降维方法提取特征, 传统机器学习分类算法对维数较高的原始太赫兹光谱数据又不能很好的分类。 针对此问题, 提出了一种基于双向长短期记忆网络(BLSTM-RNN)自动提取太赫兹光谱特征的识别方法。 BLSTM-RNN作为一种特殊的循环神经网络, 利用其LSTM单元可以有效解决原始太赫兹光谱数据维数较高使得模型难以训练问题。 再结合模型的双向频谱信息利用架构模式, 可以增强模型对复杂光谱数据自动提取有效特征信息的能力。 采用三类、 15种化合物太赫兹透射光谱作为测试对象, 首先利用S-G滤波和三次样条插值对Anthraquinone, Benomyl和Carbazole等十五种化合物在0.9~6 THz内的太赫兹透射光谱数据进行归一化处理, 然后通过构建一个具有双向长短期记忆的循环神经网络对太赫兹光谱的全频谱信息进行自动特征提取并利用Softmax分类器进行分类。 通过试验优化网络结构和各项参数, 最终获得了针对复杂太赫兹透射光谱数据的预测模型, 并与传统机器学习算法SVM, KNN及神经网络算法MLP, CNN进行对比实验。 结果表明, dataset-1和dataset-2分别作为差异度较大和无明显峰值特征的五种化合物太赫兹透射光谱数据集, 其平均识别率分别为100%和98.51%, 与其他方法相比识别率有所提高; 最重要的是, dataset-3作为5种化合物谱线极为相似的太赫兹透射光谱数据集, 其平均识别率为96.56%, 与其他方法相比识别率提高显著; dataset-4作为dataset-1, dataset-2和dataset-3的透射光谱数据集集合, 其平均识别率为98.87%。 从而验证了BLSTM-RNN模型能自动提取有效的太赫兹光谱特征, 同时又能保证复杂太赫兹光谱的预测精度。 在选择模型训练优化算法方面, 使用Adam优化算法要好于RMSProp, SGD和AdaGrad, 其模型的目标函数损失值收敛速度最快。 同时随着模型训练迭代次数增加, 相似太赫兹透射光谱数据集的预测准确率也不断提升。 可为复杂太赫兹光谱数据库的光谱识别检索提供一种新的识别方法。

关键词: 太赫兹光谱; 自动特征提取; 长短期记忆网络; LSTM单元
中图分类号:O433.5 文献标志码:A
Terahertz Spectral Recognition Based on Bidirectional Long Short-Term Memory Recurrent Neural Network
YU Hao-yue, SHEN Tao*, ZHU Yan, LIU Ying-li, YU Zheng-tao
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China
Abstract

Feature extraction, the key process of the terahertz spectral recognition, typically uses the dimensionality reduction techniques. However, when the overall difference of terahertz spectra of some compounds is small, dimensionality reduction methods often lack important feature information of sample differences, which leads to classification errors. If the dimensionality reduction process is not performed, the traditional machine learning algorithm cannot be well classified because the original spectral data have a high dimensionality. Therefore, this paper proposes a terahertz recognition method based on bidirectional long short-term memory recurrent neural network (BLSTM-RNN), which performs automatic feature extraction with containing full spectrum information of terahertz spectrum. BLSTM-RNN is a special recurrent neural network, whose LSTM unit can be used effectively to solve the problem that the original terahertz spectral data dimension is high. Then, it becomes easier to train the model. What’s more, the architectural model combined with bi-directional spectral information can enhance the ability of the model to extract valid feature information from complex spectral data automatically. In this paper, three types and 15 compounds terahertz transmission spectra are used as test objects. The terahertz transmission spectrum samples data of 15 organic compounds such as Anthraquinone, Benomyl and Carbazole were firstly normalized in 0.9~6 THz by S-G filtering and cubic spline interpolation. Then a recurrent neural network with bidirectional Long short-term memory unit (LSTM) is constructed to automatically extract the full spectrum information of the terahertz spectrum and classify it by Softmax classifier. Through experimentation of optimizing the network structure and various parameters, the prediction model of the complex terahertz transmission spectrum data is obtained, and the comparative experiment is done by contrasting with the traditional machine learning algorithm SVM, KNN and neural network algorithm MLP, CNN. The results show that compared with other methods, the recognition accuracy of both dataset-1 and dataset-2 is improved. Dataset-1 and dataset-2 are two terahertz transmission spectral data sets of five compounds with large difference and no obvious peak characteristics, and the average recognition accuracy of the former is 100% and the latter 98.51%. Most importantly, dataset-3 is a dataset of terahertz transmission spectra with five similar spectral lines. The average recognition accuracy is 96.56%. Compared with other methods, the recognition accuracy is significantly improved. Dataset-4 as a collection of transmission spectral data sets for dataset-1, dataset-2, and dataset-3 has an average recognition accuracy of 98.87%. It is verified that the BLSTM-RNN model can automatically extract effective terahertz spectral characteristics and meanwhile ensure the prediction accuracy of complex terahertz spectra. In the selection of model training optimization algorithm, the Adam optimization algorithm is better than the RMSProp, SGD and AdaGrad optimization algorithms, and the target function loss value of the model has the fastest convergence rate. At the same time, as the number of training iterations increases, the prediction accuracy of similar terahertz transmission spectral datasets also increases. The proposed method can provide a new identification method for spectral recognition retrieval of complex terahertz spectral databases.

Keyword: Terahertz spectroscopy; Automatic feature extraction; Long short-term memory; LSTM unit
引 言

在光谱分析及物质种类检测领域, 近红外光谱、 拉曼光谱等分子振动谱分析技术发展迅速, 它们利用物质表现出来的特征光谱进行物质的定性鉴别和定量分析, 而处于太赫兹波段的太赫兹(THz)光谱亦具有“ 指纹” 特性。 相比于传统的近红外光谱和拉曼光谱, 太赫兹光谱包含着独特的物理和化学信息, 而且太赫兹波具有透视性、 安全性和波谱分辨能力等诸多特性。 这些特点使得THz技术可用于非破坏性、 非侵入性筛查和检测爆炸物[1], 非法药物, 药物化合物[2, 3, 4], 食品质量[5, 6]等诸多无损检测识别领域。

THz波在物质的定性与定量分析方面, 许多学者围绕着物质在THz波段的光学与光谱特征, 开展了物质的THz吸收系数、 折射率系数的测量与单光学参数的分析工作。 例如Gavenda等[7]利用THz吸收谱的差异性区分3种不同种类的火药; 金武军等[8]利用太赫兹技术对3种不同产地原油乳状液类型识别进行了实验研究, 研究结果表明, 与油包水型(W/O)乳状液不同, 水包油型(O/W)乳状液在特定频率处出现了特征吸收峰, 该吸收峰可用来对乳状液的具体类型进行直接判定。 根据物质在太赫兹波段范围内的不同光谱特征峰来识别特定种类, 容易造成人为分类误差, 特别是一些混合物在THz波段没有明显的特征吸收峰或频谱存在峰重叠效应。 因此, 统计学与机器学习方法被用来分析和处理光谱数据, 例如Lian等[9]利用主成分分析法(principal components analysis, PCA)先对4种转基因玉米籽粒的太赫兹时域光谱数据进行降维处理, 再通过支持向量机(support vector machine, SVM)确定转基因玉米籽粒类型; 倪家鹏等[10]利用一种流形学习谱方法扩散映射(diffusion maps, DM), 提取THz光谱数据的流形特征, 再使用多分类支持向量机(multi-class support vector machine, MSVM)对THz光谱数据进行识别。 上述识别方法运用降维技术先对太赫兹光谱数据做降维处理, 提取主要的频谱特征信息后再对物质进行分类识别。 虽然这类特征提取方法能有效的消除冗余信息, 但降维处理会减少更多样本差异信息从而容易造成相似光谱数据的分类错误。

双向长短期记忆网络(bidirectional long short-term memory recurrent neural network, BLSTM-RNN)模型[11]是一种特殊的循环神经网络, 能够有效地对双向长序列信息进行特征提取, 近年来在双向信息的应用中非常成功, 如机器翻译, 语音识别以及生物信息学。 针对目前在使用太赫兹光谱技术对物质进行定性和定量分析中, 经常遇到太赫兹光谱没有明显的特征谱峰的情况, 如何对这些光谱进行特征提取和分析是一个重要问题。 因此, 提出了一种基于BLSTM-RNN模型的太赫兹光谱识别方法对太赫兹透射光谱的全频谱信息进行自动特征提取并利用Softmax分类器进行分类, 以期为复杂太赫兹光谱数据库的光谱识别检索研究提供一种更为鲁棒的识别方法。

1 基于BLSTM-RNN的太赫兹光谱识别方法
1.1 基础理论

1.1.1 长短期记忆(LSTM)

对一个给定的输入序列x=(x1, x2, …, xT), 标准的循环神经网络通过从t=1到T到迭代计算隐层的状态向量序列h=(h1, h2, …, hT)和输出向量序列y=(y1, y2, …, yT), 即

ht=H(Wxhxt+Whhht-1+bh)(1)

yt=Whyht+by(2)

其中: W为各层间的权值矩阵; bhby分别为隐含层和输出层的偏置向量; H为输出层的激活函数。

传统RNN由于随着时间迭代, 历史输入值对于隐含层的影响会逐渐削弱直至消失, 使得出现梯度消失问题。 而LSTM单元将RNN的输入层、 隐含层移入记忆单元(Memory cell)加以保护, 并通过“ 门” 结构来去除或增加信息到细胞状态, 解决了梯度消失和爆炸的问题。 单个LSTM单元结构如图1所示。

图1 长短时记忆单元的结构图Fig.1 Structure of an LSTM memory cell

借鉴文献[12, 13], LSTM单元结构包含4个元素: 输入门、 遗忘门、 输出门和循环自连接的神经元。 根据图1分析可知, LSTM单元结构的作用是保存了t时刻的信息, 该单元的状态传递关系又取决于3种门作用。 输入向量包含了t时刻的输入信息和上一时刻的自循环信息, 即输入门决定了哪些新信息被memory cell存储; 遗忘门控制最新时刻哪些信息需要被抛弃; 而输出门决定cell中哪些信息会被输出并进入下一时刻的自循环迭代。

1.1.2 BLSTM-RNN网络结构

BLSTM-RNN模型采用双向的LSTM模型架构, 这样当前时间节点的输出就可以同时利用正向、 反向两个方向的信息。 每一个时间节点的输入会分别传到正向和反向的LSTM单元, 他们根据各自的状态产生输出。 这两份输出会一起连接到模型的输出节点, 共同合成最终输出。 t时刻所获得的输出向量计算如式(3)所示:

ht=htfhn-tr(3)

其中, htfhn-tr分别表示正向输入序列在t时刻的输出向量和逆向输入序列在n-t时刻的输出向量, n为输入序列的长度。 htt时刻的最终输出向量, 2个向量进行拼接后形成的特征向量作为该序列的最终特征表达。

1.2 构建预测模型

本文提出一种基于BLSTM-RNN的模型架构, 利用LSTM单元能够处理高维序列数据的能力以及结合模型可以提取前后双向序列信息的特点, 建立自动提取太赫兹光谱特征的BLSM-RNN预测模型。 模型基于tensorflow深度学习框架, 采用Python接口进行编程。 预测模型采用双向LSTM, 输出层激励函数采用softmax得到预测的概率分布。 采用具有学习率自适应的优化算法Adam[14]和时间反向传播算法进行训练。 计算图结构如图2所示。

图2 BLSTM-RNN模型的计算图Fig.2 Calculation flow chart of BLSTM-RNN model

假定预处理后的太赫兹光谱数据的训练集可表示为S={(x0, y0), (x1, y1), …, (xN, yn)}, 其中xi为太赫兹光学参数即光谱数据向量, yi为物质类别标签即类别向量。则模型训练步骤如下:

Step1: 首先输入序列数据xi进行前向传播预测操作, 我们先沿着时间1→ T方向计算正向RNN的状态值, 再沿着时间T→ 1方向计算反向RNN的状态值, 获得各时间步的双向特征输出ot;

Step2: ot连接一个平均池化层, 再经过一个softmax层得到预测值 y˙, 并利用交叉熵损失函数计算loss;

Step3: 然后进行反向传播对目标函数求导的操作, 我们先对输出ot求导, 然后沿着T→ 1方向计算正向RNN的状态导数, 再沿着1→ T方向计算反向RNN的状态导数;

Step4: 根据反向时间传播算法求得的梯度值, 并利用优化算法更新模型参数, 完成一次训练;

Step5: 重复Step1— Step4步骤, 判断是否满足给定的最大迭代次数, 如果满足则模型训练优化完成。

2 实验部分
2.1 数据

实验数据出于验证模型有效性需要故采用日本理化研究所网络公开的太赫兹数据库(www.riken.jp/THZdatabase/), 首先利用S-G滤波器对太赫兹透射光谱进行曲线平滑滤波, 然后截取相同频段的透射光谱数据, 再利用三次样条插值法得到其统一维度的数据(每条1 200维)。 以Anthraquinone, Benomyl, Carbazole, Mannose, Riboflavin, Acephate, Dicofol, Kojibiose, Pantothenate Calcium, Trehalulose, Malthexaose, Maltoheptaose, Maltopentaose, Maltotetraose和Maltotriose在0.9~6 THz频段范围的15种(通过加噪处理每种500条, 共7 500条)化合物太赫兹透射光谱作为实验数据。

2.2 设置

将15种化合物的太赫兹透射光谱按有无明显峰值特征及谱线相似程度分为dataset-1, dataset-2, dataset-3和dataset-4。 其中, dataset-1的五种化合物的太赫兹吸收谱均具有明显的峰值特征(Anthraquinone, Benomyl, Carbazole, Mannose和Riboflavin, 每种物质500条, 合计2 500条); dataset-2中五种化合物无明显的峰值特征(Acephate, Dicofol, Kojibiose, Pantothenate Calcium和Trehalulose, 每种物质500条, 合计2 500条); dataset-3中五种化合物则谱线极为相似(Malthexaose, Maltoheptaose, Maltopentaose, Maltotetraose和Maltotriose, 每种物质500条, 合计2 500条); dataset-4是dataset-1, dataset-2和dataset-3的15种光谱数据集合(每种500条, 合计7 500条)。dataset-1, dataset-2和dataset-3数据集样例如图3中(a), (b), (c)所示。

图3 (a)5种化合物具有明显特征峰(谷)的太赫兹透射光谱曲线; (b)5种化物无明显特征峰(谷)的太赫兹透射光谱曲线; (c)5种化合物具有相似的太赫兹透射光谱曲线Fig.3 (a)THz transmission spectra of five compounds with obvious characteristic peaks(valleys); (b)THz transmission spectra of five compounds without distinct characteristic peaks(valleys); (c)Similar THz transmission spectra of five compounds

选用目前研究中常用的机器学习分类算法SVM, KNN及神经网络算法MLP, CNN作为对比实验。 SVM模型的核函数设置为径向基函数, 惩罚系数C=1.0, 核参数gamma=0.001; KNN模型的K最邻近个数n_neighbors=5, 优化树结构algorithm=“ ball tree” , 两种方法都采用十折交叉验证得到测试集准确率。 MLP模型采用两层隐含层结构, 每层神经元数为256个; CNN模型采用LeNet-5结构, 其中卷积核和池化层的参数均参照LeNet-5设置。 MPL和CNN模型的输出层均接softmax函数预测分类并计算交叉熵损失, 采用自适应学习率Adam优化算法进行训练。

3 结果与讨论
3.1 预测模型评价

4组数据集中各自随机抽取70%的数据作为训练数据, 其余30%作为测试数据。 传统机器学习分类算法SVM和KNN采用十折交叉验证得到测试集准确率; 神经网络算法MLP, CNN和BLSTM-RNN分别进行5次重复训练与测试, 得到测试集的平均准确率。

表1可知, 5种分类算法在dataset-1和dataset-2数据集上的识别率都达到85%以上, 尤其是神经网络模型CNN和BLSTM-RNN的识别率更是在95%以上。 然而, 由于dataset-3和dataset-4中包含非常相似的太赫兹光谱数据且光谱维数较高, 导致KNN和SVM在分类时容易产生误判。 MLP神经网络模型则结构比较单一导致高阶抽象信息表达能力较弱, 在dataset-3, dataset-4识别效果也并不理想。 而BLSTM-RNN和CNN在dataset-3, dataset-4识别率仍有90%以上, 尤其是BLSTM-RNN的识别率更是95%以上, 与其他方法相比识别率提高显著, 原因是BLSTM-RNN更善于处理高维序列数据的特征提取。 因此, 利用BLSTM-RNN模型能够对原始太赫兹光谱自动提取有效特征, 同时又能保证复杂太赫兹光谱的预测精度。

表1 不同分类算法的识别准确率 Table 1 Identification accuracy of different classification algorithms
3.2 优化器选择对模型性能的影响

在更新模型权重和偏差参数的方式时, 选择恰当的优化算法能使训练模型更快地收敛。 目前, 最流行并且使用频率很高的优化算法包括SGD、 具有动量的AdaGrad, RMSProp和Adam。 选择上述4种优化算法对dataset-4数据集进行建模实验, 训练集迭代训练50次的交叉熵损失函数值如图4所示。

图4 迭代训练50次的损失函数图Fig.4 Cross entropy loss for each generation

从图4中可以得出, 随着模型训练迭代次数的增加, 交叉熵损失值逐步地降低。 其中, 使用Adam优化算法模型收敛速度最快, RMSProp优化算法收敛波动较大, 但也能较快地收敛。 SGD和AdaGrad优化算法, 在迭代训练50次后, 模型依旧未能有效收敛, 说明需要更多训练时间开销。 Adam的优点主要在于经过偏置校正后, 每一次迭代学习率都有一个确定范围, 使得参数比较平稳。 因此, Adam要优于SGD, AdaGrad和RMSProp, 能够以更少的训练迭代次数使模型快速收敛。

3.3 训练迭代次数对模型预测精度的影响

为研究不同的训练迭代次数对于BLSTM-RNN建模效果的影响, 分别对4组不同复杂度光谱数据集进行建模实验。 不同迭代次数在4组测试集的准确率如图5所示。

图5 识别准确率与迭代次数的关系图Fig.5 The relationship of identification accuracy and the number of epoch

从图5中可以得出, 训练迭代次数对各数据集在BLSTM-RNN建模效果有很大差异, 随着训练迭代次数的增加, 模型的预测能力会显著增强。 其中dataset-1和dataset-2在训练迭代30次左右预测能力趋于稳定。 dataset-3和dataset-4则需要在训练迭代40次左右才达到较好的识别精度。 实验结果分析可知, 迭代次数对于BLSTM-RNN建模效果有显著的影响。 一般情况下, 通过更多的迭代次数训练模型, 识别率会有较大的提升。 同时, 在模型隐含层中引入防止过拟合的Dropout技术[15], 训练时设置全连接层神经元被选中概率为keep_prob=0.75, 通过每一轮迭代训练丢弃一部分网络节点, 减小模型过拟合的风险。

4 结 论

提出了一种基于BLSTM-RNN循环神经网络用于太赫兹光谱识别, 研究了4组不同复杂度的太赫兹透射光谱数据集识别问题。 实验结果表明, 相比于传统的机器学习算法SVM, KNN及神经网络算法MLP, CNN, BLSTM-RNN模型具有更强的模型表达能力, 4组测试集平均识别率为98.87%, 验证了模型的有效性。 利用该方法具有对原始太赫兹光谱直接自动提取有效特征的优势, 从而达到了简化太赫兹光谱数据特征提取流程目的。 本文为复杂太赫兹光谱数据集的快速精准识别提供了一种新方法, 也为太赫兹光谱分析技术在其他特定物质定性分析领域提供了一种新思路。

参考文献
[1] Choi K, Hong T, Sim K I, et al. Journal of Applied Physics, 2014, 115(2): 023105. [本文引用:1]
[2] Qin J, Xie L, Ying Y. Analytical Chemistry, 2014, 86(23): 11750. [本文引用:1]
[3] Baek S H, Lim H B, Chun H S. Journal of Agricultural & Food Chemistry, 2014, 62(24): 5403. [本文引用:1]
[4] Yan L, Liu C, Qu H, et al. Journal of Infrared Millimeter & Terahertz Waves, 2018, 39(5): 492. [本文引用:1]
[5] Xu W, Xie L, Ye Z, et al. Sci. Rep. , 2015, 5: 11115. [本文引用:1]
[6] Zhan H, Xi J, Zhao K, et al. Food Control, 2016, 67: 114. [本文引用:1]
[7] Gavenda T, Kr˙esálek V. Millimetre Wave and Terahertz Sensors and Technology Ⅵ. International Society for Optics and Photonics, 2013, 8900: 89000H. [本文引用:1]
[8] JIN Wu-jun, LI Jun( 金武军, 李军). Science China Physics, Mechanics & Astronomy(中国科学: 物理学力学天文学), 2015, 45(8): 84207. [本文引用:1]
[9] Lian F, Xu D, Fu M, et al. IEEE Transactions on Terahertz Science & Technology, 2017, 7(4): 378. [本文引用:1]
[10] NI Jia-peng, SHEN Tao, ZHU Yan, et al(倪家鹏,沈韬,朱艳,)Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(8): 2360. [本文引用:1]
[11] Graves A, Jaitly N, Mohamed A R. Automatic Speech Recognition and Understand ing. IEEE, 2013: 273. [本文引用:1]
[12] Yao Y S, Huang Z. arXiv: 1602. 04874v1[cs. LG], 2016. [本文引用:1]
[13] Ma X, Hovy E. arXiv: 1603. 01354, 2016. [本文引用:1]
[14] Kingma D P, Ba J. arXiv: 1412. 6980, 2014. [本文引用:1]
[15] Srivastava N, Hinton G, Krizhevsky A, et al. Journal of Machine Learning Research, 2014, 15(1): 1929. [本文引用:1]