基于1D-CNN提取Cl2紫外吸收谱特征的浓度反演方法研究
贾彤华1, 程光旭1,*, 杨嘉聪1, 陈昇2, 王海容3, 胡海军1
1.西安交通大学化学工程与技术学院化机系, 陕西 西安 710049
2.国家市场监管技术创新中心中国特种设备检测研究院, 北京 100029
3.西安交通大学机械工程学院机械制造系统国家重点实验室, 陕西 西安 710049
*通讯作者 e-mail: gxcheng@xjtu.edu.cn

作者简介: 贾彤华, 1998年生, 西安交通大学化学工程与技术学院化机系博士研究生 e-mail: tonghuajia@stu.xjtu.edu.cn

摘要

开放环境下氯气泄漏的准确检测一直是氯碱生产企业亟待解决的难题, 差分吸收光谱技术(DOAS)可以实现大气中的污染气体的痕量远距离测量, 而氯气的紫外吸收光谱呈现“慢变化”的特征, 无法用差分的方法分离吸收特征与噪声信号。 提出了一种基于一维卷积神经网络(1D-CNN)的氯气浓度反演算法来充分利用光谱信息, 通过逐层提取氯气的吸收特征, 解决了传统算法容易受噪声干扰导致反演精度下降的问题。 与常用的最小二乘法(LS)、 多层感知机(MLP)、 支持向量机(SVR)和k近邻(KNN)方法相比, 该算法的反演结果相比实测数据的准确度最高( R2=0.996, RMSE=4.40, MAE=2.64, SMAPE=8.51%)。 由于系统中不可避免的随机噪声会对检测产生干扰, 对比了S-G滤波、 傅里叶变换、 奇异值分解和小波变换分解算法的预处理效果。 结果表明, S-G滤波和小波分解算法可以在去除噪声的同时保留氯气的吸收特征信息, 进一步提高氯气浓度反演模型的性能。 所提出的浓度反演算法为实现开放环境下氯气泄漏的远距离定量检测提供了新的可行方法。

关键词: 氯气泄漏; 远程检测; 差分吸收光谱技术; 深度学习; 一维卷积神经网络
中图分类号:O433.4 文献标志码:A
Research of Chlorine Concentration Inversion Method Based on 1D-CNN Using Ultraviolet Spectral
JIA Tong-hua1, CHENG Guang-xu1,*, YANG Jia-cong1, CHEN Sheng2, WANG Hai-rong3, HU Hai-jun1
1. Department of Process Equipment and Control Engineering, School of Chemical and Technology, Xi'an Jiaotong University, Xi'an 710049, China
2. China Special Equipment Inspection & Research Institute, National Market Supervision Technology, Beijing 100029, China
3. State Key Laboratory of Machinery Manufacturing System, School of Mechanical Engineering, Xi'an Jiaotong University, Xi'an 710049, China
*Corresponding author
Abstract

The accurate detection of chlorine leakage in an open environment has been an urgent problem for chlor-alkali manufacturers. Differential optical absorption spectroscopy (DOAS) can realize long-distance measurements of trace polluting gases in the atmosphere. Due to the flat characteristic of the UV absorption spectrum of chlorine, it is impossible to differentiate the absorption characteristics from the noise signal by normal methods. A new algorithm based on a one-dimensional convolutional neural network (1D-CNN) is proposed to solve the problem of poor accuracy caused by noise interference, which can fully use spectral information and extract chlorine absorption characteristics layer by layer. Compared with commonly used models such as least squares (LS), multilayer perceptron (MLP), support vector machine (SVR), and k-nearest neighbor (KNN), the inversion result of this algorithm has the highest accuracy ( R2=0.996, RMSE=4.40, MAE=2.64, SMAPE=8.51%). Due to the inevitable random noise in -the system, the preprocessing effects of the S-G filter, Fourier transform, singular value decomposition, and wavelet transform decomposition algorithms are compared. The results show that S-G filtering and wavelet decomposition algorithms can retain the characteristic information of chlorine while removing noise and further improving the model's performance. The concentration inversion model based on 1D-CNN provides a new feasible method for long-distance quantitative detection of chlorine leakage in the open environment.

Keyword: Chlorine leakage; Remote detection; UV-DOAS; Deep learning; 1D-CNN
引言

氯碱化工生产过程中涉及的介质大多具有强腐蚀性, 容易腐蚀管道法兰和阀门导致氯介质泄漏。 液氯罐装是氯碱化工的重要操作单元, 罐装过程是氯气泄漏的风险源, 一旦发生泄漏, 即使低浓度的氯气也会刺激人体黏膜和皮肤, 引起人体呼吸道的严重损伤[1]; 氯气泄漏检测设备对于企业的安全生产意义重大。 目前氯碱化工企业使用的氯气泄漏检测与报警装置主要是固定点位安装和工人便携式的气体传感器, 包含电化学式和半导体式等类型。 电化学式气体传感器对温度敏感, 使用寿命短, 容易受到其他气体的交叉干扰。 半导体气体传感器的响应速度快、 开发简便, 但是存在灵敏度低、 对气体种类选择性差等缺点, 需要添加氧化剂或贵金属来提高元件的敏感性。 固定点位安装式的传感器容易受到风向和扩散过程影响, 需要合理的布设方案才能保证检测范围和灵敏度[2]。 因此需要研发远距离、 准确快速的氯气泄漏检测方法来满足氯碱化工企业安全生产的需求。

差分吸收光谱技术(differential optical absorption spectroscopy, DOAS)可以采用气体分子由于不同分子结构和浓度导致特定波段产生不同的能量分布, 确定被测气体相应的吸收光谱。 紫外差分吸收光谱技术(UV-DOAS)已应用于在紫外可见波段具有特征吸收结构的大气痕量气体和污染气体的检测[3], 通过测量透射光的光强变化进行泄漏气体的定性鉴别区分和定量浓度反演, 具有探测限低、 探测范围广、 灵敏度高、 选择性强等优点。 而应用UV-DOAS检测开放环境空气中的Cl2会遇到很大困难, 这是因为不同于上述研究中SO2、 NO2等气体的快变化、 锯齿状的特征吸收结构的吸收截面, Cl2的吸收截面是一种慢变化、 抛物线形状的特征[4], 不适宜用差分的方法分离特征吸收结构与背景噪声。 尽管使用高阶多项式拟合吸收截面的方法效果较好, 但是该方法需要依赖专业经验并进行多次试验来筛选合适的多项式阶数, 实施的难度较大。 近年来使用深度学习方法进行光谱分析取得了许多进展[5, 6, 7], 使用深度学习的方法实现端到端的浓度反演, 可以破解氯气吸收特征提取的难题。

深度卷积神经网络(CNN)作为一种数据驱动的方法在二维图像识别、 目标检测和自然语言处理等领域都展现出巨大的优势。 很多相关研究已经表明, CNN可以从原始光谱中提取有用的信息而不需要人为的光谱预处理, 在光谱分析中发挥着越来越重要的作用。 Liu等[8]提出了一种基于改进麻雀搜索算法(SSA)优化反向传播神经网络(BP)的模型处理高光谱图像进行牛奶中蛋白质含量的预测; Li等[9]采用主成分分析(PCA)结合长短期记忆神经网络(LSTM)基于红外高光谱数据定性和定量分析掺假牛奶中掺假的类型和含量; Hennrich等[10]和Gibson等[11]分别使用深度神经网络和卷积神经网络对功能性近红外光谱以及拉曼光谱进行分类; 肖冬等[12]在煤矿近红外光谱识别中, 用CNN加极限学习机(ELM)提取光谱特征后建立分类模型, 与传统方法相比识别率更高。 综上所述, 深度学习方法尤其是卷积神经网络已被广泛应用于光谱数据分析, 采用其强大的特征提取和表达能力破解氯气的“ 慢变化” 吸收特征容易被随机噪声淹没的问题是行之有效的解决方案。 CNN可以从两个不同的角度处理光谱数据, 一是将光谱图作为二维空间特征识别问题, 二是将光谱数据进行一维序列化分析, Sun等[13]的研究结果表明在一维序列设置下, 建立或应用的模型需要的内存空间更小, 训练所消耗的时间更少。 本研究提出了一种基于一维卷积神经网络(1D-CNN)的氯气浓度反演算法, 使用多卷积核对特征波段光谱数据进行维度变换, 逐层提取局部特征信息。 由于缺乏氯气的紫外吸收光谱公开数据集, 采用自主研发的UV-DOAS实验系统获得了不同浓度氯气的吸收光谱数据集, 并通过计算实验条件下氯气分子的吸收截面与Max-Plank-Institute-Mainz(MPI)UVdatabase中收录的相同条件下的数据对比来证实所获取数据集的可靠性。 本研究成果, 为检测开放环境空气中氯气泄漏浓度提供了新方法。

1 卷积神经网络
1.1 1D-CNN建模

卷积神经网络(convolution neural network, CNN)是由卷积层构成的深度神经网络, 与全连接层神经网络的结构不同, 卷积神经网络结构的特点是相邻层之间局部连接、 权值共享, 这样降低了模型结构的复杂度以及需要训练的参数量, 可以处理维度较高、 信息量较大的数据。 因此1D-CNN可以通过多层非线性模块对光谱数据进行逐层的特征提取, 与传统机器学习算法相比有更高的学习效率和更强的泛化能力。

本研究建立的基于1D-CNN光谱特征提取和浓度回归反演算法的模型结构如图1所示, 由一维卷积层(Conv1d)和最大池化层(Max Pooling)组成, 使用RELU激活函数, 网络架构的细节如表1所示。 Sohn等[14]的研究成果表明, 多核提取数据特征的CNN优于单核, 因此, 采用不同尺寸的多卷积核将通道数增加至128后再降到32, 卷积核尺寸分别为7× 1、 5× 1、 3× 1, 以提升模型的特征提取和特征表示能力。 卷积层的数学公式描述为

yil+1(j)=Kil* xl(j)+bil(1)

式(1)中, Kil为第L个卷积层中的第i个卷积核的权重, bil为第L个卷积层中的第i个卷积核的偏置向量, xl(j)为第L个卷积层中第j个区域数据, yil+1(j)为第L层中第i个卷积核的输出, 也是第L+1层中第i个通道中第j个区域的输入。 卷积操作后, 将卷积层输出送入非线性RELU激活函数, 学习数据的非线性特征。 RELU函数可被描述为

ail+1=f(yil+1(j))=max{0, yil+1(j)}(2)

式(2)中, ail+1yil+1(j)的激活值。 最大池化层可以降低特征维数, 增强模型的泛化性能。 最后一层Conv1d的输出后连接flatten层, 再将每个通道数据重新转换为1维, 输出为氯气的浓度数据。 数据流在网络中逐层进行特征提取、 压缩、 重构, 可以得到输入特征的更高维的表示。

图1 1D-CNN模型结构示意图Fig.1 Schematic diagram of 1D-CNN model

表1 1D-CNN模型结构细节 Table 1 Structure details of 1D-CNN model
1.2 模型训练和评估指标

训练本研究所建立的1D-CNN模型时, 首先对神经网络的权重参数进行“ Xavier初始化” , 采用MSE损失函数, 并添加L2正则项来防止训练过拟合[式(3)]。 使用Adam优化器, 学习率初始化为1× 10-2, 训练迭代的最大次数为500个epoch。 在训练过程中监控验证集的损失, 当验证集的损失停止减小时, 自动降低学习率, 当验证集的损失更新50次停止下降的时候自动提前停止训练, 防止训练参数过拟合。 该模型是基于Pytorch框架实现的, 使用NvidiaGeForceRTX 3070TiGPU进行训练。

Loss=1ni=1n(yi-y^i)2+12λwi2(3)

通过平均绝对误差(MAE)、 对称平均绝对百分比误差(SMAPE)、 均方根误差(RMSE)和决定系数(R2)评估模型性能。 计算公式如式(4)— 式(7)

MAE=1mi=1m|yi-y^i|(4)

SMAPE=1mi=1m|yi-y^i||yi|+|y^i|2×100%(5)

$\text { RMSE }=\sqrt{\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-\hat{y}_{i}\right)^{2}}$(6)

R2=1-i=1n(yi-y^i)2i=1n(yi-y-)2(7)

式(4)— 式(7)中, y^i为模型反演浓度值, yi为测量真实值, y-iyi的算数平均值。 MAE评估估计值和观测值之间的绝对误差, SMAPE评估估计值和观测值之间的绝对误差占精确值的百分比, RMSE是估计值和观测值之间差的平方的期望值, 三者都直观反映了反演结果与实际值之间的差距, 差距越小, 模型的表现越好, 当三者都为0时为完美模型。 R2为决定系数, 表示了自变量对因变量的解释程度, R2越接近1, 表示该模型的估计值越接近实际观测值。

2 实验部分

为了获得氯气的紫外吸收光谱数据集, 考虑以下因素搭建了实验室测量系统:

(1) 整体的系统具有良好的气密性和耐腐蚀性要求, 应设置尽量短的气路以降低氯气在管道中吸附的可能性;

(2) 光学元件以及光纤必须具有较好的紫外辐射透射性能, 气体池的窗口应采用熔融石英玻璃;

(3) 光谱仪要有足够的光谱分辨力, 可以充分体现氯气吸收光谱的细节。

实验装置的示意图以及实物图如图2(a、 b)所示。 光源使用发射光谱范围为185~600 nm的氘灯(Wyoptics, D2000), Y形抗紫外辐照石英光纤(Wyoptics, XSR400-Y-1.0)分开两端的入射光纤和出射光纤分别连接氘灯和光谱仪, 单独一端的公共收发探头连接一个离轴抛物面反射镜(Edmund, ϕ 50.8 mm Enhanced Aluminum, 离轴角90° )。 光束经离轴抛物面反射镜反射后穿过熔融石英玻璃窗口, 再通过长度为60 cm、 直径为2 cm的管状吸收池, 用一个角锥棱镜(Edmund, ϕ 50.8 mm Uncoated Fused Silica)将光束回射后被光纤公共收发探头接收, 传输至光谱仪。 光谱仪(Ideaoptics, FX2000+)测量的波长范围为195.63~524.94 nm, 入射狭缝宽度为25 μ m, 分辨率为0.41 nm, 覆盖了氯气光谱的特征吸收带。 对于气体回路, 配气装置与1.8 mg· mL-1的氯气标气瓶(大连大特气体有限公司)和纯氮气瓶相连接, 以产生不同浓度的氯气用于实验测试, 气体吸收池出口管连接至负压通风橱。 配气装置使用康纳环境技术公司生产的MF-4B气体测试仪检定校准装置, 该装置通过控制气体质量流量来配置不同浓度的气体, 配置的气体浓度和标准气体流量的关系见式(8)

cCl2=fCl2fCl2+fN2cCl2(8)

式(8)中, fCl2fN2分别为Cl2和N2的质量流量, cCl2为氯气标准气体的浓度, cCl2为配置后的气体浓度。 配置气体时可观察标气(Cl2)和平衡气(N2)对应的流量计, 来验证所配置浓度的准确性。 测量过程中需控制气流稳定, 等待气体吸收池中气体被完全替换后再进行Cl2的吸收光谱测量。

图2 Cl2紫外吸收光谱检测实验系统
(a): 实验系统装置示意图; (b): 实验系统装置实物图
Fig.2 Cl2 UV-DOAS experimental system
(a): Schematic diagram of the experimental system; (b): Actual diagram of the experimental system

采集氯气吸收光谱数据前需预热氘灯和光谱仪, 测试光源光谱并设置光谱曲线接近饱和80%处的积分时间为合适积分时间。 遮挡光源以测量仪器背景光谱Ib(λ ), 然后移除光源遮挡并记录光源光谱IL(λ ), 将其扣除以测量吸收光谱Is(λ )=I-Ib(λ )-IL(λ ), 通过配气装置设置氯气浓度并开始向气体吸收池中连续通入, 同时记录气体分压和实验温度。 采集并记录50组吸收光谱数据后在配气装置重新设置浓度数值, 等待气流稳定1 min后再次采集数据。 通过实验共获得6 693条氯气的吸收光谱数据, 在波长范围195.63~524.94 nm内有2048个波长采样点, 储存为光谱信息矩阵的格式为6 693行× 2 048列。

3 结果与讨论
3.1 基于1D-CNN的氯气浓度反演算法

由于光谱仪在测量波长范围两端的光谱信噪比会有明显下降, 并且在Cl2的特征吸收波段250~400 nm范围内信号强度最大, 因此提取了250.03~399.92 nm波段内的938个波长点, 构成氯气吸收光谱数据集。 将数据集的顺序打乱后按照0.9∶ 0.1的比例划分训练集和测试集, 为了在模型训练的同时实现学习率等超参数自动衰减, 在训练集中再次按照相同的比例(0.9∶ 0.1)划分出验证集, 最终得到训练集、 验证集和测试集的比例为0.81∶ 0.09∶ 0.1, 数据量分别为5 420条、 603条、 670条。 图3所示为上述所划分三个数据集的浓度频率分布图, 以及对应的特征吸收光谱图。 为了方便识别, 不同浓度对应的光谱图采用不同的颜色来绘制, 从图示可以看出数据集的分布一致性较好。 为了使模型训练更容易收敛, 本研究将三个数据集中的光谱数据按照式(9)进行标准化处理。

xprocessed=x-meanstd(9)

图3 数据集分布一致性检验结果
(a): 训练集浓度频率分布; (b): 训练集特征吸收光谱曲线; (c): 验证集浓度频率分布; (d): 验证集特征吸收光谱曲线; (e): 测试集浓度频率分布; (f): 测试集特征吸收光谱曲线
Fig.3 Dataset distribution consistency test results
(a): Concentration frequcency distribution of training set; (b): Absorption spectral curve of training set (c): Concentration frequency distribtion of truning set; (d): Absorption spectral curve of truning set; (e): Concentration frequency distrubtion of test set; (f): Absorption spectral curve of test set

所建立的1D-CNN模型在训练集、 验证集的损失和学习率衰减的曲线如图4所示, 模型训练过程中训练集和验证集的损失都在逐渐减小, 训练过程末期验证集的损失曲线未上升, 意味着模型已经收敛并且没有产生过拟合。 在此过程中学习率逐步减小, 最终随着迭代次数的更新, 达到了设置的提前停止阈值0.000 1, 此时模型的权重参数已经达到一个相对最优的状态。

图4 训练集和验证集损失和学习率衰减曲线Fig.4 Loss and learning rate attenuation curves

为了证明基于1D-CNN的氯气浓度反演算法的优越性, 本研究选择了常用的最小二乘浓度反演方法(LS)和Yang等[15]基于高光谱进行大豆种子含油量识别时所采用的传统机器学习模型, 包括多层感知机(MLP)、 支持向量机(SVR)和K近邻(KNN), 在测试集670条光谱数据上采用前文提及的评估指标对模型的浓度反演性能进行对比。 由表2中可以看出, 在五种模型中, 1D-CNN氯气浓度反演算法的精度最高, 相比于光谱分析中常用的LS方法以及机器学习模型MLP、 SVR和KNN都有不同程度的提升, 在测试集上的R2可达到0.996, RMSE为4.40, MAE仅为2.64, SMAPE为8.51%。

表2 不同模型的浓度反演性能对比 Table 2 Comparison of different models

不同气体浓度的吸光度大小不同, 对于超低浓度的氯气检测, 由于系统本身存在噪声, 加之Cl2的吸收截面呈现光滑连续的特征, 此时测量系统检测到的吸收信号容易被噪声信号湮没。 对0~50 μ mol· mol-1浓度区间内的氯气吸收光谱进行分析, 采用逐线积分法, 研究光谱数据中特定波长区间的积分值与气体浓度的对应关系, 使用本研究建立的1D-CNN模型对光谱数据进行浓度反演, 实验结果以及相对误差如图5(b)所示, 结果如图5(a)所示。 表明氯气的吸光度积分值与浓度呈线性相关关系, 说明了虽然低浓度时氯气的吸收光谱特征微弱, 但也可以反映出对应的浓度信息。 图中也可以看出, 反演结果与测量浓度之间的相对误差小于15%, 相对误差最大的浓度点为3.79 μ mol· mol-1。 由于本研究建立的一维卷积神经网络模型使用了3× 1、 5× 1、 7× 1三种不同尺寸的卷积核, 使其对特征不明显的光谱数据具有一定的特征提取能力, 另外又因研究中使用的低于10 μ mol· mol-1浓度点的数据量较少, 导致其对氯气在10 μ mol· mol-1以下时的浓度反演能力不太理想。

图5 0~50 μ mol· mol-1 Cl2浓度反演结果(a)和相对误差(b)Fig.5 Inversion results (a) and relative error (b) of 0~50 μ mol· mol-1 Cl2 concentration

3.2 氯气紫外吸收光谱数据集的可靠性分析

MPI-Mainz UV database收录了从1922年至2011年不同温度和不同波长范围内的氯气吸收截面数据[16]。 选择与本研究实验室相同温度条件下(298 K), 250.03~399.92 nm波段内氯气分子的吸收截面数据[17]与本实验数据的计算结果进行对比, 来说明本研究中光谱数据的可靠性。 当紫外光束穿过氯气时, 根据朗伯-比尔定律(Beer-Lambert)可将光强度变化表示为

I(λ)=I0(λ)exp[-Lnσ(λ)](10)

式(10)中: I0 (λ )和I(λ )分别为入射光强和出射光强; L为光程, 单位为cm; n为氯气分子的数密度, 单位为molecule· cm-3; σ 为吸收截面, 单位是cm2· molecule-1, 表征了气体的吸收能力。

由理想气体状态方程PV=nRT, 可以计算出标准状况下单位体积内吸收气体的分子数密度n0[见式(11)]

n0=P0V0RT0NA=0.101325×18.31434×273.16×6.022×1023=2.687×1019(11)

测量条件下单位体积内气体的分子数密度n为式(12)

n=n0T0PP0T(12)

由于在实验室测量吸收光谱时使用氯气和氮气配制的浓度为c的标准气体, 单位体积内气体的分子密度为n=n0c T0PP0T, 代入吸收截面计算式中

σ(λ)=P0TPT0cn0VLlnI0(λ)I(λ)(13)

实验室条件下, 氯气在吸收池中的温度为T=298 K、 分压力P=0.995× 105 Pa、 光程L=60 cm、 气体池体积V=188.5 cm3, 通过光谱仪测量紫外光束经过气体池吸收后的入射光强I0和出射光强I后, 即可根据式(13)计算出氯气的吸收截面σ (λ ), 与MPI-Mainz收录的数据进行对比, 结果如图6(a)所示, 在250.03~399.92 nm范围内, 两条曲线基本重合, 波峰位置与强度等特征都一致。 图6(b、 c)展示了二者的绝对误差和相对误差, 仅有一个波长采样点的相对误差高于20%, 其余波长点的误差较小, 270~375 nm范围内的相对误差均低于10%, 计算结果与数据库中收录结果的差异较小。 这也说明了本研究实验的正确性以及实验所获取吸收光谱数据的可靠性。

图6 实验数据计算的Cl2分子吸收截面与MPI数据库中结果的对比
(a): 与MPI数据库Cl2吸收截面曲线对比; (b): 绝对误差; (c): 相对误差
Fig.6 Comparison of absorption cross-section calculated with data in MPI database
(a): Comparasion results with the absorption cross-section curve of Cl2 in MPI database; (b): Absolute error; (c): Relative error

3.3 不同光谱噪声预处理方法对比分析

对氯气紫外吸收光谱数据的预处理流程依次为异常值检测与替换、 基线校正和光谱滤波去噪。 异常值检测和替换方法为四分位距法, 具体为计算数据集的下四分位数Q1与上四分位数Q3范围内的中位数Q2(Median), 任何超过下界Q1-1.5* IQR和上界Q3+1.5* IQR范围的值均被视为异常值, 并用Q2代替。 本研究进行基线校正的方法是先拟合未通入氯气进行吸收的光谱数据得到基线, 再从数据中减去基线以消除仪器和环境等导致的光谱数据漂移影响。

针对光谱数据中的随机噪声, 本研究对比了傅里叶变换(FFT)、 奇异值分解(SVD)、 S-G滑动窗口滤波和小波变换预处理方法, 如图7(a— e)所示, 4种方法处理的结果都保留了氯气吸收光谱的主要特征信息。 S-G法处理的效果受滑动窗口大小的影响较大, 需要多次试验已选择最合适的窗口大小, 本研究中采用的滑动窗口的大小为299。 FFT直接在频域中去除了频率较高的噪声信号, 光谱曲线直观上看最为光滑。 SVD通过提取主成分信息以去除噪声, 很大程度上能保留数据的最多原始信息, 避免滤波的过程中信号失真。 小波变换可以实现局部频率灵活变化, 能很好的保护高频特征信号, 如尖峰信号和突变信号。 小波变换适合用于暂态信号和瞬态信号的噪声去除以及抑制高频噪声的干扰, 实现高频信息和高频噪声的有效区分。

图7 不同算法预处理后的光谱数据对比
(a): 原始数据; (b): S-G filter; (c): FFT; (d): SVD; (e): Wavelet
Fig.7 Comparison of spectral data after preprocessing by different algorithms
(a): Raw data; (b): S-G filter; (c): FFT; (d): SVD; (e): Wavelet

基于滤波处理后的数据, 用LS和1D-CNN模型进行氯气浓度反演来优选预处理方法, 结果如表3所示, 展示了浓度实测值和模型估计值的线性拟合效果如图8(a— j)所示。

表3 不同滤波算法预处理后的反演结果准确度对比 Table 3 Comparison of accuracy after preprocessing by different filtering algorithms

图8 真实值和算法预测值及线性拟合结果对比图
(a): FFT+LS; (b): FFT+1D-CNN; (c): 无处理+LS; (d): 无处理+1D-CNN; (e): SVD+LS; (f): SVD+1D-CNN; (g): Wavelet+LS; (h): Wavelet+1D-CNN; (i): S-G filter+LS; (j): S-G filter+1D-CNN
Fig.8 Comparison of true values and model estimates and linear fitting results
(a): FFT+LS; (b): FFT+1D-CNN; (c): Unproccessing+LS; (d): Unproccessing+1D-CNN; (e): SVD+LS; (f): SVD+1D-CNN; (g): Wavelet+LS; (h): Wavelet+1D-CNN; (i): S-G filter+LS; (j): S-G filter+1D-CNN

对比结果, 1D-CNN与S-G滑窗滤波算法组合的浓度反演表现最优, R2为0.996, MAE为2.64, RMSE为4.40, SMAPE为8.51%, 与Wavelet的组合次之。 无论是最小二乘回归法还是1D-CNN浓度反演算法与FFT组合的性能都最差, 甚至比无任何处理时的反演效果还要差。 由图8(a, b)也可以看出, 在氯气浓度较低时两种方法都几乎失去了反演能力, 在浓度较高时模型的反演结果与真实值还能保持一定的线性度。 这是因为低浓度对应的吸收光谱数据的吸收不明显, 傅里叶变换处理的过程导致了这部分数据特征信息的丢失。 通过横向对比最小二乘法和1D-CNN浓度反演算法, 后者的精确度全面优于前者。 即使对于FFT导致的部分特征信息丢失和畸变现象, 1D-CNN依然有强大的特征提取能力, R2达到了0.917, 虽然仍是最差的组合, 但是也远超过最小二乘法(R2=0.399)。

4 结论

针对开放环境空气中氯气泄漏浓度的远距离快速准确检测难题, 基于UV-DOAS技术, 提出了一种新的基于1D-CNN的光谱分析算法, 充分挖掘提取氯气特征吸收波段的光谱信息, 实现氯气浓度的准确定量反演。 与其他传统光谱分析方法相比, 本研究提出的1D-CNN浓度反演算法通过逐层卷积提取吸收特征, 反演结果的准确度较高, 泛化能力强, 能有效解决传统算法不能分离氯气的“ 慢指纹” 吸收特征信息与噪声信号, 进而导致反演精度下降的问题, 可以实现端到端的光谱分析, 对于超低气体浓度时, 该模型具备一定的反演能力, 但是仍需在10 μ mol· mol-1以下进行更细粒度的研究分析, 进一步提升其对于现实检测场景的适用性。 在此基础上对比了不同滤波算法处理数据中随机噪声, 结果表明S-G滤波法和小波分解算法在去除噪声并保留特征信息方面有较大的优势, 但是S-G滤波算法容易受到滑动窗口尺寸大小的影响, 稳定性与小波分解算法相比较差。

氯碱化工生产现场存在着模态不一、 来源多样的噪声信号干扰, 考虑到氯气独特的“ 慢变化” 紫外吸收光谱特征, 主要问题在于无法用传统的差分方法分离同为“ 慢变化” 的随机噪声。 本研究提出了基于1D-CNN的浓度反演算法并讨论了适用于氯气光谱数据的滤波预处理方法, 为开放光路条件下的UV-DOAS技术进行氯气检测和浓度定量反演提供了研究依据, 在氯气泄漏的远距离在线检测中具有潜在的应用前景。

参考文献
[1] SHEN Xin-hua(沈新华). Chemical Management(化工管理), 2016, 20: 309. [本文引用:1]
[2] LI Wei, ZHANG Shuang-quan, GAO Han-chen, et al(李伟, 张双全, 高翰晨, ). Chemical Management(化工管理), 2018, 19: 86. [本文引用:1]
[3] Zhang Y, Wang Y, Liu Y, et al. Spectrochimca, 2019, Acta Part A 210: 120. [本文引用:1]
[4] YU Zhi-wei, GUO Jie, HAN Xiao-hong, et al(于志伟, 郭杰, 韩晓红, ). China Instrumentation(中国仪器仪表), 2019, 3: 52. [本文引用:1]
[5] Zhang X, Yang J. Trends in Food Science & Technology, 2021, 112(1), 1. [本文引用:1]
[6] Puneet M, Dario P. TrAC Trends in Analytical Chemistry, 2022, 157: 116804. [本文引用:1]
[7] Barbedo Jayme G A. Computers & Electronics in Agriculture, 2023, 210: 1. [本文引用:1]
[8] Liu J, Hu P, Xue H, et al. Spectroscopy Letters, 2022, 55(4): 229. [本文引用:1]
[9] Li X, Liu J. Spectroscopy Letters, 2023, 56(4): 204. [本文引用:1]
[10] Hennrich J, Herff C, Heger D, et al. Proceedings of the Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBS), 2015, 11: 2844. [本文引用:1]
[11] Liu J, Gibson S J, Mills J, et al. Chemometrics & Intelligent Laboratory Systems, 2018, 184(2): 52. [本文引用:1]
[12] Mao Y, Liu C, Xiao D, et al. Journal of Sensors, 2018, 17(2): 1. [本文引用:1]
[13] Sun Y, Brockhauser S, Hegedüs P. Applied Sciences, 2021, 11(23): 11520. [本文引用:1]
[14] Sohn W B, Lee S Y, Kim S. Journal of Raman Spectroscope, 2020, 51(3): 414. [本文引用:1]
[15] Yang Y, Liao J, Li H, et al. Spectroscopy Letters, 2023, 56(1): 28. [本文引用:1]
[16] Keller-Rudek H, Moortgat G K, Sand er R, et al. Earth System Science Data, 2013, 5(2): 365. [本文引用:1]
[17] Fergusson W C, Slotin L, Style D W G. Transactions of the Faraday Society, 1936, 32: 956. [本文引用:1]