作者简介: 赵玉莹,女, 2001年生,山东中医药大学医学信息工程学院硕士研究生 e-mail: 2331442455@qq.com
二氧化碳(CO2)气体检测在环境监测、 农业生产及微生物检测等多个领域均具有重要的研究意义。 基于波长调制的可调谐半导体激光吸收光谱技术(TDLAS/WMS)以其高灵敏度、 低成本、 无创和实时监测等显著优点, 已经成为精密气体检测的重要手段。 然而, 在实际测量过程中检测系统易受到各种环境噪声的干扰, 导致气体检测精度和稳定性受到很大的影响。 常用的传统时-频域滤波方法无法有效地滤除掉和吸收信号耦合在一起的低频信号噪声, 从而干扰后续气体浓度检测。 深度学习算法以其强大的特征映射能力, 可以将信号投射到一个新的特征空间中去, 学习光谱信号背景结构的分布, 从而摆脱时-频域滤波算法的限制。 因此, 提出一种基于TDLAS气体检测的神经网络滤波算法(TGDF), 以减少气体检测系统中全频段噪声的影响, 提高气体检测精度。 TGDF以全连接神经网络为基础架构, 添加采样块结构, 在特征域上去除噪声, 此外, 引入奇异值分解进一步调整谐波信号, 增强信噪比。 在实验条件下模拟大量不同浓度的CO2吸收光谱进行训练、 测试和调整模型, 并在实验数据集上测试模型性能。 在仿真实验中, TGDF滤波光谱平均信噪比从7.34 dB增加到22.41 dB, 增加了3.05倍, 并在频率域保持最低的噪音残差。 在真实实验中, 二次谐波最大振幅与预设CO2气体浓度之间存在良好的线性关系( R2=0.998), 五组CO2检测的平均绝对误差(MAE)分别为0.27%, 0.20%, 0.23%, 0.28%, 0.32%。 与EMD、 SG、 小波变换和MLP神经网络等常用滤波算法相比, TGDF在两个数据集中都表现出最佳的滤波性能。 结果充分证明了TGDF可以有效地降低气体检测谐波信号中的各频段系统噪声, 提高了TDLAS检测CO2浓度的准确率和稳定性, 为CO2和其他微量气体进行高灵敏度测量提供一种可行性技术手段。
Carbon dioxide (CO2) gas detection has important research significance in various fields, such as environmental monitoring, agricultural production, and microbial detection. Tunable diode laser absorption spectroscopy(TDLAS/WMS) based on wavelength modulation detection systems has become an important means of precision gas detection due to its significant advantages of high sensitivity, low cost, non-invasiveness, and real-time monitoring. However, the system is susceptible to interference from various environmental noises, significantly impacting gas detection accuracy and stability. The commonly used traditional time-frequency analysis algorithm cannot effectively filter out the low-frequency signal noise coupled with the absorption signal, which will interfere with the subsequent gas concentration retrieval task. With their powerful feature mapping capabilities, deep learning algorithms can project signals into a new feature space, learn the distribution of spectral signal background structures, and thus overcome the limitations of time-frequency domain filtering algorithms. Therefore, a deep learning-based TDLAS carbon dioxide gas detection filtering algorithm (TGDF) is proposed to reduce the influence of full-frequency noise in the gas detection system and improve the accuracy of gas measurements. The TGDF takes a fully connected neural network as the infrastructure and adds sampling blocks to remove noise in the feature domain; in addition, the singular value decomposition is introduced to further adjust the harmonic signals. The model is trained, tested, and tuned by simulating different concentrations of CO2 absorption spectra with noise under experimental conditions, and the model performance is tested on the experimental dataset. In the simulation experiments, the average signal-to-noise ratio of the TGDF-filtered spectra increased by a factor of 3.05 from 7.34 dB to 22.41 dB. It kept the lowest noise residuals in the frequency domain. In real experiments, there is a good linear relationship between the second harmonic amplitude and preset concentrations of CO2 ( R2=0.998); the average absolute error (MAE) of five CO2 detections is divided into 0.27%, 0.20%, 0.23%, 0.28% and 0.32%. Compared with the commonly used filtering algorithms such as EMD, SG, Wavelet transform, and MLP neural networks in these two datasets, the TGDF showed the best performance in suppressing systematic noises of different frequencies and phases. The results fully proved that TGDF could effectively reduce the systematic noise of each frequency band in the harmonic signal of gas detection and improve the accuracy and stability of TDLAS CO2 concentration detection, which provides a feasible technical means for high-sensitivity measurement of CO2 and other trace gases.
二氧化碳(CO2)气体检测在环境监测、 农业生产、 微生物检测等多个领域中均具有重要的研究意义。 在环境监测方面, CO2作为温室气体的主要成分, 准确、 快速地测量CO2浓度可以帮助评估空气质量和控制环境污染[1]; 在农业生产方面, 通过测控调节农作物生长环境中CO2浓度, 可以提高温室农作物产量[2, 3]; 在微生物检测方面, 血培养是病原菌感染诊断的“ 金标准” , 通过实时在线检测血培养瓶中微生物生长代谢释放的CO2浓度可以为临床迅速有效地进行抗感染治疗提供诊断依据[4, 5]。 目前基于波长调制(WMS)的可调谐激光吸收光谱技术(tunable diode laser absorption spectroscopy, TDLAS)技术凭借其检测灵敏度高、 响应时间短、 选择性好和非接触测量等优点, 在气体检测领域已有深刻的发展和广泛的应用[6, 7, 8]。 然而, TDLAS气体检测系统实际测量过程中, 用于气体浓度反演的二次谐波信号易受到系统噪声的干扰, 从而影响系统的检测精度和稳定性。
TDLAS检测系统噪声来源主要包括热噪声、 散粒噪声、 闪烁噪声和光学系统中产生的干涉条纹等, 这些噪声干扰耦合到吸收信号中并且分布在整个频率范围内[9, 10]。 经验模态分解(empirical mode decomposition, EMD)[11]算法是一种基于数据时间尺度特征的时频域分析方法, 可以自适应地分解信号并去除噪声成分, 对谐波信号信号处理具有较好的适用性。 Savitzky-Golay(SG)[12]滤波算法是最为简单的时域滤波算法, 通过高阶多项式对滑动窗口数据进行最小二乘拟合, 可以比较准确地描述时间序列变化趋势, 同时保留局部突变信息, 具有较好的平滑效果。 小波变换(Wavelet)[13, 14]分析是一种用于处理局部或瞬态信号的时频分析方法, 具有表征信号局部特征的能力, 可以有效地改善信噪比。 这些传统时-频域滤波方法能有效滤除系统中高频噪声, 并同时在时间和空间域上产生平滑的输出。 但当噪声信号低频分量以近似正弦函数的形式叠加在测量信号上时, 其在频域中的分布与吸收信号几乎相同, 此时, 上述时-频域数字滤波技术将变得无效, 低频噪声仍会干扰后续的气体浓度检测[15, 16]。
深度学习算法具有强大的特征映射能力, 可以将信号映射到新的特征空间, 在特征空间中分离噪声信号, 从而摆脱时-频域分析方法的限制[17, 18, 19]。 因此, 提出一种神经网络滤波算法TGDF用于滤除信号中的全频段噪声。 TGDF滤波算法以全连接神经网络作为基础模型架构, 利用采样块结构在特征域上去除二次谐波噪声, 相较于MLP神经网络滤波算法直接使用多层全连接层进行去噪, 采样块结构更容易识别低频噪声, 并保留真实信号, 同时, 可以减少可训练的参数和计算时间。 此外, 引入奇异值分解算法, 在谐波信号压缩矩阵中保留较大的奇异值, 摒弃较小的奇异值所代表的噪声成分, 从而在进一步去除噪声的同时保留了信号的本质特征, 使得滤波后信号更加平滑, 信噪比更高。 将TGDF滤波算法运用到TDLAS气体检测中可以有效提高检测精度和稳定性。
TDLAS波长调制技术通过对激光器注入电流进行激光波长扫描和波长调制, 即在激光器两端注入三角波电流, 且同时在此基础上增加一个幅值较小的高频正弦变化, 此时, 激光器输出光强和输出波长可表示为
式中, u(t)为锯齿波信号, η 为光强的调制幅度, φ 为光强与波长调制的相位差, λ 0为光源的中心波长, λ m为波长的调制幅度, 根据朗伯-比尔定律
式(3)中,
气体吸收系数可以用Lorentz线型函数表示。 对式(4)进行傅里叶级数展开, 得到二次谐波信号的幅值
式(5)中, k为λ m和Δ λ 的函数。 由此可知, 二次谐波信号幅值与气体浓度有关, 解调出二次谐波便可计算出气体浓度。
基于TDLAS技术的CO2浓度检测实验装置如图1所示。 使用中心波长为4 989.87 cm-1可调谐分布反馈式(DFB)二极管激光器(nanoplus DFB Laser 2 004 nm)作为激光光源。 通过信号发生器1产生10HZ低频三角波信号叠加信号发生器2产生16 kHZ高频正弦波信号控制激光驱动器(standford research systems LDC501)使得激光器输出激光波长可调。 出射激光经过激光准直器准直后穿过配备气瓶, 吸收光路长度为3 cm。 激光经过光谱吸收后, 由InGaAs光电检测器(PD)接收将光信号转换成电压信号, 并交由锁相放大器将二次谐波信号解调出来。 最后, 对收集到的谐波信号传入PC端进行滤波处理并根据式(5)计算样品气体的瞬时浓度值, 从而实现气体浓度的全自动检测。
实验选取的CO2的吸收谱线为4 989.97 cm-1, 其中心波长为2 004 nm, 在此波长区域有很强的吸收, 且无其他气体干扰。 在大气压强为1 atm、 温度为298 K条件下, 通过调谐电流控制激光器波长扫描二氧化碳分子吸收峰。
神经网络模型预测的质量往往取决于实验数据集的数量, 但是通过实验获得大量数据集是非常困难的, 同时, 在实验中无法获得完美的谐波信号, 无法满足神经网络训练要求。 因此, 为了解决实验数据稀缺和理想二次谐波信号无法获取的问题, 利用HITRAN应用程序, 在实验条件下, 模拟与真实实验信号分布相同的2 500条不同浓度的CO2吸收光谱, 用于训练、 评估和测试本文提出的去噪网络模型, 以提高模型的泛化能力。 具体来说, 模拟CO2浓度范围为0~25%(步长为0.01%), 谱线强度设置为0.031 9, 选择Lorentz线型以拟合吸收线。
在TDLAS真实测量系统中, 谐波信号中的噪声形式主要包括高斯白噪声和干涉噪声。 其中高斯白噪声主要是由电子器件产生的散粒噪声和热噪声, 散粒噪声和热噪声具有白噪声的频谱特性, 服从高斯分布, 是一种随机信号; 干涉噪声主要是由实验系统中激光反射和散射引起的光学条纹的干扰。 干涉噪声等效于在谐波信号上增加了一个缓慢变化的干扰信号, 引起谐波吸收信号基线漂移。 两种噪声干扰叠加从而影响气体检测精度和稳定性。 根据上述噪声分析理论和真实谐波信号大小进行噪声模拟, 首先, 通过高斯白噪声(均值为0, 方差为7.6× 10-5)和干涉噪声(Airy函数)模拟系统的白噪声及光学条纹干扰, 然后叠加在模拟的纯净二次谐波信号上, 最后得到一个带有噪声的二次谐波信号仿真数据集。
此外, 通过实验收集了浓度为0%, 5%, 10%, 15%, 20%五组CO2透射谐波光谱(将空气中二氧化碳含量近似认为0%), 每组浓度测量1 000次, 形成了一个实验数据集, 以评估通过在仿真数据集上训练的TGDF算法在实际应用中的滤波性能。 在实验数据集中选择一组浓度的谐波信号与仿真信号进行比较, 如图2所示。 通过计算两个信号之间的皮尔逊相关系数来评估它们之间的相似度, 相关系数(R)=0.98, 可以说明仿真数据可以很好地拟合实验结果, 但是在图2中, 仍可以看到理论波形和实际波形之间存在一定误差, 产生这种误差的原因有两个: (1) 由于在测量过程中, 实际的压强、 温度以及气体浓度分量与理论模拟的数值存在一定程度上差异, 进而影响吸收线型的半高全宽, 导致实际测量和理论模拟的二次谐波线形存在轻微偏差。 (2) 二次谐波信号在非中心吸收位置的线形会受剩余幅度调制中的相位差影响, 由于本工作不考虑相位差因素, 因此二次谐波在非中心吸收位置的理论线型与实际线形会存在较小的差异。
TGDF模型架构如图3(a)所示, 由神经网络谐波信号去噪模块(HSD)和奇异值分解(SVD)降维重建两部分组成, 如图3(b)所示。 神经网络去噪模块由5个全连接层、 2个激活函数和2个采样块构成, 首先通过一个全连接层, 后接一个Relu激活函数以提高非线性表达能力, 再接一个全连接层, 将二氧化碳气体透射光强二次谐波信号投射到一个新的特征域, 得到相应的特征图。 然后将特征图传入采样块操作, 在特征域上进行去噪处理。 采样块操作包括2倍上采样以增加模型对光谱细节的捕捉能力, 然后进行平均池化操作。 平均池化去噪平滑度高, 尤其适用于高频振动信号的平滑处理, 它可以把特征图维度还原回来, 同时减少模型参数和计算量。 将窗口大小设为8, 步长设为2, 得到初步的去噪光谱特征图。 再次重复上述操作, 最后, 连接一层全连接层将特征域信号尺度还原回来, 得到第一阶段的去噪光谱。
![]() | 图3 (a) TGDF滤波器的数据处理流程图; (b)TGDF 网络结构Fig.3 (a) Data processing flowchart of TGDF filter; (b) TGDF network structure |
之后, 引入奇异值分解进行降维去噪处理, 在进一步调整谐波信号的同时最大限度地保留原始信息, 将第一阶段去噪后一维光谱信号连续截断使其转变为二维矩阵, 矩阵大小为(m, n), 具体计算过程如式(6)所示
式(6)中, Σ m× n为实对角矩阵, Σ m× n=diag(λ 1, λ 2, …, λ q), q=min(m, n), λ q为矩阵Σ m× n的非零奇异值。 在奇异值分解中矩阵Σ m× n对角线上的前k个奇异值表征Xm× n矩阵中信号子空间的分量, k称为对信号重构的有效阶次, 保留k阶降维后数据可表示为
最后, 将降维后信号利用式(7)将压缩后数据反变换为时域信号, 得到最终的滤波信号。
对仿真数据集使用五折交叉验证来进行超参数选择和模型验证, 均方误差(MSE)作为损失函数, 表达公式为
式(8)中, i表示对应于整个光谱数据点的索引,
在仿真测试数据集上, 随机选择一组CO2气体波长调制光谱作为代表样本, 以直观地比较TGDF与EMD、 SG和小波变换等传统时-频域滤波算法及MLP全连接神经网络算法的滤波效果, 如图4所示。 EMD将含噪数据分解为一系列固有模态函数(IMFs), 并对每个IMFs进行特征识别, 对识别为噪声的IMFs进行去噪处理。 将有噪声的二次谐波信号分解为七个IMF, 保留最后四个IMF的总和进行去噪时结果最好, 信噪比为10.77 dB。 SG滤波算法滤波效果受窗口长度和拟合阶数选择的限制。 当滤波窗口点数设为151, 拟合阶数为2时, 滤波效果最好, 信噪比为11.43 dB。 小波变换通过选择合适的小波基函数、 分解层数和阈值能很好地表达出序列中的突变和非平稳部分。 选择“ db18” 作为小波基函数, 并通过软阈值进行去噪, 最终得到的信噪比为12.62 dB。 MLP滤波算法由三层全连接层和2个Relu激活函数组成(batch=32, lr=1× 10-5), 最终信噪比为20.42 dB, 与原始信号相比增加13.5 dB。 与上述滤波算法相比, TGDF去噪方法获得的二次谐波曲线信噪比最高, 与原始信号相比增加了15.07 dB(从7.34 dB增加到22.41 dB, 其中不引入奇异值分解滤波, 可以将信噪比增加到21.95 dB)。 结果表明, TGDF具有最优的滤波性能, 可以很好地消除噪声干扰, 并能保持信号的真实性。
![]() | 图4 几种滤波算法对模拟噪声二次谐波信号的滤波效果比较Fig.4 Comparison of filtering effects among several filtering algorithms for simulated noisy second harmonic signal |
计算谐波信号的非吸收区域(前500个数据点)波动的标准差评估各滤波算法去噪后的波动幅度, 如图4所示。 EMD、 SG和小波变换滤波算法在非吸收区域波动幅度较大, 虽然能够很好地消除突变干扰, 但对调制引入的与吸收信号同频同相的低频干扰无能为力。 相比之下, MLP神经网络算法摆脱了时域和频域的限制, 能够很好地去除低频噪声, 但仍保留一定的波动幅度和突变信号。 TGDF 算法滤波后信号比MLP神经网络算法更加平滑, 且波动幅值仅为MLP滤波算法的28%, 能够更好地去除谐波信号中的低频噪声, 使输出信号更接近理论信号。
此外, 从频域的角度对TGDF滤波性能进行了表征, 通过快速傅里叶变换获得各种滤波算法处理后光谱信号的频率残差分布。 如图5(a)所示。 EMD、 VMD和小波变换滤波更专注于滤波高频分量, 无法很好地滤除掉低频分量, 这与图4中非吸收区的平滑效果一致。 MLP滤波算法虽然能够滤除低频分量但在低频区域还具有较大的残差。 TGDF滤波算法几乎完美的滤除高频噪声分量, 即使在低频区域也能保持最低的残差, 这是滤除噪声和保留吸收信息的关键。 图5(b)表明, HSD是TGDF滤波算法降低低频噪声的主要贡献者, 能够几乎全部消除整个频率域中的噪声。 其中, 采样块结构是降低低频噪声的关键, 采样块结构在特征域上直接滤除掉噪声分量, 与直接学习纯净噪声相比更能精准捕捉并滤除低频分量, 从而使得在低频区域HSD比MLP有更低的噪声残差。 奇异值分解仅能够滤除残余的高频噪声分量, 进一步平滑信号和提高信噪比。
为了验证TGDF滤波算法在实际应用中的可靠性, 将TDLAS气体检测装置获得的五组CO2谐波信号经过TGDF算法滤波处理, 并以5%CO2浓度实验测量的二次谐波信号作为代表样本, 直观地比较了几种算法的噪声抑制效果, 如图6所示。 蓝色线表示未经任何滤波算法处理的二次谐波信号, 由于残余幅度调制和光强调制的影响, 导致实验数据的二次谐波信号不对称, 且携带大量噪声信号。 从图中可以看到, EMD、 SG和小波变换滤波算法能够很好地抑制谐波信号吸收区域和非吸收区域中的高频噪声, 使其输出光滑, 但在非吸收区域还是有较大的幅值波动, 影响其测量浓度结果的准确性和稳定性。 MLP和TGDF滤波算法能够很好地去除全频段噪声, 但在非吸收区域TGDF滤波后信号比MLP滤波更加平滑, 更接近真实信号, 与模拟数据集的评估结果一致, 证明了TGDF滤波算法在真实实验数据集上具有良好的泛化性能。
3.2.1 检测精度评估
将收集到的五组实验谐波信号经TGDF滤波后对二次谐波信号最大值[max(2f)]与气体浓度进行线性拟合, 拟合结果如图7所示。 线性关系拟合为y=0.743 8x+0.081 4, 线性相关性系数R2=0.998, 二次谐波幅值与CO2气体浓度之间存在良好的线性关系, 通过拟合公式可以实现CO2气体浓度的精确反演。 根据拟合公式对五组CO2二次谐波信号进行气体浓度反演, 并于其他算法的测量结果进行比较, 测量平均绝对误差如表1 所示。 TGDF滤波算法处理后测量绝对误差在各气体浓度之间均低于其他滤波算法。 由此可见, 在实际应用中, 经TGDF滤波算法处理后的CO2气体检测精度优于其他算法。
![]() | 图7 二次谐波振幅(max)与CO2浓度之间的线性关系Fig.7 Linear relationship between second harmonic amplitude (max) and CO2 concentration |
![]() | 表1 各种滤波算法的平均绝对误差 Table 1 Average absolute error of each filtering algorithm |
3.2.2 检测稳定性评估
为了衡量和评价经TGDF算法滤波后TDLAS气体检测系统的稳定性。 比较连续测量的TGDF降噪前后五组CO2浓度结果, 如图8所示。 原始测量数据受到激光功率振动、 光学器件噪声、 后续电路噪声的影响, 导致浓度测量有明显波动, 该波动在用TGDF算法处理后明显减小。 表2为二次谐波实验信号数据和各滤波算法处理后的二次谐波数据浓度反演的标准差, 从表中可以看出, 20%CO2测量稳定性较差, 可能是在测量过程中受激光器功率震动的影响最大, 导致测量浓度基线明显漂移。 EMD滤波算法在0%CO2测量稳定性最差, 这是由于EMD在分解时难以准确提取出弱信号成分, 导致无法有效去除在低浓度时的信号噪声。 此外, 在测量其他浓度时, SG滤波算法的检测标准差最高, 稳定性最差, 这是因为SG滤波是基于局部多项式拟合, 在测量的谐波信号中存在大量的突然变化和尖峰, SG滤波算法可能会错误地平滑这些区域, 导致测量结果不稳定。 然而, 经TGDF算法优化后的五组气体检测标准差均低于其他算法, 能够很好地识别吸收信号并将噪声干扰滤除, 从而检测稳定性得到了显著提升。
![]() | 图8 TGDF降噪前后连续测量结果Fig.8 The continuous concentration test results before and after TGDF noise reduction |
![]() | 表2 降噪前后测量的标准差 Table 2 Standard deviation of measurements before and after noise reduction |
提出了一种基于神经网络的TDLAS气体检测滤波模型TGDF。 首先在实验条件下进行数据仿真, 利用仿真数据训练模型, 并将仿真实验结果在时-频域进行分析。 结果表明, EMD、 SG和小波变换等传统时-频域滤波算法无法去除系统中与吸收信号耦合在一起的低频噪声。 TGDF利用采样块结构去除特征域上二次谐波噪声, 相较于MLP神经网络直接学习真实信号, 滤除后的波形更加平滑, 去低频干扰能力更强, 同时引入奇异值分解进一步滤除噪声, 使谐波信号信噪比更高。 其次, 在真实实验数据集上验证模型的泛化能力, 结果表明, 经TGDF滤波后系统检测精度、 稳定性等指标均得到了明显提升, 并与其他滤波方法相比取得了最优的滤波效果。 由此可知, TGDF滤波算法在TDLAS气体检测中具有很大的应用潜力。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|