机器学习的IBBCEAS光谱反演波段优化
凌六一1,3,*, 黄友锐1,2,*, 王成军1, 胡仁志3, 李昂3, 谢品华3
1.安徽理工大学人工智能学院, 安徽 淮南 232001
2.安徽科技学院, 安徽 凤阳 233100
3.中国科学院安徽光学精密机械研究所, 中国科学院环境光学与技术重点实验室, 安徽 合肥 230031
*通讯作者 e-mail: lyling@aust.edu.cn; hyr628@163.com

作者简介: 凌六一, 1980年生, 安徽理工大学教授 e-mail: lyling@aust.edu.cn

摘要

非相干宽带腔增强吸收光谱技术(IBBCEAS)利用高精密谐振腔增强吸收光程, 实现对痕量气体的高灵敏探测。 目前, IBBCEAS技术主要采用发光二极管(LED)作为非相干光源。 当谐振腔镜片反射率曲线与带宽有限的LED辐射谱不能很好匹配时, 光谱反演波段选择不当可能会对被测气体浓度拟合结果产生较大偏差。 以定量探测大气NO2浓度为例, 分析了IBBCEAS光谱反演波段对NO2拟合结果的影响, 发现当反演波段宽度窄到一定程度后, NO2浓度拟合相对误差会迅速增加。 为此, 提出了一种基于RBF神经网络结合遗传算法的机器学习IBBCEAS光谱反演波段优化方法, 以使浓度拟合误差达到最小。 在430~480 nm待选波段内, 选择各种宽度和中心波长的子波段作为反演波段, 分别进行NO2浓度拟合, 以此获得435个样本数据, 并将样本数据按照4∶1比例分成学习样本和测试样本, 分别用于RBF神经网络学习训练和测试, 得到输入参数“反演波段的起始波长与截止波长”与输出参数“浓度拟合相对误差”之间的非线性映射关系。 使用遗传算法搜索最优反演波段, 将反演波段的起始波长和截止波长组合进行个体编码, 随机产生若干个体形成种群。 以RBF神经网络的输出(即浓度拟合相对误差)作为个体适应度, 经过多代种群进化过程后, 获得适应度最优个体, 即获得最优反演波段。 在种群规模为100个体, 种群进化最大代数为100的情况下, 当种群进化第61代时, 最优个体出现, 对应的最优适应度为3.584%, 最优反演波段为445.78~479.44 nm。 选择相同带宽的其他4个典型反演波段, 与最优反演波段下的NO2拟合结果进行了对比。 结果显示, 在最优反演波段下, 无论是拟合误差、 相对拟合误差还是拟合残差标准偏差, 均低于其他4个反演波段, 光谱拟合质量达到最优。 结果表明, 利用机器学习来确定IBBCEAS最优反演波段是可行的。

关键词: 非相干宽带腔增强吸收光谱; 优化; 反演波段; 机器学习; 遗传算法
中图分类号:O433 文献标志码:A
Optimization of IBBCEAS Spectral Retrieval Range Based on Machine Learning and Genetic Algorithm
LING Liu-yi1,3,*, HUANG You-rui1,2,*, WANG Chen-jun1, HU Ren-zhi3, LI Ang3, XIE Pin-hua3
1. School of Artificial Intelligence, Anhui University of Science and Technology, Huainan 232001, China
2. Anhui Science and Technology University, Fengyang 233100, China
3. Anhui Institute of Optics and Fine Mechanics, Key Laboratory of Environmental Optics & Technology, Chinese Academy of Sciences, Hefei 230031, China
*Corresponding authors
Abstract

Incoherent broadband cavity-enhanced absorption spectroscopy (IBBCEAS) can highly sensitively detect trace gases by using an optical resonator to enhance the absorption path. At present, IBBCEAS mainly uses light-emitting diode (LED) as its incoherent light source. The fitting result of the measured gas concentration with improper spectral retrieval range may have a large deviation if the reflectivity curve of the resonator’s mirror does not match well with the LED radiation spectrum with limited bandwidth. Taking the case of quantitative detection for atmospheric NO2, the influence of retrieval range on NO2 fitting results is analyzed. It is found that the relative fitting error will increase rapidly when the retrieval range is narrowed to a certain extent. In this paper, a method for optimizing retrieval range based on machine learning using RBF neural network and genetic algorithm is proposed in order to minimize the error. 435 sample data are obtained by retrieving NO2 concentrations with various spectral subranges, which are members of 430~480 nm and have different widths and center wavelengths. 80% of the sample data are used to train the RBF neural network, and the rest for the testing network. The nonlinear mapping relationship between input parameters, starting and ending wavelengths of retrieval range, and output parameter, relative fitting error, is obtained by the trained network. The optimal retrieval range is searched using a genetic algorithm, in which starting and ending wavelength of the retrieval range are encoded into an individual, and a population is generated with a number of random individuals. After the evolution of multi-generation populations, the optimal retrieval range is obtained by the genetic algorithm, which uses the output of the RBF neural network, i.e. relative fitting error, as individual fitness. Every population has 100 individuals, and the maximum evolution generation is set to 100. When the populations evolve in the 61st generation, the optimal individual, corresponding to 445.78~479.44 nm of the optimal retrieval range, appears, and the optimal fitness is 3.584%. The NO2 fitting results with the other four typical and the optimal retrieval ranges with the same width are compared. The results show that fitting error, relative fitting error and standard deviation of fitting residual with the optimal retrieval range are lower than those with the other four retrieval ranges. The results demonstrate the feasibility of using machine learning to determine the optimal retrieval range of an IBBCEAS system.

Keyword: Incoherent broadband cavity enhanced absorption spectroscopy; Optimization; Retrieval range; Machine learning; Genetic algorithm
引言

非相干宽带腔增强吸收光谱(IBBCEAS)是近年来发展起来的一种高灵敏光谱探测技术, 利用高精密光学谐振腔增强吸收光程来达到高灵敏探测目的。 目前, IBBCEAS技术已被广泛应用于大气痕量气体N O2[18], CHOCHO[1, 2, 3], HONO[2, 4, 6, 7], HCHO[9, 10], N O3[4, 6], I2[11], H2O[4, 11]以及气溶胶消光[12]等探测。 IBBCEAS仪器可以通过增加谐振腔基长、 提高光源辐射光强以及使用更高反射率镜片等手段来提高探测灵敏度。 IBBCEAS仪器的这些客观参数一旦固定, 又如何进一步改善仪器性能仍然值得研究。 如Langridge等[13]通过Allan方差分析, 获得NO3吸收光谱最佳采集时间为400 s, 将NO3的探测限从0.25 pptv(10 s的采集时间)改善到0.09 pptv; Yi等[6]应用IBBCEAS测量NO3, HONO和NO2, 利用Allan方差获得100 s的最优光谱采集时间, NO3和NO2的探测限分别达到1.7 pptv和1.6 ppbv; Duan等[4]同样针对HONO和NO2测量, 通过Allan方差分析, 获得320 s最优光谱采集时间下的HONO和NO2探测限分别为0.22 ppbv和0.45 ppbv。 现有研究只是针对光谱采集时间, 利用Allan方差来获得特定曝光时间下的最佳光谱平均次数来改善IBBCEAS仪器探测性能。 实际上, 除了光谱采集时间外, IBBCEAS光谱反演波段同样影响反演结果和仪器性能。 本工作以IBBCEAS光谱反演大气NO2浓度为例, 分析了光谱反演波段对NO2拟合结果及拟合残差的影响情况, 以最优反演准确度为目标, 提出了一种利用RBF神经网络和遗传算法的机器学习最优反演波段确定方法, 并进行了验证。

1 实验部分

图1所示是测量装置结构示意图。 其中, 光源LED中心波长约460 nm, 半高宽约25 nm, 镜片M1和M2在430~480 nm波段内具有高反射率。 光路中其他部件的功能说明可参考我们之前的报道[14]

图1 IBBCEAS实验装置结构示意图Fig.1 A schematic diagram of the IBBCEAS instrument

利用IBBCEAS宽带吸收光谱, 在某反演波段内将测得的吸收系数与被测气体吸收截面进行最小二乘拟合, 就可以获得被测气体的浓度。 基于LED光源的非相干宽带腔增强吸收光谱系统, 由于LED半高宽一般只有20~30 nm, 而光学谐振腔的镜片反射率是波长的函数, 可能会出现LED辐射光谱峰值波长与镜片反射率的峰值波长存在较大差距, 另外LED半高宽又很窄, 导致两者波段的重叠程度不高。 这种情况下, 如果光谱反演波段选择不当, 被测气体浓度的拟合结果有可能会产生较大偏差。 图2给出了IBBCEAS装置中镜片反射率曲线、 LED辐射谱以及被测气体NO2的吸收截面。 其中, 镜片反射率是根据氮气和氦气分子对腔内入射光的不同Rayleigh散射消光得到。 在444 nm处反射率曲线不是很平滑, 可能是因滤光片缺陷所导致, 最大镜片反射率(~0.998 7)出现在458 nm处, 与LED峰值波长(460 nm)相差约2 nm, 镜片反射率曲线与LED光谱的匹配程度较好。

图2 430~480 nm波段内的镜片反射率、 LED谱和NO2吸收截面Fig.2 Reflectivity, LED spectrum and NO2 absorption cross-section in the range of 430~480 nm

以某条IBBCEAS吸收谱为例, 分别在具有不同中心波长和带宽的反演波段下对NO2进行浓度拟合, 得到反演波段与NO2浓度拟合相对误差、 残差谱标准偏差之间的关系。 如图3所示, 当反演波段的中心波长(即中心点)一定时, 反演波段的宽度越窄, 残差谱的标准偏差就越小, 这是因为宽度变得越窄, 残差谱中包含的噪声数据就越少; 而NO2浓度拟合相对误差基本上表现出相反的变化规律, 随着反演波段宽度变窄, 尤其是宽度小于26 nm后, 浓度拟合相对误差明显增加, 因为在太窄的吸收光谱中能够精确拟合出NO2浓度的差分吸收结构不够, 反演波段宽度为10 nm时, 拟合结果甚至出现了奇异值(扣除奇异值后, 导致了图3中10 nm宽度的数据点不连续)。 而当反演波段的宽度达到一定程度时(如超过38 nm), 吸收光谱中包含了足够的NO2差分吸收结构, 浓度拟合相对误差基本上维持在一个较低水平。

图3 不同反演波段下NO2的相对拟合误差(a)和残差谱标准偏差(b)Fig.3 Fitting results in different retrieval ranges for NO2

当反演波段的宽度一定时, 任何宽度下残差谱标准偏差与反演波段中心波长之间均表现出高度一致的变化规律, 反演波段中心波长位于460 nm附近区域, 即LED光谱峰值和最大镜片反射率所在区域(见图2), 残差谱标准偏差呈现低值, 随着反演波段中心波长变短, 残差谱标准偏差呈明显增长趋势。 如图2所示, 在短波长区域(435~450 nm), 由于镜片反射率下降明显, 吸收光程远低于长波长处, 尽管短波长区域NO2具有较大的吸收截面, 但NO2总的吸收特性和测量信噪比不及长波长区域, 因此残差谱标准偏差呈现高值。 对于NO2浓度拟合相对误差来说, 它与反演波段中心波长之间的关系表现出波动性, 尤其是当反演波段宽度较窄时, 这种波动性更加明显。 尽管反演波段宽度较大时, 波动性减小, 但仍然存在。 对于IBBCEAS定量探测系统来说, 如何减小测量误差是关键。 IBBCEAS系统的测量误差主要来源于镜片反射率、 被测气体吸收截面以及气体在腔内的损耗情况, 但如果反演波段选择不当, 就会产生很大的拟合误差, 同样会降低探测系统的定量准确性。

2 结果与讨论
2.1 RBF神经网络及训练

反演波段与相对拟合误差之间的关系很难用某个函数来进行描述, 而RBF神经网络具有很强的非线性拟合能力, 能逼近任意非线性函数。 优化方法中, 使用RBF神经网络来描述反演波段与相对拟合误差之间的非线性关系, 将抽象的反演波段用起始波长和截止波长这两个参数来具体表示, 并将它们作为神经网络的输入量, 网络输出量为相对拟合误差。

2.1.1 样本数据

神经网络需要使用样本数据进行学习训练后方可使用。 样本数据产生过程如下: 在波段[430, 480] nm内划分若干个子波段 λij-BWj2, λij+BWj2, 其中, BW_j 为子波段的宽度, BW_j=10+2j, j=0, 1, 2, …, 20; λ _ij 为子波段的中心波长, λij=a+i+BWj2, i=0, 1, 2, …, 50-BW_j 。以 λij-BWj2, λij+BWj2作为样本数据的输入部分, 分别以子波段 λij-BWj2, λij+BWj2作为光谱反演波段, 得到的浓度拟合相对误差作为样本数据的输出部分。 剔除反演过程中出现的奇异点数据, 样本数据共435个, 如图4所示。

图4 RBF神经网络学习和测试样本Fig.4 Sample data for training and testing RBF neural network

2.1.2 训练结果

将样本数据按照4∶ 1比例分成学习样本和测试样本两部分, 分别用于RBF神经网络学习训练和测试。 图5给出了学习训练后的RBF神经网络对测试样本的预测结果, 图中插图为预测结果与实际拟合相对误差之间的线性拟合。 可以看出, RBF神经网络预测结果与实际值在趋势上基本保持一致, 两者的线性拟合斜率为0.984, 相关性R2=0.901, 说明RBF神经网络得到了有效训练。

图5 RBF神经网络测试结果Fig.5 RBF neural network test results

2.2 反演波段的遗传算法优化

遗传算法是一种通过模拟大自然中生物个体进化过程搜索最优解(个体)的方法。 使用遗传算法搜索最优反演波段, 个体即为反演波段, 用起始波长、 截止波长组合进行编码, 随机产生若干个体形成种群。 以RBF神经网络的输出作为个体适应度, 经过多代种群进化过程后, 获得适应度最优个体, 即获得最优反演波段, 具体的优化流程见图6。 设置种群规模为100个体, 所有个体中的参数“ 起始波长” 和“ 截止波长” 均限制在430~480 nm之间, 个体交叉与变异概率均为0.2, 种群进化代数设置为100, 图7给出了算法执行后种群平均适应度和最优个体适应度随进化代数的变化情况。 可以看出, 种群平均适应度逐步逼近最优, 说明种群个体进化进行了有效的优胜劣汰过程, 所有个体均向最优个体进化。 种群进化第61代时, 最优个体出现, 对应的最优适应度为3.584%, 最优反演波段为445.78~479.44 nm。

图6 反演波段遗传算法优化流程图Fig.6 Flow diagram of genetic algorithm for optimizing retrieval range

图7 遗传算法适应度曲线Fig.7 Fitness curve of genetic algorithm

2.3 实例反演与结果对比

拟合NO2参考吸收截面到最优反演波段(445.78~479.44 nm)内的某条IBBCEAS吸收光谱, 光谱拟合如图8所示。 拟合得到的NO2浓度为14.21 ppbv, 拟合残差标准偏差为1.5× 10-8 cm-1, 拟合误差为0.59 ppbv, 相对拟合误差为4.15%, 与遗传算法寻优得到的最优适应度(3.584%)存在一定偏差, 是由RBF神经网络训练误差所引起。

图8 最优反演波段下的大气NO2浓度拟合实例
(a): 大气NO2测量谱(黑线)和拟合谱(红线); (b): 拟合残差谱
Fig.8 An example of atmospheric NO2 concentration fitting in the optimal retrieval range
(a): Measured (black) and fitted (red) absorption spectra of atmospheric NO2; (b) Residual

选择相同带宽的4个典型反演波段, 与最优反演波段下的NO2拟合结果进行对比。 其中3个波段分别以最大镜片反射率所在波长(458 nm)、 LED峰值波长(460 nm)以及两者平均值(459 nm)为中心点, 第4个波段覆盖NO2在430~450 nm内的强吸收结构, 这4个反演波段分别为441.17~474.83, 443.17~476.83, 442.17~475.83和432.68~466.34 nm, 拟合结果见表1。 在最优反演波段下, 无论是拟合误差、 相对拟合误差还是拟合残差标准偏差, 均低于其他4个反演波段, 光谱拟合质量达到最优。 对比结果表明, 利用机器学习来确定IBBCEAS光谱拟合的最优反演波段是可行的。

表1 某条NO2吸收光谱在不同反演波段的拟合结果对比 Table 1 Comparison of fitting results in different retrieval range for an NO2 absorption spectrum
3 结论

以基于LED光源的非相干宽带腔增强吸收光谱技术定量探测大气NO2为例, 分析了吸收光谱反演波段对NO2拟合结果的影响情况, 当谐振腔镜片反射率曲线与LED辐射谱不能很好匹配时, 反演波段选择会比较困难。 利用光谱拟合样本数据进行RBF神经网络学习, 获得反演波段与拟合误差之间的非线性映射关系, 以反演波段为个体特征数据、 RBF神经网络输出为个体适应度, 利用遗传算法获得了最优反演波段。 结果证明, 利用神经网络结合遗传算法的机器学习方法, 可以获取IBBCEAS光谱最优反演波段, 降低了浓度拟合误差。

参考文献
[1] Fang B, Zhao W X, Xu X Z, et al. Optics Express, 2017, 25(12): 26910. [本文引用:1]
[2] Min K E, Washenfelder R A, Dube W P, et al. Atmos. Meas. Tech. , 2016, 9(2): 423. [本文引用:2]
[3] Liang S X, Qin M, Xie P H, et al. Atmos. Meas. Tech. , 2019, 12(4): 2499. [本文引用:1]
[4] DUAN Jun, QIN Min, FANG Wu, et al(段俊, 秦敏, 方武, ). Acta Physica Sinica(物理学报), 2015, 64(18): 180701. [本文引用:3]
[5] LIANG Shuai-xi, QIN Min, DUAN Jun, et al(梁帅西, 秦敏, 段俊, ). Acta Physica Sinica(物理学报), 2017, 66(9): 090704. [本文引用:1]
[6] Yi H M, Wu T, Wang G S, et al. Optics Express, 2016, 24(10): A781. [本文引用:2]
[7] Duan J, Qin M, Ouyang B, et al. Atmos. Meas. Tech. , 2018, 11(7): 4531. [本文引用:1]
[8] Jordan N, Ye C Z, Ghosh S, et al. Atmos. Meas. Tech. , 2019, 12(2): 1277. [本文引用:1]
[9] Liu J W, Li X, Yang Y M, et al. Analytical Chemistry, 2020, 92(3): 2697. [本文引用:1]
[10] Washenfelder R A, Attwooda A R, Flores J M, et al. Atmos. Meas. Tech. , 2016, 9(1): 41. [本文引用:1]
[11] Bahrini C, Gregoire A C, Obada D, et al. Optics Laser Technol. , 2018, 108(12): 466. [本文引用:1]
[12] Meng L S, Wang G X, Augustin P, et al. Optics Lett. , 2020, 45(7): 1611. [本文引用:1]
[13] Lamgridge J M, Ball S M, Shillings A J L, et al. Rev. Sci. Instrum. , 2008, 79(12): 123110. [本文引用:1]
[14] LING Liu-yi, WEI Ying, HUANG You-rui, et al(凌六一, 韦颖, 黄友锐, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(3): 670. [本文引用:1]