基于基线漂移模型的气体光谱自动基线校正
王昕1,2, 吕世龙2, 李岩2, 尉昊赟2, 陈夏3
1. 北京工业大学机械工程与应用电子技术学院, 北京 100124
2. 清华大学精密仪器系, 精密测试技术及仪器国家重点实验室, 北京 100084
3. 北京工业大学环境与能源工程学院, 北京 100124

作者简介: 王 昕, 1982年生, 北京工业大学机械工程与应用电子技术学院讲师 e-mail: xinwang@bjut.edu.cn

摘要

傅里叶红外光谱是监测污染源废气排放的一种重要手段。 发展针对气体光谱的自动基线校正方法对于污染气体快速检测及长时间在线监测具有重要意义。 目前自动基线校正中的一个难点是如何准确校正存在宽峰的光谱: 宽峰在频域中具有一定低频成分, 基于频域滤波提取光谱中低频基线信息的方法因难以选择合适的分离条件容易产生基线扭曲。 采取自动识别基线点, 基于预先设定的基线模型拟合光谱基线的方法可以规避频域方法中分离条件选取的环节, 但其校正效果对所采用的基线模型非常敏感。 当基线模型中的自由度过小时, 拟合基线无法准确逼近光谱基线漂移, 基线校正的误差较大; 而当基线模型中的自由度过大时, 尤其是含有实际基线漂移中不存在的虚假自由度时, 容易产生基线扭曲。 目前常用的基线模型有线性、 多项式、 样条插值、 指数模型等, 在基线模型的选择上缺乏较为统一的标准。 本研究着眼于避免基线模型缺乏必要自由度或含有虚假自由度, 提出基于实际基线漂移的自由度建立基线模型。 研究发现, 气体光谱中主要的基线漂移在光谱中可被近似表示为波数的特定阶次(0次、 1次、 2次和4次项)的形式。 以此作为基线模型提出了一种自动基线校正新方法。 新方法以传统迭代多项式拟合自动基线校正方法作为基础, 将其中仅设定多项式最高阶次的基线模型改进为上述由具有物理意义支撑的特定阶次构成的基线模型; 此外, 增加了对吸收峰尾部的判定, 用于避免在采用阈值分辨吸收峰与基线时, 吸收峰尾部因吸光度较低被误识别为基线的问题。 以实测获得的含有水汽宽峰的空气光谱作为样本, 对所提方法的基线校正效果进行了验证, 并与迭代多项式拟合方法中两种较有代表性的Lieber和Mahadeven-Jansen(LMJ)方法以及Liu和Koenig(LK)方法的基线校正效果进行了对比。 实验结果表明, 所提方法与采用不同最高多项式阶次的LMJ及LK方法相比, 可更好的避免基线扭曲, 同时其校正后的光谱基线与吸光度0线间具有最低的方差平均值。 研究表明, 采用实际基线漂移的自由度建立光谱基线模型可获得良好的基线校正效果。

关键词: 自动基线校正; 基线漂移; 基线模型; 多项式
中图分类号:O433.4 文献标识码:A
Automatic Baseline Correction of Gas Spectra Based on Baseline Drift Model
WANG Xin1,2, LÜ Shi-long2, LI Yan2, WEI Hao-yun2, CHEN Xia3
1. College of Mechanical Engineering and Applied Electronics Technology, Beijing University of Technology, Beijing 100124, China
2. State Key Laboratory of Precision Measurement Technology and Instruments, Department of Precision Instruments, Tsinghua University, Beijing 100084, China
3. College of Environmental and Energy Engineering, Beijing University of Technology, Beijing 100124, China
Abstract

Fourier transform infrared spectroscopy is an important method for monitoring air pollution emissions from pollution sources. Automatic baseline correction method for gas spectra is of great significance to air pollution monitoring applications, such as rapid detection and long-term on-line monitoring. One difficulty in the current automatic baseline correction is accurately correcting the spectra, which include broad peaks. The broad peakscontain low-frequency content in the frequency domain; thus, the method for extracting baseline information based on low-frequency filtering is prone to baseline distortion because of the difficulty in selecting the appropriate separation parameter. Automatically identifying the baseline point and fitting the baseline of the spectrum based on a preset baseline function can prevent the selection of separation conditions; however, the result of baseline correction is highly sensitive to the baseline function adopted. If the degree of freedom in the baseline function is excessively small, the baseline function cannot fit the baseline drift in the spectra accurately, and the error will be considerable after baseline correction. Meanwhile, if the degree of freedom in the baseline function is excessively large, in particular, when a false degree of freedom does not exist in the natural baseline drift, the fitted baseline may have baseline distortion. Many types of baseline functions exist, including linear, polynomial, spline interpolation, and exponential functions. At present, consensus is lacking regarding the selection criteria for baseline functions. In this study, we proposed a baseline function for gas spectra for extractive atmospheric monitoring based on the degree of freedom of the natural baseline drift; we aimed to avoid false degrees of freedom or lack of necessary degrees of freedom in the baseline function. We found that the degrees of freedom of major baseline drift in the gas spectrum can be approximated in specific order terms of wavenumbers (0, 1st-, 2nd-, and 4th-order terms). An automatic baseline correction method based on a polynomial baseline function with above (0, 1st-, 2nd-, and 4th-) order terms was proposed in this study. In the experiment, a measured air spectrum, which contained broad peaks of water vapor, was used as a sample to test the performance of the baseline correction method. The baseline correction result of the proposed automatic baseline correction method was compared with the that of two types of iterative polynomial fitting methods that were proposed by Lieber and Mahadeven-Jansen (LMJ) and by Liu and Koenig (LK). The experiment results indicated that compared with the LMJ and LK methods, the proposed method avoided the baseline distortion in the best possible manner, and the proposed method also showed the lowest average variance between the corrected baseline and the absorbance zero line. Our research showed that in automatic baseline correction, an effective baseline correction result can be obtained by establishing the baseline function with the freedom of the natural baseline drift.

Key words: Automatic baseline correction; Baseline drift; Baseline function; Polynomial
引 言

我国目前面临着严峻的大气污染问题, 污染源废气排放监测是制定空气污染治理方案的重要依据, 也是加强污染监管的关键技术支撑[1, 2]。 傅里叶红外光谱法具有测量速度快、 信噪比高、 可同时检测大量污染物的优势, 在针对石化、 电子、 垃圾焚烧等污染源废气排放的快速检测及长时间在线监测中具有巨大的发展潜力[1]。 基线校正是光谱分析的必要预处理过程, 传统基于人工的基线校正方法难以满足污染气体快速检测及长时间在线监测的需要, 发展自动基线校正方法具有重要意义。

国内外在自动基线校正方面已开展了大量的研究工作, 提出了许多自动基线校正方法[3, 4, 5, 6, 7, 8, 9]。 其中, 源于数字信号处理领域的方法包括小波变换法[3]、 傅里叶变换法[4]等, 其获取基线主要依据的是基线与吸收峰及噪声的频域特征差异。 基线被认为是相对平滑、 变化缓慢的, 在频域中处于低频区域, 而吸收峰及噪声则处于相对高频的区域。 通过使用合适的变换及滤波处理, 可从光谱中分离出低频的基线信息, 重构出光谱基线。 其他常用的方法还包括通过导数法[5]或其他判据自动识别和区分光谱中的吸收峰点和基线点, 依据预先设定的基线模型, 通过基线点来拟合光谱基线[6, 7, 8]等。 目前自动基线校正中的一个难点是如何准确校正含有宽峰的光谱。 宽峰信号本身包含有一定的低频成分, 基于频域滤波的方法容易将宽峰的低频成分与基线混淆, 难以选择合适的分离条件避免基线扭曲[6]。 采取识别基线点拟合光谱基线时, 所选基线模型对拟合结果的影响很大。 当基线模型的自由度过小时, 拟合结果无法较好的逼近真实基线漂移, 容易产生较大误差; 而当基线模型的自由度过大时, 尤其是包含有实际基线漂移中不存在的虚假自由度时, 容易导致拟合基线发生扭曲[6]。 目前常用的基线模型较多, 包括线性、 多项式、 样条插值、 指数模型等。 选择合适的基线模型对准确拟合光谱基线至关重要, 但在基线模型的选择方面目前尚无较为统一的选择标准。

针对傅里叶红外气体检测中的光谱自动基线校正, 着眼于避免在基线拟合中因基线模型含有虚假自由度导致基线扭曲, 或由基线模型中缺乏必要自由度造成的基线校正误差, 基于对实际基线漂移的自由度分析, 提出了一种依据基线漂移模型的自动基线校正方法。 采用实测光谱对本方法的基线校正效果进行了验证, 并与传统迭代多项式拟合自动基线校正方法的校正效果进行了对比。

1 基线漂移

国内外在傅里叶红外光谱的基线漂移原理方面已开展了大量的研究工作[1, 9, 10, 11]。 造成气体光谱中基线漂移的原因较多, 即包括光谱仪中光源、 探测器、 分束镜、 角镜、 窗片等部件受温度、 位置变化引起的探测信号强度和调制度的影响, 也包括待测气体中颗粒物的散射影响等。 本工作基于基线漂移在吸光度光谱中的数学模型对其进行分类, 分为0次、 1次、 2次及高次多项式的基线漂移。

1.1 0次基线漂移

傅里叶红外光谱中产生基线漂移0次分量的原因包括: 探测器或光源受热膨胀、 振动等影响对于整个光学系统产生了移动, 从而改变了探测器接收到的光强[9]; 分束器的折射率随温度升高而降低造成干涉调制度的变化[9]; 以及探测器响应函数随温度线性变化的影响[9]。 0次基线漂移在光谱中可写为

Δa(ν)=c0(1)

其中, ν 为波数, Δ a(ν )为在光谱处的基线漂移吸光度值, c0为常数。 0次基线漂移在缺乏温控的工作环境中较为常见, 另外使用常温下工作的探测器时, 由于不需液氮降温, 探测器工作温度不受液氮沸点制约, 2~3 ℃的探测器温度改变即会产生可见的基线漂移[1]

1.2 1次基线漂移

基线漂移的1次分量主要是由光源温度变化造成的[1, 9]。 当光源温度由T变为T'时, 根据普朗克辐射定律计算其在不同波数处发射光强的变化, 可得光源温度改变造成的基线漂移为

Δa(ν)=hc(T-T')kTT'ν(2)

其中, h为普朗克常数, c为光速, k为波尔兹曼常数。 1次基线漂移在光谱仪启动至达到稳定工作状态之间最为严重。

1.3 2次及高次的基线漂移

产生基线漂移的2次及高次分量的原因包括: 角反射镜发生垂直于光轴的微小平移, 分光镜、 窗片发生微小的偏转, 以及待测气体中颗粒物的散射影响。

角反射镜平移造成的基线漂移影响可表示为[10]

Δa(ν)=112(4πεθν)2-7576(4πεθν)4-55912(4πεθν)6(3)

其中, ε 为角反射镜垂直于光轴的平移量, θ 为光源发散角。

分光镜及窗片发生微小偏转造成的基线漂移影响可表示为[12]

Δa(ν)=18(2πβDν)2-548(2πβDν)4+1192(2πβDν)6(4)

其中, β 为分光镜及窗片的偏转角度, D为光线通过面积的直径。 当前商用傅里叶红外光谱仪的角反射镜平移量ε 值及分光镜、 窗片在正常工作条件下的偏转角β 值均非常小, 上述两式中4次基线漂移比2次基线漂移小很多, 6次基线漂移太小可以忽略。

待测气体中存在颗粒物时, 颗粒物散射会减少到达探测器的光强, 从而产生基线漂移。 颗粒物散射可分为瑞利散射[12]与米氏散射, 当颗粒物粒径远小于入射光波长时为瑞利散射, 粒径与入射光波长接近时为米氏散射。 气体检测中光程一般较长, 受到散射的光可近似认为无法到达探测器, 因此不同波长光受到的散射损失与其散射系数成正比。

瑞利散射的散射系数随入射光波长的增加而快速减少, 可近似认为与波长的4次方成反比。 利用小量在泰勒展开公式中的近似, 可求得瑞利散射在光谱中引起4次基线漂移

Δa(ν)cRayleigh·ν4(5)

其中, cRayleigh为与颗粒物的浓度、 粒径大小等相关的常数。

米氏散射受颗粒物粒径、 折射率、 形状和入射光波长等多种因素的耦合影响, 散射系数随入射光波长的变化较为复杂。 对于颗粒物粒径等参数已知的情况, 可以理论计算米氏散射产生的光谱基线漂移, 从而对其进行校正。 本研究主要针对污染源废气排放的快速检测及长时间在线监测, 一般采取抽气式检测方法, 待测气体经取样枪采集后绝大部分粒径较大(> 2 μ m)的颗粒物会被滤除, 测量获得的气体光谱中的米氏散射很小。

综上所述, 气体光谱中主要的基线漂移的自由度在光谱中可被近似表示为波数的0次、 1次、 2次和4次项的形式。 下文中将以此建立基线模型, 并提出基于基线漂移模型的自动基线校正方法。

2 自动基线校正
2.1 传统迭代多项式拟合方法

迭代多项式拟合方法是一种较为常用的红外光谱自动基线校正方法[7, 8], 其使用多项式作为光谱的基线模型, 需要预先设定多项式的最高阶次。 最高阶次为n的多项式基线模型为

y(ν)=c0+c1ν+c2ν2++cnνn(6)

其中, ν 为光谱的横坐标波数值, y为光谱的纵坐标吸光度值, ci为基线模型中次多项式的系数, 由基线拟合获得。 迭代多项式拟合方法的基线校正步骤为:

第一步: 使用原始光谱数据S作为初始数据y0;

第二步: 依据预先设定的多项式基线模型, 采用最小二乘法对y0进行拟合, 获得光谱基线yn;

第三步: 对比yny0相同波数处的吸光度值, 依据一定的对吸收峰和基线的判定标准, 对y0中各个波数处是否是吸收峰进行识别;

第四步: 若识别出y0中存在吸收峰, 则对y0中吸收峰波数采取替换或去除等手段生成不含吸收峰的新y0, 之后使用新的y0从第二步开始重新执行; 若在y0中没有识别出吸收峰, 则以此时拟合获得的yn作为原始光谱的基线, 通过从原始光谱中扣除yn消除基线漂移。

迭代多项式拟合方法类型很多[7, 8], 不同类型间的区别主要是判定光谱中吸收峰和基线的标准以及如何生成新的y0表1中为两种比较具有代表性的类型, 其中Lieber和Mahadeven-Jansen(LMJ)[7]提出在基线拟合后逐一比较y0yn相同波数处的值, 取二者中较小值作为新y0在此波数处的值; Liu和Koenig(LK)[8]提出在逐一比较y0yn相同波数处的值时, 将y0中高于yn超过一个标准偏差的波数判定为吸收峰, 并以y0中所有未被判定为吸收峰的波数点作为新y0。 采用LMJ或LK方法进行基线校正时, 设定不同的多项式最高阶次对校正效果的影响很大。

表1 两种迭代多项式拟合方法的判定准则及基线拟合数据生成方式 Table 1 Criteria of two iterative polynomial fitting based automatic baseline correction methods
2.2 基于基线漂移模型的自动基线校正方法

本工作提出一种基于基线漂移模型(baseline draft model)的自动基线校正方法(BDM), 采用的基线模型为

y(ν)=c4ν4+c2ν2+c1ν+c0(7)

BDM方法的基线校正流程如图1所示, 其步骤为:

第一步: 依据式(7)中基线模型, 使用原始光谱数据S, 采用最小二乘法拟合获得光谱基线yn;

第二步: 将原始光谱数据S赋值于数据y0;

第三步: 逐一对比y0yn相同波数上的值, 将y0中高于yn超过阈值一个标准偏差(见表1中LK方法)的波数y0(i)标记为吸收峰; 此步标记出的是y0中较为明确的吸收峰波数点, 而吸收峰尾部吸光度低于阈值的点则将在下两步中被标记。

第四步: 在吸收峰波数点周围波数展开比对: 对于所有被标记为吸收峰的波数点y0(i), 若y0(i-1)> yn(i-1), 则将y0(i-1)标记为吸收峰; 若y0(i+1)> yn(i+1), 则将y0(i+1)标记为吸收峰;

第五步: 若在上一步执行中有新增被标记为吸收峰的波数点, 则重新执行上一步, 直至无新增吸收峰波数点出现为止;

第六步: 将所有被标记为吸收峰的波数点(i, y0(i))从y0数据中去除, 以y0中剩余的波数点作为新y0, 拟合获得新的光谱基线yn;

第七步: 判断新yn与上一次拟合获得的yn是否相同, 若不相同则从第二步开始重新执行; 若相同, 则以最后一次拟合获得的yn作为原始光谱的基线, 通过从原始光谱中扣除yn消除基线漂移。

图1 BDM方法的流程图
Fig.1 Flow chart of Baseline-draft-model based automatic baseline correction method

所提BDM方法与LK方法的主要区别有两个: 一个是BDM方法使用了基于基线漂移自由度模型的基线模型, 另一个是BDM方法中增加了对吸收峰尾部波数的特别识别。 图2为使用BDM方法对一个仿真的高斯吸收峰进行基线校正的过程, 从图中可以看出随着迭代次数的增加拟合获得的基线逐渐逼近光谱基线。 此外, 图2中箭头所指区域为吸收峰的尾部区域, 在使用是否超过一个阈值来判定吸收峰时, 由于吸收峰尾部区域的吸光度较低, 容易被错误的判定为基线点。 BDM方法对于吸收峰尾部区域不再使用阈值进行判定, 而是直接对比其在y0yn中的大小, 可避免上述问题。

图2 BDM方法对仿真高斯吸收峰的基线校正过程Fig.2 Process of baseline correction of a Gaussian absorption peak by BDM method

3 实验结果

水汽是污染气体检测中常见的干扰物, 其位于1 300~2 000及3 500~4 000 cm-1的吸收段是典型的宽峰, 其间覆盖了NOx, SO2等许多重要污染物的特征吸收峰。 通过从污染气体光谱中准确扣除水汽吸收峰, 可更准确的分析水汽吸收段内的污染物[13], 而对含有水汽宽峰的光谱进行基线校正是实现上述过程的必要环节。 以实验测量获得的含有水汽和二氧化碳吸收峰的空气光谱作为样本, 对BDM方法在处理含有宽峰的光谱的基线校正效果进行了检验, 并与采用不同最高阶次多项式作为基线模型的LMJ方法及LK方法的基线校正效果进行了对比。

采用1 cm-1分辨率测量获得的存在明显基线漂移的空气光谱如图3所示。

图3 存在明显基线漂移的空气光谱Fig.3 Air spectra with substantial baseline drift

采用BDM, LMJ和LK方法校正具有明显基线漂移的空气光谱所获得的基线如图4所示。 其中, 采用BDM方法及不同最高阶次的LMJ方法获得的光谱基线如图4(a)所示, 采用不同最高阶次的LK方法获得的光谱基线如图4(b)所示。

图4 BDM, LMJ和LK方法拟合获得的基线Fig.4 Baselinesfitted by BDM, LMJ and LK methods
(a): BDM and LMJ; (b): BDM and LK

图5 光谱中三个基线区域在基线校正后与0线间的方差平均值
Fig.5 The average variance of three baseline regions in the spectra corrected by baseline correction methods

从图4(a)中可以看出, 最高阶次为4次的LMJ方法获得的基线存在严重的基线扭曲, 而最高阶次为2次与1次的LMJ方法获得的基线则在光谱中部区域存在明显的误差; BDM方法获得的基线没有出现明显的基线扭曲和误差, 最高阶次为3次的LMJ方法拟合获得的基线与BDM方法较为接近, 但在800 cm-1附近存在一定误差。 从图4(b)中可以看出最高阶次为4次与2次的LK方法获得的基线在高波数段存在明显的基线扭曲, 最高阶次为1次的LK方法获得的基线在光谱中部区域存在明显的误差; 最高阶次为3次的LK方法获得的基线在光谱高波数段存在一定误差。 上述结果说明BDM方法拟合获得基线的基线扭曲最小。

光谱中不含吸收峰的基线区域在基线校正后应尽可能的接近吸光度0线。 空气光谱中三个不含吸收峰的基线区域(800~1 050, 2 150~2 250和2 400~2 900 cm-1)在采用BDM, LMJ和LK方法基线校正后与0线间的方差平均值如图5所示(注意: 纵坐标为指数形式)。

从图5中可以看出, BDM方法在所有三个基线区域均获得了最小的方差平均值, 且其方差平均值比其他方法的方差平均值低了超过50%, 由此可见BDM方法校正后的基线比LMJ与LK方法校正后的基线更接近吸光度0线。

综上所述, BDM方法在对光谱的自动基线校正中获得了最好的校正效果。

4 结 论

针对傅里叶红外光谱气体检测中的自动基线校正, 为避免在拟合基线时由于所使用的基线模型中存在虚假自由度造成基线扭曲, 以及由于基线模型中自由度不足造成拟合基线的误差较大等问题, 提出依据光谱基线漂移的自由度模型建立具有物理基础支撑的基线模型。 研究发现, 气体光谱中的主要基线漂移可以近似由特定阶次(0次、 1次、 2次、 4次)的多项式表示。 在此基础上, 提出了一种基于基线漂移模型的自动基线校正新方法。 采用所提方法对含有水汽宽峰的空气光谱进行了基线校正, 并与传统迭代多项式拟合方法中的LMJ与LK方法的基线校正结果进行了对比。 结果表明, 本方法与有效的避免基线扭曲, 同时校正后光谱基线与吸光度0线间的方差平均值最小。 上述研究表明, 自动基线校正中采用实际基线漂移的自由度建立光谱基线模型可获得良好的基线校正效果。

The authors have declared that no competing interests exist.

参考文献
[1] Griffiths P R, de Haseth J A. Fourier TransformInfrared Spectrometry. 2nd ed. Hoboken, New Jersey, John Wiley & Sons, Inc. , 2007. [本文引用:5]
[2] LIU Zi-long, SUN Li-qun, GUO Yin, et al(刘子龙, 孙立群, 郭崟, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(4): 1302. [本文引用:1]
[3] Bertinetto C G, Vuorinen T. Applied Spectroscopy, 2014, 68(2): 155. [本文引用:2]
[4] Weakley A T, Griffiths P R, Aston D E. Applied Spectroscopy, 2012, 66(5): 519. [本文引用:2]
[5] Brown C D, Vega-Montoto L, Wentzell P D. Applied Spectroscopy, 2000, 54(7): 1055. [本文引用:2]
[6] WANG Xin-qiang, ZHANG Li-juan, XIONG Wei, et al(王新强, 张丽娟, 熊伟, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(9): 2933. [本文引用:4]
[7] Lieber C A, Mahadeven-Jansen A. Applied Spectroscopy, 2003, 57(11): 1363. [本文引用:5]
[8] Liu J, Koenig J. Applied Spectroscopy, 1987, 41(3): 447. [本文引用:5]
[9] MA Zhen, MA En, XIONG Fei-bing, et al(马真, 马恩, 熊飞兵, ). Applied Laser(应用激光), 2017, 37(4): 614. [本文引用:6]
[10] Murty M V R K. Journal of the Optical Society of America, 1960, 50: 7. [本文引用:2]
[11] Salomaa I K, Kauppinen J K. Applied Spectroscopy, 1998, 52(4): 579. [本文引用:1]
[12] Chakraborti S. American Journal of Physics, 2007, 75(9): 824. [本文引用:2]
[13] YU Min-xin, WANG Hai-shui, ZHANG Yun-hong(余敏行, 王海水, 张韫宏). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(6): 1673. [本文引用:1]