干涉光谱结合偏最小二乘法反演热液CH4的研究
刘青松1,2, 胡炳樑1,*, 唐远河3, 于涛1, 王雪霁1,2, 刘永征1, 杨鹏4, 王浩轩3
1. 中国科学院西安光学精密机械研究所光谱成像技术重点实验室, 陕西 西安 710119
2. 中国科学院大学, 北京 100049
3. 西安理工大学理学院, 陕西 西安 710048
4. 青岛海洋科学与技术国家实验室海洋观测与探测联合实验室, 山东 青岛 266200
*通讯联系人 e-mail: hbl@opt.ac.cn

作者简介: 刘青松, 1991年生, 中国科学院西安光学精密机械研究所光谱成像技术重点实验室博士研究生 e-mail: s-liuqingsong@opt.cn

摘要

热液释放的高温甲烷气体经扩散作用先后进入海洋和大气, 并对地球物理、 化学和生物方面产生深刻影响。 由于海洋溶解甲烷数据的缺乏, 导致人们对深海热液释放甲烷的活动机制和环境效应还缺乏足够的认识。 我们前期提出一种光学被动成像干涉系统OPIIS用于热液甲烷浓度、 温度和压强的实时探测和长期观测。 为了从OPIIS的干涉光谱中精确、 稳定、 快速的获取热液甲烷信息, 采用将干涉光谱与偏最小二乘法相结合的方法处理OPIIS数据。 首先分别建立三个甲烷浓度、 温度和压强的单因变量预测模型, 再利用干涉条纹与辐射光谱的关系, 间接建立干涉光谱与甲烷浓度、 温度和压强的PLS预测模型, 提高了预测模型在实际应用中的抗干扰能力和稳定性。 基于洛仑兹线型建立了不同于大气环境的深海气体辐射模型, 并利用HITRAN2016分子光谱数据库的光谱参数, 建立了深海甲烷在任意浓度、 任意温度和任意压强下的辐射光谱数据库。 挑选热液其他气体对甲烷探测干扰较小的甲烷泛频带1.64~1.66 μm内的六条谱线建立甲烷辐射光谱与浓度、 温度和压强的偏最小二乘回归模型。 另外, 分析了训练集取样个数、 取样间隔和主成分个数对提高预测模型综合性能的作用。 利用不同训练集样本数, 不同训练集取样间隔和不同的主成分数, 分别建立96个浓度、 温度和压强预测模型, 并分别利用25组预测集样本对预测模型进行交叉验证。 不同模型预测均方根误差和决定系数的对比表明, 训练集取样个数、 取样间隔和主成分个数等单一因素的改变并不能同时提高预测模型的预测精度、 稳定性、 适用范围和运算量等综合性能。 经过平衡选取各项指标确定的最优回归模型的参数为: 浓度、 温度和压强的适用范围分别为5~375 mmol·L-1, 580~678 K, 10~34.5 MPa, 浓度、 温度和压强的训练集取样个数分别为50组, 25组, 25组, 采样间隔分别为5 mmol·L-1, 2 K, 0.5 MPa, 浓度、 温度和压强预测模型的主成分数分别为2, 2, 5。 浓度、 温度和压强预测模型的预测均方根误差分别为3.082×10-6, 0.977 0, 5.052×10-3, 决定系数分别为0.999 9, 0.998 9, 0.999 9。 浓度、 温度和压强的预测误差分别为±1.21×10-7, ±3.63×10-3, ±9.49×10-4, 对应的预测精度分别为±45.4 nmol·L-1, ±2.5 K, ±3.3×10-2 MPa。 结果表明, 干涉光谱结合偏最小二乘法的反演算法可以精确、 稳定、 快速的获取热液甲烷气体的浓度、 温度和压强信息。

关键词: 热液甲烷; 偏最小二乘法; 成像干涉; 反演
中图分类号:O433.4 文献标志码:A
Retrieval of Hydrothermal CH4 Based on Interference Spectroscopy and PLS Methods
LIU Qing-song1,2, HU Bing-liang1,*, TANG Yuan-he3, YU Tao1, WANG Xue-ji1,2, LIU Yong-zheng1, YANG Peng4, WANG Hao-xuan3
1. Key Laboratory of Spectral Imaging Technology, Xi’an Institute of Optics and Precision Mechanics, Chinese Academy of Sciences, Xi’an 710119, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. School of Science, Xi’an University of Technology, Xi’an 710048, China;
4. Joint Laboratory for Ocean Observation and Detection, Qingdao National Laboratory for Marine Science and Technology, Qingdao 266200, China
*Corresponding author
Abstract

The methane (CH4) gas released by hydrothermal enters into the ocean and atmosphere successively by diffusing and causes inestimable effect on earth in physics, chemistry and biology. The principle and environment effect of abyssal hydrothermal still require further study because limited information is available about dissolved methane. In our previous work, we propose an optical passive imaging interference system (OPIIS) for the real-time detection and long-term observation of hydrothermal methane’s concentration, temperature, and pressure. To accurately, stably, and rapidly obtain the information of hydrothermal methane from OPIIS’s interferogram, this paper processes OPIIS’s data by combining interference spectra and partial least squares (PLS) algorithm. We built three single-dependent variable models between methane radiance spectra and gas concentration, temperature and pressure, respectively. Then we can establish the PLS prediction model between interference fringes indirectly on the basis of relationship between interference fringes and radiance spectra, which can improve the capacity of resisting disturbance and stability of prediction models in practical application. On the basis of Lorentz profile, we build the deep ocean gas emission model different from atmosphere emission and obtain the synthetic methane radiance spectrum database at any concentration, temperature and pressure by using the methane spectral parameters from HITRAN2016 molecular spectroscopy database. The six spectral lines of methane in the range of 1.64~1.66 μm are selected for the PLS regression model between methane radiance spectra and gas concentration, temperature and pressure. Furthermore, this paper analyzes the contribution of number of training samples, interval of training samples and number of principal components to the improvement of the comprehensive performance of regression model. The 96 groups of concentration, temperature and pressure regression model are built by using different groups, intervals and principal components, and those regression models are cross-validated using 25 groups of prediction samples. The comparison results of those regression models’ root mean square error of prediction (RMSEP) and coefficient of determination ( R2) indicate that the change of single factors such as the number of training samples, the interval of training samples and the number of principal components can not improve the prediction model’s comprehensive performance about prediction accuracy, stability, application scope and computation. Finally, the optimized model with balanced performance is determined with concentration, temperature and pressure application ranges at 5~375 mmol·L-1, 580~678 K, 10~34.5 MPa, training samples of concentration, temperature and pressure are 50 groups, 25 groups, 25 groups, intervals at 5 mmol·L-1, 2 K, 0.5 MPa, principal components are 2, 2, 5. The RMSEPs of concentration, temperature and pressure are 3.082×10-6, 0.977 0, 5.052×10-3, and R2s are 0.999 9, 0.998 9, 0.999 9, respectively. The prediction errors of concentration, temperature and pressure are ±1.21×10-7, ±3.63×10-3, ±9.49×10-4, and the corresponding precisions are ±45.4 nmol·L-1, ±2.5 K, ±3.3×10-2 MPa. The results indicate that this retrieval algorithm can accurately, stably, and rapidly obtain concentration, temperature and pressure of hydrothermal methane.

Keyword: Hydrothermal methane; Partial least squares (PLS); Imaging interference; Retrieval
引 言

海水沿洋壳裂缝渗透至地壳岩浆房的过程中, 形成热液流体, 并喷发至海底, 在海底热液喷口上方将会形成热液羽状流, 并伴随大量甲烷气泡[1]。 热液释放的高温甲烷气体经扩散作用先后进入海洋和大气, 并对地球物理、 化学和生物方面产生深刻影响[2, 3]。 由于海洋甲烷探测手段的限制和溶解甲烷数据的缺乏, 人们对热液释放甲烷的活动机制和环境效应还缺乏足够的认识[4]。 相比于采样实验室测量的方法, 原位探测方法不需要考虑样品保真的问题, 可以获取更为准确、 连续、 实时的数据[5]。 我们前期提出一种光学被动成像干涉系统(optical passive imaging interference system, OPIIS)用于热液甲烷的原位探测。 光学成像干涉技术是国际上被动探测大气的主流方法, 由于成像干涉技术的物理机制较为复杂[6], 且部分深海物理机制还有待于进一步研究和验证, 给OPIIS的数据反演工作提出更高的要求。

偏最小二乘法(partial least squares, PLS)是构造回归方程的一种数学方法, 可以进行单(多)变量的回归分析, 且其建立的预测模型具有较高的预测稳定性[7]。 目前研究较多的是采用改进型偏最小二乘算法和光谱数据变换方法提高模型的预测性能[8]。 文中将干涉光谱与偏最小二乘法相结合, 分别建立三个甲烷浓度、 温度和压强单因变量预测模型, 并着重分析建模样本个数、 样本间隔和主成分个数的选取对预测模型精度、 稳定性、 运算量的影响, 平衡取舍模型各项性能指标, 使模型的预测精度、 稳定性、 适用范围和运算量等综合性能满足应用场景需要。

1 OPIIS工作原理

OPIIS的工作原理如图1所示, 菲涅尔透镜收集的甲烷谱线以不同角度入射干涉滤光片, 根据干涉滤光片的透过率与谱线入射角和中心波长的关系[9], 不同入射角不同中心波长的谱线得以分离, 并于探测器上形成干涉条纹。 本文主要研究通过算法处理从干涉条纹中提取出甲烷浓度、 温度和压强信息。

图1 OPIIS工作原理图Fig.1 Schematic diagram of OPIIS

OPIIS干涉条纹强度与入射光强的对应关系可以表示为

I=I0τf(λ, θf)=I0τλ01+2(λ-λ0)D+λDθf2ne22-1(1)

其中, I为干涉条纹强度, I0为洛伦兹型入射光强, τ f为干涉滤光片的透过率, τλ0为滤光片峰值透过率, D为滤光片半带宽, θ f为滤光片入射光的入射角, ne为滤光片的有效折射率。 为了从干涉条纹中精确、 稳定、 快速的提取出甲烷气体的浓度、 温度和压强信息, 需要建立干涉条纹强度与甲烷分子浓度、 温度和压强的回归模型。 但在实际测量过程中, OPIIS干涉条纹强度值易受环境和仪器自身因素的干扰, 极大影响回归模型的稳定性。 而甲烷辐射光谱主要由深海气体辐射模型、 甲烷分子光谱参数和热液环境参数决定, 其数值受其他因素影响较小。 因此本文主要研究建立甲烷气体辐射光谱与分子浓度、 温度和压强的回归关系, 再根据甲烷气体辐射强度与干涉条纹强度的辐射定标关系[10], 间接确定干涉条纹与甲烷分子浓度、 温度和压强的回归模型。

2 偏最小二乘回归建模

本文分别以甲烷辐射光谱为自变量, 以甲烷浓度、 温度和压强为因变量建立单因变量预测模型, 其中甲烷光谱取自我们建立的合成光谱数据库, 图2为部分建模样本甲烷辐射光谱。 热液区域通常位于海底2 000 m以下, 压强高达20 MPa以上, 热液喷口温度甚至高达400 ℃, 热液区域甲烷浓度高达190 mmol· L-1以上。 根据热液环境参数, 分别选取不同浓度的样本50组, 75组, 100组, 125组建立甲烷浓度预测模型, 其中预测集样本数都为25组, 训练集样本数分别为25组, 50组, 75组, 100组。 浓度取样间隔分别为2, 3, 5和10 mmol· L-1, 主成分个数分别取1, 2, 3, 4, 5, 6。 通过对以上96组浓度预测模型的对比, 挑选出同时满足预测精度, 稳定性, 适用范围, 运算量等要求的浓度预测模型。 同理, 设置温度取样间隔分别为1, 2, 5和10 K, 压强取样间隔分别为0.05, 0.1, 0.25和0.5 MPa, 通过对比分析, 挑选出综合性能较优的温度预测模型和压强预测模型。 本文采用决定系数(coefficient of determination, R2)和预测均方根误差(root mean square error of prediction, RMSEP)作为模型的评价指标。 决定系数R2表征模型的稳定性, 其值越大, 则模型的预测稳定性越高。 预测均方根误差表征模型的预测精度, 其值越小, 则模型的预测精度越高。

图2 部分建模样本辐射光谱Fig.2 Radiance spectra of partial modeling samples

3 结果与讨论
3.1 不同训练集样本间隔的模型预测结果

本文分析了训练集取样个数、 训练集取样间隔和主成分个数对模型预测的影响。 以压强预测模型为例, 设置训练集样本数为100组, 压强取样间隔分别为0.5, 0.25, 0.1和0.05 MPa, 对应的模型适用范围分别为0.5~62.5, 0.25~31.25, 20.1~32.5和20.05~26.25 MPa。 从本文光谱数据库中提取400条原始光谱曲线建立压强预测模型。 图3为不同取样间隔的压强模型预测均方根误差RMSEP和决定系数R2

图3 不同训练集取样间隔的压强预测模型的RMSEP和R2Fig.3 RMSEP and R2 of pressure prediction model for various intervals of training samples

图3的每幅图中展示了主成分数对压强预测模型的预测均方根误差RMSEP和决定系数R2的影响。 当主成分数增加时, 压强模型预测均方根误差RMSEP呈现减小趋势, 决定系数R2呈现增加趋势直至接近于1。 在每个模型中, 存在一个最优主成分数值使得模型的预测精度和稳定性最佳, 当主成分数较小时, 模型性能较低, 当主成分较大时, 运算量也较大, 同时未必能够提高模型性能, 甚至可能会使模型性能降低。 另外, 对比图3中四幅图可以看出不同取样间隔对压强预测模型的预测均方根误差RMSEP和决定系数R2的影响。 保持样本数一定, 当取最优主成分数时, 压强取样间隔越小, 模型的预测均方根误差RMSEP值越小, 模型预测精度越高, 但此时对应压强模型的适用范围却越小。

3.2 不同训练集样本数的模型预测结果

图4为不同样本数的压强模型预测均方根误差RMSEP和决定系数R2。 设置压强取样间隔为0.05 MPa, 训练集样本数分别为100组, 75组, 50组, 25组, 对应的模型适用范围20.05~26.25, 20.05~25, 20.05~23.75和20.05~22.5 MPa。 从本文光谱数据库中提取250条原始光谱曲线建立压强预测模型。

图4 不同训练集样本数的压强预测模型的RMSEP和R2Fig.4 RMSEP and R2 of pressure prediction model for various numbers of training samples

从图4的每幅图中同样可以看出, 主成分数对压强预测模型的预测均方根误差RMSEP和决定系数R2的影响与图3类似。 在每个模型中, 存在一个最优主成分数值使得模型的预测精度和稳定性最佳。 另外, 对比图4中四幅图可以看出, 保持样本间隔一定, 当取最优主成分数时, 压强取样数越少, 模型的预测均方根误差RMSEP值越小, 模型预测精度越高, 但此时对应压强模型的适用范围却越小。 在浓度预测模型和温度预测模型中, 训练集取样个数、 训练集取样间隔和主成分个数对模型的影响与压强预测模型大致相同。

3.3 最佳预测模型及应用结果

本文根据预测精度、 预测稳定性、 模型适用范围、 模型运算量等综合指标确定最优模型。 由3.1节, 3.2节可知, 模型的预测精度、 预测稳定性、 适用范围和运算量取决于训练集取样个数、 训练集取样间隔和主成分个数。 上述单一影响因素的改变并不能同时提高模型的所有性能, 需要对模型各项指标平衡选取。

在每个模型中, 当主成分数较小时, 模型性能较低, 当主成分数较大时, 运算量也较大, 但未必能够提高模型性能, 甚至可能会使模型性能降低。 因此, 当精度满足要求时, 可以适量选择较小主成分数, 以减小运算量。 当取最优主成分数时, 保持样本数一定, 样本间隔越小, 模型的预测精度越高, 稳定性越好, 但模型适用范围较小; 保持样本间隔一定时, 样本数越少, 模型的预测精度越高, 稳定性越好, 但模型适用范围同样较小。 当精度满足要求时, 可以适当选择间隔较大、 样本数较多的训练样本, 以扩大模型的适用范围。 综合考虑以上因素, 本文最终确定的三个预测模型的参数如表1所示。

表1 浓度、 温度和压强预测模型的参数 Table 1 Parameters of concentration, temperature and pressure prediction models

本文将三个单因变量模型用于甲烷的温度, 浓度和压强的实际预测。 选择25组样本的干涉光谱数据, 分别代入浓度、 温度和压强模型, 图5为三个预测模型的甲烷浓度、 温度和压强预测误差。

图5 三个模型的预测误差
(a): 浓度误差; (b): 温度误差; (c): 压强误差
Fig.5 Prediction errors of three models
(a): Concentration error; (b): Temperature error; (c): Pressure error

4 结 论

针对深海热液甲烷光学被动成像干涉系统OPIIS的数据反演, 提出利用将成像干涉技术与偏最小二乘法相结合的方法精确、 稳定、 快速的提取甲烷浓度、 温度和压强信息。 首先分别建立甲烷辐射光谱与甲烷浓度、 温度和压强的单因变量预测模型, 再利用干涉条纹与辐射光谱的关系, 间接建立干涉光谱与甲烷浓度、 温度和压强的PLS预测模型, 可以提高预测模型在实际应用中的抗干扰能力和稳定性。 另外, 分析了训练集取样个数、 训练集取样间隔和主成分个数对模型预测性能的影响。 在每个模型中, 存在一个最优主成分数值使得模型的预测精度和稳定性最佳。 当取最优主成分数时, 保持样本数一定, 样本间隔越小, 模型的预测精度越高, 稳定性越好, 但模型适用范围较小; 保持样本间隔一定时, 样本数越少, 模型的预测精度越高, 稳定性越好, 但模型适用范围同样较小。 平衡取舍模型预测精度、 稳定性、 适用范围和运算量等性能指标, 分别确定浓度、 温度和压强三个最优单因变量PLS预测模型。 将25组样本的干涉光谱应用于三个最优预测模型, 其浓度、 温度和压强的预测误差分别为± 1.21× 10-7, ± 3.63× 10-3, ± 9.49× 10-4, 对应的预测精度分别为± 45.4 nmol· L-1, ± 2.5 K, ± 3.3× 10-2 MPa。 结果表明, 干涉光谱结合偏最小二乘的反演算法可以精确、 稳定、 快速的获取热液区甲烷气体的浓度、 温度和压强信息。

参考文献
[1] QIN Wei-hua, TAO Chen-chao, CAI Zhen, et al(秦伟华, 陶辰超, 蔡真, ). Marine Science(海洋科学), 2016, 40(6): 119. [本文引用:1]
[2] Farías L, Sanzana K, Sanhueza-Guevara S, et al. Estuaries and Coasts, 2017, 40: 1592. [本文引用:1]
[3] Li Yuhong, Zhan Liyang, Zhang Jiexia, et al. Acta Oceanologica Sinica, 2015, 34(6): 34. [本文引用:1]
[4] SHEN Zheng-wei, SUN Chun-yan, HE Hui-ce, et al(申正伟, 孙春岩, 贺会策, ). Journal of Ocean Technology(海洋技术学报), 2015, 34(5): 19. [本文引用:1]
[5] Di Pengfei, Feng Dong, Chen Duofu. Continental Shelf Research, 2014, 81: 80. [本文引用:1]
[6] Tang Yuanhe, Duan Xiaodong, Gao Haiyang, et al. Applied Optics, 2014, 53(11): 2273. [本文引用:1]
[7] OUYANG Ai-guo, TANG Tian-yi, WANG Hai-yang, et al(欧阳爱国, 唐天义, 王海洋, ). Chinese Optics(中国光学), 2017, 10(3): 363. [本文引用:1]
[8] LAO Wan-li, HE Yu-chan, LI Gai-yun, et al(劳万里, 何玉婵, 李改云, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(1): 55. [本文引用:1]
[9] TANG Yuan-he, WANG Shu-hua, CUN Jin, et al(唐远河, 王淑华, 崔进, ). Acta Physica Sinica(物理学报), 2016, 65(18): 184201. [本文引用:1]
[10] Liu Qingsong, Tang Yuanhe, Qin Lin, et al. International Journal of Remote Sensing, 2019, 40(1): 1. [本文引用:1]