SPA-PLS的高含水原油近红外光谱含水率分析
韩建, 李雨昭, 曹志民*, 刘强, 牟海维
东北石油大学电子科学学院, 黑龙江 大庆 163318
*通讯联系人 e-mail: dahai0464@sina.com

作者简介: 韩 建, 1976年生, 东北石油大学电子科学学院教授 e-mail: han-jian@126.com

摘要

准确及时的检测原油含水率对注水策略调整、 原油开采能力评估、 油井开发寿命预测等均具有重要意义。 然而, 当前我国大多数油田均已进入高含水的开发中晚期, 含水率测量难度大且准确率不高。 在此背景下, 开展了高含水情况下利用近红外光谱进行原油含水率测量的研究。 首先介绍了目前原油含水率检测的常用方法, 分析了它们的优劣。 理论上, 由于水的近红外光吸收带与原油中C—H键的吸收带有明显区别, 根据Lambert-Beer吸收定律和吸光度线性叠加定律可知, 不同含水率高含水原油近红外光谱会存在较强响应差异。 为此, 对高含水原油进行近红外光谱检测, 建立原油含水率与近红外光谱响应间的非线性映射模型, 可实现高含水原油含水率的精确测量。 为了验证该方法的有效性, 搭建了近红外光谱数据采集实验装置: 采用白炽灯作为光源, 经过光路调节成平行光后垂直射入样品池, 用近红外光谱仪(海洋光学NIR512)采集光谱用于分析。 其中, 接收光谱仪带宽为900~1 700 nm, 平均分成512个波段。 光谱数据利用光谱仪配套软件储存在电脑中。 样本采用相同厚度不同比例的油水混合物, 样本含水率范围为70%~99%, 共采集数据60组, 每组重复3次取平均值。 得到原始数据后, 先进行原始数据预处理, 以减少数据采集时来自高频随机噪音及温度不稳定、 样本不均匀、 基线漂移、 光散射等不利因素的影响。 分别选用了S-G滤波、 一阶导数和S-G滤波+一阶导数作为数据预处理的方法, 利用连续投影算法(SPA)对光谱数据进行降维, 并利用偏最小二乘法(PLS)和多元线性回归(MLR)进行建模, 模型精度通过计算均方根误差值(RMSE)和相关系数( r)来验证。 对比发现, 使用S-G滤波+一阶导数建立的模型RMSE值最小(RMSE=0.007 0, r=0.998 3)。 使用SPA降维后的模型要优于全波段PLS模型(RMSE=0.083 3, r=0.920 6)与MLR模型(RMSE=0.099 9, r=0.967 1)。 利用SPA提取出的31个特征波长建立的模型仅占全波段的6.05%, 并获得了较好的精度。 证明了利用光谱检测高含水原油含水率可行性, 并且得到了满意的精度, 为高含水原油的含水率检测提供了新的方法, 为进一步利用近红外光进行高含水原油的快速检测与在线监测提供参考。

关键词: 近红外光谱; 高含水率原油; 连续投影算法; 偏最小二乘法
中图分类号:O433.4 文献标志码:A
Water Content Prediction for High Water-Cut Crude Oil Based on SPA-PLS Using Near Infrared Spectroscopy
HAN Jian, LI Yu-zhao, CAO Zhi-min*, LIU Qiang, MOU Hai-wei
School of Electronic Science, Northeast Petroleum University, Daqing 163318, China
*Corresponding author
Abstract

Accurately and timely measuring water content of the crude oil is of great significance for water injection strategy adjustment, crude oil exploitation capacity assessment, and oil well development lift prediction. However, at present, most of China’s oil fields have entered the mid- or late- development stage with high water content. And the corresponding water content is difficult to measure accurately. Under this circumstance, this paper carried out research on the measurement of water content of the crude oil using near-infrared spectroscopy. Specifically, commonly employed methods for measuring water content of the crude oil were introduced, and advantages and disadvantages of these methods were analyzed. Theoretically, since the near-infrared absorption band of water is significantly different from the absorption of C—H bond in crude oil, according to Lambert-Beer’s law of absorption and linear law of absorbance, there is a strong response difference in the near-infrared spectrum of high water cut crude oil with different water content. Therefore, we proposed to use near-infrared spectroscopy to accurately measure the crude oil with high water content. And then, by analyzing the measured near-infrared spectrum, non-linear mapping between the water content of the testing crude oil and the near-infrared spectrum can be established. With the obtained non-linear mapping model, water content of the crude oil can be accurately calculated. In order to evaluate the performance of this method, we constructed a hardware platform for collecting near-infrared data. In this platform, Incandescent lamp was employed as a light source, and near-infrared spectrometer (Ocean Optics NIR512) was used to collect near-infrared in range 900~1 700 nm with 512 uniformly divided sub bands. The collected data were stored in the computer using the spectrometer supporting software. With the obtained near-infrared data, the raw data preprocessing was performed to reduce the influence of temperature and high frequency random noise, sample unevenness, baseline drift, light scattering, and et al. In this paper, S-G filtering, or first order derivative, or S-G filtering+first order derivative techniques were employed as the preprocessing method; Successive Projection Algorithm (SPA) was used to reduce the dimension of the raw data; Partial Least Square (PLS) and Multiple Linear regression (MLR) were employed to construct the corresponding non-linear mapping model; Root Mean Square Error (RMSE) and Correlation coefficient (R) were used to evaluate the quantitative measuring performance. Experimental results illustrated that: model constructed using S-G filtering+first order derivative as preprocessing method can achieve the best RMSE (RMSE=0.007 0, r=0.998 3); Model constructed with reduced dimensional data using SPA method is better than the one (RMSE=0.083 3, r=0.920 6) constructed by PLS with full band data and the one (RMSE=0.099 9, r=0.967 1) constructed by MLR with full band. Obviously, although the 31 dimensionality-reduced feature bands obtained by SPA method are only 6.05% of the full band data, the corresponding water content measuring accuracy of the crude oil is very promising. In general, we validate the feasibility of using spectroscopy technique to measure water content of the high water content crude oil, and satisfactory accuracy can be achieved. Therefore, it can be said that this paper provides a new method for water content measurement of high water content crude oil, and provides reference for accurately and timely measuring high water content crude oil using near-infrared spectroscopy.

Keyword: Near-infrared spectroscopy (NIR); High water content crude oil; Successive projection algorithm (SPA); Partial least square (PLS)
引 言

油井含水率是管理采油进度、 调整相应作业模式所需的重要指标, 准确实时的预测含水率也是降低水平井钻井成本的重要因素之一。 目前, 世界上许多主要油田都处于高含水阶段, 综合含水量几乎都超过了90%甚至更高。 然而, 准确、 及时的预测高含水原油含水率仍是一个具有挑战性的课题。 传统的方法是用化学分析方法在实验室中测定含水率, 这需要消耗大量的人力和时间。 除了手动操作外, 常用的利用传感器检测含水率的方法有电容、 伽马射线、 微波等[1], 但目前使用的很多传感器在高含水情况下都有一定局限性。 如电容法由于极板的边缘效应, 测量误差在3%左右[2], 伽马射线法测量含水率范围窄, 且会产生辐射, 微波法仪器复杂, 尤其是在即时的传感约束下。

可见-近红外光谱(visible and near infrared spectroscopy, Vis-NIRS)可以充分利用全谱段或多波长的光谱数据对物质的品质、 种类、 化学成分等进行定性和定量分析, 已广泛应用于农业、 石油化工、 食品、 制药等领域, 取得了可喜的成果[3, 4, 5]。 近红外光谱区与有机分子(如有机碳氮源)中的含氢基团(C— H)振动的合频与各级倍频的吸收一致, 可以得到样品中有机分子含氢基团的特征振动信息。 与上述传感器相比, 近红外(NIR)光谱法因检测设备相对简单, 能够即时反映出结果, 且能得到较高的分辨率, 在高含水原油检测中被证明是一种理想方法[6, 7, 8]

理论上, 通过扫描样品的可见近红外光谱, 利用H2O和C— H键对近红外光波的吸收差异, 可实现测量原油含水率。 但是利用近红外光谱检测高含水原油含水率的研究很少, 有一些关于利用近红外光谱法检测高含水的油水混合物含水率的研究。 如检测润滑油、 汽轮机油的含水率和对污水中的油污染物的检测, 这些研究为利用近红外光谱检测高含水原油含水率提供了参考[9, 10, 11]。 然而, 现有的基于近红外光谱的含水率预测方法仍然比较复杂, 因为使用了完整的测量带, 没有进行简化。 每次计算都会耗费大量时间。 因此, 为了解决这一问题, 我们提出了一种计算效率高的近红外光谱分析方法, 利用连续投影算法(SPA)和偏最小二乘法(PLS)来预测原油含水率, 简称SPA-PLS。

1 原理与方法
1.1 Lambert-Beer吸收定律

近红外光谱法的理论基础是基于Lambert-Beer吸收定律和吸光度线性叠加定律, 如图1所示。 当单色光通过油和水均匀溶液时, 其透射光强可表示为

I=I0e-(α1L1+α2L2)(1)

其中: I指透射光强, I0指入射光强, α 1α 2是油和水的吸收系数, L1L2是油和水的厚度。 在式(1)中, α 1α 2为已知量, II0为可测量, 可求得关于油和水厚度L1L2的表达式, 显然仅利用一束单色光是无法得到的, 需利用第二束不同频率的单色光同时进行测试, 并要求油和水对两种频率单色光的吸收系数不同, 进而联立方程组求得L1L2, 实现原油含水率测量。

图1 介质对光的吸收Fig.1 Absorption of light by medium

由于水和原油在在近红外段的吸收带不同(如表1所示), 因此可以利用近红外光谱对油水混合物进行检测。

表1 C— H键和水在近红外段的吸收带 Table 1 The near infrared absorption bands of C— H bond and water
1.2 偏最小二乘连续投影算法(PLS-SPA)提取光谱特征

全频带光谱中包含大量无关、 冗杂的信息。 为了提取特征波长, 采用了连续投影算法(SPA)进行降维。 连续投影算法是一种使矢量空间共线性最小化的前向变量选择算法, Bregman于1965年首先提出[12]。 它可以通过提取全波段的几个特征波长来够消除原始光谱矩阵中冗余的信息, 可用于光谱特征波长的筛选。 近年来, 国内外学者在利用光谱分析检测作物和食品中某些重要成分的含量时利用了连续投影算法作有效波长的选取[13, 14, 15]。 具体算法如下:

设有光谱矩阵Xn× p及样本性质参数矢量Y, 其中, 设样本容量为n, 光谱总波长为p。 利用SPA进行波长选择的算法步骤分为两个阶段:

阶段一: 对光谱矩阵Xn× p进行分组。 共分成p组, 集合设为sl=[s1, s2, …, sm]∈ Rp× m。 每组选择m个波长[mM=min(n, p)]。 各波长矢量是通过下列步骤计算得出的:

第一步, 令i=1, k=1, 2, …, p, zi=xk; s1k=xk; sl(k, 1)=k; u=1, 2, …, m;

第二步, 基于zi构造正交投影算子。 其中In× n的单位矩阵;

Pi=I-zi(zi)T(zi)Tzi(2)

将还未被选入的各波长矢量的位置集合记为v, 即v∈ [1, p]& & vsl; svk=pixv

第三步, 计算各 svk的正交投影矢量, 并从中选出波长位置, 即

sl(k, u)=argmaxv[1, p]vslsvk; zi=xsl(u)(3)

第四步, 令i=i+1, 若i< m, 返回至第2步开始选择下一波长矢量。 重复上述步骤得到降后的维光谱矩阵sl=[s1, s2, …, sm]∈ Rp× m

阶段二: 利用多元定量校正模型完成最优波长的选定。 在此, 选用偏最小二乘法(PLS)建立NIR光强度与含水量之间的相应显式关系如式(4)所示

Y=a1jXsl(j, 1)+a2jXsl(j, 2)++amjXsl(j, m)+εj(4)

偏最小二乘法(PLS)广泛应用于近红外光谱分析。 根据以上步骤所得出的选择结果, 建立原油含水率光谱数据预测模型。 选用均方根误差(RMSE)和相关系数(r)作为模型精度的评价指标

RMSEj=Ytesttruth-YestNNtest(5)r=Cov(X, Y)δxδy(6)Cov(X, Y)=1mi=1m(xi-x̅)(yi-y̅)(7)

模型的预测均方根误差越小, 相关系数越接近1, 模型的精度则越高。 本实验以其均方根误差和相关系数为目标优化所建模型, 则最小均方根误差且相关系数最大所对应的变量位置和个数就是最优波长。

2 实验部分

实验装置示意图和实物图如图2所示。

图2 实验装置Fig.2 Experimental device

光源发出的光通过准直透镜和小孔光栅形成平行光, 利用光路转折器将光透过样品池, 再对透射光进行聚焦后由光谱仪采集。 调配含水率从99%~70%的含水原油作为测试样本, 样本含水率以0.5%递减, 共获取60组, 实验重复3次, 取平均值作为该含水率样本的光谱值。

光谱采集使用海洋光学NIR512近红外光谱分析仪, 波长范围为850~1 700 nm, 光学分辨率为3.1 nm w/25 mslit(共512个波段)。 14.5 V卤素灯作为外部光源。 随机选取48组油样为实验数据, 随机选取12组作为验证数据。 MATLAB R2016a软件处理光谱数据。

3 结果与讨论
3.1 光谱预处理

由于原始光谱采集时会受到温度及来自高频随机噪音、 样本不均匀、 基线漂移、 光散射等不利因素的影响, 实验设计中, 为尽量减少温度和液体表面张力对样本带来的影响, 采用了25 mm大面积样品池。 油品膨胀系数为0.000 528, 水的膨胀系数为0.000 208。 根据液体膨胀体积[式(8)]可以求得在室温20~35 ℃范围, 水和油的体积变化率分别为0.312%和0.792%, 实验温度恒定情况下影响很小。

V2=V1[1+α(t2-t1)](8)

式(8)中, t1t2为温度, V1为在t1℃时的体积, V2为在t2℃时的体积。 α 为膨胀系数。

需采取一定的预处理方法以消除来自高频随机噪音、 样本不均匀、 基线漂移、 光散射等不利因素的影响, 实现最优的建模效果。

48组含水原油样本的近红外吸收光谱如图3(a)所示。 可以看出, 在980, 1 100和1 200 nm附近有明显的吸收。 由于样本在样品池中会受到凹液面折射等影响, 不利于特征波长的选取, 因此, 对原始数据进行了一阶导数处理。

图3 利用不同方式处理的近红外光谱吸收图
(a): 原始谱; (b): 原始谱一阶导数; (c): 原始谱S-G滤波; (d): 原始谱一阶导数S-G滤波
Fig.3 NIR absorption spectra treated by different ways
(a): Original; (b): First derivative; (c): Original spectra treated by S-G filtering; (d): First derivative+S-G filtering

图3(b)为原始光谱的一阶导数光谱, 可以看到, 一阶导数光谱突出了光谱的吸收特征, 并且消除了原始光谱中的基线漂移和部分背景噪声, 1 050, 1 150和1 330 nm等吸收峰特征较为明显, 部分波长处油中含水量光谱显示出较为明显的差别。

一阶导数处理后的光谱依然有噪声存在, 因此选用了Savitzky-Golay滤波器(S-G滤波器)对光谱数据进行进一步处理。

图3(c)为经过S-G滤波器处理后的吸收光谱, 图3(d)为经过S-G滤波器处理后的一阶导数吸收光谱。 可以看到, 光谱曲线具有了较高的平滑度, 能提高矫正模型的精度。 在后续的数据处理中, 都是以一阶导数加上S-G滤波进行预处理后进行的。

3.2 PLS-SPA光谱特征提取

由于全波段所含有信息量过大, 每次计算需要大量的时间。 因此采用SPA筛选特征波长, 不仅有利于减少运算量, 加快运算速度, 还对今后实际应用时, 例如近红外含水率测量传感器的制作有参考价值。 利用四种不同的预处理方法进行SPA选择的变量数及对应的变量如表2所示。

表2 不同预处理方法使用SPA进行选择的变量数和变量 Table 2 Number and value of selected variables by SPA for different preprocessing methods

表2所示, 四种预处理方法用SPA选择的变量数目不同, 表2中的具体变量是按照投影其均方根误差的大小进行排列, 即第一个为最优的变量(波长), 第二个为剩余子集中最优, 依次排列。 例如一阶导数与S-G滤波处理后的经过SPA选择的第一个变量为1 174.79 nm, 就是在所选择变量集的31个变量中最优的波长。 虽然预处理方法不同导致选择的变量个数和变量都不全相同, 但是有很多相同或相近的波长在所有处理方法中都有出现。 因为一阶导数光谱与S-G滤波预处理方法消除了基线漂移和随机噪声等不利因素且保证了数据的完整性, 所以一阶导数光谱与S-G滤波预处理方法选择的变量是四种方法中最少的。 SPA选择的不同变量数的均方根误差值如图4(a)表示, 可以看到, 在15个变量之前曲线下降很快, 说明数据过拟合; 15到30个变量时, 均方根误差呈缓慢下降的趋势, 波动不大, 直至第31个波段为RMSE最小值, 此处相对系数r=0.992 3, 为最大值。 因而油中含水量光谱波长选择31个。 图4(b)表示的是使用SPA对高含水原油光谱数据进行降维所得到的含水量波长在全谱中的分布情况。 在图中用空心圆标出。

图4 SPA选择过程中RMSE的变化和特征波长的选取
(a): RMSE值; (b): 特征波长分布
Fig.4 Change of RMSE and selection of characteristic wavelength in SPA selection process
(a): RMSE; (b): Characteristic wavelength

3.3 近红外模型的建立及预测

利用PLS模型和多元线性回归(MLR)模型对不同方法处理后的光谱分别建模, 光谱数据和油中含水率值作为输入值, 建立预测模型。 利用一阶导数光谱和S-G滤波处理后的RMSE值为0.083 3, 相关系数r为0.920 6, 虽然精度高于MLR(RMSE=0.283 3, r=0.943 1), 但该模型使用了全光谱512个波段的信息, 计算量大, 处理时间长, 因此需要有效的波长选择方法, 提取有效波长, 进一步优化模型。

利用SPA对使用不同预处理方法后的光谱数据进行有效波长提取, 分别建立相应的SPA-PLS模型, 并使用MLR进行对比, 预测结果如表3所示。

表3 SPA-PLS与MLR模型的预测结果 Table 3 Prediction results by SPA-PLS models and MLR models

从图4(b)中可以看到, 利用一阶导数S-G滤波所选取的波长数量为31个, 被选取的波长点集中在1 100和1 150 nm处, 与图2油中含水量在1 100~1 200 nm附近出现的吸收峰差别一致。 这说明, 可以利用这类吸收峰作为特征波长来建立原油含水率的预测模型。

通过对不同预处理建模和预测效果进行比较, 不同预处理方法后SPA-PLS模型比原始光谱的PLS模型和MLR模型在校正集和验证集的预测相关系数都有所提高, 但仅使用一阶导数的SPA+PLS和MLR方法的RMSE值都相比原始数据略有增大, 说明仅使用一阶导数作为数据处理会出现消除有用信息的问题。 此外其他几种方法都要优于原始光谱, 说明对数据进行预处理是必要的。 在采用一阶导数光谱与S-G滤波处理后SPA-PLS的效果最佳, 其对验证集样本进行预测结果, RMSE=0.007 0, r=0.998 3, 高于MLR及其他处理方法, 获得了满意的预测精度。

4 结 论

通过搭建的实验装置对相同厚度不同含水率的原油进行近红外光谱检测, 利用一阶导数处理加上S-G滤波来提高校正模型的精度。 运用SPA 选择油中含水量的近红外光谱波长, 通过比较不同的预处理方法运用SPA选择的变量个数和对应变量, 有很多相同或相近的波长被选出。 使用一阶导数光谱和S-G滤波预处理方法经过SPA选择波长数量为31个, 它们集中在一阶导数与S-G滤波谱中1 100和1 150 nm附近的波段, 无信息的平缓区域几乎没有波长被选取, 与油中含水量在1 150 nm附近出现明显的吸收峰差别一致。

一阶导数光谱与S-G滤波处理后的全谱PLS预测模型的均方根误差为0.083 3, 相关系数为0.920 6, 误差较小。 但作为后续量信息检测的应用, 该模型计算量大, 处理时间长。 在采用一阶导数光谱与S-G滤波处理后 SPA-PLS的效果最佳, 结果表明, 利用SPA提取出的31个特征波长建立的模型仅占全波段的6.05%, RMSE=0.007 0, r=0.998 3, 并且优于MLR模型(RMSE=0.099 9, r=0.967 1)获得了较好的精度。 为进一步研究高含水原油的快速检测与在线监测奠定了基础。

参考文献
[1] HE Qian-qian, YUE Lai-shen(贺倩倩, 跃来深). Journal of Xi’an Technological University(西安工业大学学报), 2016, 36(10): 792. [本文引用:1]
[2] CHEN Hong, YUE Lai-shen, TONG Yi-jie, et al(陈鸿, 跃来深, 仝毅杰, ). Journal of Xian Technological University(西安工业大学学报), 2017, 37(12): 870. [本文引用:1]
[3] SUN Tong, WU Yi-qing, LI Xiao-zhen, et al(孙通, 吴宜青, 李晓珍, ). Acta Optica Sinica(光学学报), 2015, 36(6): 342. [本文引用:1]
[4] Mazurek S, Szostak R, Kita A. Journal of Molecular Structure, 2016, 1126: 213. [本文引用:1]
[5] Elradi Abass, Satti Merghany. J. Sc. Tech. , 2011, 13(3): 137. [本文引用:1]
[6] Zaitcev E V, Grigoriev B V, Mikhailov P Y, et al. The Infrared Method of Determinin the Water-Cut of a Nonhomogeneous Water-Gaz-Oil Stream. SPE Russian Petroleum Technology Conference and Exhibition, SPE-182105-MS, 2016. [本文引用:1]
[7] Lv H, Su X, Wang Y, et al. Chemosphere, 2018, 206: 293. [本文引用:1]
[8] Douglas R K, Nawar S, Cipullo S, et al. Science of the Total Environment, 2018, 626: 1108. [本文引用:1]
[9] Zamora D, Blanco M, Bautista M, et al. Talanta, 2012, 89: 478. [本文引用:1]
[10] Borges G R, Farias G B, Braz T M, et al. Fuel, 2015, 147: 43. [本文引用:1]
[11] Zude M, Pflanz M, Spinelli L, et al. Journal of Food Engineering, 2011, 103(1): 68. [本文引用:1]
[12] Costa G B D, Fernand es D D S, Gomes A A, et al. Food Chemistry, 2016, 196: 539. [本文引用:1]
[13] Ghasemi-Varnamkhasti M, Mohtasebi S S, Rodriguez-Mendez M L, et al. Talanta, 2012, 89(2): 286. [本文引用:1]
[14] CHEN Bin, LIU Ge, ZHANG Xian-ming(陈彬, 刘阁, 张贤明). Infrared and Laser Engineering(红外与激光工程), 2013, 42(12): 3168. [本文引用:1]
[15] Krepper G, Romeo F, Fernand es D D D S, et al. Spectrochimica Acta Part A: Molecular & Biomolecular Spectroscopy, 2017, 189: 300. [本文引用:1]