太赫兹光谱结合特征谱区筛选算法在发动机润滑油含水量定量分析中应用研究
陈孟秋1, 何明霞1,*, 李萌2, 曲秋红2
1.天津大学测试计量技术及仪器国家重点实验室, 天津 300072
2.莱仪特太赫兹(天津)科技有限公司, 天津 300019
*通讯作者 e-mail: hhmmxx@tju.edu.cn

作者简介: 陈孟秋, 1966年生, 天津大学精密仪器与光电子工程学院硕士研究生 e-mail: cmq1996@126.com

摘要

发动机润滑油是保障汽车发动机持久且稳定运转的基石, 准确评定发动机润滑油各项性能指标是其在生产到使用全过程必不可少的步骤。 发动机润滑油在一段时间的使用后会因为多种原因引起油品变质, 发动机润滑油变质的指标可以用其中非磁性颗粒物浓度、 金属屑含量、 pH值、 粘稠度、 含水率等表述。 关于发动机润滑油含水量的检测, 传统的检测方法存在操作复杂, 及时性差等缺点。 太赫兹对水吸收强烈, 适合用于对样品中微水含量的分析。 通过透射式太赫兹时域光谱系统获得1.0~3.5 THz下的六种不同水含量的发动机润滑油的吸收系数谱线, 对谱线进行Savitzky-Golay(SG)平滑去噪, 剔除奇异样本后, 采用Kennard-Stone算法划分样品集, 尝试常规区间偏最小二乘法(iPLS)、 向后区间偏最小二乘法(BiPLS)和联合区间偏最小二乘法(SiPLS)对其太赫兹时域光谱特征谱区间进行筛选, 着重研究区间间隔数、 PLS组件数、 最佳主因子数和区间选择等因素对PLS模型属性的影响, 并且对不同含水量的润滑油建模分析, 对不同模型比较选优, 建立最优定量分析模型。 建模结果表示特征谱区筛选可以提高建模性能、 降低模型复杂性, 特征谱区筛选算法通过剔除发动机润滑油太赫兹吸收系数谱线中非线性或者无关变量的方式, 使建模结果更好的表达吸收系数谱线与其含水量的关系。 结果表明: 采用BiPLS模型用于发电机润滑油中微量水含量的定量分析时建模效果最佳, 模型区间数为26, 入选区间为[18 10 4 3 8 12 5 11 24 13 16 21 2], 主因子数为10, 最优模型的交互验证均方根误差RMSECV为0.003 5, 预测均方根误差RMSEP为0.004 6, 校正集相关系数 r为0.919 3, 预测集相关系数 r为0.865 7。 由此可见, 可以采用反向区间偏最小二乘法(BiPLS)用于发动机润滑油水含量的测定, 且实验过程简单, 建模计算速度快, 效果理想, 可以适用于非接触式油品含水量的定量分析。

关键词: 太赫兹时域光谱技术; 特征谱区筛选算法; 发动机润滑油; 水含量检测
中图分类号:O433.4 文献标志码:A
Application of Interval Selection Methods in Quantitative Analysis of Water Content in Engine Oil by Terahertz Spectroscopy
CHEN Meng-qiu1, HE Ming-xia1,*, LI Meng2, QU Qiu-hong2
1. State Key Laboratory of Precision Measuring Technology and Instruments, Tianjin University, Tianjin 300072, China
2. LET Terahertz (Tianjin) Technology Co., Ltd., Tianjin 300019, China
*Corresponding author
Abstract

Engine lubricating oil is the cornerstone to ensure the long-term and stable operation of automobile engines. Accurately evaluating various performance indicators of engine lubricating oil is an essential step in the entire process from production to use. Engine lubricating oil will deteriorate for a variety of reasons after being used for a while. The engine lubricating oil deterioration indicators can be expressed in terms of non-magnetic particulate matter concentration, metal filings content, pH value, viscosity, water content and so on. To detect water content in engine lubricating oil, the traditional detection methods have the disadvantages of complicated operation and poor timeliness. Terahertz has strong absorption of water and is suitable for analysing micro-water content in sample products. In this paper, the transmission coefficients of six engine oils with different water contents were used to obtain the absorption coefficient curve of 1.0~3.5 THz by the transmission terahertz time domain spectroscopy system. The spectroscopic data were preprocessed with Savitzky-Golay(SG).Then, the sample was divided into a calibration set and test set by the Kennard-Stone algorithm after rejecting the odd samples.The interval Partial Least Squares (iPLS), backward interval partial least squares (BiPLS), and synergy interval partial least squares (SiPLS) were used to screen their terahertz time-domain spectral characteristic spectral intervals. They were focusing on the impact of factors such as the number of intervals, the number of PLS components, the number of best principal factors, and the selection of intervals on the PLS model’s properties. It also models and analyzes lubricants with different water contents, compares and selects different models, and establishes an optimal quantitative analysis model. The modeling results indicate that the feature spectrum region filtering can improve modeling performance and reduce model complexity. The characteristic spectrum region screening algorithm eliminates the non-linear or irrelevant variables in the terahertz absorption coefficient spectrum of engine lubricants so that the modeling results can better express the relationship between the absorption coefficient spectrum and its water content. The results show that the optimal model for quantitative analysis of trace water content in generator lubricants was obtained with BiPLS method that separated the whole spectra into 26 intervals and selected [18 10 4 3 8 12 5 11 24 13 16 21 2] intervals. The number of major factors is 10. The BiPLS model had a root mean standard error of cross-validation (RMSECV)of 0.003 5 and root mean standard error of prediction(RMSEP) of 0.004 6. The correlation coefficient ( r) of the correction set is 0.913 9, and the correlation coefficient ( r) of the prediction set is 0.865 7. Overall, BiPLS method could accurately predict the water content of engine lubricants, and the experimental process is simple, the modeling and calculation speed is fast, and the effect is ideal, and it can be applied to the quantitative analysis of the water content of non-contact oil products.

Keyword: Terahertz time-domain spectrum; Intervalselection; Engine oil; Moisture content test
引言

发动机润滑油, 主要成分是碳氢化合物, 主要功能为对发动机起到润滑防磨、 冷却降温、 减震缓冲、 防锈蚀防漏等作用[1]。 新出厂的发动机润滑油是不含水分的, 但在存储、 运输和使用的过程中, 可能会因为各种原因混入水分。 按照国家标准, 发动机润滑油中允许的含水量应在0.03%以下, 若含水量超过标准, 润滑油中会产生酸类物质, 这些酸类物质会增加对发动机的腐蚀, 引起发动机抱轴、 烧瓦等严重事故。

针对发动机润滑油中水含量的检测现在常用方法有重量法、 红外光谱分析法、 蒸馏法、 卡尔· 费休法等。 这些方法均已有成熟的测试步骤, 但仍存在各自的不足, 如: 当样品中水分含量高时采用重量法会在烘干过程中发生飞溅, 影响测量精度; 红外光谱分析法会受到基础油类别、 润滑油劣化程度等因素影响[2]; 蒸馏法则需要的样品量较多, 耗时较长; 卡尔· 费休法虽然应用最广泛, 但是这种方法副反应较多, 且测量使用的化学试剂具有毒性[3]

太赫兹(Terahertz, THz)波是指波长在0.03~3 mm之间, 频率在0.1~10 THz, 介于红外和微波之间的电磁波[4]。 水在太赫兹频段拥有独特的分子键振动模式, 使得水对太赫兹具有强烈的吸收性[5, 6]。 太赫兹光谱技术已被用于测量变压器油、 原油、 生物组织及细胞中的微水含量[7]

本文利用太赫兹时域光谱技术对发动机润滑油中水含量进行检测并结合特征谱区筛选算法进行定量分析, 对润滑油中水含量这一指标进行建模分析, 对不同模型比较选优, 建立最优定量分析模型。 以期寻找一种检定润滑油含水量的新方法。

1 实验部分
1.1 方法

实验使用的是日本advantest公司的TAS7400SU太赫兹光谱系统。 光谱范围为0.5~7.0 THz, 频率精度± 10 GHz, 动态范围为57 dB, 频率分辨率为7.6 GHz。 该系统由三个主要部分组成, 分别是飞秒激光器, 太赫兹发射天线和接收天线。 本实验中用的是其透射模块, 其结构如图1所示。

图1 太赫兹时域光谱系统Fig.1 Schematic of THz-TDS

实验选用汽车发动机同型号不同老化程度的润滑油, 利用卡尔· 费休水分测定仪对其含水量进行测量, 卡尔· 费休法是利用了样品中的水与卡尔费休试剂中SO2和I2产生的氧化还原反应对其进行水含量的测量, 每种润滑油分别测量3次, 取平均值。 其含水量分别为0.039 2%, 0.029 2%, 0.026 1%, 0.017 4%, 0.015 8%和0.013 3%, 液体样品池采用光程为10 mm的JGS1级石英比色皿, 样品需要干燥密封保存。

在实验中, 以干燥空气作为背景信号, 相同含水量的润滑油样品各准备6个样本, 每个样本移动不同位置分别测量5次。 得到每种润滑油各采集30组光谱数据, 总共180组光谱数据。

为了降低系统及实验因素导致的干扰和噪声, 使用Savitzky-Golay(S-G)平滑预处理, 考虑原光谱的特性, 将平滑滤波器的拟合阶数设置为3阶, 设置每15个点平滑一次。 样品集的划分采用Kennard-Stone(KS)算法, 将所有样本均视为训练集候选样本, 依次从中挑选样本进入训练集。 通过KS算法, 将样品中150组数据设为校正集, 30组数据设为预测集。

1.2 特征谱区筛选算法

常规区间最小二乘(iPLS)是一种较为常用的优选特征光谱区间的化学计量方法, 由Nø rgaard等提出。 将数据集划分为n个子区间, 分别建立每个子区间的PLS模型, 取子区间交互验证均方根误差(RMSECV)最小时的因子数为最优因子数, 以建立各个子区间的最优模型。 向后区间偏最小二乘法(BiPLS)是每次排除根据RMSECV数值显示建模效果最差的子区间, 使得在(n-1)个子区间内建模, 取RMSECV最小的区间组合为最优建模区间。 联合区间偏最小二乘法(SiPLS)则是根据指定的组合区间个数将各个子区间随机组合, 对每种组合的区间建立PLS模型, 取RMSECV最小的区间组合为最优建模区间。

2 结果与讨论
2.1 吸收系数谱

经平滑处理后得到的THz吸收系数误差棒谱线如图2所示, 光谱范围取1.0~3.5 THz, 频率间隔7.6 GHz, 每条谱线包含328个变量。 从图中可以看出吸收系数谱线随含水量增加而升高, 当频率大于3.5 THz时, 由于受系统功率影响, 出现了明显噪声, 因此为了保证数据的可靠性, 采用1.0~3.5 THz的数据作为定量分析的对象。

图2 不同含水量润滑油的吸收系数误差棒谱线Fig.2 Dielectric constant spectra of lubricants with different water contents

2.2 水含量定量分析模型

2.2.1 iPLS模型

将预处理过的1.0~3.5 THz范围的光谱区域划分为10~30个子区间, 分别建立iPLS特征光谱区间筛选模型, 比较不同模型的交互验证均方根误差(RMSECV)。 选取所建立的回归模型中RMSECV最小时的子区间划分数、 入选区间及主因子数建立润滑油水含量的定量分析模型, 并以独立的预测集进行验证, 比较预测模型的预测均方根误差(RMSEP)。

表1中各模型的RMSECV值可知, 在对应的iPLS谱区筛选模型的21个区间间隔划分模型中, 当整个区间光谱间隔数为10个子区间, 选择第2个子区间, 对应1.258 85~1.502 99 THz, 主因子数为8时建模结果最佳。 iPLS最优模型的RMSECV=0.004 8, RMSEP=0.006 0, 校正集相关系数Rc为0.848 2, 预测集相关系数Rp为0.761 8, 对应频率范围为1.258 85~1.502 99 THz。

表1 不同区间划分数量时iPLS建模模型 Table 1 Results of iPLS model with different number of interval divisions

2.2.2 BiPLS模型

将预处理过的1.0~3.5 THz范围的光谱区域划分为10~30个子区间, 分别建立BiPLS特征光谱区间筛选模型, 以优选的光谱区间建立水含量定量分析模型并进行预测。

表2可见, 在对应的BiPLS谱区筛选模型的21个区间间隔划分模型中, 当整个区间光谱间隔数为26个子区间, 选择[18 10 4 3 8 12 5 11 24 13 16 21 2]子区间组合, 主因子数为10时建模结果最佳。 BiPLS最优模型的RMSECV=0.003 5, RMSEP=0.0046, Rc=0.919 3, Rp=0.865 7。

表2 不同区间划分数量时BiPLS建模模型 Table 2 Results of BiPLS model with different number of interval divisions

2.2.3 SiPLS模型

将预处理过的1.0~3.5 THz范围的光谱划分为10~30个子区间, 在区间间隔划分数相同的条件下, 分别计算了2个、 3个和4个区间联合的模型, 并以优选区间进行模型建立和预测。

表3可得: 当区间联合个数为2时, 在全频段被划分成28个间隔, 取第2、 第19区间, 主因子数为7时建模, RMSECV=0.003 9, RMSEP=0.005 3, Rc=0.900 2, Rp=0.816 1。

表3 不同区间划分数量时BiPLS建模模型 Table 3 Results of SiPLS model with different number of interval divisions

当区间联合个数为3时, 在全频段被划分成23个间隔, 取第1、 第3和第16区间, 主因子数为7时建模, RMSECV=0.003 8, RMSEP=0.004 6, Rc=0.906 2, Rp=0.862 0。

当区间联合个数为4时, 在全频段被划分成20个间隔, 取第1、 第3、 第7和第14区间, 主因子数为7时建模, RMSECV=0.003 7, RMSEP=0.004 7, Rc=0.913 7, Rp=0.859 9。

综合考虑相关系数r, RMSECV, RMSEP以及计算时间等因素, 采用区间联合个数为3时, 全频段被划分成23个间隔, 取第1、 第3和第16区间, 主因子数为7时建模, 对应频率范围为1.007 1~1.113 9, 1.236 0~1.342 8和2.655 0~2.754 2 THz。

2.3 最佳模型优选

将采用上述三种方法所建立的模型进行比较, 各模型预测结果如表4

表4 不同光谱区间建模的优选模型 Table 4 Selected models with different spectral regions

表4中数据可以得到, BiPLS模型的RcRp均高于iPLS模型和SiPLS模型, 且运算速度远快于SiPLS模型。

本实验最后采用BiPLS模型用于润滑油中微量水含量的定量分析, 模型区间数为26, 入选区间为[18 10 4 3 8 12 5 11 24 13 16 21 2]子区间组合, 主因子数为10, 最优模型的RMSECV=0.003 5, RMSEP=0.004 6, Rc=0.919 3, Rp=0.865 7, 预测效果如图3。

图3 润滑油水含量的BiPLS模型(a)和最优预测结果(b)Fig.3 BiPLS model of lubricant water content (a) and optimal results of prediction models obtained by (b) BiPLS for water content of lubricating oil

3 结论

基于太赫兹时域光谱, 采用特征谱区间筛选算法建模并优选最佳建模方式。 最终选用向后区间偏最小二乘法(BiPLS)用于发动机润滑油中微量水含量的定量分析, 所建模型具有较好的定量分析效果, 且建模计算速度快, 计算量较小。 为测定发动机润滑油中微量水含量提供了一种较为快速简便的方式, 也为检定发动机润滑油老化程度提供了一种新的思路。

参考文献
[1] YU Xian-shu, GAO Lei, LU Gui-wu(于宪书, 高磊, 卢贵武). Lubrication Engineering(润滑与密封), 2016, 41(12): 26. [本文引用:1]
[2] WANG Cheng-yong(王成勇). Plant Maintenance Engineering(设备管理与维修), 2013, (1): 60. [本文引用:1]
[3] JIANG Qiang, WANG Yue, WEN Zhe, et al(蒋强, 王玥, 文哲, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(4): 1049. [本文引用:1]
[4] HE Ming-xia, GUO Shuai(何明霞, 郭帅). Journal of Electronic Measurement and Instrument(电子测量与仪器学报), 2012, 26(8): 663. [本文引用:1]
[5] Walrafen G, Chu Y, Piermarini G. Journal of Physical Chemistry, 1996, 100(24): 10363. [本文引用:1]
[6] Cecilie Rönne, Sören Rud Keiding. Journal of Molecular Liquids, 2002, 101(1): 199. [本文引用:1]
[7] JIN Wu-jun, ZHAO Kun, YANG Chen, et al(金武军, 赵昆, 杨晨, ). Applied Geophysics(应用地球物理), 2013, 10(4): 506. [本文引用:1]