基于拉曼光谱的乙醇柴油密度、 粘度和乙醇含量分析研究
欧阳爱国, 张宇, 唐天义, 刘燕德
华东交通大学机电与车辆工程学院, 江西 南昌 330013

作者简介: 欧阳爱国, 1968年生, 华东交通大学机电与车辆工程学院教授 e-mail: ouyang1968711@163.com

摘要

乙醇柴油作为清洁燃料是柴油很好的替代品, 不同乙醇含量的乙醇柴油其粘度有差别, 而乙醇的含量直接影响着柴油机燃烧性能。 所以急需一种方法实现快速对乙醇柴油主要指标在线监测。 对采集到的不同浓度的乙醇柴油的原始拉曼光谱数据使用Savitzkv-Golay平滑(S-G)、 多元散射校正(MSC)、 微分处理(1stD和2ndD)、 标准正态变量校正(SNV)等四种方法以及他们的组合方法对光谱数据进行预处理后, 分别建立了乙醇柴油密度、 粘度和乙醇含量的偏最小二乘回归(PLSR)模型, 比较不同的预处理方法发现, 乙醇含量和粘度在S-G+2ndD预处理后所建立的PLSR模型效果最好, 预测集 Rp分别为0.930和0.918, RMSEP分别为1.237和0.034; S-G+1stD预处理后所建立的乙醇柴油密度PLSR模型结果最优, 预测集 Rp最大, 为0.962, RMSEP最小, 为0.14×10-2。 将经过S-G+2ndD预处理后的光谱数据选用递归偏最小二乘算法(RPLS)、 无信息变量消除(UVE)、 正自适应加权算法(CRES)、 连续投影算法(SPA)四种变量筛选方法以及将它们组合筛选得到的波长变量分别作为输入变量建立了PLSR模型, 在使用SPA-CARS波长筛选方法所建立的乙醇柴油乙醇含量的预测模型效果最优, 其预测集的 Rp, RMSEP分别为0.978 1和0.825 5。 结果表明使用该方法可以很好的对乙醇柴油的密度、 粘度以及乙醇含量等主要指标进行预测。

关键词: 拉曼光谱; 乙醇柴油; 偏最小二乘回归; 波段筛选
中图分类号:O657.3 文献标志码:A
Study on Density, Viscosity and Ethanol Content of Ethanol Diesel Based on Raman Spectroscopy
OUYANG Ai-guo, ZHANG Yu, TANG Tian-yi, LIU Yan-de
School of Mechatronics Engineering, East China Jiaotong University, Nanchang 330013, China
Abstract

Ethanol diesel as a clean fuel is a good substitute for diesel fuel. Different content of ethanol diesel oil viscosity is different, and the ethanol in the ethanol content of diesel fuel affects the quality of combustion, so we need have an instrument or method to achieve Ethanol Diesel Ingredients and Main Indicators Online Monitoring. In this paper, Savitzkv-Golay smoothing (SG), multiple scattering correction (MSC), differential processing (1stD and 2ndD), standard normal variable correction (SNV), and so on were used to calculate the original Raman spectra . The PLSR model of ethanol diesel density, viscosity and ethanol content was established by using different pretreatment methods for the original Raman spectra of different concentrations of ethanolic diesel. Compared with different pretreatment methods, the ethanol content and viscosity of PLSR model established by S-G+2ndD pretreatment has the best effect, the prediction set Rp is 0.930 and 0.918 respectively, RMSEP is 1.237 and 0.034 respectively. The PLSR model of ethanol diesel density after SG+1stD pretreatment is the best method. The optimal set of Rp is 0.962, RMSEP is 0.14×10-2. The wavelength model was selected by Recursive partial least squares(RPLS), Uninformative variables elimination(UVE), Compctitive Adaotive Reweighted Sampling(CRES), Successive Projections Algorithm (SPA) wavelength screening method after S-G+2ndD pretreatment, and the PLSR model was established. The prediction model of ethanol content of ethanol diesel oil was optimized by SPA-CARS wavelength screening method. The Rp and RMSEP were 0.978 1 and 0.825 5. The results show that the method can be used to predict the main indexes such as density, viscosity and ethanol content of ethanol diesel.

Keyword: Raman spectroscopy; Ethanol diesel; Partial least squares regression; Band screening
引 言

近些年, 石油价格较以往有了一定增加以及乙醇柴油生产技术逐渐成熟, 加之政府相关政策的扶持, 乙醇柴油在国内占据一定的市场。 然而, 在巨大的利益面前, 产生了乙醇柴油的变体, 添加廉价的有害物质代替柴油使用, 不仅对消费者的车辆产生危害, 不合格的乙醇柴油变体燃烧产生有害气体, 影响人们日常出行[1, 2]。 所以, 急需一种仪器或方法快速实现对乙醇柴油成分及主要指标在线监测。

Krakowska等[3]用气相色谱法鉴别真正的柴油样品和它们的假冒变体。 通过无信息变量消除法(uninformative variables elimination, UVE)筛选变量, 建立了UVE-PLS-DA和 SR-PLS-DA模型。 结果发现, UVE-PLS-DA和SR-PLS-DA模型有良好的预测能力。 李外[4]等利用气相色谱技术对生物柴油中的烷基酯含量、 甘油和甘油酯含量、 类固醇含量进行测定, 取得良好的结果。 对于目前监测油品常用的色谱法操作复杂, 监测耗时, 然而拉曼光谱分析技术凭借其操作要求低, 效果好、 环保和多指标实时监测分析等优势, 各行各业应用此技术的地方也越来越多。

拉曼光谱分辨率较高、 波长点较多, 其中蕴含着丰富的信息, 在反映乙醇柴油乙醇含量、 密度、 粘度上具有很大的优势。 陈玉锋[5]等利用激光拉曼光谱技术, 并通过甲醇的特征波段强度不同建立甲醇含量和特征波段的线性回归方程。 实验结果说明, 利用特征波段检测甲醇含量是可行的, 且有很好的预测效果。 Corsetti[6]等使用拉曼光谱技术与近红外光谱技术来确定乙醇汽油中的乙醇含量, 比较这两种技术的定量测量不同乙醇含量的乙醇汽油。 结果说明通过特征峰强度的比率建模方法可以研究组成成分, 其次是主成分回归(PCR)。 以上使用拉曼光谱技术对不同的对象进行定量定性分析并取得了显著成果, 但对乙醇柴油定量分析比较少, 且主要运用单一的变量筛选方法进行研究, 本文利用拉曼光谱技术, 使用不同变量筛选方法、 两种及以上变量筛选方法相结合对模型建立的影响进行了分析研究。

1 实验部分
1.1 材料

本研究的对象为96个不同浓度的乙醇柴油, 且均在实验室配制, 所用0#柴油购于南昌某加油站, 乙醇产自天津市大茂化学试剂厂, 分析纯度大于等于99.7%, 正丁醇分析纯度大于等于99.5%。 乙醇柴油在配制时, 室内温度控制在20 ℃左右, 柴油、 乙醇、 正丁醇以43∶ 5∶ 2比例加入50 mL容量瓶内。 实验用50 mL容量瓶用纯水清洗后烘干, 记录电子天平测量空容量瓶质量, 先通过移液枪将乙醇和正丁醇按5∶ 2比例添加到容量瓶中并充分振荡一段时间, 待两者相溶后按比例将剩余柴油添加到容量瓶中, 再次充分振荡一会, 测量此时的重量, 静置一段时间。

1.2 拉曼光谱采集

实验采用SENTERRA型激光共聚焦拉曼光谱仪。 采集光谱前, 将室温控制在20 ℃左右, 打开OPUS软件, 待CCD相机温度降到-60 ℃时才可测量, 将乙醇柴油置于载物台在镜头下对好焦, 积分三次, 每次积分时间设为10 s, 分辨率选择15~9 cm-1, 激光功率选择10 mW, 激发波长为系统默认785 nm。 采集三个不同点的光谱时求平均作为模型建立的原始光谱。 乙醇和0#柴油的拉曼光谱分别如图1和图2所示。 其中885 cm-1处为对称CCO骨架伸缩, 1 053 cm-1为反对称CCO伸缩, 1 094 cm-1是CO伸缩+CH3面内摇摆+δ (COH), 1 278 cm-1为乙醇分子CH2扭转+δ (COH), 1 456 cm-1是CH3反对称形变, 2 873 cm-1是对称CH3伸缩, 2 924 cm-1为非对称CH2伸缩。 对于不同浓度乙醇样本, 乙醇柴油中CCO是乙醇其特征峰, 可以通过它的强度来测定乙醇含量。 图3是不同乙醇含量的乙醇柴油拉曼光谱光谱。 1 053 cm-1为反对称CCO伸缩, 1 094 cm-1是CO伸缩+CH3面内摇摆+δ (COH), 1 278 c m-1为乙醇分子CH2扭转+δ (COH), 1 456 cm-1是CH3反对称形变, 是对称, 2 924 cm-1为非对称CH2伸缩。 表1为乙醇柴油拉曼特征谱带归属。

图1 乙醇拉曼光谱Fig.1 Raman spectra of ethanol sample

图2 0#柴油拉曼光谱Fig.2 Raman spectra of diesel sample

图3 乙醇柴油拉曼原始光谱Fig.3 Raman spectra of ethanol diesel

表1 乙醇柴油拉曼特征谱带归属 Table 1 Raman characterization of ethanol diesel
1.3 品质指标测定

乙醇柴油的密度通过传统的方法测量, 由配制前、 后50 mL容量瓶的质量差和50 mL体积计算得出; 乙醇柴油粘度由上海精天仪器有限公司生产的NDJ-5S旋转粘度计测得。

1.4 样品集划分

采用K-S(Kennard-Stone)算法划分样品的建模集和预测集, 109个乙醇柴油样本用来建模, 35个乙醇柴油样本用来验证, 乙醇柴油乙醇含量、 密度、 粘度统计见表2

表2 乙醇柴油乙醇含量、 密度、 粘度统计 Table 2 Ethanol diesel ethanol content, density, viscosity statistics
1.5 光谱数据预处理

为消除采样时受乙醇柴油样本混合不均匀、 杂散光、 实验环境、 噪声等因素对所建模型的影响, 本文选用了S-G平滑、 MSC、 微分处理(1stD和2ndD)、 SNV等4种方法对光谱数据进行预处理。 其目的在于S-G平滑可以减小噪声, 增加信噪比; MSC可以有效消除乙醇、 柴油和助溶剂三者混合不充分导致的样品不均匀; SNV可以免除乙醇柴油表面散射对测量结果的干扰; 另外, 几种预处理方法组合使用。 乙醇柴油拉曼光谱预处理后的光谱图见图4。

图4 乙醇柴油不同预处理后的拉曼光谱Fig.4 Raman spectra of ethanol diesel with different spectra pretreament

1.6 偏最小二乘模型建立与评价

PLSR是常见的回归分析方法, 它通过减少数据维度, 减少模型输入量, 将模型输出量归纳其中即乙醇柴油乙醇含量的信息, 筛选出与乙醇柴油乙醇含量最相关的变量信息, 避免建模时出现过拟合现象, 使模型具有良好的精度和稳定性[9, 10]

模型的好坏由决定系数R2、 均方根误差RMSEP等参数共同说明。 R2反映模型建立和验证的稳定性, 其值介于0到1之间, 其与1差值越小, 代表模型的稳定性越好、 拟合程度越高。 RMSEP的大小表示PLSR的预测效果, RMSEP越小建模效果越好。

利用Unscrambler 10.1软件(CAMO, Inc., Norway)对乙醇柴油光谱数据进行处理。 几种波长筛选方法、 图表的绘制分别在Matlab R2012a和originlab 8.5环境下完成。

2 结果与讨论
2.1 PLSR模型对比分析

将光谱数据经过预处理之后的数据作为模型输入变量, 乙醇柴油三项指标分别作为模型的输出变量, 建立PLSR模型, 依据模型的Rp和RMSEP选出效果最优预处理方法, 将预处理后的光谱数据统一作进一步处理分析。 表3统计了光谱经不同预处理方法后所建立的乙醇柴油乙醇含量PLSR模型结果。 结果显示, SNV处理后所建立的PLSR模型结果最差; S-G+2ndD处理后所建立的PLSR模型结果最优, 模型的Rp为0.930达到最大, RMSEP为1.237达到最小。 因此, 统一使用S-G+2ndD处理后的光谱数据进一步分析。

表3 乙醇柴油乙醇含量PLSR模型结果 Table 3 Ethanol diesel ethanol content PLSR model results

表4统计了光谱经不同预处理方法后所建立的乙醇柴油密度PLSR模型结果。 结果显示, 使用原始光谱所建立的PLSR模型结果最差; S-G+2ndD处理后所建立的PLSR模型结果最优, 模型的Rp为0.962达到最大, RMSEP为0.14× 10-2达到最小。

表4 乙醇柴油密度PLSR模型结果 Table 4 Ethanol diesel density PLSR model results

表5统计了光谱经不同预处理方法后所建立的乙醇柴油粘度PLSR模型结果。 结果显示, 使用原始光谱所建立的PLSR模型结果最差; S-G+2ndD处理后所建立的PLSR模型结果最优, 模型的Rp为0.918达到最大, RMSEP为3.47× 10-2达到最小。

表5 乙醇柴油粘度PLSR模型结果 Table 5 Ethanol diesel viscosity PLSR model results
2.2 乙醇柴油拉曼光谱变量筛选与比较

2.2.1 RPLS变量筛选

图5为乙醇柴油乙醇含量的递归偏最小二乘算法(RPLS)变量筛选后结果。 其中, 红色曲线表示乙醇柴油的拉曼光谱, 蓝色竖实线是筛选后的变量在拉曼光谱的分布位置。 从图5可以得到, 经过RPLS变量筛选出的波长大部分分布在有特征峰及周边位置。 其中885 cm-1处为乙醇分子对称CCO骨架伸缩, 1 456 cm-1为乙醇分子CH3反对称形变, 2 873 cm-1是对称CH3伸缩, 2 924 cm-1为非对称CH2伸缩。 筛选后的变量与乙醇含量的光谱信息有很高的相关性。 经过RPLS变量筛选后, 留下39个变量, 只有原始变量的0.57%, 大大减少了建模的输入变量, 简化模型结构和计算时间。

图5 RPLS筛选有效变量Fig.5 Selected effective wavelength by RPLS

2.2.2 UVE变量筛选

图6为乙醇柴油无信息变量消除(UVE)变量筛选分析结果。 图中, 红色竖线是波长分隔线, 分隔线左侧为6 821个光谱波长的稳定性分布曲线, 两条水平点线对应的数值为UVE波长筛选依据的阈值, 其上下阈值互为相反数分别为± 7.31, 稳定性值超出上下阈值的光谱变量可作为输入变量建立模型, 稳定性值介于上下阈值之间的光谱变量被剔除不可作为输入变量加入到模型中。 在1 000~3 000 cm-1范围内被选择的波长变量较多, 而在3 000~7 000 cm-1范围内大部分波长变量被剔除, 乙醇的拉曼特征峰位于1 000~3 000 cm-1内说明经UVE筛选后的波长变量包含更多的乙醇柴油乙醇含量的有用信息。 6 821个光谱变量通过UVE筛选后, 只剩1 964个光谱变量被挑选出来, 只有原始数据的28.7%, 大大减少模型输入变量。

图6 UVE筛选有效变量Fig.6 Selected effective wavelength by UVE

2.2.3 CARS变量筛选

图7为乙醇柴油乙醇含量的正自适应加权算法(CARS)光谱变量筛选结果。 图7(a)表示在CARS算法下筛选出的变量个数随着运行次数间的关系走势图, 当运行次数为5时, 被筛选出变量数急剧下降, 之后运行次数逐步增加, 变量数量下降速度减缓, SMSECV值稳步增加, 表明在1~26次变量筛选运算过程中, 淘汰了与乙醇含量无关的波长变量, 而在26次之后RMSECV值开始上升, 则可能淘汰了包含有与乙醇含量有关的波长变量从而使得RMSECV值开始上升、 模型效果变差。 图7(c)为回归系数与运行次数关系图, 比较图7(b)可以明显看出当运行次数为26次时, RMSECV值降到最低为0.002, 此时共有107个光谱变量被保留下来。 以107个波长变量所含信息建立更加简化的PLS模型。

图7 CARS筛选有效变量Fig.7 Selected effective wavelength by CARS

2.2.4 SPA变量筛选

图8为乙醇柴油乙醇含量连续投影算法(SPA)波长筛选分析结果, SPA对乙醇柴油中红外光谱数据进行波段筛选。 该算法所提取的波长变量数目最小值为5, 最大值设定为50, 得到的有效波长如表6所示。 SPA筛选了41波长点, 它们的前后顺序表示该波长点在建模时对模型结果的贡献大小。 图8表示筛选后的有效波长在乙醇柴油近红外光谱图上的位置, 图中41个波长点均以蓝色星号标出, 从图中看出蓝色星号标主要位于光谱的吸收带附近, 而平缓区域很少有波长被选取。 图9表示SPA筛选变量个数与均方根误差之间的关系, 波长变量在5个之前均方根误差直线趋势下降, 表明为了不损失乙醇柴油乙醇含量光谱波长, 变量数目至少要5个, 模型建立才具代表性; 而在10到20曲线下降趋势变缓, 25到41之间曲线下降趋势很小, 41时达到最小, 因而乙醇柴油乙醇含量光谱波长选择41个。 以41个波长变量所含信息建立更加简化的PLS模型。

图8 SPA筛选有效变量Fig.8 Selected effective wavelength by SPA

表6 SPA筛选的波长变量 Table 6 Filter variables selected by SPA

图9 RMSE与变量数目关系Fig.9 Relationship between RMSE and number of variables

2.3 变量筛选后模型结果

RPLS, UVE, CARS, SPA四种变量筛选方法以及它们组合筛选得到的波长变量分别作为输入变量建立PLSR模型, 乙醇柴油乙醇含量为输出变量, 采用全交互验证法建立PLSR模型。 为更好比较不同波长筛选对模型建立的影响, 将未使用波长变量筛选建立的PLSR建模结果列于表7中。

表7 不同变量筛选方法的乙醇含量的PLSR模型 Table 7 PLSR Model of ethanol content in different variable screening methods

表7可知, 在单个变量筛选方法中, UVE-PLSR, SPA-PLSR和RPLS-PLSR三个模型和全波段PLSR模型相比, 不仅Rp有所提高, RMSEP下降, 且筛选出的变量个数都有不同程度的降低, 简化了模型减少计算量。 其中经RPLS筛选后变量个数最少为39个, 仅为原始数据的0.57%; 其中经UVE筛选后变量个数最多为1 964个, 仅为原始数据的28.7%, 相对模型的效果来说, CARS-PLSR模型的预测效果最优, 模型的Rp, RMSEP分别为0.927和1.281, 可以很好地实现乙醇柴油乙醇含量的估算。

为研究多种变量筛选方法的组合分析对模型预测效果的影响大小, 须要再次进行另外一种甚至另外两种变量选择。 筛选后的变量数和模型结果见表7, 从表中可以得到乙醇柴油光谱数据经过SPA和CARS变量筛选所建立的乙醇柴油乙醇含量PLSR模型预测性能最优, 其预测集的Rp, RMSEP分别为0.978, 0.825。 UVE-SPA、 UVE-CARS在UVE筛选后再次使用SPA, CARS, 使得模型的输入变量进一步减少了但模型的预测能力并未下降, 其中UVE-CARS-PLSR模型效果较好, 但模型输入量较大。 采用UVE-SPA-CARS三次变量筛选模型精度有一定程度的下降, 说明使用SPA后不仅淘汰了无关波长变量同时也淘汰了关键波长变量, 使得模型效果变差。 在精度足够时, 为简化建模过程可以使用SPA-CARS建立乙醇柴油乙醇含量的PLSR模型。

3 结 论

以乙醇柴油做为实验目标, 使用拉曼光谱仪, 采集了不同浓度乙醇柴油的拉曼光谱, 同时对乙醇柴油拉曼光谱原始数据进行不同的预处理, 分别建立了乙醇柴油乙醇含量、 密度、 粘度的偏最小二乘模型, 结果如下: (1)乙醇含量和粘度在S-G+2ndD预处理后所建立的PLSR模型效果最好, 预测集Rp分别为0.930和0.918, RMSEP分别为1.237和0.034; S-G+1stD预处理后所建立的乙醇柴油密度PLSR模型结果最优, 预测集Rp最大, 为0.962, RMSEP最小, 为0.14× 10-2。 (2)选用八种波长筛选方法筛选波长变量并建立了PLSR模型, 在使用一种波长筛选方法所建立的模型中, CARS-PLSR模型的预测效果最优, 其预测集的Rp, RMSEP分别为0.927和1.281, 其结果可以作为乙醇柴油Raman光谱数据波长筛选。 (3)变量筛选较原始光谱建立的模型来说, 不仅模型输入数量减少, 预测效果也有所提高, SPA-CARS-PLSR模型的预测集Rp, RMSEP分别为0.978, 0.825。 该研究为以后研制乙醇柴油主要性能指标拉曼便携式光谱仪打下基础。

The authors have declared that no competing interests exist.

参考文献
[1] SHUAI Shi-jin, TANG Tao, ZHAO Yan-guang, et al(帅石金, 唐韬, 赵彦光, ). Ournal of Automotive Safety and Energy(汽车安全与节能学报), 2012, 3(3): 200. [本文引用:1]
[2] JIAO Wei-zhou, XU Cheng-che, LIU You-zhi, et al(焦纬洲, 许承骋, 刘有智, ). Acta Petrolei Sinica(石油学报), 2014, 30(5): 945. [本文引用:1]
[3] Krakowska B, Stanimirova I, Orzel J, et al. Analytical and Bioanalytical Chemistry, 2015, 407(4): 1159. [本文引用:1]
[4] LI Wai, ZHAO Xiong-hu, JIA Jia, et al(李外, 赵雄虎, 贾佳, ). Chemical Industry and Engineering Progress(化工进展), 2013, 32(4): 740. [本文引用:1]
[5] CHEN Yu-feng, ZHUANG Zhi-ping, WEI Lin-bo, et al(陈玉锋, 庄志萍, 魏林博, ). Physical Testing and Chemical Analysis Part B(理化检验-化学分册), 2015, 51(4): 558. [本文引用:1]
[6] Corsetti S, Mcgloin D, Kiefer J. Fuel, 2016, 166: 488. [本文引用:1]
[7] YU Lei, HONG Yong-sheng, GENG Lei, et al(于雷, 洪永胜, 耿雷, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(14): 103. [本文引用:1]
[8] Li C, Zhao T, Li C, et al. Food Chemistry, 2016. [本文引用:1]
[9] Leone A P, Viscarra-Rossel R A, Amenta P, et al. Current Analytical Chemistry, 2012, 8(2): 283. [本文引用:1]
[10] CHEN Zheng-guang, LI Xin, FAN Xue-jia(陈争光, 李鑫, 范学佳). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(8): 2474. [本文引用:1]