中红外光谱检测不同浓度乙醇柴油性能指标
刘燕德, 叶灵玉, 唐天义, 欧阳爱国, 孙旭东, 张宇
华东交通大学机电与车辆工程学院, 江西 南昌 330013

作者简介: 刘燕德, 1967年生, 华东交通大学机电与车辆工程学院教授 e-mail: jxliuyd@163.com

摘要

利用中红外光谱和化学计量学实现了对乙醇柴油各项性能指标的定量分析。 实验样品96个, 为32种不同浓度的乙醇柴油溶液。 采用S-G平滑、 MSC、 微分处理(1stD和2ndD)、 SNV等四种方法对光谱数据进行预处理, 并结合八种波段筛选方法(UVE, CARS, SPA, RPLS, UVE-SPA, UVE-CARS, SPA-CARS, UVE-SPA-CARS)对乙醇柴油MIR光谱数据进行处理, 分别建立乙醇柴油密度、 粘度、 乙醇含量的PLSR模型, 得出以下主要结论: 综合比较八种变量筛选方法, 发现UVE-SPA-CARS-PLS对乙醇含量的建模效果最好, 模型预测集的 Rp和RMSEP分别为0.978 1和0.825 5。 变量筛选较原始光谱建立的模型来说, 不仅模型输入数量减少, 预测效果也有所提高。

关键词: 中红外光谱法; 乙醇柴油; 密度; 粘度; 乙醇含量
中图分类号:O657.3 文献标识码:A
Determination of Performance of Different Concentration Ethanol Diesel Oil Based on Mid Infrared Spectroscopy
LIU Yan-de, YE Ling-yu, TANG Tian-yi, OUYANG Ai-guo, SUN Xu-dong, ZHANG Yu
School of Mechatronics Engineering, East China Jiaotong University, Nanchang 330013, China
Abstract

The quantitative analysis of the performance indexes of ethanol diesel was carried out by means of medium infrared spectroscopy and chemometrics. There were 96 samples in 32 different concentrations of ethanol diesel oil solutions. Using S-G, MSC, smooth differential processing (1st D and 2nd D), SNV of methods preprocessed spectral data, combined with the screening method of eight kinds (UVE, CARS,SPA,RPLS,UVE-SPA,UVE-CARS,SPA-CARS,UVE-SPA-CARS)processing ethanol diesel MIR spectral data,and PLSR model were established respectively with density of ethanol diesel oil, viscosity and ethanol content. The results showed that: comparing the eight variables screening methods, we found that UVE-SPA-CARS-PLS has the best modeling effect on ethanol content. The correlation coefficient was 0.978 1 and the root mean square error of prediction was 0.825 5, respectively. Compared with the model established by the original spectrum, variable selection not only reduced the number of model inputs, but also improved the prediction effect.

Key words: MIRS; Ethanol diesel oil; Density; Viscosity; Ethanol content
引 言

近年来, 汽车行业快速发展导致原本匮乏的石油燃料消耗越来越快, 日益严重环境污染问题受到了人类的重视[1, 2]。 目前许多学者对可再生的绿色清洁能源开展了研究, 其中研究较多的有甲醇、 乙醇、 二甲醚、 生物柴油等[3, 4, 5, 6, 7]。 乙醇柴油是柴油的一种替代品, 能有效的减少燃油排放的碳烟和未燃碳氢[8], 是可再生清洁能源, 可以有效的缓解柴油供需紧张和环境污染。

不同浓度的乙醇柴油对柴油机的性能和排放都有很大的影响, 传统的检测方法耗时较长且成本高。 中红外光谱检测法具有操作方便、 效率高、 成本低、 所需样品少等优点, 在油品的检测方面有一定的研究。 Mazivila等[9]利用中红外光谱技术结合PLS-DA检测生物柴油/柴油混合物(B5)中汽油、 残余汽车润滑油、 豆油和煎炸油。 PLS-DA模型能够百分百正确识别掺假物和生物柴油样本。 Gontijo等[10]根据ASTM E1655标准, 采用中红外光谱, 使用PLS回归模型检测大豆生物柴油/柴油混合物中大豆生物柴油的含量。 然而对于乙醇柴油的性能指标的研究较少。 本研究目的是分析中红外光谱结合化学计量的方法检测乙醇柴油的密度、 粘度以及乙醇含量的可行性。 通过八种变量筛选方法选出相关性较高的变量进行偏最小二乘法建模, 提高模型建模精度和解释能力, 为乙醇柴油的性能指标的研究提供一种便捷、 高效的检测和建模方法。

1 实验部分
1.1 样品配制

96个不同浓度的乙醇柴油样品均在实验室配制。 所用0#柴油购于南昌某加油站, 乙醇来自大茂化学试剂厂, 分析纯度大于等于99.7%, 正丁醇分析纯度大于等于99.5%, 电子天平和50 mL容量瓶购置于江西赣仪科技有限公司。 在配制乙醇柴油时, 室内温度控制在20 ℃上下; 柴油、 乙醇、 正丁醇以43:5:2比例加入50 mL容量瓶内。 50 mL容量瓶用纯水清洗后烘干, 电子天平测量空容量瓶质量。 先通过移液枪将乙醇和正丁醇按5:2比例添加到容量瓶中并充分振荡, 完成后加入柴油并滴定至50 mL, 振荡均匀, 待两者混合后再按比例将剩余的0号柴油加入其中再次震荡, 静置直至三者充分接触不分层, 测量此时的重量。 同样的方法配制余下浓度的乙醇柴油, 32种乙醇柴油浓度如表1所示。

表1 32种乙醇柴油浓度 Table 1 Ethanol diesel with 32 types of concentration (%, V/V)
1.2 光谱采集

乙醇柴油的光谱数据由WQF-510A光谱仪采集得到, 仪器主要参数设置, 分辨率: 4 cm-1, 扫描范围: 4 000~1 600 cm-1, 扫描次数16次。 仪器预热30 min后使用。 获取光谱数据的整个过程, 温度始终控制在(20± 1) ℃, 相对湿度必须在50%RH以下。 图1为WQF-510A光谱仪附件。 取少量乙醇柴油溶液均匀滴在样品台上, 完成后关闭仪器盖, 避免杂光进入。 为减少因样品挥发等因素对实验结果的影响, 若测量不稳定则重新换样品进行测量, 并且多次测量取平均。 图2为不同乙醇含量对应的乙醇柴油中红外光谱图, 可以看到其特征峰出现在1 375, 1 480和1 690 cm-1附近, 这是由于乙醇柴油CH3中C— H的一级倍频在1 695 cm-1处, 合频在1 360和1 435 cm-1和乙醇含量具有一定的线性相关性。 表2总结了乙醇柴油红外特征谱带归属。

表2 乙醇柴油红外特征谱带归属 Table 2 Infrared characteristic spectral bands of ethanol diesel

图1 WQF-510A光谱仪附件
(a): 硒化锌晶体; (b): 水平ATR
Fig.1 WQF-510A spectrometer accessories
(a): ZnSe crystal; (b): Horizontal ATR

图2 乙醇柴油红外光谱Fig.2 MIR spectra of ethanol diesel

1.3 建模方法

PLSR方法是常见的回归分析方法, 它综合了PCA和MLR两种分析方法的优势, 通过降维, 减少光谱输入量, 同时考虑了模型输出量即乙醇柴油乙醇含量的信息, 筛选出与乙醇柴油乙醇含量最相关的变量信息, 避免建模时出现过拟合现象, 使模型具有良好的精度和稳定性[11]

模型的好坏由决定系数Rp、 均方根误差RMSEP等参数共同说明。 Rp反映模型建立和验证的稳定性, 其值介于0到1之间, 与1差值越小, 代表模型的稳定性越好、 拟合程度越高。 RMSEP的大小表示PLSR的预测效果, RMSEP越小建模效果越好[12]

利用Unscrambler 10.1软件(CAMO, Inc., Norway)处理乙醇柴油光谱数据。 几种波长筛选方法、 图表的绘制分别在Matlab R2012a和originlab 8.5环境下完成。

2 结果与讨论
2.1 样品集划分

采用K-S(Kennard-Stone)算法[12]划分样品的建模集和预测集, 72个乙醇柴油样本用来建模, 24个乙醇柴油样本用来验证, 乙醇柴油乙醇含量、 密度、 粘度统计见表3

表3 乙醇柴油乙醇含量、 密度、 粘度统计 Table 3 Statistics of, ethanol content, density and viscosity for ethanol, diesel
2.2 PLSR模型对比分析

将经过预处理后的光谱数据作为输入变量, 乙醇柴油三项指标分别作为输出变量, 建立了PLSR模型。 依据Rp和RMSEP选出效果最优预处理方法, 将预处理后的光谱数据统一做进一步处理分析。 表4统计了光谱经不同预处理方法后所建立的乙醇柴油乙醇含量PLSR模型结果。 结果显示, SG+1stD处理后的PLSR模型结果最差; SG+2ndD处理后所建立的PLSR模型结果最优, 模型的Rp为0.922 1达到最大, RMSEP为1.609 2达到最小。 因此, 使用SG+2ndD处理后的光谱数据进一步分析。

表4 乙醇柴油乙醇含量PLSR模型结果 Table 4 The result of ethanol content of ethanol diesel with PLSR

表5统计了光谱经不同预处理方法所建立的乙醇柴油密度PLSR模型结果。 结果显示, S-G处理后所建立的PLSR模型结果最差; SNV处理后所建立的PLSR模型结果最优, 模型的Rp为0.973达到最大, RMSEP为1.223× 10-3达到最小。 因此, 使用SNV处理后的数据进一步分析。

表6是光谱经不同预处理方法所建立的乙醇柴油粘度PLSR模型结果。 结果显示, S-G处理后所建立的PLSR模型结果最差; SNV处理后所建立的PLSR模型结果最优, 预测集决定系数Rp为0.972 7达到最大, RMSEP为2.03× 10-2达到最小。 因此, 使用SNV处理后的数据进一步分析。

表5 乙醇柴油密度PLSR模型结果 Table 5 The result of density of ethanol diesel with PLSR
表6 乙醇柴油粘度PLSR模型结果 Table 6 The result of viscosity of ethanol diesel with PLSR

表4, 表5表6可知适用于乙醇柴油乙醇含量、 密度、 粘度PLSR模型的预处理方法分别为SG+2ndD, SNV和SNV, 其模型预测集决定系数Rp分别为0.922 1, 0.973, 0.972 7, RMSEP分别为1.609 2, 1.223× 10-3和2.03× 10-2, 由于乙醇柴油的乙醇含量、 密度、 粘度是三项不同数量级的指标, 因此其RMSEP相差较大。

2.2 乙醇柴油中红外光谱变量筛选与比较

(1)RPLS变量筛选

图3为乙醇柴油乙醇含量的RPLS变量筛选结果。 其中, 红色实线表示乙醇柴油的中红外光谱, 蓝色竖实线是筛选后的变量在中红外光谱的分布位置。 从图3可以看出, 经过RPLS变量筛选出的变量大部分分布在有特征峰及周边位置。 乙醇中C— O伸缩振动吸收峰在1 085~1 030 cm-1; 在950~800 cm-1范围内的吸收峰, 是C— O— H键中C— O伸缩振动引起的。 筛选后的变量与乙醇含量的光谱信息有很高的相关性。 经过RPLS变量筛选后, 留下21个变量, 只有原始变量的1.19%, 大大减少了建模的输入变量, 简化模型结构和计算时间。

图3 RPLS筛选有效变量Fig.3 Selected effective wavelength by RPLS

(2)UVE变量筛选

图4为乙醇柴油乙醇含量UVE波长筛选结果。 图中, 红色竖线是波长分隔线, 分隔线左侧为1 763个光谱波长的稳定性分布曲线, 两条水平点线对应的数值为UVE波长筛选依据的阈值, 其上下阈值互为相反数分别为± 19.25, 稳定性值超出上下阈值的光谱变量可作为输入变量建立模型, 稳定性值介于上下阈值之间的光谱变量被剔除不会作为输入变量加入到模型中。 在1 200~1 700 cm-1范围内被选择的波长变量相对较多, 而在500~1 000 cm-1范围内大部分波长变量被踢除, 乙醇的红外特征峰位于1 200~1 700 cm-1内说明经UVE筛选后的波长变量包含更多的乙醇柴油乙醇含量的有用信息。 1 763个光谱变量通过UVE筛选后, 只剩86个光谱变量被挑选出来, 只有原始数据的4.88%, 大大减少模型输入变量。

图4 UVE筛选有效变量Fig.4 Selected effective wavelength by UVE

(3)SPA变量筛选

图5为乙醇柴油乙醇含量SPA波长筛选分析结果。 该算法所提取的波长变量数目最小值为5, 最大值设定为50, 得到的波长变量如表7所示。 SPA筛选了31波长点, 它们的前后顺序表示该波长点在建模时对模型结果的贡献大小, 图5表示筛选后的有效波长在乙醇柴油近红外光谱图上的位置, 图中31个波长点均以蓝色星号标出, 蓝色星号标主要位于光谱的吸收带附近, 平缓区域很少有波长被选取。 图6表示SPA筛选变量个数与均方根误差之间的关系, 波长变量在8个之前均方根误差直线趋势下降, 表明为了不损失乙醇柴油乙醇含量光谱波长, 变量数目至少要8个, 模型建立才具代表性; 而在10到20曲线下降行趋势变缓, 25到31之间曲线下降趋势很小, 31时达到最小, 因而乙醇柴油乙醇含量光谱波长选择31个。 以31个波长变量所含信息建立更加简化的PLS模型。

表7 SPA筛选有效变量 Table.7 The effective variable screened by SPA

图5 SPA筛选有效变量Fig.5 Selected effective wavelength by SPA

图6 RMSE与变量数目关系Fig.6 Relationship between RMSE and number of variables

(4)CARS变量筛选

图7为乙醇柴油乙醇含量的CARS波长变量筛选结果。 图7(a)表示在CARS算法下筛选出的变量个数随着运行次数的走势图, 当运行次数为24时, 被筛选出变量数急剧下降, 之后运行次数逐步增加, 变量数量下降速度减缓, RMSECV值稳步增加。 表明在1~24次波长筛选运算过程中, 淘汰了与乙醇含量无关的波长变量, 而在24次之后RMSECV值开始上升, 则可能淘汰了包含有与乙醇含量有关的波长变量而使得RMSECV值开始上升、 模型不够精准。 图7(c)为回归系数与运行次数关系图, 比较图7(b)可以明显看出当运行次数为24次时, RMSECV值降到最低, 此时有73个光谱波长变量被保留下来。 以73个波长变量所含信息建立更加简化的PLS模型。

图7 CARS筛选有效变量Fig.7 Selected effective wavelength by CARS

(5)UVE-SPA变量筛选

在使用UVE变量筛选后, 使用连续投影算法, 进一步对乙醇柴油中红外光谱数据进行波段筛选。 该算法获取的有效波长变量数目最小值为5, 最大值设定为50, SPA筛选了17波长点, 图8表示筛选后的有效波长在乙醇柴油近红外光谱图上所处的位置, 图中17个波长点均以蓝色星号标出, 从图中看出蓝色星号标主要位于光谱的吸收带附近, 而平缓区域很少有波长被选取。 图9表示SPA筛选变量个数与均方根误差之间的关系, 波长变量在5个之前均方根误差下降趋势明显, 表明乙醇柴油乙 醇含量光谱波长最小选择5个以上避免产生过拟合问题; 而在6到9曲线下降行趋势变缓, 11到12之间曲线呈上升趋势, 12以后又趋于平缓, 因而乙醇柴油乙醇含量光谱波长选择17个。 以17个波长变量所含信息建立更加简化的PLS模型。

图8 UVE-SPA筛选有效变量Fig.8 Selected effective wawelength by UVE-SPA

图9 RMSE与变量数目关系Fig.9 Relationship between RMSE and number of variables

(6)UVE-CARS变量筛选

将经UVE方法筛选后的变量, 使用CARS方法再次进行筛选, 其结果如图10所示。 图10(a)表示CARS算法筛选出的变量个数随着运行次数的走势图, 当运行次数为10时, 被筛选出的变量数急剧下降, 之后随着运行次数的增加, 变量数量下降速度减缓, RMSECV值稳步增加, 表明在1~10次变量筛选运算过程中, 淘汰了与乙醇含量无关的波长变量, 而在10次之后RMSECV值开始上升, 则可能淘汰了包含有与乙醇含量有关的波长变量使得RMSECV值开始增大、 模型不够精准。 图10(c)为回归系数与运行次数关系图, 比较图10(b)可以明显看出当运行次数为10次时, RMSECV值降到最低。 此时, 共有43个光谱变量被保留下来。 变量个数由UVE筛选后的86个降到43个, 下降了一半。 以43个波长变量所含信息建立更加简化的PLS模型。

图10 UVE-CARS筛选有效变量Fig.10 Selected effective wavelength by UVE-CARS

(7)SPA-CARS变量筛选

将经SPA方法筛选后的变量, 使用CARS方法再次进行筛选, 其结果如图11所示。 图11(a)表示CARS算法筛选出的变量个数随着运行次数的走势图, 当运行次数为25时, 被筛选出变量数急剧下降, RMSECV值达到最小; 之后随着运行次数的增加, 变量数量下降速度减缓, RMSECV值稳步增加, 表明在1~25次变量筛选运算过程中, 淘汰了与乙醇含量无关的波长变量, 而在25次之后RMSECV值有所上升, 则可能淘汰了包含与乙醇含量有关的波长变量从而使得RMSECV值开始增大、 模型不够精准。 图11(c)为回归系数与运行次数关系图, 比较图11(b)可以明显看出当运行次数为25次时, RMSECV值降到最低。 变量个数由SPA筛选后的31个降到16个。 以16个波长变量所含信息建立更加简化的PLS模型。

图11 SPA-CARS筛选有效变量Fig.11 Selected effective wavelength by SPA-CARS

(8)UVE-SPA-CARS变量筛选

将经UVE和SPA变量筛选方法筛选后的变量, 使用CARS方法再次进行筛选, 其结果如图12所示。 图12(a)表示CARS算法筛选出的变量个数随着运行次数的走势图。 当运行次数为24时, 被筛选出变量数急剧下降, RMSECV值达到最小; 之后随着运行次数的增加, 变量数量下降速度减缓, RMSECV值稳步增加, 表明在1~24次变量筛选运算过程中, 淘汰了与乙醇含量无关的波长变量, 而在24次之后RMSECV值开始上升, 则可能淘汰了包含有与乙醇含量有关的波长变量从而使得RMSECV值开始增大、 模型不够精准。 图12(c)为回归系数与运行次数关系图, 比较图12(b)可以明显看出当运行次数为24次时, RMSECV值达到最低。 变量个数由UVE-SPA筛选后的17个降到8个。 以8个波长变量所含信息建立更加简化的PLS模型。

图12 UVE-SPA-CARS筛选有效变量Fig.12 Selected effective wavelength by UVE-SPA-CARS

2.3 变量筛选后模型结果分析

RPLS, UVE, SPA和CARS四种变量筛选方法以及它们组合筛选得到的波长变量分别作为输入变量建立PLSR模型, 乙醇柴油的乙醇含量为输出变量, 采用全交互验证法建立PLSR模型。 为更好比较不同波长筛选对模型建立的影响, 将未使用波长变量筛选建立的PLSR建模结果列于表8中。

表8 不同变量筛选方法乙醇含量的PLSR模型 Table 8 The PLSR model of ethanol content with different variable selection methods

表8可知, UVE-PLSR, CARS-PLSR, SPA-PLSR和RPLS四个模型和全波段PLSR模型相比不仅模型的Rp和RMSEP都有所改善, 且筛选出的变量个数都有不同程度的降低, 简化了模型减少了计算量。 经RPLS筛选后变量个数最少为21个, 仅为原始数据的1.19%; 经UVE筛选后变量个数最多为86个, 仅为原始数据的4.87%, 相对于模型的效果来说, CARS-PLSR模型的预测效果最优, 其预测集的Rp和RMSEP分别为0.945 1和1.349 4, 可以很好地实现乙醇柴油乙醇含量的估算。

为研究多种变量筛选方法的组合形式对模型预测效果的影响有多大, 须要再次进行另外一种甚至另外两种变量选择。 筛选后的变量数和模型结果见表8, 从表中可以看出两次变量选择中SPA-CARS-PLSR所建立的乙醇柴油乙醇含量模型预测效果最好, 相对CARS-PLSR模型而言, 采用SPA进一步淘汰了CARS保留变量中的无关共线性变量, 模型的精度进一步提高, 其预测集的Rp和RMSEP分别为0.970 2和0.963 1。 UVE-CARS和UVE-SPA, 进一步减少了模型的波长输入变量且模型的预测能力也有所提高提高, 其中UVE-CARS-PLSR模型的预测精度和稳定性均优于UVE-SPA-PLSR模型, 但和CARS-PLSR相比, 预测效果稍差。 在精度足够时, 为简化建模过程可以使用UVE-SPA-CARS三次变量筛选建立乙醇柴油乙醇含量的PLSR的模型。

3 结 论

使用中红外光谱仪, 采集了不同浓度乙醇柴油红外光谱, 分别建立了乙醇柴油的乙醇含量、 密度、 粘度PLSR模型, 结果如下: (1)S-G+2ndD预处理后所建立的乙醇含量PLSR模型结果最优, 此时预测集Rp最大为0.922 1, 均方根误差RMSEP最小, 为1.609 2; SNV预处理后所建立的乙醇柴油密度和粘度PLSR模型结果最优, 预测集Rp分别为0.973 0和0.972 7, RMSEP分别为1.223× 10-3和0.020。 (2)选用八种波长筛选方法筛选波长变量并建立了PLSR模型, 在使用一种波长筛选方法所建立的模型中, CARS-PLSR模型的预测效果最优, 其预测集的Rp和RMSEP分别为0.945 1和1.349 4, 其结果可以作为乙醇柴油MIR光谱数据波长筛选。 (3)变量筛选较原始光谱建立的模型来说, 不仅模型输入数量减少, 预测效果也有所提高, UVE-SPA-CARS-PLSR模型的预测集Rp和RMSEP分别为0.978 1和0.8255。

The authors have declared that no competing interests exist.

参考文献
[1] OUYANG Ai-guo, HUANG Zhi-hong, LIU Yan-de(欧阳爱国, 黄志鸿, 刘燕德). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(4): 1118. [本文引用:1]
[2] Shimamoto G G, Tubino M. Fuel, 2016, 186: 199. [本文引用:1]
[3] Wang Xin, Ge Yunshan, Zhang Chuanzhen, et al. Applied Energy, 2016, 177: 187. [本文引用:1]
[4] Harish Venu, Venkataramanan Madhavan. Fuel, 2017, 189: 377. [本文引用:1]
[5] Sun Wenyu, Wang Guoqing, Li Shuang, et al. Proceedings of the Combustion Institute, 2017, 36(1): 1269. [本文引用:1]
[6] Anton M Reiter, Nikolai Schubert, Andreas Pfennig, et al. Energy & Fuels, 2017, 31(6): 6173. [本文引用:1]
[7] Saddam H Al-lwayzyab, Talal Yusafa. Renewable Energy, 2017, 101: 690. [本文引用:1]
[8] Carneiro M L N M, Pradelle F, Braga S L, et al. Renewable and Sustainable Energy Reviews, 2017, 73: 632. [本文引用:1]
[9] Mazivila S J, Gontijo L C, Santana F B, et al. Energy & Fuels, 2014, 29(1): 227. [本文引用:1]
[10] Gontijo L C, Guimarães E, Mitsutake H, et al. Fuel, 2014, 117: 1111. [本文引用:1]
[11] XUE Li-hong, ZHOU Ding-hao, LI Ying, et al(薛利红, 周鼎浩, 李颖, ). Acta Pedologica Sinica(土壤学报), 2014, 51(5): 993. [本文引用:1]
[12] YU Lei, HONG Yong-sheng, ZHOU Yong, et al(于雷, 洪永胜, 周勇, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(13): 95. [本文引用:2]