甲醇汽油、 乙醇汽油定性判别及其醇含量测定模型研究
胡军, 刘燕德*, 郝勇, 孙旭东, 欧阳爱国
华东交通大学机电与车辆工程学院, 江西 南昌 330013
*通讯联系人 e-mail: jxliuyd@163.com

作者简介: 胡 军, 1992年生, 华东交通大学机电与车辆工程学院讲师 e-mail: 1825868002@qq.com

摘要

甲醇汽油和乙醇汽油都为清洁能源, 但甲醇汽油和乙醇汽油的优缺点各有不同, 其中甲醇、 乙醇的含量决定了汽油性能的优劣, 对甲醇汽油和乙醇汽油进行判别区分以及醇类汽油中醇含量进行定量测定非常重要。 通过中红外光谱技术对醇类汽油的类型进行判别并对其含量进行定量分析。 首先通过对比分析甲醇汽油和乙醇汽油的中红外光谱图, 采用随机森林(random forest, RF)对甲醇汽油和乙醇汽油样品进行判别; 在建立甲醇汽油和乙醇汽油样品定性判别模型之后, 分别建立甲醇汽油和乙醇汽油的定量测定模型, 从而精确测定汽油中对应的醇的含量。 为减小在实验过程中实验仪器振动、 噪声等原因导致的光谱漂移、 光散射等现象, 对中红外光谱进行预处理。 首先采用不同预处理, 如(savitzky-golay, S-G)卷积平滑、 多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量变换(standard normal variable transformation, SNV)、 导数(derivatives)等方法进行校正, 分别建立适合甲醇汽油和乙醇汽油的检测模型。 预处理后的数据分别建立甲醇汽油、 乙醇汽油的最小二乘支持向量机(least square support vector machine, LS-SVM)模型。 采用随机森林(random forest, RF)对甲醇汽油和乙醇汽油样品进行判别, 发现当决策树个数为61时, 判别正确率达到98.28%。 对于LS-SVM模型, 比较建模结果可知: 无论是甲醇汽油还是乙醇汽油, 标准正态变量变换(SNV)预处理效果最好, 经SNV校正处理后建立的甲醇汽油甲醇含量测定LS-SVM模型的预测相关系数 Rp为0.9519, 均方根误差(root mean square error of prediction, RMSEP)为1.766 3; 经过标准正态变量变换后建立的乙醇汽油乙醇含量测定LSSVM模型的预测相关系数 Rp为0.951 5, 均方根误差RMSEP为1.770 3。 该研究可为甲醇汽油、 乙醇汽油的定性判别和其含量测定提供技术参考和理论依据, 为甲醇汽油产业提供测量醇类汽油检测的新方法, 具有较为重要的现实意义, 也为其他类型的化工产品的检测奠定了基础。

关键词: 中外光谱; 醇类汽油; 最小二乘支持向量机; 随机森林
中图分类号:O657.61 文献标志码:A
Qualitative Discrimination and Quantitative Determination Model Research of Methanol Gasoline and Ethanol Gasoline
HU Jun, LIU Yan-de*, HAO Yong, SUN Xu-dong, OUYANG Ai-guo
School of Vehicle and Mechatronics Engineering, East China Jiaotong University, Nanchang 330013, China
*Corresponding author
Abstract

Methanol gasoline and ethanol gasoline are both clean energy sources, but the advantages and disadvantages of them are different. Among them, the content of methanol or ethanol determines the performance of gasoline. Therefore, it is of great significance to qualitatively distinguish methanol gasoline and ethanol gasoline and quantitatively determine the alcohol content in alcohol gasoline. In this paper, the types of alcohol gasoline and its content were identified and quantitatively analyzed by mid-infrared spectroscopy. Firstly, by comparing and analyzing the mid-infrared spectroscopy of methanol gasoline and ethanol gasoline, Random Forest (RF) was used to discriminate methanol gasoline and ethanol gasoline samples. After establishing the qualitative model of methanol gasoline and ethanol gasoline, the quantitative determination model of methanol gasoline and ethanol gasoline is established to accurately determine the corresponding alcohol content in gasoline. In order to reduce the spectrum drift and light scattering caused by vibration and noise of the experimental instrument during the experiment, the mid-infrared spectrum was pretreated. In the process of analysis, different pre-treatment methods are first used for correction, such as S-G convolution smoothing, Multivariate Scattering Correction (MSC), Standard Normal Variable (SNV), derivatives (1st derivative and 2nd derivative), and then, Least Square Support Vector Machine (LSSVM) models of methanol gasoline and ethanol gasoline were established respectively. It was found that the discriminant accuracy is up to 98.23% when the number of decision trees was 61. Secondly, for the LS-SVM model, the comparison of modeling results showed that for both methanol gasoline and ethanol gasoline, SNV pre-treatment had the best effect. The predictive correlation coefficient Rp of LSSVM model after the transformation of standard normal variables for methanol content determination of methanol gasoline was 0.951 9 and RMSEP was 1.766 3. In the same situation, ethanol gasoline was 0.951 5 and 1.770 3, respectively. This research can provide technical reference and theoretical basis for the qualitative discrimination and content determination of methanol gasoline and ethanol gasoline. The detection technology can provide a new method for the measurement of alcohol gasoline in the methanol gasoline industry, which has important practical significance and lays a foundation for the detection of other types of chemical products.

Keyword: Mid-infrared spectroscopy; Alcohol gasoline; Least square support vector machine; Random forest
引 言

汽油、 柴油等传统的燃料在燃烧过程中会产生对环境有害的气体及一些固体颗粒, 不仅污染环境, 而且会直接影响人类的健康。 因此世界各地都在探索新的能源或尝试减少燃料在燃烧过程中有害物的产生, 以此减少对环境的污染[1]。 甲醇汽油和乙醇汽油的使用可以提高汽油的含氧量, 从而使得汽油燃烧更加充分, 并且能够有效降低有毒气体的排放[2]

甲醇汽油和乙醇汽油虽都可作为燃料, 但是由于甲醇和乙醇的理化性质并不完全相同, 配制而成的甲醇汽油和乙醇汽油也存在很多不同特性[3]。 例如, 相对于乙醇汽油, 甲醇汽油的热量值高, 作为燃料使得汽车的动力更足, 但是甲醇具有腐蚀性, 乙醇汽油热量值虽较低于甲醇汽油但却更加稳定[4, 5]。 但若汽油所含的甲醇或乙醇含量过高, 其燃烧易造成气阻, 使得发动机的气密性下降, 导致动力不足。 因此, 评估该醇类燃料质量的关键之一在于确定其醇类的含量。 不同的甲醇汽油和乙醇汽油对其醇的含量有着不同的规定, 因此, 探索一种精准度高、 快速性好的方法来判定醇类燃料汽油的类型并同时测定其含量非常重要[6]

近年来, 国内外研究工作者开始对燃料汽油的成分开展研究。 姚捷等[7]针对甲醇汽油品质的检测, 利用了拉曼技术, 并且使用一元线性回归法对其建模, 验证了拉曼技术对甲醇汽油检测的可行性。 欧阳爱国等[8]利用近红外光谱和拉曼光谱技术, 对汽油中甲醇的含量建立了偏最小二乘模型, 该研究的结论证明了近红外光谱技术对甲醇汽油具有较好的检测效果。 李雁如等[9]利用蒸馏水萃取法与气相色谱分析技术相结合测定了不同规格车用甲醇汽油中的甲醇含量, 结果表明: 该方法可以检测, 但需要对样品进行复杂的前处理, 操作较为复杂。

目前, 使用中红外光谱技术检测醇类汽油中醇含量的研究的报道相对较少, 也很少建立甲醇汽油和乙醇汽油定性判别模型。 本文采用中红外光谱检测技术结合随机森林(random forest, RF)算法[9, 10]建立甲醇汽油和乙醇汽油定性判别模型, 然后分别建立偏最小二乘支持向量机的甲醇汽油和乙醇汽油定量检测模型。

1 实验部分
1.1 材料

实验用汽油(92号)在某中石化加油站购买, 实验用无水甲醇和无水乙醇纯度≥ 99.7%。 为增加实验的复杂性, 综合实际情况, 甲醇汽油和乙醇汽油设置不同浓度梯度。 每配制一个甲醇样品, 其浓度比例增加0.6%, 甲醇的浓度在0.6%~18.6%的范围; 每配制一个乙醇样品, 其浓度比例增加0.8%, 其浓度在0.8%~25%范围。 先按照对应的浓度梯度, 分别计算出在不同浓度梯度下所需的甲醇、 乙醇体积, 在容量瓶中加入之前计算出的所需的甲醇、 乙醇, 然后分别滴入所购买的92号汽油至容量瓶50 mL刻度处, 充分摇匀, 使汽油与其完全混合。 依次按照同样的方法, 分别配制29个浓度梯度的甲醇汽油、 乙醇汽油。 每个浓度梯度配制4个样品, 分别配制各116个样品。

1.2 光谱采集

实验采用中红外光谱仪(型号为WQF-510A), 实验室的环境湿度≤ 30%, 温度设置为恒温25 ℃左右, 扫描范围为: 4 000~900 cm-1, 分辨率≥ 0.85 cm-1, 开机仪器预热约30 min待设备稳定后进行相应操作。 利用中红外水平衰减全反射(attenuated total reflection, ATR)附件呈放待测样品, 在附件上均匀涂抹对应浓度样品溶液, 然后关闭仪器的舱门, 分别采集甲醇汽油、 乙醇汽油的中红外光谱信息。 在MATLAB2014b软件中利用化学计量学方法进行数据处理。 为减少测量过程中的随机误差, 实验对每个样品进行5次光谱采集, 为减少样本挥发带来检测误差, 每个样本控制在2min内测量完毕, 然后求取平均光谱。

1.3 模型评价标准

首先对甲醇汽油、 乙醇汽油样品的中红外光谱进行预处理, 然后分别建立后续模型。 建模集与预测集的数量约为3:1。 预测相关系数R和预测均方根误差(root mean square error of prediction, RMSEP)参数是本模型评价的关键。 检测模型的好坏由预测集R和RMSEP系数共同决定, 检测模型预测均方根误差越小、 相关系数越高, 则模型的精度越高。 此外, 校正均方根误差(root mean square error of calibration, RMSEC)与RMSEP越接近, 说明建立的模型越稳定。

2 结果与讨论
2.1 中红外光谱响应特性

图1为92号汽油的红外原始谱图, 92号汽油官能团基频振动的信息体现在波长范围为1 350~1 610和2 850~3 000 cm-1处。 官能团CH3中C— H的弯曲振动体现在1 376, 1 457, 2 870和2 960 cm-1等处的强吸收峰, 不饱和键C=C的伸缩振动导致在1 604 cm-1处出现多峰, CH2中C— H的拉伸振动在2 925 cm-1出现最强的吸收峰[12]

图1 汽油、 甲醇汽油以及乙醇汽油的中红外光谱图Fig.1 The original mid-infrared spectra of gasoline

图2为甲醇汽油和乙醇汽油的原始中红外光谱, 同浓度的甲醇汽油和乙醇汽油中红外原始光谱波形基本一致, 只是在一定的波段内的光强有区别, 同样含量的乙醇汽油中红外的透射更强。

图2 汽油、 甲醇汽油以及乙醇汽油的中红外光谱图Fig.2 The original mid-infrared spectra of methanol gasoline and ethanol gasoline

2.2 甲醇汽油、 乙醇汽油随机森林判别模型的建立

在醇类汽油混合样品的原始光谱数据中, 波段范围为1 000~4 000 cm-1, 甲醇汽油116个样品, 乙醇汽油116个样品, 共得到了232条中红外光谱数据, 将甲醇汽油标记为“ -1” , 将乙醇汽油标记为“ 1” , 并对其构建定性模型进行判别分析[11, 12]

随机森林的实质是一个包含了多个决策树的分类器, 随机森林中的树之间没有相互关联。 在构建决策树时, 采用随机选取分裂属性集的方法。 Ntree为随机森林中决策树的个数。 首先, 采用K-S算法[13]将232组中红外光谱数据分成两组, 分别为建模数据和预测数据, 其所占的光谱数据分别为174个和58个。 再预先设置好参数, 决策树的个数(Ntree)设为500个, 树节点预选变量个数(Mtry)值是光谱变量数的平方根(即向下取整), 约为39, 再构造随机森林分类模型。 如图3所示为带外错误率(OOB)误差率与决策树个数关系, 当决策树个数为61时, OOB误差率获得最小值, 为0.034 5。 图4为变量贡献率的变化图, 波段范围在1 508, 2 298和2 312~2 294 cm-1附近的变量对甲醇汽油、 乙醇汽油的分辨具有更佳的作用。

图3 光谱带外数据误差率Fig.3 OOB error rate of spectra

图4 变量贡献率的变化图Fig.4 The contribution rate variation chart of the variables

表1为随机森林(RF)判别模型分类结果, 甲醇汽油、 乙醇汽油中模型分类的正确率为98.28%, 构造的模型对甲醇汽油和乙醇汽油样品的分类具有较好的效果。

表1 RF判别模型分类结果 Table 1 Classification results of RF discriminant model
2.3 甲醇汽油、 乙醇汽油定量模型的建立及分析

2.3.1 甲醇汽油、 乙醇汽油样品前处理

将预处理后的甲醇汽油和乙醇汽油中红外光谱数据, 采用最小二乘支持向量机算法构建模型, 并对不同预处理后建立的模型的预估能力进行比较。 使用KS(kennard-stone)算法按照3:1的比例, 分别对预处理后的甲醇汽油和乙醇汽油样品数据进行划分(甲醇汽油和乙醇汽油各112个), 其中84个光谱数据用于建立了模型, 28个光谱数据用于对模型进行检验。

表2 甲醇汽油、 乙醇汽油的醇含量在建模集和预测集的真实分布 Table 2 The actual distribution of alcohol content of methanol gasoline and ethanol gasoline in the modeling and prediction

2.3.2 甲醇汽油、 乙醇汽油LS-SVM定量模型的建立及分析

最小二乘支持向量机是一种针对支持向量机算法的优化形式, 本模型基于RBF径向基函数, 此建模方法必须确定两个参数, 分别为正则化参数γ 和核参数σ 2。 建模效果的评估是基于醇类汽油醇含量的均方根误差RMSEP和相关系数R

表3为不同预处理后的LSSVM模型预测甲醇汽油、 乙醇汽油中醇含量的建模结果。 从表中可以得出, 无论是甲醇汽油还是乙醇汽油, 运用SNV对其光谱数据预处理后, 基于RBF函数构造的LS-SVM模型效果更佳, 甲醇汽油所对应的Rp和RMSEP的值分别是0.951 9和1.766 3; 乙醇汽油此时所对应的Rp和RMSEP的值分别是0.951 5和1.770 3(见表6)。 说明使用SNV可以较好的消除样品表面散射以及光程差变化对中红外光谱的影响。 经SNV预处理后, 再与LSSVM模型相结合, 可以较为精准的定量检测醇类汽油的醇含量。 图5(a, b)分别为LSSVM预测甲醇和乙醇汽油醇含量的散点图。

表3 LSSVM模型预测甲醇汽油、 乙醇汽油中醇含量的建模结果 Table 3 The modeling results of alcohol content in methanol gasoline and ethanol gasoline predicted by LSSVM

图5 LSSVM预测醇类汽油醇含量的散点图
(a): 甲醇汽油; (b): 乙醇汽油
Fig.5 Scatter diagram of alcohol content in alcohol gasoline predicted by LSSVM
(a): Methanol gasoline; (b): Methanol gasoline

表6 预测甲醇汽油、 乙醇汽油中醇含量的模型对比结果 Table 6 Model comparison results for predicting alcohol content in methanol gasoline and ethanol gasoline
3 结 论

采用RF对甲醇汽油和乙醇汽油进行判别分析, 正确率达到98.23%。 对所得的光谱数据使用S-G平滑、 MSC、 SNV, 一阶导数以及二阶导数等多种方法进行预处理, 应用LSSVM方法对其建模, 对比模型结果可知, 无论是甲醇汽油还是乙醇汽油, 对于LSSVM模型, SNV预处理效果最好。 对于甲醇汽油模型, 预测集相关系数Rp为0.951 9, RMSEP为1.766 3, 对于乙醇汽油模型, 预测集相关系数Rp为0.951 5, RMSEP为1.770 3。 为今后现场快速检测醇类汽油提供了理论参考, 具有较为重要的应用价值。

参考文献
[1] LIU Yan-de, HU Jun, TANG Tian-yi, et al(刘燕德, 胡军, 唐天义, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(2): 459. [本文引用:1]
[2] OUYNAG Ai-guo, LIU Jun, WANG Ya-ping, et al(欧阳爱国, 刘军, 王亚平, ). Laser and Infrared(激光与红外), 2012, 42(8): 901. [本文引用:1]
[3] DING Hong-yuan, HUANG Rong-hua, WANG Zhao-wen, et al(丁红元, 黄荣华, 王兆文, ). Journal of Huazhong University of Science and Technology·Natural Science Edition(华中科技大学学报·自然科学版), 2012, 6: 113; 2013, 1: 59. [本文引用:1]
[4] JIN Pan-pan, ZHANG Teng, YANG Xiao-ping, et al(金盼盼, 张腾, 杨晓平, ). Auto Mobile Science and Technology(汽车科技), 2012, (5): 66. [本文引用:1]
[5] LIU Yan-de, WU Ming-ming, SUN Xu-dong, et al(刘燕德, 吴明明, 孙旭东, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 6: 289. [本文引用:1]
[6] HAN Zhong-zhi, WAN Jian-hua, LIU Kang-wei, et al(韩仲志, 万剑华, 刘康炜, ). Chinese Journal of Analysis Laboratory(分析试验室), 2015, 11: 1268. [本文引用:1]
[7] YAO Jie, DAI Lian-kui, LIN Yi-ling(姚捷, 戴连奎, 林艺玲). Chinese Journal of Light Scattering(光散射学报), 2013, 25(1): 59. [本文引用:1]
[8] OUYANG Ai-guo, LIU Jun(欧阳爱国, 刘军). Journal of Southwest China Normal University·Natural Science Edition(西南师范大学学报·自然科学版), 2012, 37(9): 98. [本文引用:1]
[9] LI Yan-ru, SUN Rui-qing, WANG Yong-miao(李雁如, 孙瑞卿, 王永苗). Modern Chemical Industry(现代化工), 2013, 33(2): 113. [本文引用:2]
[10] Hutengs C, Vohland M. Remote Sensing of Environment, 2016, 178: 127. [本文引用:1]
[11] Jog A, Carass A, Roy S, et al. Medical Image Analysis, 2017, 35: 475. [本文引用:1]
[12] Silva M P F D, Brito L R E, Honorato F A, et al. Fuel, 2014, 116(1): 151. [本文引用:2]
[13] Zhang L, Li G, Sun M, et al. Infrared Physics & Technology, 2017, 86: 116. [本文引用:1]