基于三维荧光光谱法和PARAFAC对多环芳烃定性定量分析
王书涛*, 李明珊, 王玉田, 吴兴, 程琪, 车先阁, 朱文浩
燕山大学河北省测试计量技术与仪器重点实验室, 河北 秦皇岛 066004
*通讯联系人 e-mail: wangshutao@ysu.edu.cn

作者简介: 李明珊, 1994年生, 燕山大学河北省测试计量技术及仪器重点实验室硕士研究生 e-mail: 798299633@qq.com

摘要

三维荧光光谱法在研究多环芳烃(PAHs)类物质的荧光信息时起到了重要作用。 多环芳烃类物质具有致癌性, 难降解性, 多由尾气排放, 垃圾焚烧产生, 危害着人类健康及环境, 因此人们不断探索对多环芳烃检测的方法。 实验选取多环芳烃中的苊和萘作为检测物质, 利用FLS920荧光光谱仪, 为避免荧光光谱仪本身产生的瑞利散射影响, 设置起始的发射波长滞后激发波长40 nm, 设置扫描的激发波长( λex)范围为: 200~370 nm, 发射波长( λem)范围为: 240~390 nm, 对多环芳烃进行荧光扫描获取荧光数据, 采用三维荧光光谱技术结合平行因子算法对混合溶液中的苊和萘进行定性定量分析。 实验选用的苊和萘均购于阿拉丁试剂官网, 配制浓度为10 mg·L-1的一级储备液, 再将一级储备液稀释, 得到苊和萘浓度为0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4和4.5 mg·L-1的二级储备液, 并将苊和萘进行混合。 在进行光谱分析前需要对苊和萘的光谱进行预处理, 采用空白扣除法扣除拉曼散射的影响, 并采用集合经验模态分解(EEMD)消除干扰噪声。 实验测得苊存在两个波峰, 位于 λex=298 nm, λem=324/338 nm处, 萘存在一个波峰, 位于 λex=280 nm, λem=322 nm处。 选用的PARAFAC算法对组分数的的选择很敏感, 因此采用核一致诊断法预估组分数, 估计值2和3的核一致值都在60%以上, 分别对混合样品进行了2因子和3因子的PARAFAC分解, 将分解后得到的激发发射光谱数据和各组分浓度数据进行归一化处理, 并绘制光谱图, 与归一化处理后的真实的激发发射光谱图和各组分浓度图进行对比。 同时将PARAFAC得到的混合样本的预测浓度, 通过计算回收率( R)和均方根误差(RMSEP)来判定定量分析的准确度。 选择2因子时, 各混合样品中苊和萘拟合度为95.7%和96.7%, 平均回收率分别为101.8%和98.9%, 均方根误差分别为0.018 7和0.031 6; 选择3因子时, 各混合样品中苊和萘拟合度为95.3%和95.8%, 平均回收率分别为97%和102.5%, 均方根误差分别为0.033和0.116, 由三项指标可得选用2因子进行定性定量分析的效果明显好于选用3因子。 分析实验结果表明, 基于三维荧光光谱法和PARAFAC算法对混合样品进行定性定量分析, 能够有效的判定混合样品的类别, 同时能够成功的预测出混合样品的浓度。

关键词: 三维荧光光谱; 多环芳烃; 集合经验模态; 平行因子算法
中图分类号:O657.3 文献标志码:A
Qualitative and Quantitative Analysis of PAHs Based on Three-Dimensional Fluorescence Spectroscopy and PARAFAC
WANG Shu-tao*, LI Ming-shan, WANG Yu-tian, WU Xing, CHENG Qi, CHE Xian-ge, ZHU Wen-hao
Measurement Technology and Instrument Key Lab of Hebei Provice, Yanshan University, Qinhuangdao 066004, China
*Corresponding author
Abstract

Three-dimensional fluorescence spectroscopy plays an important role in studying the fluorescence information of polycyclic aromatic hydrocarbons (PAHs). PAHs are carcinogenic and refractory. They are mostly produced by exhaust emissions and waste incineration, which endanger human health and the environment. Therefore, people are constantly exploring the detection methods of PAHs. ANA and NAP in PAHs were selected as detection substances and FLS920 fluorescence spectrometer was used in the experiment. In order to avoid the influence of Rayleigh scattering produced by the fluorescence spectrometer itself, the initial emission wavelength was set at 40 nm, and the excitation wavelength was lagged behind, and the scanning excitation wavelength (lambda ex) was set at 200~370 nm, and the emission wavelength (lambda em) was set at 240~390 nm. Then we could gain the fluorescence data of PAHs obtained by fluorescence scanning, and we could analyze ANA and NAP qualitatively and quantitatively in mixed solution by the three-dimensional fluorescence spectroscopy and PARAFAC. The ANA and NAP used in the experiment were purchased from the Aladdin reagent official website, and we prepared a stock solution with a concentration of 10 mg·L-1, and we should dilute the stock solution, and we canget 0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5 mg·L-1 of secondary stock solution, which obtain a concentration of ANA and NAP, Then we maxed the solution of ANA and NAP. Before spectral analysis, the spectra of ANA and NAP needed to be pretreated, and we should eliminate the effect of Raman scattering by blank subtraction method, and adopt the way of ensemble empirical mode decomposition (EEMD) to eliminate interference noise. In this experiment, there are two peaks in ANA, located at λex=298 nm, λem=324/338 nm, and the peaks of NAP at λex=280 nm and λem=322 nm. The PARAAFAC algorithm selected in this paper was very sensitive to the choice of component number, therefore, using the method of nuclear consistency diagnosis to estimate the number of components, and the nuclear consistency values of the estimated values 2 and 3 were all over 60%, then decomposed the mixed samples by PARAFAC of 2 and 3 factors respectively. After decomposition, the data of excitation emission spectra and concentration of each component were normalized, and we can draw the spectrogram, and compare with the real excitation emission spectrogram and concentration map of each component. At the same time, the predicted concentration of mixed samples obtained by PARAFAC was used to determine the accuracy of quantitative analysis by calculating the recovery rate ( R) and root mean square error (RMSEP). When choosing two factors, the fitness of ANA and NAP was 95.7% and 96.7%, the average recovery was 101.8% and 98.9%, the root mean square error was 0.018 7 and 0.031 6, and choosing three factors, the fitness of ANA and NAP was 95.3% and 95.8%, the average recovery was 97% and 102.5%, the root mean square error was 0.033 and 0.116. Because of the three indicators, the effect of qualitative and quantitative analysis with two factors was better than that with three factors. The experimental results showed that the qualitative and quantitative analysis of mixed samples based on three-dimensional fluorescence spectrometry and PARAFAC algorithm can effectively determine the type of mixed samples, and its can successfully predict the concentration of mixed samples.

Keyword: Three-dimensional fluorescence spectroscopy; Pdycyclic aromatic hydrocarbons; EEMD; PARAAFAC
引言

多环芳烃(polycyclic aromatic hydrocarbons, PAHs)是指分子中存在两个以上苯环以稠环形式相连的碳氢化合物[1], 目前已经有200多种多环芳烃被发现, 第一种被人们发现的多环芳烃是具有强致癌性的苯并[α ]芘, 常常作为多环芳烃的代表。 多环芳烃一般都具有毒性, 致癌性, 难降解性, 长时间的危害着动物、 植物、 以及人类的健康[2]。 此类化合物常常含有两个或两个以上的苯环, 相对分子质量较大, 能够通过各种方式进入到我们人类的身体, 导致体内细胞增值速度加快, 严重失控, 甚至在一定程度上产生基因突变, 从而转变成癌细胞[3]。 多环芳烃的主要来源是由煤、 石油、 木材以及有机高分子化合物的不充分燃烧, 大多数来自于化学工业、 交通运输、 日常生活等方面, 普遍存在于我们的生活环境, 甚至作物和食品中[4]

目前, 多环芳烃的检测方法有很多, 国内外标准的测量方法— — 液相色谱法和气相色谱法等。 王金虎等采用气相色谱法测定2, 6-二氯苯酚中单氯苯酚的含量, 各已知峰与相邻峰间均能很好分离, 可用于2, 6-二氯苯酚中杂质的测定[5]。 张祎玮等对比采用高效液相色谱示差折光检测器(HPLC)和气相色谱-质谱联用(GC-MS)测定柴油中芳烃含量, 结果表明, 两种方法均有较好的掺兑准确性[6]。 近年来, 很多研究学者也都尝试着对这些方法的进行改进, 提出了更有效, 更灵敏的方法。 同时人们也在发展更多新的检测方法, 例如, 毛细管电泳分析法, 表面增强拉曼散射光谱检测(SERS), 此方法在很大程度上增强了拉曼强度[7]

本文采用三维荧光光谱法, 该方法具有灵敏度高、 分析速度快、 所需的试样量少, 并且适用于现场操作的特点。 由于不同种类的多环芳烃具有不同数量的苯环数目, 因此具有不同的光谱特性, 根据这一特点可以成功检测多环芳烃[8]。 实验将三维荧光光谱法与平行因子算法(PARAFAC)相结合, 首先在预处理中采用集合经验模态分解算法(EEMD)对苊和萘的三维荧光光谱数据进行去噪处理, 利用平行因子算法在有干扰物的情况下对混合溶液进行成分识别和浓度预测。

1 实验部分
1.1 仪器及参数设置

本实验采用全功能荧光光谱仪(英国Edinburgh公司, FS920)对样品进行检测, 检测物质的过程为: 氙灯光源发出的连续光, 通过入射单色器色散分离出特定波长的激发单色光, 照射被检测的样品, 样品池中的样品被激发出荧光, 经由发射单色器得到所需的单色荧光, 通过光电检测器将荧光信号放大转换为电信号, 之后进行A/D转换, 将数字信号传输给计算机进行数据处理, 得到我们所需要的光谱数据。

实验前需要对FS920光谱仪进行实验参数的设计: 激发波长扫描范围200~370 nm, 步长为10 nm, 发射波长扫描范围240~390 nm, 步长为2 nm, 仪器的激发和发射狭缝宽度均为2.78 mm。 为避免仪器本身的瑞利散射的影响, 设置起始的发射波长滞后激发波长40 nm。

1.2 样品及溶液配制

本实验以多环芳烃中的苊(ANA)和萘(NAP)为例, 进行荧光光谱数据的测量, 样品均在阿拉丁官网购买。 用精密电子秤称取ANA和NAP各0.01 g, 由于ANA和NAP具有低溶解性, 故选取结构简单的甲醇作为溶剂, 稀释定容, 得到10 mg· L-1的一级储备液。 将一级储备液, 进行不同比例的稀释并混合, 得到ANA和NAP的混合溶液。 混合后的浓度配比如表1

表1 混合溶液的浓度配比 Table 1 Concentration of mixed solution
2 基本分析原理
2.1 集合经验模态分解(EEMD)

采用经验模态分解(EMD)降噪时容易产生模态混叠现象, 避免此类问题产生, 提出了一种新的去噪方法— — 集合经验模态分解(EEMD)[9]

EEMD的分解过程为:

(1)将原始信号中x(t)中加入呈正态分布的白噪声vi(t), 即

xi(t)=x(t)+vi(t)(1)

式中, xi(t)为第i次加入白噪声的信号, vi(t)为第i次加入的白噪声。

(2)将信号xi(t)采用EMD方法进行分解, 得到若干IMF分量, 记为Iij(t), 和一个余项, 记为o(t)。 其中Iij(t)表示第i次加入白噪声后分解得到的第j个IMF分量;

(3)重复上述两个步骤, 每次加入新的正态分布的白噪声序列;

(4)将得到的IMF分量做总体平均处理后, 得到EEMD分解后的最终的IMF分量, 即

Ij(t)=1Ni=1NIij(m)(2)

式中, N为加入高斯白噪声的次数; Ij(t)为信号经EEMD分解后得到的第j个IMF分量。

EEMD的最终分解结果为

x(t)=j=1JIj(t)+o(t)(3)

2.2 平行因子分析法

平行因子算法(PARAFAC)是一种经典的迭代求解算法, 因其具有方便和高效的特点, 在很多的实验研究中应用广泛[10]。 PARAFAC基于三线性模型, 采用的是最小二乘原理实现三线性分解的方法, 将本文中经实验得到的三维荧光数据中的多个样本的EEM构成一个I× J× K维的矩阵X, 根据平行因子分析原理可以将X矩阵分成A(得分矩阵)、 BC(载荷矩阵), 通过这三个矩阵对三维荧光光谱进行解析。 分解公式如式(4)

xijk=f=1Eaifbjfckf+eijk, i=1, 2, , I; j=1, 2, , K(4)

其中, xijk为第i个样品在发射波长j、 激发波长k处的荧光强度, 是矩阵X中的元素; F为表示组分数; aif为激发光谱矩阵A中的元素, 代表第k个成分在第i个激发波长处的荧光强度; bjf为发射光谱矩阵B中的元素, 代表第f个成分在第j个发射波长处的荧光强度; ckf为相对浓度矩阵C中的元素, 代表第k个样本中第f个成分的相对浓度; eijk为三维残差阵E中的元素。

2.3 核一致诊断法(core consistency diagnostic)

当估计组分数与真实组分数差别过大时, 会导致误差的产生, 因此在采用PARAFAC对混合物质进行分析时, 需要预估组分数。 核一致诊断法, 是通过计算平行因子分析模型中的超对角阵T和最小二乘拟合阵G之间的相似程度, 即核一致值(core-consistency)来估计组分数[11]

coreconsistency=100%×1-d=1Fe=1Ff=1F[(gdef-tdef)2]d=1Fe=1Ff=1Ftdef2(5)

式中F为成分数, 当成分数F大于正确的成分数时, 核一致值接近于0或为负数; 当成分数F小于或等于正确的成分数时, 核一致函数的值等于1或接近1。 规定60%作为阈值来确定成分数。

3 结果与讨论
3.1 预处理

使用FS920光谱仪对甲醇中的样本进行三维数据扫描, 将得到的光谱数据通过MATLAB软件进行处理, 生成苊和萘的激发/发射光谱图, 三维光谱图和等高线图, 图1为甲醇溶剂中苊(a)和萘(b)的等高线图, (a)中可以看出苊有两个荧光峰, 分别位于激发波长为298 nm, 发射波长为324/338 nm处, (b)中可以看出萘的荧光峰位于激发波长为280 nm和发射波长为322 nm处。 图1可以看出在苊和萘的溶液中存在着溶剂甲醇的干扰, 而且光谱仪本身也存在着干扰, 因此需要对光谱数据进行预处理。

图1 甲醇中苊(a)和萘(b)的等高线图Fig.1 Contour map of ANA (a)and NAP (b) in methanol

本实验采用空白扣除法扣除甲醇拉曼散射的影响, 并对系统激发和发射光谱进行校正。 并结合集合经验模态分解(EEMD)对光谱数据进行去噪处理。

图2为经过消除拉曼散射, 激发发射校正和EEMD去除噪声后的光谱图。

图2 预处理后苊(a)和萘(b)的等高线图Fig.2 Contour map of ANA (a) and NAP (b) after pretreatment

经过预处理后, 光谱形状基本没有发生改变, 荧光峰位置和荧光强度也基本保持不变, 并且去掉了冗余信息, 使毛刺减少, 光谱更光滑。

3.2 PARAFAC分解定性分析

在实验中测得了9组荧光光谱数据, 根据实验中对激发波长和发射波长范围的设置, 得到了76× 18的二维矩阵, 同时构造成三线性模型X1, 其维数为9× 76× 18。 由于PARAFAC算法在预估计因子数时比较敏感, 在对X1进PARAFAC解析之前, 需要正确估计样本的成分数, 这对后续的光谱分辨有很大的影响。 采用核一致诊断法估计X1的因子数, 如图3所示为核一致诊断法估计的因子数, 从图中可知在因子数为2之后, 核一致值开始下降到87%, 因此选择因子数2和3都可以对X1进行分解。

图3 核一致诊断法估计因子数Fig.3 Nuclear consensus diagnosis method

PARAFAC算法分解后会产生三组数据, 包括各组分浓度, 分解出的单组分样本的最佳激发和发射波长数据, 将三组光谱数据进行归一化处理, 并与归一化后的真实的组分浓度, 苊和萘的最佳激发和发射波长进行比对。 真实的单组分苊和萘的激发发射特征光谱图如图4所示。

图4 真实归一化激发(a)和发射(b)特征光谱Fig.4 True normalized excitation (a) and emission (b) characteristic spectrum

图5为选择因子数2时对X1分解, 并进行归一化处理得到的光谱图。 与图5所示的真实的苊和萘光谱图进行对比, 真实光谱中苊的最佳激发波长在298 nm, 最佳发射波长在324/338 nm; 萘的最佳激发波长在280 nm, 最佳发射波长在322 nm, 而平行因子分解得到的苊的最佳激发波长在300 nm, 最佳发射波长在324/338 nm; 萘的最佳激发波长在270 nm, 最佳发射波长在322 nm。 根据数据对比可以得出, 采用的选择因子数2时PARAFAC算法能够成功的将混合的多环芳烃分解出来。

图5 2因子PARAFAC分解后的激发(a)和发射(b)特征光谱Fig.5 Excitation (a) and emission (b) characteristic spectrum after decomposition of 2-factor PARAFAC

将PARAFAC算法分解出来的样本浓度进行归一化处理并且与归一化以后的真实浓度进行拟合, 如图6所示苊的拟合度为95.7%, 萘的拟合度为96.7%, 拟合程度较高, 可以验证PARAFAC算法分解得到的分辨光谱与真实光谱有很高的拟合度, 可将苊和萘两种物质成功的分辨出来。

图6 2因子苊(a)和萘(b)的拟合图Fig.6 Fitting map of ANA (a) and NAP (b) of 2-factor

核一致诊断法判断当选择因子3时仍能采用PARAFAC算法分解混合样本, 图7为选择因子数3时对X1分解, 并进行归一化处理得到的光谱图。

图7 3因子PARAFAC分解后的激发(a)和发射(b)特征光谱Fig.7 Excitation (a) and emission (b) characteristic spectrum after decomposition of 3-factor PARAFAC

将PARAFAC算法分解出来的样本浓度进行归一化处理并且与归一化以后的真实浓度进行拟合, 如图8所示苊的拟合度为95.3%, 萘的拟合度为95.8%, 能够分辨出混合样本, 但是拟合程度低于选择2因子。

图8 3因子苊(a)和萘(b)的拟合图Fig.8 Fitting map of ANA (a) and NAP (b) of 3-factor

由分解的激发发射光谱图和样本浓度拟合图可知, 选择3因子对X1进行分解时, 分解效果欠佳。

3.3 PARAFAC分解定量分析

在与实验测得的真实浓度线性回归的同时可以得到苊和萘的预测浓度, 通过计算得到回收率(R)和均方根误差(RMSEP)。 回收率表示预测浓度相对真实浓度的准确度, 均方根误差对预测浓度中的特大误差或者特小误差比较敏感, 能够很好地反映出预测的精密度, 其中回收率和均方根误差公式为

RESEP=1ni=1n(xact-xpred)212(6)

R=xpredxact×100%(7)

式中, n为样本数; xactxpred分别为样本的真实浓度和预测浓度。

表2 2因子浓度预测表 Table 2 Concentration prediction of 2-factor

选择2因子进行PARAFAC定量分析时结果如表2, 苊和萘的平均回收率分别是101.8%和98.9%, 均方根误差为0.0187和0.0316, 样本的预测浓度有较好的回收率和较低的均方根误差, 能够准确判断出混合样本的各部分浓度。 选择3因子时结果如表3, 苊和萘的回收率较低, 均方根误差分别为0.033和0.1163, 两个指标均低于选择2因子时的结果。

表3 3因子浓度预测表 Table 3 Concentration prediction of 3-factor
4 结 论

由于多环芳烃长期危害人类健康, 为有效地对多环芳烃进行检测, 本研究以苊和萘为例采用三维荧光光谱法对这两种物质进行分析。 首先采用EEMD对光谱数据进行预处理, 去掉光谱噪声的干扰, 然后基于PARAFAC算法对苊和萘多组分体系进行有效的定性定量分析, 得到较好的拟合度, 高回收率和低均方根误差。 结果表明三维荧光光谱法结合PARAFAC算法能够有效地检测环境中的多环芳烃, 为环境检测提供了依据。

参考文献
[1] Yin S, Yao T, Wu T, et al. Talanta, 2017, 174: 14. [本文引用:1]
[2] WANG Chao, ZHANG Lin-lin, DAO Xu(王超, 张霖琳, 刀谞, ). China Environmental Science(中国环境科学), 2015, (1): 1. [本文引用:1]
[3] YANG Ren-jie, DONG Gui-mei, YANG Yan-rong(杨仁杰, 董桂梅, 杨延荣). Optics and Precision Engineering(光学精密工程), 2016, 24(11): 2665. [本文引用:1]
[4] ZHANG Xiao-xia, CHENG Jia-yi, SHAO Mi-hua(张晓霞, 程嘉熠, 邵秘华). China Environmental Science(中国环境科学), 2016, (5): 1540. [本文引用:1]
[5] WANG Jin-hu, XIAN Jing, ZHANG Yun(王金虎, 鲜婧, 张云). Central South Pharmacy(中南药学), 2018, (9): 1272. [本文引用:1]
[6] ZHANG Yi-wei, ZHU Xin-yi, LIU Ze-long (张祎玮, 祝馨怡, 刘泽龙). Petroleum Processing and Petrochemicals(石油炼制与化工), 2018, 49(6): 87. [本文引用:1]
[7] SHI Xiao-feng, ZHANG Xin-min, YAN Xia(史晓凤, 张心敏, 严霞). Acta Optica Sinica(光学学报), 2018, 38(7): 724001. [本文引用:1]
[8] Kim K, Jahan S A, Kabir E, et al. Environment International, 2013, 60: 71. [本文引用:1]
[9] DENG Kai, DING Jian-li, YANG Ai-xia(邓凯, 丁建丽, 杨爱霞, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(1): 162. [本文引用:1]
[10] WANG Juan, ZHANG Fei, WANG Xiao-ping(王娟, 张飞, 王小平, ). Acta Optic Sinica(光学学报), 2017, 37(7): 730003. [本文引用:1]
[11] YANG Cheng, LI Zhi-nong(杨诚, 李志农). Journal of Huaqiao University·Natural Science(华侨大学学报·自然科学版), 2018, 39(3): 337. [本文引用:1]