BP神经网络结合ATLD与三维荧光光谱法测量水中多环芳烃
王玉田1, 张艳1,*, 商凤凯1, 张靖卓2, 张慧1, 孙洋洋1, 王选瑞1, 王书涛1
1. 燕山大学河北省测试计量技术及仪器重点实验室, 河北 秦皇岛 066004
2. 天津做票君机器人科技有限公司, 天津 300450
*通讯联系人 e-mail: 2209479401@qq.com

作者简介: 王玉田, 1952年生, 燕山大学电气工程学院教授 e-mail: y.t.wang@163.com

摘要

多环芳烃(PAHs)是煤, 石油, 木材, 烟草等燃料和有机高分子化合物等有机物不完全燃烧时产生的一种持久性有机污染物。 迄今已发现有200多种PAHs, 其中有多种PAHs具有致癌性。 PAHs广泛分布于我们生活的环境中, 水中的PAHs主要来源于生活污水, 工业排水和大气沉降。 使用三维荧光光谱法, 结合BP神经网络与交替三线性分解(ATLD)算法对水中的PAHs进行定性和定量分析。 以苊(ANA)和芴(FLU)2种PAHs为目标分析物, 用甲醇(光谱级)制备样本。 使用FS920稳态荧光光谱仪对样本进行检测, 设置激发波长为200~370 nm, 间隔10 nm记录一个数据; 发射波长为240~390 nm, 间隔2 nm记录一个数据。 设置初始发射波长总是滞后激发波长40 nm, 以消除一级瑞利散射的干扰。 随后使用BP神经网络法对待测样本数据进行预处理。 利用BP神经网络基于误差反向传播算法(error back propagation training, BP)原理, 对测得的三维荧光数据进行数据压缩处理, 该方法具有柔性的网络结构与很强的非线性映射能力, 网络的输入层、 隐含层和输出层的神经元个数可根据实际情况设定, 并且网络的结构不同时, 性能也有所差异。 随后, 用ATLD算法分解预处理后的三维荧光光谱数据。 采用核一致诊断法确定待测样本的组分数为2。 结果表明, ATLD算法分解得到两种PAHs(ANA和FLU)的激发、 发射光谱图与目标光谱非常相似, 能实现光谱重叠严重的PAHs(ANA和FLU)的快速定性和定量分析, 实现了以“数学分离”代替“化学分离”。 将预测样本导入训练好的BP神经网络中, 得到处理后待测样本数据的网络均方差(MSE)均小于0.003, 网络的峰值信噪比(PSNR)均大于120dB(数据压缩中典型的峰值信噪比值在30~40 dB之间, 越高越好), 可见BP神经网络对样本数据的压缩效果较好。 BP神经网络训练后, 得到输出值与目标值之间的拟合度高, 拟合系数达0.998, 具有较好的数据压缩效果。 使用ATLD算法对待测样本进行分解后得到平均回收率为97.1%和98.9%, 预测均方根误差为0.081 8和0.098 5 μg·L-1。 三维荧光光谱结合BP神经网络和ATLD能够实现痕量PAHs的快速检测。

关键词: 三维荧光光谱; 交替三线性分解; BP神经网络; 多环芳烃
中图分类号:O657.3 文献标志码:A
Measurement of Polycyclic Aromatic Hydrocarbons in Water by BP Neural Network Combined with ATLD and Three-Dimensional Fluorescence Spectrometry
WANG Yu-tian1, ZHANG Yan1,*, SHANG Feng-kai1, ZHANG Jing-zhuo2, ZHANG Hui1, SUN Yang-yang1, WANG Xuan-rui1, WANG Shu-tao1
1. Measurement Technology and Instrument Key Lab of Hebei Province, Yanshan University, Qinhuangdao 066004, China
2. Tianjin Zuopiaojun Robot Technology Co., Ltd., Tianjin 300450, China
*Corresponding author
Abstract

Polycyclic aromatic hydrocarbons (PAHs) are persistent organic pollutants produced in case incomplete combustion of organic materials such as coal, petroleum, wood, tobacco, and other organic polymer compounds. More than 200 PAHs have been discovered to date, and many of them have carcinogenicity. PAHs are widely distributed in the environmentthat we live in. PAHs in water are mainly derived from domestic sewage, industrial drainage and atmospheric deposition. In this paper, three-dimensional fluorescence spectroscopy combined with BP (back propagation) neural network and alternating trilinear decomposition (ATLD) algorithm for qualitative and quantitative analysis of PAHs in water. In this paper, two PAHs, ANA and FLU, were used as analytes, and samples were prepared using methanol (spectral level). The samples were detected using a FS920 steady-state fluorescence spectrometer. The excitation wavelength was set at 200~370 nm, and data were recorded at intervals of 10 nm. The emission wavelength was 240~390 nm, and data were recorded at intervals of 2 nm. Setting the initial emission wavelength always lags the excitation wavelength by 40 nm to eliminate the interference of the first-order Rayleigh scattering. The sample data are then preprocessed using the BP neural network method. The BP neural network is used to compress the measured three-dimensional fluorescence data based on the principle of Error Back Propagation Training (BP). The method has flexible network structure and strong nonlinear mapping ability. The number of neurons in the input layer, the hidden layer, and the output layer can be set according to actual conditions, and the performance is also different when the structure of the network is different. Subsequently, the pre-processed three-dimensional fluorescence spectrum data were decomposed using the ATLD algorithm. Before the decomposition, the nuclear consistent diagnosis method is used to determine the number of components of the sample to be tested is 2. The results show that the excitation and emission spectra of ANA and FLU are very similar to the target spectrum, which can realize the rapid qualitative and quantitative analysis of PAHs (ANA and FLU) with severe spectral overlap. “Mathematical separation” replaces “chemical separation”. The predicted samples are imported into the trained BP neural network, and the network mean square error (MSE) of the sample data to be tested is less than 0.003, and the peak signal-to-noise ratio (PSNR) of the network is greater than 120 dB (typical peak signal in data compression). The noise ratio is between 30 and 40 dB, the higher the better. It can be seen that the BP neural network has better compression effect on the sample data. After BP neural network training, the fitting degree between the output value and the target value is high, and the fitting coefficient is 0.998, which has better data compression effect. Using the ATLD algorithm to decompose the samples to be tested, the average recoveries were 97.1% and 98.9%, and the predicted root mean square errors were 0.081 8 and 0.098 5 μg·L-1. Three-dimensional fluorescence spectroscopy combined with BP neural network and ATLD can achieve a rapid detection of trace amounts of PAHs.

Keyword: Three-dimensional fluorescence spectroscopy; Alternating trilinear decomposition; BP neural network; Polycyclic aromatic hydrocarbons
引 言

多环芳烃(Polycyclic aromatic hydrocarbons, PAHs)是有机物不完全燃烧时产生的, 分子中含有两个以上苯环的一类有机化合物, 目前研究表明有多种PAHs具有毒性和致癌性[1, 2]。 水中的PAHs的主要来源有: 生活污水, 工业排水、 大气沉降。 人的皮肤直接接触PAHs会引发健康问题[3, 4]

常见的检测水中的PAHs的方法有气相色谱法、 液相色谱-质谱联用法等[5]。 随着科技的发展目前还出现了: 实时免疫PCR技术、 全二维气相色谱等。 常见的检测水中PAHs的方法必须对液体样品进行步骤繁琐的预处理, 部分检测方法仅局限于实验室且不易小型化。 荧光检测法绿色环保, 操作简便, 成本低, 具有较好应用前景。 国内陈硕等[6]使用毛细管固相微萃取-液相色谱法测定水中PAHs, 将水相中目标污染物萃取至毛细管固定相中, 经微量有机溶剂解吸, 直接在高效液相色谱上进行分析, 毛细管使用前不需要进行预处理, 且测量结果可靠, 但仅在样品量较小时可以表现出优势。 国外Kolahgar等[7]应用SBSE-TD-GC-MS法测定水中PAHs, 实验表明该方法具有较好的线性和检出限, 但萃取时间较长。

采用三维荧光法结合BP神经网络与交替三线性分解(alternating trilinear decomposition, ATLD)算法, 对光谱重叠严重的ANA和FLU进行测定。 利用BP神经网络信息正向传播, 误差反向传播的特点, 对样本数据进行压缩后, 结合ATLD算法实现了对水中ANA和FLU含量的准确、 快速定量研究。

1 理论部分
1.1 三线性模型

三线性数据阵X中的第k个样本在第i个激发波长、 第j个发射波长处的值可表示为:

Xijk=n=1Nainbjnckn+eijk, i=1, 2, , I; j=1, 2, , J; k=1, 2, , K(1)

其中, N为三线性体系的总组分数, 包含背景干扰因子和感兴趣的待测因子。 ain, bjn, ckn分别为激发光谱矩阵A(I× K)、 发射光谱矩阵B(J× N)和相对浓度矩阵C(K× N)中的一个元素。 且ainA中的第n个组分在第i个激发波长处的值; bjnB中的第n个组分在第j个发射波长处的值; cknC中的第n个组分在第k个样本中的浓度值。 eijk为对应于三维残差数据阵E(I× J× K)中的一个元素。

1.2 交替三线性分解(ATLD)算法

ATLD[8]是基于交替最小二乘原理, 通过基于切尾奇异值分解(T-SVD)的Moore-Penrose广义逆计算和多次交替迭步骤进行三线性分解[9], 通过损失函数得到如下目标函数

σ1(C)=k=1KX..k-Adiag[c(k)]BTF2(2)σ2(B)=j=1JX.j.-Cdiag[b(j)]ATF2(3)σ3(A)=i=1IXi..-Bdiag[a(j)]CTF2(4)

其中X..k为三维荧光响应矩阵的第k个正面矩阵(I× J)、 X.j.为第j个侧面矩阵(K× I)、 Xi..为第i个水平面矩阵(J× K)。 a(i), b(j), c(k)分别为矩阵A, B, C的第i, j, k个行矢量。 “ ‖ · ‖ F” 为Forbenius矩阵范数。

通过交替迭代以上三个目标函数可同时得到归一化相对色谱矩阵A、 相对光谱矩阵B、 相对浓度矩阵C

aT(i)=diagm[B+Xi..(CT)+], i=1, , I(5)bT(j)=diagm[C+X.j.(AT)+], i=1, , J(6)cT(k)=diagm[A+X..k(BT)+], i=1, , K(7)

其中“ +” 为Moore-Penrose广义逆。 ATLD较以往的PARAFAC法具有对待测组分数不敏感且ATLD收敛速度快的特点。

1.3 BP神经网络

1.3.1 BP神经网络算法原理

BP神经网络算法的基本思想是: 信息的正向传播和误差的反向传播[10, 11]。 信号从输入层传入, 根据得到输出的目标值与预测值之间的误差更新连接点的权重和阈值, 使得网络输出的目标值不断逼近预测值, 当误差到达允许范围内时算法结束。

1.3.2 训练数据导入

在训练神经网络之前需要确定神经网络的层数, 并且要对输入数据进行归一化处理, 使用MATLAB自带的Premnmx函数将数据映射到[-1, 1]之间, 可以避免由于输入输出单位不一致或数量级别不同导致的神经网络误差较大、 训练时间长、 收敛速度慢等问题。 Premnmx函数是一种简易且快速的线性转换算法, 公式为

y=2×x-minmax-min-1(8)

其中, x为归一化之前的样本数据; min为样本数据中的最小值; max为样本数据中的最大值; y为归一化之后的样本数据。

1.3.3 权值修正

根据BP神经网络的输出值与目标值, 可计算出神经网络预测值与目标值之间的误差e, 通过网络预测误差e更新权值 wij1, wjk2和阈值ab

wij1=wij1+ηHj(1-Hj)x(i)k=1mwjk2eki=1, 2, , n;  j=1, 2, , l(9)wjk2=wjk2+ηHjek j=1, 2, , l;  k=1, 2, , m(10)aj=aj+ηHj(1-HJ)k=1mwjkekj=1, 2, , l(11)bk=bk+ek k=1, 2, , m(12)

系统的学习目标设置为0.001, 即当误差达到0.001时训练停止, 或当迭代次数达到预测值时训练停止。 此外, 由于加入惯性系数α =0.9以防止BP神经网络在批处理训练时陷入局部最小。

2 实验部分
2.1 仪器与参数

实验使用的仪器为Edinburgh Instruments公司的FS920稳态荧光光谱仪, 选用ANA和FLU为待测样品, 设置激发波长为200~370 nm, 间隔10 nm记录一个数据; 发射波长为240~390 nm, 间隔2 nm记录一个数据。 初始发射波长总是滞后激发波长40 nm, 由此可消除一级瑞利散射的干扰。

2.2 样品

实验所用的待测样品ANA和FLU为纯度大于99.5%的标准样品; 溶剂为甲醇(光谱级)。

溶液配制: 称取ANA, FLU标准样品各0.01g, 用甲醇溶液分别溶解于10 mL的容量瓶中, 获得浓度为1 g· L-1的一级储备液, 并保存于低温(4 ℃)且避光的环境中。 实验时分别取0.1 μ g· L-1的一级储备液, 用甲醇溶液稀释至10 mL, 得到浓度为100 μ g· L-1的标准溶液。 取适量的标准溶液, 用甲醇溶液稀释成不同浓度的10组校正样本和8组待测样本。 所配置溶液的具体浓度见表1

表1 样品配置浓度(μ g· L-1) Table 1 Samples preparation concentration
3 结果与讨论
3.1 BP神经网络训练

将C1— C10校正样本分成两部分, C1— C9为训练集, C10为验证集, 并分别对C1— C10进行快速傅里叶变换(FFT)、 小波滤波(Wavelet)、 EMD去噪。 将C1— C9三种降噪结果加权相加作为BP神经网络的目标值, 将C1— C9原始数据作为输入值进行训练。 将验证集C10原始数据导入训练好的BP神经网络中拟合, 结果与其余三种去噪效果对比如表2所示, BP神经网络去噪效果优于其他方式, 且可以通过增加训练集数量、 增加训练步长等方式提升去噪效果。

表2 去噪效果对比 Table 2 Comparison of de-noising effect
3.2 光谱与处理

将预测样本导入训练好的BP神经网络中, 对待测样本进行处理。 由于BP神经网络初始化的权值和阈值是随机的, 因此每次预测的结果不同。 选取三组不同浓度样本, 每组运算10次, 得到PSNR如表3

表3 BP神经网络处理后得到的峰值信噪比(dB) Table 3 Peak signal-to-noise ratio (dB) obtained after BP neural network processing

峰值信噪比(PSNR)经常用作图像压缩等领域中信号重建质量的测量方法, 它常简单地通过均方误差(MSE)进行定义。 两个m× n单色图像IK, 如果一个为另外一个的噪声近似, 那么它们的均方误差定义为

MSE=1mni=0m-1j=0n-1[I(i, j)-K(i, j)]2(13)

峰值信噪比定义为

PSNR=10log10MAXI2MSE=20log10MAXIMSE(14)

其中MAXI为矩阵中的最大值, MSE为网络均方差。 数据压缩中典型的峰值信噪比值在30~40 dB之间, 越高越好[12]。 由表3可见数据压缩效果较好。

通过图1可以看出拟合程度较好, 用BP神经网络训练后, 拟合系数R达到0.998 38。 为防止存在过拟合现象, 设置训练步长为50 000。

图1 输出值与目标值之间的拟合曲线对比
(a): BP神经网络处理前; (b): BP神经网络处理后
Fig.1 Comparison of the fitted curve between the output value and the target value
(a): Before BP neural network processing; (b): After BP neural network processing

使用BP神经网络进行降噪, 结果如图2。 由图2可以看出使用BP神经网络处理后, 光谱的峰值位置和主要谱线形状未发生变化; 光谱中的噪声部分被去除, BP神经网络降噪效果较好。

图2 压缩前后ANA和FLU混合溶液(T6)荧光光谱图
(a): 原始等高线图; (b): 原始激发光谱图; (c): 压缩后的等高线图; (d): 压缩后的激发光谱图
Fig.2 Fluorescence spectrum of ANA and FLU mixed solution (T6) before and after compression
(a): Original contour; (b): Original excitation spectrum; (c): Contour after compression; (d): Excitation spectrum after compression

3.3 ATLD分析

采用核一致诊断法来确定待测样本的组分数, 得到组分数为2。 采用ATLD算法对待测样本数据进行分解, 得到激发、 发射光谱分解图, 由图3可以看出预测荧光光谱与目标荧光光谱高度重合, 算法得到的目标浓度与相对浓度的相关系数均大于r=0.99, ATLD算法的预测效果令人满意。

图3 激发与发射光谱分解图Fig.3 Decomposition of excitation and emission spectrum

ATLD算法的预测浓度如表4所示, 两种PAHs的回收率为94.5%~104%, 平均回收率为97.1%和98.9%。 ANA和FLU的预测均方根误差(RMSEP)分别为0.081 8和0.098 5 μ g· L-1。 由表4可以看出ATLD预测浓度效果较好。

表4 使用ATLD算法测得的两种PAHs的浓度及回收率 Table 4 Concentration and recovery of two PAHs measured using the ATLD algorithm
4 结 论

实验表明BP神经网络的网络均方差均能够接近设定值0.001, 且经过BP神经网络处理后的数据的PSNR均超过120 dB, 说明使用BP神经网络法数据压缩效果较好。

利用ATLD算法对三维荧光数据进行分解, 分解得到的两种PAHs的预测光谱与目标光谱重合度较高, 能够实现水中痕量PAHs的快速、 准确检测。

参考文献
[1] ZHANG Hui-feng, WU Hai-long, XIA A-lin, et al(张卉枫, 吴海龙, 夏阿林, ). Computers and Applied Chemistry(计算机与应用化学), 2007, (1): 117. [本文引用:1]
[2] Wang X T, Miao Y, Zhang Y, et al. Science of the Total Environment, 2013, 447: 80. [本文引用:1]
[3] Peng C, Chen W P, Liao X L, et al. Environmental Pollution, 2011, 159: 802. [本文引用:1]
[4] Bortey-Sam N, Ikenaka Y, Nakayama S M M, et al. Science of the Total Environment, 2014, 496: 471. [本文引用:1]
[5] Zhang Y, Guo C S, Xu J, et al. Water Research, 2012, 46: 3065. [本文引用:1]
[6] CHEN Shuo, HAN Zong-xun, QUAN Xian, et al(陈硕, 韩宗勋, 全燮, ). Chinese Journal of Analytical Chemistry(分析化学), 2003, (2): 171. [本文引用:1]
[7] Kolahgar B, Hoffmann A, Heiden A C. [J]. Chromatogr A, 2002, 963: 225. [本文引用:1]
[8] BAI Xue-mei, LIU De-long, WEI Yong-ju, et al(白雪梅, 刘德龙, 魏永巨, ). China Pharmacy(中国药房), 2017, (15): 2089. [本文引用:1]
[9] ZHAI Min, WU Hai-long, FANG Huan, et al(翟敏, 吴海龙, 方焕, ). Fine Chemical Intermediates(精细化工中间体), 2015, (5): 63. [本文引用:1]
[10] Raul R. Neural Networks-A Systematic Introduction. Berlin: Springer-Verlag, 1996. 151. [本文引用:1]
[11] GE Zhe-xue, SUN Zhi-qiang(葛哲学, 孙志强). Neural Network Theory and Matlab Application(神经网络理论与MATLABR2007实现). Beijing: Publishing House of Electronics Industry(北京: 电子工业出版社), 2007. 46. [本文引用:1]
[12] Welstead, Stephen T. Fractal and Wavelet Image Compression Techniques. SPIE Publication, 1999, 155. [本文引用:1]