基于三维荧光光谱的Krawtchouk图像矩算法在多环芳烃定量分析中的应用
潘钊1, 崔耀耀2, 吴希军1,*, 苑媛媛1, 刘婷婷1
1. 燕山大学河北省测试计量技术及仪器重点实验室, 河北 秦皇岛 066004
2. 燕山大学信息科学与工程学院, 河北 秦皇岛 066004
*通讯联系人 e-mail: wuxijun@ysu.edu.cn

作者简介: 潘 钊, 1982年生, 燕山大学仪器科学与工程系副教授 e-mail: panzh_zach@hotmail.com

摘要

以多环芳烃中的芴和苊为研究对象, 提出一种将三维荧光光谱技术与Krawtchouk图像矩、 广义回归神经网络相结合的定量分析的方法。 利用FS920荧光光谱仪获取样品的三维荧光光谱数据, 得到对应的三维光谱灰度图。 直接计算三维光谱灰度图的Krawtchouk矩, 将得到的Krawtchouk矩经平均影响值筛选后作为广义回归神经网络的输入, 建立多环芳烃(PAHs)的定量模型。 预测8组混合溶液的测试样本, 芴和苊的平均相对误差分别为0.98%和2.15%。 研究结果表明, Krawtchouk矩经过筛选后预测结果更为准确, 该方法能够有效提取光谱的特征信息, 简单、 准确的预测PAHs的浓度。

关键词: 三维荧光光谱; Krawtchouk矩; 平均影响值; 广义回归神经网络
中图分类号:X830.2 文献标识码:A
Krawtchouk Moment Method for the Quantitative Analysis of Polycyclic Aromatic Hydrocarbons Based on Fluorescence Three-Dimensional Spectra
PAN Zhao1, CUI Yao-yao2, WU Xi-jun1,*, YUAN Yuan-yuan1, LIU Ting-ting1
1. Key Lab of Measurement Technology and Instrumentation of Hebei Province, Qinhuangdao 066004, China
2. School of Information Science and Engineering, Yanshan University, Qinhuangdao 066004, China
Abstract

The study objects of this paper were PAHs fluorene and acenaphthene. A method combining three-dimensional (3D) fluorescence spectroscopy with Krawtchouk moment and generalized regression neural network was proposed for quantitative analysis of PAHs. By using the 3D fluorescence spectra data of samples measured directly, the corresponding grayscale images of 3D spectra could be obtained. The Krawtchouk moments were directly calculated based on the grayscale images of 3D spectra, and the quantitative models for the PAHs were established on the mean impact value and the generalized regression neural network. The average relative errors of the 8 groups mixed samples of fluorene and acenaphthene were predicted to be 0.98% and 2.15%, respectively. The results showed that the proposed method can extract the characteristic information of the spectra effectively and predict the concentration of PAHs simply and accurately.

Key words: Three-dimensional fluorescence spectroscopy; Krawtchouk moment; Mean impact value; Generalized regression neural network
引 言

多环芳烃(polycyclic aromatic hydrocarbon, PAHs)作为环境有机污染物已备受关注[1]。 芴和苊为两种常见的PAHs, 其化学结构相近, 光谱存在重叠。 在测量PAHs荧光光谱时还伴随着散射和其他成分的干扰, 不易区分组分光谱和进行浓度定量测量。

重叠的荧光光谱解析始终是荧光分析中的难点, 对其方法的探讨一直在进行[2]。 经典的多元校正方法如平行因子分析(PARAFAC)方法[3]、 多维偏最小二乘法(N-PLS)[4]等应用较多, 许多研究者进行了大量的实验工作[5, 6]。 近期有研究者将数字图像处理技术中图像矩算法用于光谱物质的分析中[7, 8, 9]。 其利用图像矩直接提取目标分析物的重要特征, 用于进一步的定量或定性分析, 并且图像矩的多分辨能力可以减少诸如重叠峰和散射等的影响。

Krawtchouk矩是Pew-ThianYap等[10]提出的, 具有强大的多分辨能力, 能够从图形任意感兴趣部分提取局部特征, 忽略其他干扰的影响, 从而更多的关注感兴趣的局部区域。 本文中, 应用Krawtchouk矩直接提取三维光谱灰度图中目标分析物的局部特征, 结合广义回归神经网络建立定量模型分别预测芴和苊的浓度。 由于不同阶的Krawtchouk矩对PAHs浓度的贡献不同, 通过平均影响值筛选后得到对浓度影响较大的Krawtchouk矩, 进一步降低数据维数, 简化神经网络结构, 实现对样品更加准确地定量分析。

1 实验部分

本文的技术路线如图1所示。

图1 技术路线Fig.1 Flow chart of quantitative analysis

1.1 试剂和仪器

芴(Fluorene, FLU)、 苊(Acenaphthene, ANA)的标准品和甲醇(光谱级)购自上海阿拉丁生化技术有限公司, 分子式如图2。 采用FS920荧光光谱仪(英国Edinburgh Instruments公司)做3D荧光光谱扫描, 激发波长范围设置为200∶ 10∶ 370 nm, 发射波长范围设置为240∶ 2∶ 390 nm。 使用精密电子天平(天津天马衡基仪器有限公司, FA1004型, 精度: 0.1 mg)称量药品。

图2 两种多环芳烃的化学结构Fig.2 The chemical structures of the two PAHs

1.2 样本制备

用甲醇溶解芴和苊并定容, 配制1 g· L-1的一级储备溶液, 并在4 ℃条件下避光保存。 然后将其用甲醇逐级稀释并定容形成标准溶液, 混合不同比例和浓度的标准溶液获得17个标准样本, 并在配制后立即测量, 其浓度见表1

表1 样本浓度配比 Table 1 The experimental concentrations of the two target compounds (μ g· L-1)
1.3 数据处理

表1中各样本进行荧光光谱扫描, 得到相应的荧光光谱图和等高线图, 如图3所示(以样本5为例)。 将荧光光谱中荧光强度记为n× m的矩阵, 其中行(n)对应于发射波长, 列(m)激发波长。 将矩阵中的荧光强度值看成灰度图像中的灰度值时, 荧光强度矩阵可以被认为是“ 灰度图像” , 该图像就可以完全地表示三维荧光光谱中的强度, 因此灰度图像可反映出光谱图中目标化合物的浓度信息, 灰度图像如图4所示。

图3 样本的三维光谱图和等高线图Fig.3 Three-dimensional fluorescence spectrum and fingerprint of sample

图4 样本的灰度图Fig.4 The grayscale image of sample

1.4 Krawtchouk矩

本文中基于Krawtchouk矩提取所获得三维荧光光谱特征, 对于上文中得到的灰度图像可设为f, 用f(x, y)表示坐标(x, y)点的灰度值, 则该图像的m+n阶Krawtchouk矩为[10]

Qnm=x=0Ny=0MK̅n(x; p1, N-1)K̅m(y; p2, M-1)f(x, y)(1)

其中, K̅n(x; p1, N-1)是第n阶加权的Krawtchouk多项式

K̅n(x; p, N)=Kn(x; p, N)w(x; p, N)ρ(x; p, N)(2)

n阶离散Krawtchouk多项式定义为

Kn(x; p, N)=k=0nak, n, pxk=2F1(-n, -x; -N; 1p)x, n=0, 1, , N, N> 0, p(0, 1)(3)

其中, 2F1(a, b; c; z)是超几何函数, 定义为

2F1(a, b; c; z)=k=0n(a)k(b)k(c)kzkk!(a)k=a(a+1)(a+k+1)(4)

其中, (N+1)个Krawtchouk多项式{Kn(x; p, N)}构成一个离散的加权基函数闭集。 加权函数为

w(x; p, N)=Nxpx(1-p)N-x(5)

并满足正交条件

0Nw(x; p, N)Kn(x; p, N)Km(x; p, N)=ρ(x; p, N)δnmρ(x; p, N)=(-1)n1-ppnn!(-N)nn, m=0, 1, , N(6)

为了确保计算过程中数值的稳定性, 要对多项式{Kn(x; p, N)}进行归一化处理, 而且加权函数的平方根也被引入作为缩放因子, 从而构成了更加稳定的加权的Krawtchouk多项式[10]

选择适当的p1p2来提取图像不同位置处的局部特征。 参数p1用于水平移动Krawtchouk矩定位中心区域, p1从0增加到1时定位中心从右向左移动。 同理, 参数p2用于垂直移动定位中心区域, p2从0增加到1时定位中心从顶部移动到底部, 这是Krawtchouk矩目标区域提取能力的关键所在。 若选择(x, y)作为目标区域中心位置, 则

p1=xN, p2=yM(7)

由式(1)可以计算灰度图像的任意阶Krawtchouk矩, 其中Krawtchouk低阶矩存储图像的特定感兴趣区域的信息, 高阶矩存储图像的其余部分的信息。 本文选取适当的低阶矩(m+n阶)构造灰度图的特征向量用于对目标区域进行特征提取

V=[Q11, Q12, Q21, , Qm(n-1), Qmn](8)

选择芴和苊各自独有的特征峰(Ex/Em=270/302 nm, Ex/Em=300/336 nm)作为目标区域的定位中心, 计算各自的Krawtchouk低阶矩, 参数设置如表2, 每个样本可得到2组特征向量V(25维), 17个样本最终获得2组17× 25维的特征向量组。

表2 目标化合物的Krawtchouk矩参数 Table 2 Parameters of the Krawtchouk moments for each target compound
1.5 广义回归神经网络和平均影响值

广义回归神经网络(generalized regression neural network, GRNN)的理论基础是非线性回归分析[11]。 具有良好的非线性逼近能力, 并且在样本较少时也有较好的预测效果。 广义神经网络仅涉及Spread一个参数, 本文通过设置1和0.1的间隔分别进行粗调和细调来寻找最佳值。 从17组特征向量中选择9组作为训练样本, 剩余8组作为预测样本, 网络的输出为PAHs的浓度。

平均影响值(mean impact value, MIV)是神经网络中评价输入变量对输出变量影响大小最好的指标之一[12]。 其符号代表相关方向, 绝对值大小代表影响的相对重要性。 根据MIV绝对值的大小为各自变量排序得到各自变量对网络输出影响相对重要性的位次, 从而判断出输入特征对于网络结果的影响程度。 本文应用MIV方法筛选特征向量中的元素, 实现各个元素对结果影响大小的评判。

2 结果与讨论
2.1 直接预测结果

直接把2组17× 25维的特征向量组作为GRNN神经网络的输入, 分别预测芴和苊的浓度。 此时最佳Spread值分别为2.2和0.9。 8个预测样本的平均相对误差分别为5.26%, 3.95%, 最大相对误差分别为13.38%, 6.40%, GRNN预测值和真实值基本保持一致, 但仍有较大的预测误差出现, 预测精度还有待提高。 同时, 预测结果表明了Krawtchouk矩能够有效提取目标峰的特征信息, 并且可以通过Krawtchouk矩的多分辨率能力忽略部分重叠峰以及散射等干扰影响, 通过Krawtchouk矩提取特征信息建立的GRNN神经网络预测浓度的模型能够实现对存在部分重叠峰的PAHs的定量分析。

2.2 MIV优化输入后预测结果

将特征向量组中的每阶Krawtchouk矩在原值的基础上分别增加和减去10%构成新的两个训练样本, 将这两个新样本作为2.1中已训练好的网络输入, 并根据2.1中最佳Spread值进行仿真, 得到两个仿真结果, 求出该结果的差值, 即可得到每阶特征值变动后对浓度预测影响大小的MIV值, 如表3所示。

表3 Krawtchouk特征值的MIV Table 3 MIV of the Krawtchouk characteristic value

根据得到的MIV绝对值大小为相应每一阶矩排序, 可得到每阶Krawtchouk矩对浓度预测结果的影响程度大小, 将MIV值大于1的, 即对苊的浓度影响较大的Krawtchouk矩Q11, Q21, Q22, Q14, Q23, Q32, Q41, Q33, 对芴的浓度影响较大的Krawtchouk矩Q11, Q21, Q13, Q31, Q34筛选出来, 分别作为GRNN神经网络的最终输入, 分别预测芴和苊各自的浓度。 此时网络的最佳Spread值分别为0.9和0.1。 预测结果中苊的平均相对误差为0.99%, 最大相对误差为6.50%, 芴的平均相对误差为2.15%, 最大相对误差为3.65%, 预测精度相比未筛选输入的神经网络均有所提高。

2.1和2.2小节中的预测结果见表4。 该结果表明本文所提出的用于PAHs定量分析的方法是可靠的。 对于光谱重叠严重的PAHs混合物, Krawtchouk矩可以从每个目标分析物独有的特征峰中提取有效的信息, 用于对目标分析物的定量分析。 从MIV的评价结果可以看出, 随着Krawtchouk矩阶数的增加, 所含有该目标分析物的有效信息逐渐减少, 如果将影响较小Krawtchouk矩引入GRNN神经网络, 则会降低模型精度, 而且参数过多还会引起过拟合。

表4 GRNN神经网络的预测结果 Table 4 Prediction results of GRNN network
3 结 论

针对芴和苊的混合溶液光谱严重重叠且各物质的浓度难以检测, 提出了Krawtchouk矩结合GRNN神经网络的方法。 直接应用Krawtchouk矩提取目标的特征信息, 用GRNN神经网络的对浓度进行预测, 并结合MIV对提取的信息进行筛选, 获得了更加精确的结果。 实验表明, 该方法可有效预测光谱重叠严重的混合溶液的浓度, 为荧光光谱的多组分定量分析提供了一种新的途径。

The authors have declared that no competing interests exist.

参考文献
[1] Wilcke Wolfgang. Journal of Plant Nutrition and Soil Science=Zeitschrift fuer Pflanzenernaehrung und Bodenkunde, 2015, 163(3): 229. [本文引用:1]
[2] Lenhardt L, Bro R, Zekovic I, et al. Food Chemistry, 2015, 175: 284. [本文引用:1]
[3] Goicoechea H C, Calimag-Williams K, Campiglia A D. Analytica Chimica Acta, 2012, 717(5): 100. [本文引用:1]
[4] Bro R. Journal of Chemometrics, 2015, 10(1): 47. [本文引用:1]
[5] Yang L, Jin H, Zhuang W. Environmental Science & Pollution Research, 2015, 22(9): 6500. [本文引用:1]
[6] Sun H, Guo S, Zhu N, et al. Environmental Pollution, 2016, 218: 523. [本文引用:1]
[7] Zhai H L, Zhai Y Y, Li P Z, et al. Analyst, 2012, 138(2): 683. [本文引用:1]
[8] Jing C, Bao Q L, Hong L Z, et al. Journal of Chromatography A, 2014, 1352: 55. [本文引用:1]
[9] Chen J, Li B Q, Xu M L. Talanta, 2016, 161: 99. [本文引用:1]
[10] Yap P T, Paramesran R, Ong S H. IEEE Transactions on Image Processing, 2003, 12(11): 1367. [本文引用:3]
[11] Singh K P, Gupta S, Kumar A, et al. Science of the Total Environment, 2012, 426(2): 244. [本文引用:1]
[12] Jiang J L, Su X, Zhang H, et al. Chemical Biology & Drug Design, 2013, 81(5): 650. [本文引用:1]