三维荧光光谱技术结合线性支持向量算法在水体有机污染监测中的应用
戴源1, 谢继征1, 袁静1, 沈薇1, 郭宏达1, 孙小平1, 王志刚2,*
1.江苏省扬州环境监测中心, 江苏 扬州 225100
2.扬州大学环境科学与工程学院, 江苏 扬州 225009
*通讯作者 e-mail: wangzg@yzu.edu.cn

作者简介: 戴 源, 1986年生, 江苏省扬州环境监测中心工程师 e-mail: david1986213@hotmail.com

摘要

针对当前地表水体有机污染的原位快速监测需求, 提出一种基于三维荧光光谱技术的水质指标预测模型和水质等级快速判断方法。 以扬州市域内多种地表水体的水质监测数据作为模型训练样本, 充分利用水体三维荧光光谱信息, 结合线性支持向量回归算法(LIBLINEAR), 建立了与化学需氧量(CODCr)、 高锰酸盐指数(CODMn)、 氨氮(NH3-N)、 总磷(TP)、 总氮(TN)和五日生化需氧量(BOD5)6项有机污染相关水质指标的预测模型。 研究结果表明, 6项指标预测模型的训练集和测试集决定系数 R2均大于0.73, 预测值与国标及行业标准方法分析结果的相关系数 r达到0.9以上。 利用水质指标预测结果进一步判断有机污染指标相关水质等级, 黑臭水体识别率达86%, 对Ⅲ类~重度黑臭共6个水质等级的分类准确率为60%。 结果说明该方法通过水体三维荧光光谱信息预测水质有机污染指标具有较好的准确性和精度, 为广域时空尺度地表水的高效原位监测提供了一种新的解决方案。

关键词: 三维荧光光谱; 线性支持向量回归; 水质指标; 水质等级; 原位监测
中图分类号:O657.3 文献标志码:A
Application of Excitation-Emission Matrix (EEM) Fluorescence Combined With Linear SVM in Organic Pollution Monitoring of Water
DAI Yuan1, XIE Ji-zheng1, YUAN Jing1, SHEN Wei1, GUO Hong-da1, SUN Xiao-ping1, WANG Zhi-gang2,*
1. Jiangsu Province Yangzhou Environmental Monitoring Center, Yangzhou 225100, China
2. College of Environmental Science and Engineering, Yangzhou University, Yangzhou 225009, China
*Corresponding author
Abstract

In view of the increasingly serious organic pollution of urban waterbodies, this paper proposes a water quality indexes prediction model based on excitation-emission matrix (EEM) fluorescence technology and a method for quickly judging the water quality category. In this study, a large number of diversified surface waters around Yangzhoucity were taken as the training sample of the model. Based on the EEM spectrum of water and linear support vector regression (LIBLINEAR), the prediction models of six water quality indexes were established, including chemical oxygen demand (CODCr) and permanganate index (CODMn) , ammonia nitrogen (NH3-N), total phosphorus (TP), total nitrogen (TN) and five-day biochemical oxygen demand (BOD5). The test results show that the determination coefficient R2 of the training set and the test set of the six index prediction models are both greater than 73%, while the correlation coefficient between the predicted value and analysis results by the national standard and industry-standard methods is greater than 0.9. Base on the prediction results of the water quality index, the water quality category could be the further judge. The recognition rate of black-odor waterbody reached 86%, and the classification accuracy rate of water bodies above category Ⅲ was 60%. The results show that the method has good accuracy and precision in predicting the water quality index through the three-dimensional fluorescence spectrum information of the waterbodies, which provides a solution for the efficient in-situ monitoring and rapid classification of water quality of urban and surrounding surface water.

Keyword: EEM spectrum; Linear support vector regression; Water quality indexes; Water quality grade; In situ monitoring
引言

随着城市化进程的日益加快, 城市及周边地表水的污染源不断增加, 水质不断恶化, 对生态系统和人类健康构成威胁[1]。 城市及周边地表水中的有机污染物主要来自陆地生活源、 地表径流、 工业、 服务业、 养殖业和水生生物源污染, 以蛋白质、 氨基酸、 腐殖酸、 脂肪等有机污染物为主。 环境监测技术通过化学需氧量(CODCr)、 高锰酸盐指数(CODMn)、 氨氮(NH3-N)、 总磷(TP)、 总氮(TN)和五日生化需氧量(BOD5)等指标表征水体有机污染, 其中CODCr, CODMn和BOD5通常用于表示水体中有机污染物总量; NH3-N, TN和TP的含量升高会导致水体富营养化, 破坏生物多样性并产生臭味。

城市及周边地表水一直以来都是环境监测工作的重点, 但传统监测手段存在监测周期长、 采样缺乏代表性、 水样前处理复杂、 分析难度高等困难, 往往造成监测数据时空分布不足, 监测数据滞后等问题, 因此开发连续、 高效、 低耗的水质原位监测技术具有重要意义[2]。 近年来, 水体荧光光谱技术常被用来快速反演水体中TP, TN, NH3-N, BOD5和COD等指标[3, 4, 5], 避免了化学试剂的使用和复杂的水样前处理过程。 三维荧光光谱技术可以在较宽的激发和发射波长范围内获取水体有机物丰富的光谱信息, 具有快速、 可靠、 实用的优点, 近年来被广泛应用于化学分析和环境监测领域。 Yang等[6]使用激发发射矩阵三维荧光平行因子法(EEM-PARAFAC)对污水处理厂水样进行分析, 得到类蛋白等有机污染物的荧光特征峰位置, 利用多元线性回归算法(multiple linear regression, MLR)针对COD等有机污染指标建立预测模型, 实现对水处理效果的快速评价。 陈方等[7]使用平行因子算法(PARAFAC)分析苯酚等有机污染因子的三维荧光光谱, 提出针对清洁水和污水的二分类支持向量机(SVM)模型。 但是, 现有研究大多针对模拟配制水样或单一类型的少量水质样本, 依赖已有的光谱特征经验选择算法, 从三维荧光光谱中提取若干点状光谱信息用于水质评价。 由于地表水中有机污染物种类繁多, 各种物质的荧光峰位置和波段范围不同, 且存在荧光峰重叠现象, 因此这种仅选择少数光谱点的计算方法局限性强、 泛化性能较差。

支持向量回归算法(support vector regress, SVR)是一种被广泛应用于机器学习和数据挖掘领域的算法模型。 常规的SVR算法通过不同的核函数来构造非线性模型用以解决复杂的分类和回归问题, 但是当样本量较大或特征维度较高时, SVM算法存在消耗资源多、 训练时间长等问题。 LIBLINEAR是一个针对线性分类场景而设计的工具包, 支持线性SVM和线性逻辑回归等模型, 可以对高维度大样本数据进行快速建模。 该工具包采用热启动(warm-start)技术实现高效的参数寻优过程, 并结合交叉验证方法得到最优惩罚参数C和不敏感度ε , 具有建模速度快、 计算精度高等特点。

本文对扬州市域内多种类型地表水进行了长期的三维荧光光谱采集和水质分析, 形成了具有多样性和代表性的水质样本集合, 首次将LIBLINEAR技术应用于三维荧光光谱水质监测, 充分利用丰富的三维荧光光谱信息, 将水体三维荧光光谱的全波段数据作为算法的输入, 快速建立了CODCr, CODMn, NH3-N, TN, BOD5和TP等6项水质指标的预测模型, 并且通过水质指标的预测结果进一步判断水体有机污染指标相关的水质等级, 实现对城市及周边地表水水质指标和水质等级的快速原位监测。

1 实验部分
1.1 样品采集

从2016年1月至2019年8月, 每月对扬州市域内122个地表水监测断面进行水样采集, 使用直立采样器采集水面下50 cm深处的水体5 L, 静置30 min后取上层清液, 按照水质采样规范平行分装在棕色玻璃瓶中, 并于4 ℃保存。 采样现场同时测量水体的温度(T)、 溶解氧(DO)含量和pH值。

水质监测断面共122个, 涉及长江和淮河两大流域, 覆盖了扬州市域内大部分的主要河流和湖泊, 分布如图1所示。 城市建成区内设有87个监测断面, 囊括了55条城市河流和4个小型湖泊, 其余35个监测断面分布在市域城郊及农村区域。 根据2016年— 2019年扬州市水环境监测数据, 监测断面水质等级包含Ⅱ 类~劣Ⅴ 类, 此外还存在少量轻度和重度黑臭断面。 样本的采集时间涵盖了多个季节和枯丰水期, 涉及水温、 水位、 水流和周边生态系统等多种环境因素变化对水质的影响, 由此形成一个覆盖区域广、 时间跨度长、 水质变化多的样本集合。

图1 水质监测断面分布Fig.1 Distribution of water quality monitoring sections

1.2 化学分析

为保证化学分析与光谱分析的样品一致, 将样品摇匀并静置30 min后取上层清液进行检测, 检测方法参照相关国标和行业标准, 使用仪器和具体分析方法见表1。 其中pH值、 DO和T在采样时现场测定, 所有样品在采样1周内完成分析测试, 测试结果见表2。 每项指标的测试结果中, 最大值与最小值差异大, 样本包括不同污染程度的多种水体。 此外, 本实验涉及的样本数量大、 水质指标多, 为建立水质指标预测模型提供有利条件。

表1 仪器及分析方法 Table 1 Instruments and analysis methods
表2 化学分析结果 Table 2 Results of chemical analysis
1.3 三维荧光光谱测量

采用中国科学院安徽光学精密机械研究所改造的日立 F4600型荧光分光光度计测量水样三维荧光光谱, 该仪器在保留原有光路设计的基础上添加自动进样和清洗装置, 在底部加装避震装置, 可实现在水质自动站或监测车中的连续快速原位监测。

每次对空白样品(Milli-Q超纯水)进行扫描后再进行水样测量。 三维荧光光谱测量前, 先将水样摇匀后静置至室温。 若水样的荧光强度超出仪器测量范围, 须用超纯水稀释。 样品光谱平行测试的相对精度偏差应小于2%[4], 同批水样的光谱分析与化学分析时间间隔不超过24 h。 光谱测量参数设置如下: 激发波长Ex为220~400 nm, 采样间隔5 nm; 发射波长Em为260~520 nm, 采样间隔1 nm; 狭缝宽度为10 nm, 扫描速度为12 000 nm· min-1

1.4 模型建立

本文采用MATLAB2019(Mathworks, Natick, MA, USA)软件构建水质指标预测模型。 训练集与测试集样本的划分采用随机抽样法, 抽取20%的样本作为测试集, 用于评价模型的泛化能力和预测效果, 剩余样本作为训练集用于建立预测模型。

1.4.1 数据预处理

使用Delaunay三角形内插值法对原始光谱中包含的瑞利散射和拉曼散射进行修正。 为消除实验环境变化和光谱仪光源波动的影响, 从样品光谱中扣除空白样品光谱, 并用空白样品在Ex=348 nm和Em=397 nm处的拉曼峰强度值对去散射处理后的样品光谱强度值进行拉曼归一化处理[8]

1.4.2 线性支持向量回归模型(LIBLINEAR)

本文将每个激发-发射波长对应的荧光强度作为水质指标的潜在预测因子, 为降低数据冗余度、 提高模型收敛度, 将预处理后的三维荧光光谱去除激发波长大于发射波长的光谱区域, 结合T, DO和pH值形成7601维向量。 将该向量作为算法的输入, 以各水质指标的化学分析结果作为算法目标值, 使用LIBLINEAR工具包建立L2正则L2误差支持向量回归模型(L2-regularized L2-loss support vector regression), 通过调整权重向量ω , 使L2正则项与L2误差项之和最小。

minω12ωTω+Ci=1Ν(max(0, |yi-ωTω|-ε))2(1)

式(1)中, yi为各水质指标的化学分析结果, N为样本数量, C为惩罚因子, ε 为不敏感度。 运用网格点搜索法(grid searching technique)和交叉验证法(cross validation)相结合对Cε 因子进行自动寻优, 即建立双层循环交叉验证, 外层对 ε1920εmax, , 120εmax, 0进行循环, 针对每一个ε 建立内层循环对C∈ (Cmin, 2Cmin, 4Cmin, …, Cmax)进行交叉验证, Cε 的选择范围由算法根据训练集自动设定, 以每组交叉验证集的均方根误差(CVMSE)的最小值为寻优指标, 选择对应的Cε 用以建立模型对测试集进行预测。

1.4.3 模型评价标准

使用决定系数R2和均方根误差RMSE作为本文模型效果的评价指标。 训练集决定系数 Rc2和测试集决定系数 Rp2越接近1, 说明模型相关性越高、 预测效果越好; 训练集均方根误差RMSEC和测试集均方根误差RMSEP的数值越小说明模型精度越高, 泛化能力越强。 训练集和测试集决定系数按照式(2)计算。 训练集和测试集均方根误差按式(3)计算。

R2=1-i=1N(y^i-yi)2i=1N(yi-y¯)2(2)

RMSE=i=1N(y^i-yi)2N(3)

式中, y^i为算法预测值, yi为各水质指标的化学分析结果, y¯为各水质指标真实值的均值, N为样本数量。

1.4.4 水质分类标准及方法

表3是根据GB3838— 2002《地表水环境质量标准》和《城市黑臭水体整治工作指南》中的标准限值制定的水质分类标准, 基于该标准使用模型预测结果对有机污染指标相关的水质等级进行判断。 针对不同的水质判断需求, 本文设计了如表4所示的4种水质分级方法。 方法的分级数量越多, 对水质状况的区分越细致。 其中“ 劣Ⅴ 类” 在本文中定义为超过Ⅴ 类标准限值但尚未达到轻度黑臭的水体。

表3 水质分类标准限值 Table 3 Water quality classification standard limits (mg· L-1)
表4 四种水质分级方法 Table 4 Four water quality classification methods
2 结果与讨论
2.1 水质指标模型及预测结果

图2为水质预测模型中三维荧光光谱权重的分布图, 如图2所示, 各模型权重较大的三维荧光光谱位置主要分布在7个荧光区域, 荧光区域的范围和对应组分信息如表5所示, 可知A— F均为水体中常见溶解性有机污染物的特征荧光区域, 其中A与水体中的分子量较大的类腐殖酸相关; B区域内的荧光峰常出现在城市废水光谱中, 被认为是与微生物相关的类腐殖质物质(可溶性微生物副产物)[8]; C对应类富里酸的荧光特征峰, 其来源为陆源前驱染物[9]; D为游离态类色氨酸的荧光峰, 其光谱值与水体中微生物细胞数量紧密相关, 可以表征水生态系统的微生物活性[9]; E和F为酪氨酸等芳香族蛋白质的特征光谱范围, 主要来自生活源有机污染[10]; G被定义为类色氨酸的特征光谱区域, 其光谱强度同采样断面与污染源排口之间的距离和水体中污染物的新鲜程度有关[9]

表5 荧光区域范围及组分 Table 5 Fluorescence regions and components

由图2可知, 6项水质指标预测模型中正权重均主要分布于6个荧光区域内(A— F), 而负权重主要集中在G区域中, 说明6项水质指标预测值均与色氨酸、 酪氨酸、 类腐殖酸、 类富里酸和类蛋白等有机污染物的荧光强度成正比, 与G区域的荧光值成反比。 此外, 各预测模型的权重分布略有不同, 其中CODCr模型正权重的覆盖范围大于CODMn, 说明有更多的有机物荧光信号会对CODCr的预测结果产生正影响; D, E和F所代表的蛋白质和氨基酸荧光区域在NH3-N和TN模型中具有较大的正权重, 并且TN模型具有更大的正权重范围; TP的正权重分布较为集中在类腐殖酸特征范围内; BOD5的正权重集中在D区域内, 说明BOD5的预测值与色氨酸光谱强度具有较高相关性, 这与Henderson等的研究结论一致[11]。 由此可知, 基于全波段的预测模型与以往的固定点式光谱模型相比, 该模型能够针对不同的水质指标对每一个光谱位置设置相应的权重, 并且模型权重分布符合水质指标与有机污染物的逻辑关系, 可以更加充分地利用水体三维荧光光谱信息建立光谱与有机污染物之间的定量关系。

图2 水质预测模型权重分布Fig.2 Weight distribution of water quality prediction model

基于全波段光谱模型的水质指标预测结果如表6所示, 各水质指标预测模型的训练集决定系数 Rc2均大于0.8, 且 Rp2接近于 Rc2, 说明LIBLINEAR算法的预测值与各水质指标的化学分析值拟合度均较高。 此外, 各水质指标预测模型的RMSEP与RMSEC的差距较小, 说明训练得到的模型精度高、 预测能力强、 泛化能力好。

表6 模型预测结果 Table 6 Prediction results of models

图3为使用Matlab2019软件进行的模型预测值与化学分析值的相关性分析。 从图3可知, CODCr, CODMn, NH3-N, TN, BOD5和TP六项水质指标的预测值和实际测量值之间的相关系数R分别为0.95, 0.92, 0.92, 0.91, 0.94和0.90, 并且通过了p=0.05的显著性水平检验, 说明LIBZINEARSVM模型预测的各水质指标结果与国标及行业标准分析结果具有较高的拟合度, 证明了三维荧光光谱技术用于监测水质污染状况的可行性, 本方法可为城市及周边地表水的快速、 原位、 高效监测提供解决方案。

图3 模型预测值与化学分析值的相关性Fig.3 Correlation between predicted value and chemical analysis results

2.2 水质分类结果

为了验证水质分类的预测效果, 使用LIBLINEAR模型对100个未知水样进行水质指标预测, 并用预测结果按照表3中的标准判断其水质类别。 分类预测效果通过准确率AF1分数两个指标评价。 其中A代表正确判断的样本数和总样本数的比值; F1分数是查准率P和查全率Re的调和平均数, 可以综合评价分类效果。 计算公式如式(4)

A=TP+TNTP+TN+FP+FN(4)

P=TPTP+FP(5)

Re=TPTP+FN(6)

F1=2×P×ReP+Re(7)

其中, TP为真正例样本数, TN为真反例样本数, FP为假正例样本数, FN为假反例样本数。

图4为表4中4种分级方法的水质分类结果。 如图4所示, 方法1, 2, 3和4的水质分类准确率分别为86%, 74%, 67%和60%, F1分数分别0.93, 0.88, 0.84和0.77, 随着分级的细化, 水质分类准确率和F1分数有所下降, 说明水质指标预测结果对清洁水体的细化分类稍有不足, 但对较重污染水体的水质分级具有较高的正确率和识别精度。 总之, 本方法可以快速判断水质等级, 并同步显示超标污染物及其浓度值, 实现对地表水水质的高效监测和精准评价。

图4 水质分类结果Fig.4 Water quality classification results

3 结论

对扬州市域内122个地表水监测断面的三维荧光光谱信息和水质状况进行了长期积累形成了覆盖范围广、 时间跨度长、 水质变化多的样本集合, 基于全波段光谱数据使用LIBLINEAR算法建立了针对CODCr, CODMn, NH3-N, TN, BOD5和TP 六项水质指标的预测模型, 模型的权重分布与多种溶解性有机物的荧光特征区域重合, 说明该模型可以综合地反应地表水中的有机污染程度。 模型预测结果具有较高的决定系数和较低的均方根误差, 测试集的预测结果与实际测量值之间的相关系数达到0.90以上。 此外, 使用水质指标的预测结果对水体的水质等级进行判断, 其中对黑臭水体判断正确率达86%, 对Ⅲ 类~重度黑臭水体的分类准确率达60%, 表明该技术的水质指标预测结果与现行的国标及行业标准方法分析结果一致性较高, 可以用于在广域时空尺度中对流域水体的整体水质状况进行全面判识, 是一种快速、 原位、 高效的城市及周边地表水水质监测技术。

参考文献
[1] Zhao Y, Song K, Li S, et al. Environmental Science and Pollution Research, 2016, 23(15): 15381. [本文引用:1]
[2] Li P, Hur J. Critical Reviews in Environmental Science and Technology, 2017, 47(3): 131. [本文引用:1]
[3] Wang X, Zhang F, Kung H T, et al. CATENA, 2017, 155: 62. [本文引用:1]
[4] Yang L Y, Hur J, Zhuang W. Environmental Science and Pollution Research, 2015, 22(9): 6500. [本文引用:2]
[5] Chen B S, Wu H N, Li S F Y. Talanta, 2014, 120: 325. [本文引用:1]
[6] Yang L Y, Shin H S, Hur J. Sensors, 2014, 14: 1771. [本文引用:1]
[7] CHEN Fang, ZHANG Xiao-yan, HUANG Ping-jie, et al(陈方, 张晓燕, 黄平捷, ). Journal of Zhejiang University·Agriculture and Life Sciences(浙江大学学报·农业与生命科学版), 2016, 42(3): 368. [本文引用:1]
[8] Rodríguez-Vidal F J, García-Valverde María, Ortega-Azabache B, et al. Journal of Environmental Management, 2020, 263: 110396. [本文引用:2]
[9] Carstea E M, Bridgeman J, Baker A, et al. Water Research, 2016, 95: 205. [本文引用:3]
[10] Yu H, Song Y, Du E, et al. Environmental Science and Pollution Research, 2016, 23: 10644. [本文引用:1]
[11] Henderson R K, Baker A, Murphy K R, et al. Water Research, 2009, 43(4): 863. [本文引用:1]
[12] Mangalgiri K P, Timko S A, Gonsior M, et al. Environmental Science & Technology, 2017, 51(14): 8036. [本文引用:1]
[13] Li J C, Wang L, Geng J J, et al. Chemosphere, 2020, 251: 126375. [本文引用:1]
[14] Xie M W, Chen M, Wang W X. Environmental Pollution, 2018, 243B: 1528. [本文引用:1]