基于KPCA-PSO-ELM算法的地表水化学需氧量紫外-可见吸收光谱检测研究
郑培超, 周椿棪, 王金梅*, 尹义同, 张莉, 吕强, 曾金锐, 何雨欣
重庆邮电大学光电工程学院, 光电信息感测与传输技术重庆重点实验室, 重庆 400065
*通讯作者 e-mail: wangjm@cqupt.edu.cn

作者简介: 郑培超, 1980年生, 重庆邮电大学光电工程学院教授 e-mail: zhengpc@cqupt.edu.cn

摘要

化学需氧量(COD)是水质检测重要指标之一, 反映水体有机物含量。 传统的COD化学检测方法存在操作繁琐, 等待时间长, 二次污染等缺点。 紫外-可见吸收光谱法是目前水体化学需氧量检测中应用最为广泛的方法之一, 具有检测快速、 无污染等特点。 为了满足地表水化学需氧量快速、 实时、 在线监测等要求, 采用紫外-可见吸收光谱进行测量, 提出了内核主成分分析(KPCA)结合粒子群优化极限学习机(PSO-ELM)预测模型, 满足当前对地表水化学需氧量快速、 实时监测的要求。 对光谱进行Savitzky-Golay(SG)滤波以降低随机噪声的影响; 用积分光谱代替原光谱, 以降低信号波动带来的影响; 再将得到的光谱信息归一化, 消除不同光谱数据量纲的影响。 将预处理后的数据利用KPCA算法将全光谱数据压缩为5个特征, 有效解决光谱信息冗余的问题; 采用PSO算法对ELM的权重和偏置进行优化极大提高了模型的精度。 对217个河流、 长江及支流、 湖库等地表水样本按照7:3随机划分成训练集和测试集, 并进行建模测试, 其中训练集拟合优度( R2)为0.930 2、 均方根误差(RMSE)为0.363 0 mg·L-1、 测试集拟合优度 R2为0.931 9、 均方根误差(RMSE)为0.400 7 mg·L-1。 为了验证提出的基于KPCA全光谱数据压缩方法对预测模型的提升效果, 分别对比了主成分分析(PCA)、 连续投影算法(SPA)、 套索回归(LASSO)等特征处理算法。 PCA-PSO-ELM模型的RMSE为0.715 1 mg·L-1、 SPA-PSO-ELM模型的RMSE为0.473 7 mg·L-1、 LASSO-PSO-ELM模型的RMSE为0.412 6 mg·L-1, KPCA-PSO-ELM模型较上述三种模型, RMSE分别降低了78.46%、 18.22%、 2.97%, 结果表明KPCA是一种高效的光谱降维算法, 能够有效消除光谱冗余信息, 提升模型预测精度。 基于KPCA-PSO-ELM预测模型结合紫外-可见吸收光谱可以实现对地表水COD快速、 实时检测, 为在线COD检测场景提供方法支撑。

关键词: 化学需氧量; 紫外-可见吸收光谱; 内核主成分分析; 极限学习机
中图分类号:O657.3 文献标志码:A
Study on the Detection Method of COD in Surface Water Based on UV-Vis Spectroscopy
ZHENG Pei-chao, ZHOU Chun-yan, WANG Jin-mei*, YIN Yi-tong, ZHANG Li, LÜ Qiang, ZENG Jin-rui, HE Yu-xin
Chongqing Municipal Level Key Laboratory of Photoelectronic Information Sensing and Transmitting Technology, College of Optoelectronic Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
*Corresponding author
Abstract

Chemical Oxygen Demand (COD) is one of the important indicators of water quality detection, reflecting the organic content of water. Traditional chemical detection methods for COD have disadvantages, such as complicated operation, long waiting times and secondary pollution. UV-Vis spectrometer has been one of the most widely acceptable methods for detecting COD because of its rapidity detection and no pollution. In order to satisfy the requirement of detecting COD of surface water rapidity, real-time and on-line, a model of kernel principal component analysis (KPCA) combined with particle swarm optimization extreme learning machine (PSO-ELM) was developed for COD prediction of surface water based on UV-Vis spectrometer. Savitzky-Golay filtering was employed to smooth the spectrum. The integral spectrum was substituted for the processed spectrum to decrease the impact of fluctuations. In the meantime, spectrum normalisation was used to eliminate the impact caused by different dimensions of spectrum data. The KPAC algorithm was used to compress the whole spectrum into 5 features, effectively solving the spectral information redundancy problem. PSO algorithm was used to optimize the weight and bias of ELM, which improved the model's accuracy. 217 surface water samples, such as rivers, Yangtze River, lakes and reservoirs, were randomly divided into training sets and test sets according to 7:3, and modeling tests were conducted. The R-squared ( R2) of the training set was 0.930 2, the root mean square error (RMSE) of the training set was 0.363 0 mg·L-1, the R-squared ( R2) of the test set was 0.931 9, and the root mean square error (RMSE) of test set was 0.400 7 mg·L-1. In order to verify the improvement of the KPCA based on the full spectrum compression method, data Compression algorithms such as principal component analysis (PCA), successive projection algorithm (SPA) and Lassoregression (LASSO) were compared. The RMSE of PCA-PSO-ELM model, SPA-PSO-ELM model and LASSO-PSO-ELM model was 0.715 1, 0.473 7 and 0.412 6 mg·L-1, respectively. It was shown that the results of the KPCA-PSO-ELM model were better than the above three models, and RMSE decreased by 78.46%, 18.22% and 2.97%, showing that KPCA is an efficient spectral dimension reduction algorithm, which can effectively eliminate spectral redundant information and improve the prediction accuracy of the model. The KPCA-PSO-ELM proposed can realize fast and real-time monitoring of COD in surface water, which can provide algorithm reference for the scene of online water quality monitoring of rapid pollution. As a basic chemical oxygen demand detection research, it provides method reference for online monitoring scenarios for chemical oxygen demand.

Keyword: Chemical oxygen demand; UV-Vis spectroscopy; Kernel principal component analysis; Extreme learning machine
引言

随着社会和工业发展, 大量生产生活废水直接排入地表水域中, 造成严重污染。 由水污染带来的问题已经严重影响社会发展。 化学需氧量(chemical oxygen demand, COD)是水质检测的重要指标, 用于表征水体有机物含量。 化学需氧量越大, 说明水体污染越严重, 对生物危害越大。 目前, 化学需氧量检测方法主要是重铬酸钾耗氧量(CODcr)和高锰酸钾耗氧量(CODMn)等实验室化学方法。 传统化学方法存在分析时间长、 二次污染等缺点, 难以满足实际场景下的检测要求。 为了防止水体污染继续加重, 亟需发展一种水质COD的快速、 实时检测方法。

近年来, 由于光谱法快速、 无污染等优点, 被广泛应用到水质检测中。 针对水质污染物常用的光谱检测技术有荧光光谱、 近红外光谱及紫外吸收光谱等[1, 2, 3, 4]。 其中, 紫外-可见吸收光谱(UV-Vis)作为一种高效、 实时、 精确的光谱方法。 通过测量水体吸光度实现水质COD的定量分析, 是当前水质检测中运用最为广泛的光谱技术之一[5, 6, 7]

目前, 使用紫外吸收光谱进行COD的检测多采用基于单波长和多波长的方法, 采用COD在其某些特定波长下的吸收峰实现其定量分析。 Mai等[8]采用吸收光谱在254 nm处的吸光度结合偏最小二乘回归和主成分回归对印染废水COD进行检测, 将结果相对误差控制在5%以内。 方坷昊等[9]采用COD在240~300 nm波段内的特征波长和560 nm处的特征波长建立非线性预测模型, 标准溶液预测结果误差控制在3.5%内。 Zhang等[10]采用400和600 nm处斜率对紫外-吸收光谱的一阶导数光谱进行补偿, 将PLS预测模型R-squared(R2)提升至0.99。 然而, 实际水体组分复杂, 存在浊度、 色度等干扰, 单波长或多波长模型难以满足预测的需求[11, 12, 13]

基于全光谱的化学需氧量检测方法, 逐渐成为当前研究热点。 张峥等[14]使用主成分分析对全光谱数据进行压缩, 并联合粒子群优化极限学习机(particle swarm optimization extreme learning machine, PSO-ELM)算法对COD进行检测, 较ELM模型运行效率提升了一个量级。 Li等[15]使用改进的bagging算法对全光谱数据建模, 测试集R2达到了0.931 7, RMSEP降低到5.39 mg· L-1。 对于实际水体的检测, 全光谱预测模型较单波长和多波长预测模型具备良好的抗干扰能力和较高的预测精度。 基于全光谱数据模型存在信息冗余、 高特征维度、 干扰复杂等缺点, 会导致模型无法收敛或过拟合。 对光谱信息进行预处理和数据压缩方法直接影响全光谱吸收光谱法对COD的预测精度。

由于实际水体成分复杂, 紫外-吸收光谱存在非线性变化。 内核主成分分析作为一种非线性数据压缩方法, 可以有效处理线性不可分的数据集。 本工作提出了一种基于内核主成分分析的全光谱水体化学需氧量检测方法。 使用内核主成分分析对全光谱数据进行压缩, 建立基于粒子群优化的极限学习机回归模型, 以实现对COD快速、 实时检测。

1 实验部分
1.1 装置

实验装置如图1所示, 主要包括光源、 光谱仪、 样品槽、 光纤等。 光源采用氘卤灯(爱万提斯, Avalight-Hal-Cal-Mini), 光源的出射光经光纤耦合到10 mm× 10 mm× 30 mm石英比色皿。 产生的透射光经光纤光谱仪(复享光学, NOVA)接收。 采集到的光谱数据传输到计算机中进行数据处理与建模。

图1 实验装置示意图Fig.1 Schematic diagram of the experimental setup

1.2 样品

采集了重庆主城内长江、 嘉陵江、 盘龙溪、 白溪、 白云水库、 丰收水库所采集到的6类地表水共217个样本。 所有样本经实验室化学法(CODMn)测定后, 作为光谱法建模结果的参考。 采用紫外-可见吸收光谱对水体有机物定量分析的理论基础是朗伯-比尔定律, 不同的有机物有不同吸收峰, 不同浓度的污染物吸收强度也不同。 图2是以去离子水为参比, 待测样品所采集到的紫外-可见吸收部分光谱, 可以看出吸收段主要集中在400 nm之前, 吸收峰在200 nm附近。

图2 地表水紫外-可见吸收光谱Fig.2 UV-Vis spectrum of surfacewater

1.3 数据处理

光谱数据处理流程如图3所示。 将数据按照7:3的比例随机划分成训练集和测试集, 然后对训练集和测试集的光谱数据进行去噪、 增强、 特征提取等处理, 对训练集光谱数据进行回归模型训练, 得到光谱-COD浓度的反演模型; 再将测试集的光谱数据输入训练集的反演模型, 进行光谱数据与COD浓度反演, 获得测试集的COD浓度。

图3 光谱数据处理流程Fig.3 Spectrum data processing process

1.3.1 光谱数据预处理

光谱数据中既有信息, 同时又包含了噪声。 采用Savitzky-Golay(SG)滤波算法对光谱进行滤波处理, 可以有效抑制随机噪声, 提高信噪比。 原始输入数据用给定的多项式的拟合值代替, 对每个数据反复此操作, 直到得到所有数据的平滑值[16]。 采用窗口大小为21、 多项式阶数为3的SG滤波, 滤波算法也可以看作是一种加权平均的过程。 为了降低由于信号波动带来的影响, 再将滤波后每个波长下的吸光度用区间积分值代替, 即每一个点的值都用该点前后10个点的积分值代替。 不同样本光谱数据积分后, 会产生数据量纲带来误差, 还需要将所有光谱数据进行归一化。 经过滤波、 增强和归一化等预处理后的数据较未处理的光谱更为平滑, 此时不同样本在此吸收段内的区别更明显, 如图4所示。

图4 预处理后紫外-可见吸收光谱图Fig.4 UV-Vis spectrum after pretreatment

1.3.2 核主成分分析算法

内核主成分分析(kernel principal component analysis, KPCA)作为主成分分析(principal component analysis, PCA)改进算法, 是一种针对非线性数据的特征压缩方法。 KPCA借助映射函数将数据从原始空间映射到高维特征空间H中, 使得数据在高维空间中可分[17], H中映射函数数据的协方差矩阵表示为式(1)

CH=1nk=1nφ(xi)φ(xi)T(1)

计算协方差矩阵CH的特征值和特征向量, 其特征值为λ , 特征矢量β 。 此时定义矩阵M=[Mi, j]n× n, Mi, j=(φ i)· (φ j), 可通过核函数来确定。 β kβ 的第k个特征矢量, 对其进行归一化处理, 即β kβ k=1则可得到原始空间中任意一样本x的映射数据φ (x)在特征矢量β k上的投影为式(2)

[βk·φ(x)]=i=1nαik[φ(xi)φ(x)](2)

将映射数据中心化得到数据第k维的非线性主成分为式(3)

tk=i=1nα̅ik[φ(x̅i)·φ(x̅)]=αiki=1nα̅ikM̅(xi, x)(3)

1.3.3 粒子群优化算法

粒子群优化算法模拟鸟群觅食行为, 每个粒子都代表种群中的个体。 每个粒子初始位置都是随机, 通过不断迭代从潜在解中找到当前最优解[18, 19]。 计算每次迭代后适应度函数以更新个体和群体极值。 粒子群优化算法中粒子速度和位置的更新公式如式(4)和式(5)

Vid(t+1)=wvid(t)+c1r1[Pid-Xid(t)]+c2r2[gid-Xid(t)](4)

χid(t+1)=χid(t)+vid(t+1)(5)

式(4)和式(5)中, w为惯性权重, c1c2分别为个体和群体的学习因子, r1r2为[0, 1]之间随机数。 通过不断迭代确定粒子的最优解。 权重w设置为0.6, 学习因子c1, c2设置为2。

1.3.4 极限学习机算法

假定存在N个不同样本(xi, yi), 其中特征xiRn, 标签yiRm, 具有K个隐含层节点前馈神经网络输出可以表示为

fL(x)=i=1KβiG(αixi+bi), xiRn, βiRm(6)

式(6)中, G(x)为网络的激励函数, α i是第i个连接输入层到隐含层节点的权值, bi则是第i隐含层节点的偏差, β i是第i个连接隐含层节点到输出的权值。 若存在K个隐含层节点的前馈神经网络能以零误差逼近全部个样本, 则存在α i, bi, β i使得式(7)和式(8)成立

fL(x)=i=1KβiG(αixi+bi)=yi,  i=1, 2, 3, , K(7)

=Y(8)

式(8)中, W为隐含层输出矩阵, 当隐含层输出权值和偏差确定, 则隐含层输出矩阵W也唯一确定, 计算式(7)最小二乘解就可完成网络的训练[20], 输出权值矩阵 β如式(9)

β=W+Y(9)

式(9)中, W+为隐含层输出矩阵W的Moore-penrose广义逆。

1.3.5 KPCA-PSO-ELM回归模型

ELM的初始输入权值和隐含层偏差是随机给定的, 而输出权值矩阵则是由输入权值矩阵和隐含层偏差计算得到, 通常会导致部分隐含层节点失效; 在实际应用中ELM可能需要设置一定数量的神经元才能达到理想的精度。 因此采用粒子群优化算法对ELM的输入权值矩阵和隐含层偏差进行优化, 可以得到最优的神经网络。 对于模型中隐含层神经元, 一般问题设置为20~40, 此处设为30, 将RMSE作为适应度函数, 即模型的评价指标。 使用KPCA对预处理过的光谱数据进行压缩, 再将数据输入到ELM模型中, 最后使用PSO对ELM模型进行优化, KPCA-PSO-ELM流程图如图5所示。

图5 KPCA-PSO-ELM流程图Fig.5 Flow chart of KPCA-PSO-ELM

2 结果与讨论

图6给出了利用KPCA-PSO-ELM模型的参数优化结果。 由图6(a)可以看出, 采用KPCA对光谱数据进行压缩, 方差贡献率随着主成分数量增加快速上升, 在第5个核主成分时候方差累计贡献率到达0.999, 内核主成分分析对光谱数据有明显的降维效果。 图6(b)显示粒子群优化算法经过前100次迭代后适应度快速下降到一个稳定值, 200次迭代后不再出现明显下降, 经过500次迭代后模型训练集的RMSE下降至0.363 0 mg· L-1

图6 KPCA-PSO-ELM模型参数优化
(a): 主成分贡献率; (b): 适应度曲线
Fig.6 Parameter optimization of KPCA-PSO-ELM prediction model regression
(a): Cumulative percentage of principal component; (b): Learning curve of particleswarmoptimization

以实验数据建立的KPCA-PSO-ELM模型对地表水COD预测结果, 如图7所示。 可以看出测试集样本包含在训练集中, 训练集拟合优度R2为0.930 2[见图7(a)], 测试集拟合优度R2为0.932 0[见图7(b)], 训练集和测试集R2均在0.93以上, 仅出现了少数几个离群点, 说明该模型性能满足实际检测要求, 泛化性较好, 针对地表水有好的预测结果。

图7 KCA-PSO-ELM模型回归结果
(a): 训练集; (b): 测试集
Fig.7 KPCA-PSO-ELM prediction model regression
(a): Training set; (b): Testing set

此外, 本文还对比了PCA、 套索回归(least absolute shrinkage and selection operator, LASSO)、 连续投影算法(successive projection algorithm, SPA)光谱数据特征方法在PSO-ELM模型上的表现。 表1为数据经过PCA压缩后的结果, 可以看出第一主成分占据绝大部贡献率, 前5个主成分累计贡献率已经达到99.94%。 选取方差累计贡献率99.9%以上主成分建模。 Lasso返回非零权重的特征, 由于核参数lambda对结果影响极大, 对该参数进行了优化, 结果如图8所示。 SPA保留交叉验证下10个投影最大的特征。

表1 PCA主成分贡献率 Table 1 Principal component contribution rate of PCA

图8 Lambda交叉验证曲线Fig.8 Cross validation curve of Lambda

以上四种光谱特征方法在PSO-ELM模型测试集RMSE分别为0.400 7、 0.715 1、 0.473 7和0.412 6 mg· L-1。 由图9可以看出, 基于KPCA特征提取模型的相对误差相比于其他三种模型, 误差波动最小。

图9 不同分析模型测试集相对误差图Fig.9 Relative analysis error model of different analysis models

表2列出了测试集样本的预测值和参考值以及相对误差。 以上四种特征提取方法模型的相对误差绝对值的均值为9.26%、 17.18%、 11.73%、 11.74%, 其中KPCA仅有一个样本误差超过40%, 证明在此模型中KPCA优于其他三种方法。

表2 测试集样本COD浓度ELM回归预测值 Table 2 ELM regression prediction value of COD concentration of test set

表3为不同特征方法模型的参数比较, KPCA-PSO-ELM模型训练集的RMSE为0.363 0 mg· L-1, 拟合优度R2为0.930 2, 测试集的RMSE为0.400 7 mg· L-1, 拟合优度R2为0.931 9。 KPCA-PSO-ELM模型的训练集和测试集的R2均在0.93以上, 说明所提出的模型优于其他模型。

表3 不同特征提取模型评价参数比较 Table 3 Comparison of evaluation parameters of different analytical models
3 结论

以地表水COD作为研究对象, 建立了基于KPCA-PSO-ELM结合紫外-可见吸收光谱模型。 对比了ELM模型在PCA、 LASSO、 SPA等特征提取方法下, 模型的表现情况。 基于KPCA-PSO-ELM预测模的训练集和测试集模型R2均在0.93以上, 测试集RMSE为0.400 7 mg· L-1, 相比于其他模型的RMSE分别降低了78.46%、 18.22%、 2.97%。 结果表明, KPCA-PSO-ELM作为一种结合了非线性特征提取算法的预测模型, 能够实现对地表水COD快速、 实时的检测。

参考文献
[1] Guan Li, Tong Yifei, et al. RSC Advances, 2019, 9(20): 11296. [本文引用:1]
[2] Pan Tao, Chen Zenghai, Chen Jiemei, et al. Analytical Methods, 2012, 4(4): 1046. [本文引用:1]
[3] HE Jin-cheng, YANG Xiang-long, WANG Li-ren, et al(何金成, 杨祥龙, 王立人, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2007, 26(4): 317. [本文引用:1]
[4] Angélique Goffin, Sabrina Guérin Rechdaoui, Rocher V, et al. Environmental Monitoring and Assessment, 2019, 191(7): 421. [本文引用:1]
[5] ZHENG Pei-chao, ZHAO Wei-neng, WANG Jin-mei, et al(郑培超, 赵伟能, 王金梅, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(1): 136. [本文引用:1]
[6] Pigani L, Vasile S G, Foca G, et al. Talanta, 2017, 178: 178. [本文引用:1]
[7] Brito R S, Pinheiro H M, Ferreira F, et al. Urban Water Journal, 2014, 11(4): 261. [本文引用:1]
[8] Mai Wei, Zhang Jianfei, Zhao Xiaoming, et al. Journal of Applied Spectroscopy, 2017, 84(5): 1. [本文引用:1]
[9] FANG Ke-hao, ZHAO Ling(方坷昊, 赵凌). Transducer and Microsystem Technologies(传感器与微系统), 2018, 37(10): 35. [本文引用:1]
[10] Zhang Guiping, Du Qiaoling, Lu Xiaopo, et al. Applied Sciences, 2020, 10(24): 8801. [本文引用:1]
[11] Li Jingwei, Tong Yifei, Li Guan, et al. Optik, 2019, 186: 129. [本文引用:1]
[12] Hu Yingtian, Wen Yizhang, Wang Xiaoping. Sensors and Actuators B Chemical, 2016, 227: 393. [本文引用:1]
[13] Wang Chenxi, Li Wanxiang, Huang Meizhen. Sensors and Actuators B: Chemical, 2019, 300: 126943. [本文引用:1]
[14] ZHANG Zheng, WEI Biao, TANG Ge, et al(张峥, 魏彪, 汤戈, ). Laser Journal(激光杂志), 2016, 37(4): 4. [本文引用:1]
[15] Li Jingwei, Pap Sisi, Bian Jie, et al. IEEE Access, 2021, 9: 161834. [本文引用:1]
[16] Shi Xiaowen, Yao Lijun, Pan Tao. Journal of Geoscience and Environment Protection, 2021, 9(3): 75. [本文引用:1]
[17] Lee Jong-min, Yoo ChangKyoo, Choi Sang Wook, et al. Chemical Engineering Science, 2004, 59(1): 223. [本文引用:1]
[18] Francesca Pace, Alessand ro Santilano, Alberto Godio. Surveys in Geophysics, 2021, 42: 505. [本文引用:1]
[19] Freitas Diogo, Lopes Luiz Guerreiro, Morgado-Dias Fernand o. Entropy, 2020, 22(3): 362. [本文引用:1]
[20] Huang GuangBin, Zhu Qinyu, Siew Chee-Kheong. Neurocomputing, 2006, 70: 489. [本文引用:1]