紫外吸收光谱结合SPA-ELM算法的水体磷酸根离子检测研究
郑培超, 尹义同, 王金梅*, 周椿棪, 张莉, 曾金锐, 吕强
重庆邮电大学光电工程学院, 光电信息感测与传输技术重庆重点实验室, 重庆 400065
*通讯作者 e-mail: wangjm@cqupt.edu.cn

作者简介: 郑培超, 1980年生, 重庆邮电大学光电工程学院教授 e-mail: zhengpc@cqupt.edu.cn

摘要

在工业锅炉中随着水蒸气蒸发, 大量的钙镁离子留在炉水中, 如果不加处理, 在水冷管中会形成水垢, 造成爆管停炉。 为了保障设备的安全运行, 消除安全隐患, 工业上通过维持水中一定含量的磷酸根离子来去除锅炉中的钙、 镁水垢。 传统的磷酸根离子检测技术主要有比色法、 分光光度法、 色谱法、 电位法等, 这些方法前期处理步骤较繁琐且耗时较长。 光谱法是通过测定物质的吸收光谱并建立和浓度关系的数学模型, 对物质浓度定量的一种分析方法。 为了满足磷酸根离子快速、 实时测量的要求, 提出了一种基于紫外吸收光谱结合SPA-ELM算法快速测量磷酸根离子的方法。 按照我国《工业锅炉水质GB/T 1576—2018》中所规定的进入热水锅炉前的水质参数要求, 配置37份浓度范围在5~100 mg·L-1磷酸根溶液, 使用搭建的实验装置, 采集紫外吸收光谱。 使用SPXY将样品按照7∶3的比例随机划分训练集、 测试集; 使用Savitzky-Golay(S-G)滤波对数据预处理以提高光谱的信噪比; 通过连续投影算法(SPA)压缩光谱数据, 筛选出5个与磷酸根强相关的特征波长; 使用极限学习机(ELM)将特征波长处的吸光度与样本浓度进行拟合, 以决定系数 R2和均方根误差RMSE作为模型评价指标, 建立磷酸根离子的回归模型。 采用所提出的建模方法所建立的模型训练集的 R2与RMSE分别为0.997 2和1.301 5 mg·L-1, 测试集的 R2与RMSE分别为0.999 5和0.517 4 mg·L-1。 为了验证所提出的SPA-ELM预测模型效果, 另外建立了LASSO-ELM、 PCA-ELM、 SPA-PLS和SPA-SVR四种预测模型进行对比。 实验结果表明, SPA-ELM建立的预测模型的R2和RMSE均优于其他四种预测模型, 说明采用的特征选择方法和回归方法均为最优, 能够对磷酸根浓度范围为5~100 mg·L-1的水体进行准确预测, 为水中磷酸根离子的检测提供了一种新的解决方法。

关键词: 磷酸根离子; 紫外吸收光谱; 连续投影算法; 极限学习机
中图分类号:O433.4 文献标志码:A
Study on the Method of Detecting Phosphate Ions in Water Based on Ultraviolet Absorption Spectrum Combined With SPA-ELM Algorithm
ZHENG Pei-chao, YIN Yi-tong, WANG Jin-mei*, ZHOU Chun-yan, ZHANG Li, ZENG Jin-rui, LÜ Qiang
Chongqing Municipal Level Key Laboratory of Photoelectronic Information Sensing and Transmitting Technology, College of Optoelectronic Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
*Corresponding author
Abstract

With the evaporation of water vapor in industrial boilers, a large amount of calcium and magnesium ions are left in the boiler water. If not treated, scale will form in the water-cooled tubes, causing tube explosion and boiler shutdown. In order to ensure the safe operation of the equipment and eliminate potential safety hazards, the calcium and magnesium scale in the boiler is removed by maintaining a certain amount of phosphate ions in the water.The traditional detection techniques for phosphate ions mainly include colorimetry, spectrophotometry, chromatography, potentiometry, etc. These methods have cumbersome and time-consuming preliminary processing steps. The spectroscopic method is an analytical method to quantify the concentration of a substance by measuring the absorption spectrum and establishing a mathematical model of the relationship between the concentration and the substance. A method for rapidly measuring phosphate ions based on ultraviolet absorption spectroscopy and the SPA-ELM algorithm was proposed. According to the water quality parameter requirements before entering the hot water boiler stipulated in “Industrial Boiler Water Quality GB/T 1576—2018”, 37phosphate ion solutions with the concentration range of 5~100 mg·L-1 were prepared, and the UV absorption spectrum was collected using the established experimental equipment. The training and test sets were divided randomly according to the ratio of 7∶3 by SPXY. Data were preprocessed by Savitzky-Golay (S-G) filtering to improve the signal-to-noise ratio of the spectrum. The dimensionality of the spectrum was reduced by Successive Projection Algorithm(SPA). Five characteristic wavelengths strongly correlated with phosphate ionswere screened out. Finally, the Extreme Learning Machine(ELM) was used to fit the absorbance at the characteristic wavelength with the sample concentration, and the regression model of phosphate ions was established with R2 and RMSE as the evaluation indexes of the model. The R2 and RMSE of the training set established by the method proposed in this paper are 0.997 2 and 1.301 5 mg·L-1, and the R2 and RMSE of the test set are 0.999 5 and 0.517 4 mg·L-1. In order to verify the effect of the SPA-ELM prediction model proposed, four other prediction models, LASSO-ELM, PCA-ELM, SPA-PLS and SPA-SVR, were established for comparison. The experimental results show that the R2 and RMSE of the prediction model established by SPA-ELM are better than those.It shows that both the feature selection and regression methods adopted in this paper are optimal. The modelling method adopted in this paper can accurately predict the water with phosphate concentration ranging from 5 to 100 mg·L-1, which provides a new solution for detecting phosphate ions in water.

Keyword: Phosphate ions; UV absorption spectrum; Successive projection algorithm; Extreme learning machine
引言

在工业锅炉中随着水蒸气蒸发, 大量的钙镁离子留在炉水中, 如果不加处理, 在水冷管中会形成水垢, 造成爆管停炉[1]。 为了保障设备的安全运行, 消除安全隐患, 工业上通过维持水中一定含量的磷酸根离子来去除锅炉中的钙、 镁水垢。 磷酸根离子浓度过低, 无法防止和去除水垢; 而磷酸根浓度过高, 会影响pH值, 对锅炉造成腐蚀[2, 3]。 因此锅炉水中磷酸根含量的快速、 实时检测对设备的安全运行和工业的安全生产活动具有重要意义[4]

传统的磷酸根离子检测技术主要有比色法、 分光光度法、 色谱法、 电位法等[5]。 其中比色法通过比较待测溶液和标准溶液的颜色来确定磷酸根离子的含量, 我国工业锅炉水质检测目前采用这种方法, 其受人为主观因素影响较大[6]; 分光光度法需要添加药品并将样品消解为正磷酸盐, 前期处理步骤较繁琐且耗时较长[7]; 离子色谱法利用离子交换柱分离阴、 阳离子, 但色谱柱造价昂贵并且操作复杂[8]; 电位法通过电极间的电位差来计算磷酸根离子浓度, 虽然避免了人为主观因素, 但易受到温度、 电势的影响[9]

随着光电检测技术的发展, 检测技术普遍提高。 紫外-可见吸收光谱法(UV-VIS)是通过测定物质的吸收光谱并建立和浓度关系的数学模型, 对物质浓度定量的一种分析方法。 Chen[10]基于紫外-可见吸收光谱测定混合溶液中硝酸盐、 化学需氧量和浊度的浓度, 相关系数均大于0.9, 预测值的均方根误差在0.696~2.337之间。 Yu[11]等基于神经网络模型来预测农药的浓度, 预测值和真实值的误差在1%以内。 Marie-Noë lle Pons[12]等采集摩泽尔河流域的900份水样, 建立了硝酸盐浓度和紫外吸收光谱的线性关系, 决定系数R2为0.75。

目前使用吸收光谱测量水中磷酸根的研究较少。 本工作采集了磷酸根溶液的紫外吸收光谱, 使用Savitzky-Golay(S-G)滤波对光谱进行预处理, 使用SPA-ELM混合算法建立吸收光谱和浓度的预测模型, 以实现磷酸根的快速、 实时测量。

1 实验部分
1.1 设备

实验装置如图1所示, 吸收支架两侧嵌有光纤准直镜, 氘卤灯光源(闻奕光电, DH-mini紧凑型)发出的紫外-可见光通过光纤连接到光纤准直镜, 准直后的光线平行通过样品池后又经光纤准直镜汇聚, 光谱仪(复享光学, PG2000pro)采集到的光谱数据通过计算机软件保存并处理。

图1 实验平台Fig.1 The experimental platform

1.2 样品制备

我国《工业锅炉水质GB/T 1576— 2018》中规定了进入热水锅炉前的水质参数要求, 其中磷酸根的浓度要求在5~50 mg· L-1范围内。 样品使用十二水磷酸三钠(分析纯, 川东化工)药品配置。 准确称量0.4 g十二水磷酸三钠溶于100 mL去离子水中, 配置成1 000 mg· L-1的磷酸根标准溶液, 随后逐级稀释成不同浓度的磷酸根标准溶液, 浓度范围为5~100 mg· L-1。 使用搭建的实验装置, 设置光谱仪参数积分时间、 平均次数、 平滑度分别为45 ms、 11次和3。 共采集了37份不同浓度的待测样品的吸收光谱, 如图2所示。

图2 磷酸根溶液紫外吸收光谱图Fig.2 UV absorption spectra of phosphate ions solution

从图2可以看出, 磷酸根溶液的吸收光谱信号主要集中在180~220 nm范围内, 磷酸根浓度为5 mg· L-1时, 吸收峰在190 nm, 吸光度为0.07 a.u.。 随着浓度升高, 吸收强度逐渐增加, 并且吸收峰发生红移, 浓度为100 mg· L-1时, 吸收峰在195 nm, 吸光度为1.0 a.u.。 这是因为随着浓度升高, 微观上吸光物质粒子间的距离减小、 相互作用力增强, 导致摩尔吸收系数改变。

1.3 数据处理

使用SPXY算法将获得的紫外-可见吸收光谱数据按照7∶ 3的比例随机划分成训练集和测试集, 分别对训练集和测试集的数据进行S-G滤波、 SPA特征选择, 使用ELM建立训练集吸收光谱和浓度关系的模型, 然后将测试集光谱数据输入模型, 输出测试集的磷酸根离子预测浓度。 最后, 计算出决定系数R2和均方根误差RMSE来评价模型。

1.3.1 S-G滤波

S-G平滑滤波可以在滤除高频噪声的同时提高光谱的平滑性, 可以有效提高光谱的信噪比[13]。 基本原理如图3所示, 将m个波长点视为一个窗口, 数据记为集合{Xm-2, Xm-1, Xm, Xm+1, Xm+2}, 利用n阶多项式拟合后的值来取代Xm, 然后窗口依次移动一个框长度的距离, 直到把所有数据点遍历完。

图3 S-G滤波原理示意图Fig.3 Schematic diagram of S-G filtering principle

使用3阶多项式、 框长度为5的滤波窗口对数据预处理, 滤波后的吸收光谱如图4。

图4 S-G滤波后紫外吸收光谱图Fig.4 UV absorption spectra after S-G filtering

1.3.2 特征波长选择

在S-G滤波后, 为了筛选出磷酸根吸收光谱的特征波长, 使用连续投影算法(successive projections algorithm, SPA)选择与磷酸根浓度强相关的波长[14, 15]。 SPA的具体步骤如下:

(1) 输入磷酸根的吸收光谱数据, 并设定挑选的特征波长个数为N

(2) 记迭代次数为n, 任选吸收光谱数据的第j列作为初始波段赋值给xj, 记为xk(n), 去除初始波段后剩下的波段集合记为S

(3) 计算初始化波段和未选择波段的投影映射记为pxj, p为投影算子。

(4) 选择最大投影向量的光谱波长

k(n)=arg(max(pxj), jS)(1)

(5) 将最大投影值作为下次迭代的初始值

xj=pxj(2)

n=n+1, 若n< N, 返回步骤3。

(6) 确定选择波段序列。 当n=N时, 选择出与磷酸根浓度强相关的波长集合为:

{k(n), n=0, , N-1}(3)

所选择的特征波长个数与位置如图5所示。 当特征向量个数为5时, SPA内置回归模型的RMSE最小, 为1.707 8 mg· L-1。 所选波长分别为183.27、 192.86、 202.91、 215.35和219.65 nm。

图5 SPA结果(a)内置模型回归结果(b)特征波长所在位置Fig.5 Results of SPA (a) Regression results of built-in model (b) Location of characteristic wavelengths

1.3.3 建立回归模型

筛选出特征波长后, 使用极限学习机(extreme learning machine, ELM)建立光谱数据与物质浓度的模型。 ELM由输入层, 隐含层, 输出层三层组成, 隐含层仅有一个, 权值和偏置随机给定, 具有较强的非线性建模能力[16]

具体训练过程如下:

(1) 设置隐含层隐藏节点数L, 随机产生权重矩阵w和偏移矩阵b

(2) 输入数据集{xi, ti|xiRn, tiRm, i=1, 2, …, N}, 则单隐层神经网络可以表示为

i=1Lβig(wixi+bi), i=1, 2, 3, , N(4)

(3) 为使预测精度最高, 即存在β iwibi使得

i=1Lβig(wixi+bi)=ti, i=1, 2, 3, , N(5)

矩阵表示为=T

(4) 求最优解β *

β* =H+T(6)

与需要多次迭代的传统学习算法相比, ELM的反向传播参数调节过程无需耗时, 故其具有建模过程简单、 建模速度快等特点, 适用于快速学习应用场景, 与我们实时、 快速检测的需求相适应[17, 18]

1.3.4 模型评价指标

模型的性能采用决定系数R2和均方根误差RMSE评价。 R2∈ [0, 1], 用来判断回归方程的拟合程度, 拟合情况越好越接近1。 RMSE用来反映测量精度, 越接近0代表预测值越接近真实值[19, 20]

R2和RMSE的计算方法如式(7)

R2=i=1n(pi-p̅)(oi-o̅)i=1n(pi-p̅)2+i=1n(oi-o̅)22(7)

RMSE=i=1n(pi-oi)2n(8)

式中, noio̅pip̅分别为样本个数、 磷酸根真实值、 磷酸根真实值的均值、 磷酸根预测值、 磷酸根预测值的均值。

2 结果与讨论

光谱数据训练集和测试集的拟合曲线如图6所示。 所建立的定量分析模型训练集R2为0.997 2, 测试集R2为0.999 5。

图6 SPA-ELM模型回归结果
(a): 训练集; (b): 测试集
Fig.6 SPA-ELM prediction model regression
(a): Training set; (b): Test set

说明建模方法正确, 所建立的模型具有较好的稳健性以及适应能力, 能够完成水体中磷酸根离子的检测。

为了验证预测模型的效果, 分别建立LASSO-ELM、 PCA-ELM、 SPA-PLS以及SPA-SVR四种模型, 与本文提出的SPA-ELM模型进行对比。 从图7可以看出SPA-ELM模型的波动较小, 其中编号为9、 真实值为15 mg· L-1的样本相对误差最大, 仅有5.6%。 SPA-ELM模型明显优于其他几种模型。

图7 不同分析模型中的相对误差(测试集)Fig.7 Relative errors in different analytical models (Test set)

为了更直观地体现模型的预测精度, 表1列出了基于LASSO、 PCA和SPA算法进行特征选择的测试集回归结果。 由表1可以看出, 对于10个测试集数据, 分别采用LASSO、 PCA和SPA算法进行特征选择, 使用ELM进行回归测试, 其平均相对误差分别为6.39%、 8.32%和1.90%, 采用SPA算法作为特征选择方法可以获得更低的相对误差。 表2列出了不同回归方法的测试集回归结果。 五种模型平均相对误差分别为6.39%、 8.32%、 2.78%、 4.06%、 1.90%, 证明了SPA-ELM模型的优越性。

表1 不同特征选择方法的测试集回归结果 Table 1 Test set regression results of different feature selection methods
表2 不同回归方法的测试集回归结果 Table 2 Test set regression results of different regression methods

表3比较了不同分析模型的决定系数和均方根误差。 SPA-ELM模型测试集的决定系数R2为0.999 5, 相比于其他4种模型分别提高了1.00%、 3.45%、 0.68%、 0.76%; RMSE为0.517 5, 相比于其他4种模型分别降低了81%、 89%、 79%、 70%。 说明所提出的模型优于其他模型。

表3 不同分析模型的评价参数 Table 3 Evaluation parameters of different analytical models
3 结论

以磷酸根溶液作为研究对象, 使用S-G滤波对数据预处理以提高光谱的信噪比, 通过连续投影算法SPA对光谱进行降维, 筛选出5个与磷酸根强相关的特征波长, 最后使用极限学习机ELM将特征波长处的吸光度与样本浓度进行拟合建立磷酸根离子的回归模型, 并与LASSO-ELM、 PCA-ELM、 SPA-PLS以及SPA-SVR模型进行对比。 数据表明, 预测模型测试集的决定系数R2与RMSE分别为0.999 5和0.517 4 mg· L-1, 说明本文中采用的建模方法能够对磷酸根浓度范围为5~100 mg· L-1的水体进行准确预测, 为水体磷酸根离子的检测提供了一种新的解决方法。

参考文献
[1] Tomasz Swiᶏtkowski, Sylwester Kalisz, Joanna Wnorowska. Results in Engineering, 2022, 13: 100350. [本文引用:1]
[2] Ardy Husaini, Putra Yudhistira Perdana, Anggoro Adimas Dwi, et al. Heliyon, 2021, 7(2): e06151. [本文引用:1]
[3] Liu Shijie, Wu Haomin, Zhao Qinxin, et al. Engineering Failure Analysis, 2022, 142: 106847. [本文引用:1]
[4] van Puijenbroek P J T M, Beusen A H W, Bouwman A F. Journal of Environmental Management, 2019, 231: 446. [本文引用:1]
[5] Zhu Xiangyu, Ma Jian. TrAC Trends in Analytical Chemistry, 2020, 127: 115908. [本文引用:1]
[6] Cao Pingping, Zhu Yuanyang, Zhao Wenzhu, et al. Water, 2019, 11(11): 2339. [本文引用:1]
[7] Akhter Fowzia, Siddiquei H R, Alahi Md Eshrat E, et al. Sensors and Actuators A: Physical, 2021, 330: 112861. [本文引用:1]
[8] Mohammad S El-Shahawi, Hassan Alwael. Microchemical Journal, 2019, 149: 103987. [本文引用:1]
[9] Wei Hong, Pan Dawei, Zhou Zhengwen, et al. Ecotoxicology and Environmental Safety, 2021, 221: 112444. [本文引用:1]
[10] Chen Xiaowei, Yin Gaofang, Zhao Nanjing, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 244: 118827. [本文引用:1]
[11] Yu Yinshan, Qu Yan. Optik, 2020, 217: 164915. [本文引用:1]
[12] Marie-Noëlle Pons, Aziz Assaad, Chafatayne Oucacha, et al. Ecohydrology & Hydrobiology, 2017, 17(1): 46. [本文引用:1]
[13] Hugh L Kennedy. Digital Signal Processing, 2020, 102: 102743. [本文引用:1]
[14] ZHENG Pei-chao, ZHAO Wei-neng, WANG Jin-mei, et al(郑培超, 赵伟能, 王金梅, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(1): 136. [本文引用:1]
[15] Gabriela Krepper, Florencia Romeo, David Douglas de Sousa Fernand es, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2018, 189: 300. [本文引用:1]
[16] Yaseen Z M, Sulaiman S O, Deo R C, et al. Journal of Hydrology, 2019, 569: 387. [本文引用:1]
[17] Maciel Daniel Andrade, Barbosa Claudio Clemente Faria, Novo Evlyn Márcia Leão de Moraes, et al. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 182: 134. [本文引用:1]
[18] Lekomtsev Aleksand er, Keykhosravi Amin, Moghaddam Mehdi Bahari, et al. Petroleum, 2022, 8(3): 424. [本文引用:1]
[19] Deeksha Chand ola, Harsh Gupta, Vinay Anand Tikkiwal, et al. Procedia Computer Science, 2020, 167: 626. [本文引用:1]
[20] Spangenberg Martin, Bryant James I, Gibson Sam J, et al. Scientific Reports, 2021, 11(1): 3682. [本文引用:1]