基于紫外-可见光谱的水质TOC定量分析方法
李庆波1, 魏源1, 崔厚欣2, 冯浩2, 郎嘉晔2
1.北京航空航天大学仪器科学与光电工程学院, 精密光机电一体化技术教育部重点实验室, 北京 100191
2.河北先河环保科技股份有限公司, 河北 石家庄 050035

作者简介: 李庆波, 女, 1975年生, 北京航空航天大学仪器科学与光电工程学院副教授 e-mail: qbleebuaa@buaa.edu.cn

摘要

地表水资源安全关系到国民健康、 生态环境稳定和经济可持续发展, 具有重要战略意义。 总有机碳(TOC)是一种衡量水体中有机物含量的综合指标, 其在水环境监管和治理中具有重要价值。 传统检测方法通过高温催化氧化测定水样中TOC含量具有耗时较长、 操作复杂的局限性, 紫外-可见光谱技术具有检测速度快、 操作简单的优势, 因而在水质在线检测中具有较好的应用前景。 国内外对地表水中TOC浓度的在线检测目前大多采用与COD浓度间的相关关系进行间接推算得到, 这类方法对水体成分的稳定性要求较高。 相比于常规的间接推算方法, 采用光谱定量分析方法建立TOC与紫外-可见光谱间的分析模型具有更好的鲁棒性和分析精度, 便于实现水质无人值守在线监测。 实验配置了TOC样本溶液, 设计了为期两天的实验, 在4个时间段采集得到样品光谱数据集(分别记为D1, D2, …, D6)。 首先, 通过分组实验将D1作为训练集建立TOC偏最小二乘(PLS)回归模型, 预测同一时间段测试集D2的TOC浓度, 得到平均绝对相对误差(MAPE)不超过0.78%, 表明建立的TOC定量分析模型具有较高的精度。 然后, 为验证PLS建立的TOC模型对仪器状态变化的鲁棒性, 选择不同时间段采集的光谱数据分别作为训练集和测试集, 进行不同仪器状态交叉实验, 4组实验中测试集样品TOC浓度预测值的MAPE分别为3.82%, 3.75%, 3.43%和0.98%。 实验表明, 采用PLS算法建立的TOC紫外-可见光谱定量分析模型具有较好的分析精度和鲁棒性, 分组实验和不同仪器状态交叉实验中预测浓度的MAPE均不超过3.82%, 优于常规的间接推算法。 此外, 建立的光谱定量分析模型不依赖COD与TOC间的推算关系, 因此在水环境变化时较常规推算方法具有更好的适应能力。 最后, PLS算法建模过程简单, 运算速度快, 为浸入式在线检测设备的开发和维护提供了便利。

关键词: 紫外-可见光谱; TOC; 偏最小二乘回归; 水质在线检测
中图分类号:O657.3 文献标志码:A
Quantitative Analysis of TOC in Water Quality Based on UV-Vis Spectroscopy
LI Qing-bo1, WEI Yuan1, CUI Hou-xin2, FENG Hao2, LANG Jia-ye2
1. Key Laboratory of Precision Opto-Mechatronics Technology, Ministry of Education, School of Instrumentation and Optoelectronic Engineering, Beihang University, Beijing 100191, China
2. Hebei Sailhero Environmental Protection Hi-Tech Co., Ltd., Shijiazhuang 050035, China
Abstract

The safety of surface water resources is of great strategic significance. It is related to national health, ecological environment stability and sustainable economic development. Total organic carbon (TOC) is a comprehensive index to reflect the content of organic matter in water. Hence, it has significant value in water environment supervision and treatment. This method is time-consuming and complex. UV-Vis spectroscopy technology has the advantages of fast detection speed and simple operation. Therefore it has a good application prospect in online detection of water quality. At present, the online detection methods of TOC in surface water mostly are indirectly calculated at home and abroad. These methods depend on the correlation between the concentration of COD and TOC, and they require high stability of water composition. Compared with the indirect calculation methods, the spectral quantitative analysis method has better robustness and accuracy. Moreover, this method is convenient for realizing unattended online monitoring of water quality. The experiment was equipped with TOC sample solutions, and a two-day experiment was designed. Six spectral data sets of the samples (denoted as D1, D2, …, D6) were collected in 4 time periods. Firstly, D1 was used as the training set to establish a partial least squares (PLS) regression model in the group experiment. This model was used to predict the TOC concentration of D2, and the mean absolute percentage error (MAPE) was less than 0.78%. In addition, D1 and D2 were collected in the same period. The results show that the established TOC quantitative analysis model has high accuracy. Then, to verify the robustness of the TOC model established by the PLS method to the change of instrument state, the spectral data collected in different periods were selected as the training set, the test set and the validation set. Furthermore, the cross experiments of different instrument states were performed. The MAPE of the predicted TOC concentration in the four experiments were 3.82%, 3.75%, 3.43% and 0.98%, respectively. The results show that the UV-Vis spectroscopy quantitative analysis model of TOC established by the PLS algorithm has good accuracy and robustness. The MAPE of predicted concentration in the grouping experiment and cross experiments of different instrument states are all less than 3.82%. These results are better than the conventional indirect calculation method. Moreover, the established spectral quantitative analysis model does not depend on the calculation relationship between COD and TOC. Thus, it has better adaptability than the conventional indirect calculation method when the water environment changes. Finally, the PLS algorithm has the advantages of a simple modeling process and fast operation speed. It provides convenience for the development and maintenance of submersible online detection equipment.

Keyword: UV-Vis spectroscopy; TOC; PLS regression; Water quality online detection
引言

总有机碳(total organic carbon, TOC)是从水体中有机成分含碳量的角度反映水体中有机物污染程度的重要指标。 现有的TOC在线分析仪采用高温催化氧化法将水样中的有机物消解为二氧化碳, 通过红外检测设备计量二氧化碳的浓度, 然后根据不同浓度的TOC标准液消解产生的CO2浓度建立TOC-CO2标准曲线, 进而推算待测水样中TOC浓度[1]。 紫外-可见光谱技术作为一种新兴技术应用在水质监测中, 具有检测快速、 不需要添加化学试剂、 无二次污染、 检测设备结构简单、 便于制作小型化原位在线检测设备并且维护成本较低等优势, 得到水环境保护领域的广泛研究[2, 3, 4]。 使用紫外-可见光谱技术对水中TOC定量分析目前大多通过COD浓度间接计算得到。 通常认为在同一稳定的水体中COD浓度和TOC浓度间存在相关关系[5], 有学者使用化学分析方法或专用分析仪器分别测定水样中COD和TOC的浓度, 从而建立起两种参数间的回归关系, 然后使用紫外-可见光谱法计算水样中的COD浓度进而推算TOC浓度[6]。 但这种方法的适用前提是实验水体成分相对稳定, 一旦被测水体受到降雨或季节性水文变化影响导致水体成分改变, 使用推算法得到的TOC浓度可能会有较大偏差, 需要重新校正COD和TOC间回归曲线的参数以保证TOC定量分析精度。

目前鲜有不经化学处理直接使用水样的紫外-可见光谱对样品中TOC浓度进行定量分析的相关研究。 本文使用偏最小二乘(partial least squares, PLS)回归模型建立被测水样光谱与TOC浓度间的定量模型, 可以有效避免因COD与TOC推算关系变化导致的TOC定量不准确的问题, 提高TOC定量分析方法在不同水环境中的适用性和鲁棒性。

1 实验部分
1.1 样本

根据国标TOC标准液配置方法[1], 实验使用天津市光复科技公司生产的分析纯邻苯二甲酸氢钾试剂配置有机碳标准溶液, 试剂纯度为100%± 0.05%。 使用花潮高科公司的精度为0.001 g的电子分析天平称量2.125 g邻苯二甲酸氢钾, 将其溶于蒸馏水中并移至1 000 mL容量瓶, 用蒸馏水稀释定容, 配置得到浓度为1 000 mg· L-1的TOC标准母液, 将TOC标准母液稀释, 配置成25~150 mg· L-1范围内浓度梯度均匀的35个TOC样品, 进行分组实验, 训练集和测试集分别记为D1和D2。 为进一步验证TOC定量模型的有效性, 使用前述1 000 mg· L-1的TOC标准母液稀释配置浓度为37, 49, 61, 76, 88, 109, 127和145 mg· L-1 的TOC样品作为验证集。 在前述35个样品光谱采集完成后, 关机半小时重新开机并初始化仪器状态, 仪器参数与分组实验保持一致, 然后采集验证集中8个样品的光谱, 将光谱数据集记为D3。 在第二实验日重新采集上述TOC样品光谱形成对照实验, 第二实验日的分组实验训练集、 测试集和验证集分别记为D4, D5和D6, 两个实验日共计86个TOC样品。 实验中, 使用同一份TOC标准母液进行稀释, 配置一定程度上可以减小实验试剂纯度对样品TOC浓度真值的影响。

1.2 仪器

采用河北先河环保科技股份有限公司研制的XHWPFT型浸入式水质在线分析设备作为主要实验设备。 该设备的光程长为2 mm, 使用氙灯作为光源, 光谱仪模块可以检测256个波段的吸光度值, 设置光谱仪扫描波段为188~722 nm, 则样品光谱的平均波长间隔为2 nm。 为减小随机误差, 每个浓度的TOC样品连续扫描20次, 扫描间隔为10 s, 将测得的20条光谱取平均, 作为该TOC样品对应的光谱。 所有实验均采取相同的扫描方法, 并且在相同的实验参数下进行。

1.3 方法

PLS回归是一种基于多波长吸光度值的定量回归方法, 通过将光谱矩阵投影到隐变量空间, 利用隐变量间接地将光谱数据和被测浓度联系起来, 可以有效解决不同波长光谱吸光度数据间的多重共线性问题[7]

使用PLS建立TOC定量模型的原理是将中心化后的光谱响应矩阵X0和对应浓度矩阵Y0同时进行主成分分解

X0=TPT+E(1)

Y0=UQT+G(2)

其中TU分别为X0Y0的得分矩阵, 而PQ分别为X0Y0相应的载荷矩阵, EG分别为拟合矩阵X0Y0时产生的拟合误差。 用光谱数据X0的线性组合表达得分矩阵T=X0W, 然后建立T和TOC浓度矩阵Y0间的回归关系, 将水样光谱响应与目标水质参数浓度联系起来, 其计算过程如式(3)和式(4)

Y0=TCT+F=X0WCT+F=X0B+F(3)

CT=(TTT)-1TTY0, B=WCT(4)

其中W=[w1, w2, …, wp]为权向量矩阵, p为主成分个数。 CX0的各主成分和Y0间的关联矩阵, B为回归系数矩阵, F为矩阵TY的拟合残差。 最后根据训练得到的回归系数矩阵B, 得到未知样本的TOC浓度预测值 Y^

Y^=[1, Xnew]Ymean-XmeanBB(5)

式(5)中, 1为各元素均为1的列向量, Xnew为未知样品的原始光谱矩阵, XmeanYmean分别为训练集样品光谱矩阵的均值和对应浓度矩阵均值。

2 结果与讨论
2.1 光谱特征曲线及模型评价指标

使用紫外-可见光谱技术进行水质参数定量分析时, 根据目标水质参数的光谱吸收特性选择恰当的光谱分析区间可以有效减小不同水质参数定量分析时的交叉干扰。 水体中的有机物在200~320 nm的波段有较强的特征吸收, 本文选择该波段作为TOC定量分析的光谱分析区间, 不同TOC浓度的样品光谱如图1所示, 图中不同颜色的曲线代表不同TOC浓度样品的光谱。

图1 不同浓度TOC样品吸光度光谱Fig.1 Absorbance spectra of TOC samples with different concentrations

为评价模型的定量分析精度, 使用相对误差、 相对误差绝对值的平均数(mean absolute percentage error, MAPE)和预测均方根误差(predict root mean square error, RMSEP)作为衡量建立的TOC定量模型精度评价指标, RMSEP和MAPE的计算方法如式(6)和式(7)

RMSEP=i=1n(yi-y^i)2n(6)

MAPE=1ni=1n|yi-y^i|yi×100%(7)

其中, n为测试集样品数, yi为测试集中第i个样品的TOC实际浓度, y^i为对应样品的TOC预测浓度, y̅为样品预测浓度的均值。 RMSEP和MAPE作为综合指标用来评价定量模型对所有测试样品TOC浓度预测的准确性和稳定性。

2.2 TOC定量模型分析结果

2.2.1 单日样品分组实验与验证实验预测结果

首先进行分组实验, 使用spxy算法[8]将35个不同浓度的TOC样品划分为训练集D1和测试集D2, 训练集样品容量为20个, 测试集样品容量为15个, 使用PLS建立水样TOC浓度定量分析模型。 对训练集样品使用留一交叉验证法用来确定PLS模型的最佳主成分数, 使用TOC浓度预测值的残差平方和(predictive residual error sum of squares, PRESS)作为评价指标, 选择PRESS-主成分数曲线的第一个极小值点对应的主成分个数为最佳主成分数。 采用不同主成分数预测测试集样品对应的PRESS值曲线如图2所示, 最佳主成分数预测测试集样本的相对误差如图3所示。

图2 采用不同主成分数预测测试集样品浓度的PRESS曲线Fig.2 PRESS curve of the predicted concentration of the test set samples using different principal component numbers

图3 采用最佳主成分数预测测试集样品浓度的相对误差Fig.3 Relative error of sample predicted concentration in test set using the optimal principal component number

由图2可知, 最佳主成分数选为5时PLS模型对分组实验测试集样品TOC浓度定量精度最高, TOC浓度预测值最大相对误差不超过2.22%, 此时MAPE为0.78%, RMSEP为1.06。 随着主成分个数增大, 光谱中的噪声和其他与TOC浓度无关的信息随之进入模型, 导致PLS模型定量精度有所下降。

由于实验设备每次开机会产生不同的随机误差, 进而影响定量模型的预测精度, 为进一步评价TOC定量模型的鲁棒性, 在不同仪器状态下采集了验证集样本光谱D3, 用分组实验建立的TOC定量模型预测D3样品的TOC浓度, 构成不同仪器状态验证实验, TOC浓度预测结果如表1所示。

表1 第一实验日不同仪器状态验证实验TOC浓度预测结果 Table 1 TOC concentration prediction results of validation experiment with different instrument states in the first experimental day

表1结果可知, 不同仪器状态下验证集样本TOC浓度预测值的MAPE为0.98%, RMSEP为1.14。 可见模型对不同仪器状态有较好的鲁棒性和预测精度。

2.2.2 不同实验日样品交叉实验预测分析

为进一步评价TOC定量模型的精度和鲁棒性, 使用spxy算法将第二实验日采集的35个不同浓度的TOC样品光谱同样分为20个样品的训练集D4和15个样品的测试集D5, 类似的在仪器关机半小时后重新开机, 采集8个不同浓度的TOC样品光谱记为验证集D6。 然后进行不同实验日不同仪器状态交叉实验, 具体分为用训练集D1建立的模型分别预测D5和D6样品的TOC浓度(记为实验1和实验2)、 用训练集D4建立的模型分别预测D2和D3样品TOC浓度(记为实验3和实验4), 上述所有实验结果汇总整理如表2所示。

表2 不同实验日不同仪器状态交叉实验TOC浓度预测结果 Table 2 TOC concentration prediction results of cross experiment with different instrument status on different experimental days

表2可知, PLS建立的TOC定量分析模型在不同仪器状态交叉实验中具有较好的预测精度和鲁棒性, 四组实验中MAPE均不超过3.9%, 除实验2的测试集D5中TOC实际浓度接近本文TOC量程下限的样品外, 其余样品TOC预测值的最大相对误差均不超过7.2%。 实验2中28和31 mg· L-1样品TOC预测值相对误差较大, 其原因为第二实验日上述样品光谱较第一实验日相同浓度样品光谱吸收较弱, 且存在一定的基线漂移, 两个实验日上述浓度的TOC样品光谱对比如图4所示。 除上述两个样品外, 实验2中其余样品TOC浓度预测值最大相对误差均不超过5%, 且实验2的MAPE和RMSEP分别为3.75%和2.99。 实验2中测试集样品TOC浓度预测值相对误差如图5所示。

图4 不同实验日TOC实际浓度为28和31 mg· L-1光谱对比Fig.4 Spectral comparison of TOC actual concentration of 28 and 31 mg· L-1 on different experimental days

图5 实验2中TOC浓度预测值相对误差Fig.5 Relative error of predicted TOC concentration in experiment 2

3 结论

TOC是反映水体受有机物污染程度的重要水质指标, 本文基于浸入式水质在线分析设备, 使用PLS模型直接建立水体TOC浓度与紫外-可见吸收光谱间的定量分析模型, 提高了TOC预测精度和鲁棒性, 在一定程度上解决了目前通过测定水体中COD浓度间接推算TOC浓度引起的稳定性和适用性差的问题。 实验结果表明, 本文模型对25~150 mg· L-1范围内样品TOC预测浓度值的MAPE不超过3.82%, 通过不同仪器状态交叉实验充分验证了模型的鲁棒性和适用性。

参考文献
[1] National Stand ard of the People's Republic of China(中华人民共和国国家标准). GB/T 32116—2015, Determination of Total Organic Carbon (TOC) in Industrial Circulating Cooling Water[循环冷却水中总有机碳 (北京: 国家标准化管理委员会), 2015. [本文引用:2]
[2] ZHAO You-quan, LI Xia, LIU Xiao, et al(赵友全, 李霞, 刘潇, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(11): 3592. [本文引用:1]
[3] Lepot M, Torres A, Hofer T, et al. Water Research, 2016, 101: 519. [本文引用:1]
[4] Carré E, Pérot J, Jauzein V, et al. Water Science and Technology, 2017, 76(3): 633. [本文引用:1]
[5] Lee J, Lee S, Yu S, et al. Environmental Monitoring and Assessment, 2016, 188(4): 252. [本文引用:1]
[6] Wu X, Tong R, Wang Y, et al. Sensors, 2019, 19(9): 2153. [本文引用:1]
[7] Guo Y, Liu C, Ye R, et al. Applied Sciences, 2020, 10(19): 6874. [本文引用:1]
[8] Galvao R K H, Araujo M C U, José G E, et al. Talanta, 2005, 67(4): 736. [本文引用:1]