基于高光谱数据的地表水化学需氧量反演
王雪映1,2, 刘适搏4, 朱继伟1,3,*, 马婷婷3
1.中国科学院长春光学精密机械与物理研究所, 吉林 长春 130033
2.中国科学院大学, 北京 100049
3.长春长光格瑞光电技术有限公司, 吉林 长春 130102
4.吉林省水文水资源局, 吉林 长春 130022
*通讯作者 e-mail: zjw1980320@126.com

作者简介: 王雪映, 女, 1998年生, 中国科学院长春光学精密机械与物理研究所硕士研究生 e-mail: txwangxy@163.com

摘要

化学需氧量(COD)是地表水质量评价的重要指标。 传统的COD检测方法存在需使用有毒试剂、 易造成二次污染等缺点, 高光谱法可避免上述缺点, 在COD检测方面有着广阔的应用前景。 为了探索在室内利用高光谱技术反演地表水COD浓度的可行性方法, 以吉林省内流域的129个地表水样本为研究对象, 将样本集以3:1划分为训练集和测试集, 使用高光谱成像系统收集样本的 DN值并计算相应的水体光谱反射率, 采用导数法进行数据预处理, 通过Pearson相关性分析判断光谱数据与COD浓度实测值间的相关程度并提取特征谱数据。 利用全谱数据和特征谱数据分别建立基于粒子群算法优化的最小二乘支持向量机(PSO-LSSVM)反演模型, 通过决定系数 R2、 均方差RMSE和相对偏差RPD分析比较这几种模型的预测精度和可靠性。 研究结果表明: 经过导数法预处理后, 地表水COD浓度与光谱反射率的相关性明显增强; 利用导数光谱数据建模的预测结果优于用原始光谱数据建模的预测结果; 提取特征谱数据所建立的模型比利用全谱数据建立的模型有更好的预测效果。 其中采用一阶导数预处理方法并利用特征谱建立的地表水COD浓度反演模型预测结果最好, 验证集决定系数 R2=0.856 7, 均方差RMSE=3.822 9, 相对偏差RPD=2.641 4。 以上研究初步证实了在室内基于高光谱数据对地表水COD浓度进行反演的可行性, 为高光谱技术用于地表水COD检测提供了新的方法和思路。

关键词: 高光谱; 化学需氧量; 导数法; 最小二乘支持向量机; 粒子群算法
中图分类号:O433.4 文献标志码:A
Inversion of Chemical Oxygen Demand in Surface Water Based on Hyperspectral Data
WANG Xue-ying1,2, LIU Shi-bo4, ZHU Ji-wei1,3,*, MA Ting-ting3
1. Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, Changchun 130033, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. Changchun Changguang Gerui Optoelectronic Technology Co., Ltd., Changchun 130102, China
4. Jilin Provincial Bureau of Hydrology and Water Resources, Changchun 130022, China
*Corresponding author
Abstract

Chemical oxygen demand (COD) is an important surface water quality evaluation index. The traditional COD detection method needs to use toxic reagents, easily cause secondary pollution and other shortcomings; hyperspectral method can avoid the above shortcomings so that it has a broad application prospect in COD detection. In order to explore the feasibility of indoor inversion of COD concentration of surface water by hyperspectral technology, this paper takes 129 surface water samples in Jilin Province as research objects, divides the sample set into the training set and test set with sample number ratio of about 3:1, and uses hyperspectral imaging system to collect DN values of samples and calculate the corresponding spectral reflectance of water bodies. The derivative method is used for data preprocessing. Pearson correlation analysis is used to judge the correlation degree between spectral data and measured COD concentration, and the characteristic spectral data is extracted. A least square support vector machine (PSO-LSSVM) inversion model optimized by particle swarm optimization was established using full and characteristic spectrum data respectively. These models' prediction accuracy and reliability were compared by analyzing the coefficient of determination R2, root mean square error RMSE, and relative percent deviation RPD. The results show that the correlation between COD concentration and spectral reflectance of surface water is significantly enhanced after derivative pretreatment. The prediction results based on derivative spectral data are better than those based on original spectral data. The model based on extracting characteristic spectral data has a better prediction effect than the model based on full spectral data. Among them, the inversion model of surface water's COD concentration established using the first derivative preprocessing method and the characteristic spectrum has the best prediction results. The determination coefficient of verification set R2=0.856 7, the root mean square error RMSE=3.822 9, and the relative percent deviation RPD=2.641 4. The above research preliminarily confirms the feasibility of indoor inversion of COD concentration in surface water based on hyperspectral data. It provides a new method and idea for applying hyperspectral technology in the detection of COD in surface water.

Keyword: Hyperspectral; Chemical oxygen demand; Derivative method; Least squares support vector machine; Particle swarm optimization algorithm
引言

化学需氧量(chemical oxygen demand, COD)是水样在一定条件下, 氧化1 L水样中还原性物质所消耗氧化剂的量, 以mg· L-1表示, 它反映了水中受还原性物质的污染程度[1], 是水质评价的重要指标, 其数值越大, 代表水质越差, 受污染越严重[2]。 目前国际社会普遍公认的COD检测的经典标准方法为重铬酸盐法, 此外还有高锰酸钾法、 分光光度法、 快速消解法等检测方法。 这些方法虽检测精度较高, 但存在操作繁琐、 使用有毒试剂、 易造成二次污染等缺点。

高光谱技术是水质检测技术发展的新趋势, 具有检测快捷、 无需使用有毒试剂、 无二次污染等优点。 基于高光谱数据反演COD浓度早有研究, 林剑远等对嘉兴市主城区河网的COD等水质参数进行了反演, 基于航空和水表高光谱遥感数据, 对水质采样化验数据和水表反射率进行相关性分析, 计算出最佳波段组合并进行回归分析和拟合, 研究表明COD的最优拟合模型为二次多项式模型, 其决定系数R2和均方差RMSE分别为0.74和2.79[3]。 埃及的Elsayed等基于高光谱数据对卡龙湖中的多个水质参数进行了评估, 使用手持光谱仪采集水体光谱反射率, 利用已发布的光谱反射率指数、 新两波段光谱反射率指数和新三波段光谱反射率指数以及人工神经网络建立模型, 发现新三波段光谱指数与COD具有中等相关性, R2在0.52~0.64之间[4]。 董月群等以广东省鹤山市沙坪河为研究区域, 通过无人机高光谱成像遥感数据对城市河网的COD等水质参数进行反演研究, 通过分析水表反射率0阶导数、 一阶导数、 二阶导数与水质参数浓度的相关性选取相关性最高的波段组合, 并用统计回归的方法建立模型, 研究结果显示一阶导数对应的线性拟合模型具有较好的反演精度, R2介于0.85~0.96之间[5]

上述对地表水COD浓度的反演, 多是采用无人机载高光谱成像仪于室外高空拍摄或在室外利用手持光谱仪获得光谱数据, 目前少有在室内环境下采集地表水高光谱数据并进行COD反演的研究。 为了填补这一研究领域的空白, 拓展高光谱水质分析技术的使用范围, 本研究以地表水样本理化分析的实测值结果为参考值, 在实验室内拍摄并提取出其高光谱数据, 以标准漫反射板为参照计算相应的光谱反射率, 通过Pearson相关性分析提取出原始光谱和导数光谱数据中与COD浓度相关性较高的特征谱数据, 利用粒子群算法优化的最小二乘支持向量机(particle swarm optimization-least squares support vector machines, PSO-LSSVM)算法, 基于原始光谱、 一阶导数全谱、 二阶导数全谱、 一阶导数特征谱、 二阶导数特征谱5种光谱数据建立不同的COD反演模型, 通过决定系数(coefficient of determination, R2)、 均方差(root mean square error, RMSE)和相对偏差(relative percent deviation, RPD)分析比较这几种模型的预测精度和可靠性, 为开发实验室环境下高光谱水质分析设备进行技术储备。

1 实验部分
1.1 样品

地表水样本来源于吉林省内的新立城水库、 太平池水库、 松花江等流域的23个站点, 水样COD浓度的实测值以相应的理化分析结果为参考。 剔除具有极端实测值的样本后, 数据集样本总量为129个, COD浓度范围为1~60 mg· L-1, 其中有56个样本浓度在10~20 mg· L-1范围内。 采用随机抽样的方法抽取32个样本做验证集, 剩余的97个样本点做训练集, 使得训练集和验证集的样本个数比约为3:1, 具体划分情况如表1所示。

表1 地表水样本COD浓度统计分析 Table 1 Statistical analysis of COD concentration in surface water samples
1.2 数据采集

检测装置如图1所示, 实验仪器主要有高精密电驱位移台及其控制箱、 高光谱成像光谱仪、 计算机等; 实验材料及用品主要有地表水样品、 标准漫反射板等。 高光谱成像光谱仪采用的是长春长光格瑞光电技术有限公司自主研发的GRS-400PG推扫型成像光谱仪, 分辨率约2.4 nm, 光谱范围为400~1 000 nm; 实验光源选用四个25 W钨丝灯泡置于成像光谱仪前端镜头四周, 以更好地模拟室外太阳光的均匀性; 盛样皿口径为12 cm, 容积为400 mL; 选用的标准漫反射板的反射率为50%, 尺寸为13 cm× 13 cm。

图1 检测装置实物图Fig.1 Physical display of detection device

数据采集时, 每个水样的取样量为250 mL, 将高光谱成像光谱仪固定于位移台垂直上方约50 cm处, 盖上遮光布, 驱动位移台匀速移动, 同步拍摄每个水样及标准漫反射板的高光谱图像, 重复采集10次以减少测试误差。

1.3 数据预处理

1.3.1 反射率计算

根据实验室内拍摄的高光谱数据计算水体光谱反射率公式为

R(λ)=DNDNboard(λ)×Rboard(λ)(1)

式(1)中, R(λ )为不同波长的水体光谱反射率, 下标λ 表示波长。 DN为探测器输出的代表水体辐射光谱强度的DN值数据, DNboard(λ )为同步获得的50%标准漫反射板的DN值数据, Rboard(λ )为50%标准漫反射板的反射率[6]

1.3.2 导数法处理

为了降低背景噪声干扰, 提升光谱数据对COD浓度的敏感度, 采用导数法进行处理。 参考文献[7, 8]处理导数光谱的方法, 计算导数光谱的公式为

R1st=Rn+1-Rnλn+1-λn(2)

R2nd=Rn+11st-Rn1st0.5(λn+2-λn)(3)

式(2)和式(3)中, R, R1st, R2nd分别为原始光谱反射率值、 一阶导数光谱反射率值、 二阶导数光谱反射率值; λ 为波长。

1.3.3 特征谱提取

高光谱数据具有波段多、 数据量大的特点, 提取特征谱段可以提高计算速度, 减少冗余噪声影响。 相关性分析是判断两个或多个变量之间统计学关联的方法, 相关系数是用以反映变量之间相关关系密切程度的统计指标。 采用Pearson相关性分析方法, 对特征谱段进行分析并提取, 其相关系数计算公式为

r(λ)=i=1n(Xi-X-)(Yi-Y-)i=1n(Xi-X-)2i=1n(Yi-Y-)2(4)

式(4)中, Xi(i=1, 2, …, n)和 X-是COD浓度实测值及其均值, Yi(i=1, 2, …, n)和 Y-是波长λ 处的光谱反射率及其均值。

Pearson相关系数的范围为[-1, 1], 其值越接近于1或-1, 表明相关性越强; 相关系数越接近于0, 表明相关性越弱。

1.4 反演模型

最小二乘支持向量机(least squares support vector machines, LSSVM)是在支持向量机(support vector machine, SVM)中引入最小二乘线性系统作损失函数的机器学习方法, 用二次损失函数取代SVM中的不敏感损失函数, 通过构造损失函数将SVM的二次寻优变为求解线性方程。 该方法简化了运算复杂性, 提升了运算速度, 通过结构风险最小化原理可提高模型泛化能力, 可以有效解决传统学习方法处理有限样本数据、 非线性、 高维数等问题的困难, 越来越广泛地被应用于非线性复杂系统的建模中。 径向基核函数(radial basis function, RBF)应用广泛、 适用性强、 具有较宽收敛域, 对非线性系统具有很好的控制性能, 几乎任何情况(维数过高过低、 样本数据过多过少等)下, 均能表现出较理想的效果[9], 因此本研究选用RBF核函数作为模型的核函数。

在LSSVM模型中, 正则化参数和核函数参数的选择对构造回归函数是至关重要的, 直接影响着模型的学习和泛化能力。 优化模型参数的常用方法有遗传算法(genetic algorithm, GA)[10]、 粒子群算法(particle swarm optimization, PSO)[11, 12, 13]、 蝙蝠算法(bat algorithm, BA)[14]和灰狼算法(grey wolf optimizer, GWO)[15]等。 本研究选用了PSO算法来优化寻参, 它是一种模拟鸟群觅食的群体智能算法, 将只有位置和速度两个属性的粒子模拟为鸟, 每个粒子在空间中的极值作为潜在的最优解; 所有粒子根据评价函数决定的适应值不断调整各自的位置和速度, 以寻找最优解。

设置粒子种群数量为20, 最高迭代次数为50, 正则化参数γ 和核函数参数σ 的取值范围均设置为[0.01, 100], 采用K折交叉验证对数据集进行训练调整, K取值为5, 用交叉验证的均方差RMSE作为评价函数的适应值。 经过PSO算法计算, 可得到正则化参数γ 和核函数参数σ 的最优参数值, 将其代入LSSVM算法中, 可以使LSSVM算法有较强的适应能力和较好的预测精度。

1.5 模型评价

采用决定系数R2、 均方差RMSE和相对偏差RPD三个指标用于模型对比和评价

R2=1-(Y^i-Y-)2(Yi-Y^i)2(5)

式(5)中, Yi为实测值, Y^i为预测值, Y-是实测值的平均值。 R2表示反演模型对实测值的拟合程度, 范围为[0, 1], R2越接近于1, 说明模型的拟合程度越高、 稳定性越好。

RMSE=i=1n(Yi-Y^i)2/n(6)

式(6)中, Yi为实测值, Y^i为预测值, n为样本总数。 RMSE用于检验模型的准确性, 其值越小说明模型的精度越高。

RPD=SDRMSE(7)

式(7)中, SD为标准差(standard deviation), SD=i=1n(Y^i-Y-)2n-1RPD值越高代表模型的预测能力越强, 一般认为, 若RPD小于1.4, 则说明所建模型不可靠; 若RPD在1.4~2.0之间, 则说明所建模型较可靠; 若RPD大于2.0, 则说明所建模型具备较高可靠性, 能够用于模型分析。

2 结果与讨论
2.1 水体反射率

图2(a)为样本水体的原始光谱曲线, 水体在波长400~620 nm处反射率较高, 在波长750~900 nm处反射率迅速下降。 使用导数法对原始光谱进行一阶导数、 二阶导数处理, 所得的地表水光谱反射率数据分布如图2(b)、 (c)所示。 对比分析可得: 导数处理有效强化了光谱曲线的特征, 呈现出较多的波峰、 波谷; 但仍无法直观判断出各波段水体光谱反射率与地表水样COD浓度间的明显线性关系。

图2 水体光谱反射率
(a): 原始光谱; (b): 一阶导数光谱; (c): 二阶导数光谱
2.2 相关性分析与特征谱提取
Fig.2 Reflectance spectral of water samples
(a): Original; (b): First derivative; (c): Second derivative

以训练集样本数据为相关性分析对象, 对水样的光谱反射率数据和COD浓度实测值进行相关性分析, 所得Pearson相关系数如图3所示。 未经处理的原始光谱反射率数据的相关性较小, 整体变化趋势为相关性随波长的增大而增大, 在波长872 nm处相关性最大, 相关系数为-0.309 8。 一阶导数、 二阶导数光谱反射率数据存在相关性较大的波段, 无相关系数随波长变化的趋势。 其中, 一阶导数光谱在波长436 nm处相关性最大, 相关系数为-0.496 8; 二阶导数光谱的相关系数波动很大, 和一阶导光谱相比有更多明显的峰值, 在波长855 nm处相关性最大, 相关系数为0.483 5。 以上结果说明, 原始光谱对COD浓度变化的敏感度较低, 在本研究中导数光谱与地表水的COD浓度之间的相关性相对更高, 利用导数光谱数据建模可能具有更高的预测精度。

图3 训练集相关系数
(a): 原始光谱; (b): 一阶导数光谱; (c): 二阶导数光谱
Fig.3 Correlation coefficient of training set
(a): Original spectra; (b): First derivative spectra; (c): Second derivative spectra

基于上述相关性分析结果, 分别选出相关系数绝对值大于0.35的波段作为特征谱段, 对应的特征谱相关系数分布情况如图4所示。 一阶导数光谱相关性较好的波长共有38个, 主要分布在在648~811 nm处; 二阶导光谱相关性较好的波长共有24个, 主要分布在在725~811 nm处。

图4 特征谱相关系数Fig.4 Correlation coefficient of characteristic wavelengths

2.3 建模反演结果及对比

根据Pearson相关性分析结果提取特征谱数据, 利用PSO-LSSVM算法基于训练集数据建立COD浓度反演模型, 然后将验证集数据代入所建模型中加以验证以确定最优反演模型。 由于PSO-LSSVM模型的运行结果具有不确定性, 因此每组模型运行10次后取平均值来作为最终结果。

在采用全谱数据建模时, 对训练集原始光谱数据、 一阶导数光谱数据、 二阶导数光谱数据三类数据, 取其波长400~900 nm内全谱数据数据, 利用PSO-LSSVM算法进行建模, 训练集和验证集的预测结果分别如图5和图6所示。

图5 利用全谱数据建模的训练集预测结果
(a): 原始光谱; (b): 一阶导数光谱; (c): 二阶导数光谱
Fig.5 The predicted results of training set using whale spectrum data
(a): Original spectrum; (b): First derivative spectrum; (c): Second derivative spectrum

图6 利用全谱数据建模的验证集预测结果
(a): 原始光谱; (b): 一阶导数光谱; (c): 二阶导数光谱
Fig.6 The predicted results of validation set using whale spectrum data
(a): Original spectrum; (b): First derivative spectrum; (c): Second derivative spectrum

在采用特征谱数据建模时, 因在对原始光谱数据进行相关性分析时未能找到特征波长, 故只对训练集一阶导数特征光谱数据、 二阶导数特征光谱数据进行建模与分析。 根据相关性分析结果, 以相关系数绝对值大于0.35为筛选准则确定特征光谱, 利用PSO-LSSVM算法进行建模, 训练集和验证集的预测结果分别如图7和图8所示。

图7 利用特征谱数据建模的训练集预测结果
(a): 一阶导数光谱; (b): 二阶导数光谱
Fig.7 The predicted results of training set using characteristic wavelengths
(a): First derivative spectrum; (b): Second derivative spectrum

图8 利用特征谱数据建模的验证集预测结果
(a): 一阶导数光谱; (b): 二阶导数光谱
Fig.8 The predicted results of training set using characteristic wavelengths
(a): First derivative spectrum; (b): Second derivative spectrum

表2给出了利用全谱数据和特征谱数据建模时训练集和验证集预测结果的R2、 RMSE和RPD。 训练集的交叉验证结果中, 利用一阶全谱、 一阶特征谱、 二阶特征谱数据建模的R2均大于0.98, RMSE均小于1.5, RPD均大于9, 远远优于利用原始谱和二阶全谱数据建模的结果, 说明前三种模型具有较强的适应能力和较好的预测精度。 验证集的预测结果中, 利用原始光谱建模的R2和RPD较低, RMSE较高, 表明其预测效果较差; 利用导数光谱数据建模的R2和RPD较高, RMSE较低, 表明其具有较好的预测效果; 其中利用一阶导数特征谱建模时预测结果最好, R2和RPD最大, RMSE最小。 同时, 训练集的交叉验证结果和验证集的预测结果都出现了经同阶导数预处理后利用特征谱数据建模结果优于利用全谱数据建模结果的情况。

表2 地表水COD浓度的预测结果评价 Table 2 Evaluation of prediction results of COD concentration in surface water

实验结果表明, 利用原始光谱数据建模的模型预测能力较差, 而利用导数光谱数据进行建模可以提高模型的预测精度; 另外, 对于导数光谱数据, 提取特征谱数据所建立的模型比利用全谱数据建立的模型有更好地预测效果。

3 结论

以吉林省的地表水样品为研究对象, 分析样品的高光谱数据和COD浓度实测值之间的相关性, 利用PSO-LSSVM算法建立地表水COD浓度的反演模型, 通过对相关反演方法的研究及对预测结果的分析, 得出如下结论:

(1)地表水COD浓度与原始光谱反射率的相关性较弱, 无明显特征波长。 经过导数法预处理后, 地表水COD浓度与光谱反射率的相关性明显增强。

(2)利用特征谱数据建模的结果要优于利用全谱数据建模的结果, 其中利用一阶导数特征谱建模反演地表水COD浓度的效果最好, 精度最高, 训练集的R2、 RMSE和RPD分别为0.993 4、 1.063 8和12.198 5, 验证集的R2、 RMSE和RPD分别为0.856 7、 3.822 9和2.641 4。

(3)在室内基于高光谱数据反演地表水COD浓度的应用具有可行性, 验证了所提出的基于PSO-LSSVM算法、 导数处理法、 Pearson相关性分析法建立的地表水COD浓度反演模型, 能达到较好反演精度。 并且, 未来随地表水样本数据量的不断积累, 在反演模型的适用浓度、 反演精度、 模型的稳健性等方面都将得到提升, 日后也将进一步探究基于高光谱数据和PSO-LSSVM算法估测其他水质参数的可能性。

参考文献
[1] ZHENG Peng, GUO Bo, ZHANG Sen, et al(郑鹏, 郭波, 张森, ). Chemical Analysis and Meterage(化学分析计量), 2021, 30(9): 73. [本文引用:1]
[2] HU Gang-qiang(胡钢强). Technical Supervision in Water Resources(水利技术监督), 2022, (9): 21. [本文引用:1]
[3] LIN Jian-yuan, ZHANG Chang-xing(林剑远, 张长兴). Remote Sensing Information(遥感信息), 2019, 34(2): 23. [本文引用:1]
[4] Elsayed S, Ibrahim H, Hussein H, et al. Water, 2021, 13(21): 3094. [本文引用:1]
[5] DONG Yue-qun, MAO Jian-hua, LIANG Dan, et al(董月群, 冒建华, 梁丹, ). Environmental Science & Technology(环境科学与技术), 2021, 44(S1): 289. [本文引用:1]
[6] CHEN Yao, HUANG Chang-ping, ZHANG Li-fu, et al(陈瑶, 黄长平, 张立福, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(3): 825. [本文引用:1]
[7] Tsai F, Philpot W. Remote Sensing of Environment, 1998, 66(1): 41. [本文引用:1]
[8] Becker B L, Lusch D P, Qi J G. Remote Sensing of Environment, 2005, 97(2): 238. [本文引用:1]
[9] TANG Xian-lun, LIU Nian-ci, YAN Dong, et al(唐贤伦, 刘念慈, 严冬, ). Experimental Technology and Management(实验技术与管理), 2016, 33(6): 103. [本文引用:1]
[10] Pan X, Xing Z W, Tian C C, et al. Energy and Buildings, 2021, 230: 110604. [本文引用:1]
[11] Kalantariasl A, Yazdanpanah A, Ehsan Ghanat-pisheh E, et al. Upstream Oil and Gas Technology, 2021, 7: 100057. [本文引用:1]
[12] Roushangar K, Saghebian S M, Mouaze D. International Journal of Sediment Research, 2017, 32(4): 515. [本文引用:1]
[13] Songolzadeh R, Shahbazi K, Madani M. Journal of Petroleum Exploration and Production Technology, 2021, 11: 279. [本文引用:1]
[14] Wu Q L, Lin H X. Science of The Total Environment, 2019, 683: 808. [本文引用:1]
[15] Li K, Cheng G Y, Sun X D, et al. IEEE Access, 2019, 7: 36558. [本文引用:1]