作者简介: 王一鸣, 1999年生,西安石油大学计算机学院硕士研究生 e-mail: wmnj66@163.com
生化需氧量(BOD)是能够直接体现水体有机物污染程度的重要指标, 水体BOD的实时监测在水资源保护、 水环境改善等相关领域具有重要意义。 传统的BOD测量方法会消耗大量的人力物力资源, 且测量周期较长, 不能迅速的反映水体的变化状况, 无法实现对突发水污染事件及时有效的预警。 机器学习在水体监测领域已被广泛应用, 为了解决机器学习模型输入变量获取困难, 且存在缺失值的问题, 进一步结合高光谱技术探索对水体BOD含量精准快速的估算。 为此, 采集十个不同浓度BOD标液的原始光谱数据, 通过白板校正得到100组透射光谱数据。 提出了一种基于主成分分析(PCA)透射光谱重构的降噪技术, 利用PCA算法提取原始透射光谱的主成分特征向量, 再利用累计方差贡献率达到一定百分比的前一部分主成分特征向量对整个数据集进行重构。 采用了前2、 前10和前15个主成分特征向量对透射光谱数据进行了重构, 并与传统光谱数据降噪方法进行了对比。 结合支持向量机(SVM)模型和反向传播神经网络(BPNN)模型建立了水体BOD含量估算模型。 结果显示, BPNN模型在回归精度和拟合程度上优于SVM模型, 且降噪效果更为显著。 使用前2个特征向量重构降噪的模型未达预期拟合, 可能是由于信息丢失。 而以前10个特征向量重构降噪的BPNN模型表现最佳, RMSE为0.040 6, R2达到0.980 3。 前15个特征向量的重构并未提升降噪效果, 可能因为超过10个的特征向量增加了冗余信息。 实验验证了使用PCA重构透射光谱降噪的可行性, 并为水体BOD含量估算提供了新的思路。
Biochemical oxygen demand (BOD) is an important indicator that can directly reflect water bodies’ degree of organic pollution. Real-time monitoring of water BOD is significant in water resource protection and water environment improvement. The traditional BOD measurement method will consume a lot of human and material resources, and the measurement cycle is long, which can not quickly reflect the changing conditions of the water body, and can not realize the timely and effective early warning of sudden water pollution events. With the wide application of machine learning in the field of water monitoring, to solve the problem of difficulty in obtaining the input variables of the machine learning model and the existence of missing values, we further combine the hyperspectral technology to realize the accurate and rapid estimation of the BOD content of the water body. The raw spectral data of ten BOD standard liquids with different concentrations were collected, and 100 sets of transmission spectral data were obtained by whiteboard correction. A noise reduction technique based on PCA transmission spectra reconstruction is proposed, which utilizes the PCA algorithm to extract the principal component eigenvectors of the original transmission spectra and then reconstructs the whole dataset by using the first part of the principal component eigenvectors whose cumulative variance contribution rate reaches a certain percentage. The first 2, 10, and 15 principal component feature vectors were used in the experiment to reconstruct the transmission spectral data and compared with the traditional noise reduction methods for spectral data. We combined the SVM model and BP neural network model to establish a model for estimating the BOD content of water bodies. The results showed that the BPNN model was superior to the SVM model regarding regression accuracy and degree of fit, and the noise reduction effect was more significant. The model using the first 2 feature vectors reconstructed for noise reduction did not fit as expected, probably due to the loss of information. The BPNN model with the first 10 feature vectors reconstructed for noise reduction performed the best with an RMSE of 0.040 6 and an R2 of 0.980 3. The reconstruction of the first 15 feature vectors did not improve the noise reduction effect, probably because more than 10 feature vectors added redundant information. The experiments verified the feasibility of noise reduction using PCA reconstruction of transmission spectra and provided a new idea for estimating the BOD content of water bodies.
水体中微生物分解所需消耗溶解氧的含量被称为生化需氧量(biochemical oxygen demand, BOD)。 在水质检测中, BOD是可以直接体现水体有机物污染程度的重要指标[1]。 传统的BOD测量方法主要为稀释与接种法, 需要将水样完全充满密闭的溶解氧瓶中, 放置在(20± 1) ℃的暗处培养5 d± 4 h, 分别测定培养前后水样中溶解氧的质量浓度, 由培养前后溶解氧的质量浓度之差计算每升样品消耗的溶解氧量[2]。 这种方法通常需要5天的水样培养期, 操作复杂且耗时较长。 而随着机器学习的迅猛发展, 其相关的BOD估算模型不仅在精度上能够媲美BOD传统测量方法, 并且还有效的提高了BOD测量的效率, 减少了投入成本[3]。 王涌等[4]提出了一种基于特征重要性排序和线性判别降维算法(LDA)改进的随机森林模型用于BOD的快速软测量, 并证明了其在预测精度和时间上的优势。 但是目前基于机器学习的水体BOD含量估算也暴露出了普遍存在的问题, 变量复杂程度高且输入变量本身获取难度大, 同时可能还伴随着较多的样本缺失值。 相较而言, 光谱数据更易于获取、 连续性强、 不存在有缺失值的现象。 同时, 光谱相关的分析技术灵敏度极高, 对物质含量要求低, 更利于面对复杂的水体环境[5]。 近年来, 基于光谱技术的水体监测研究取得了很大的进展。 龙昊宇等[6]以深圳市光明区内河道为研究对象, 采用无人机和定点架设两种方式搭载高光谱成像设备, 通过高光谱影像反演模型获取水质数据, 实现了水质信息的准确获取; 陈庆等[7]提出了一种基于荧光光谱的水体分类与荧光组分识别方法, 实验结果表明, 所提方法可对不同水样和溶解性有机物(DOM)质量浓度等级进行准确分类, 拟合特定荧光组分, 精确定位污染源, 并实现了超标预警; 顾佳艳等[8]以上海市2017年黑臭河道整治目录中的105段河道为研究对象, 同步开展光谱监测和水质监测, 分析各指标与遥感反射率的相关性, 选出适合进行反演的特征指标, 最终建立了化学需氧量(COD)反演模型。
光谱数据拥有更大信息量的同时也带来了更多的噪声和冗余信息, 针对光谱数据的预处理操作是其实际应用中的重要步骤。 对光谱数据的预处理方法可以分为降维处理和降噪处理[9]。 主成分分析(principal component analysis, PCA)是一种应用广泛的数据压缩与降维技术。 光谱数据中存在大量冗余信息, 会使模型的建立过程变得复杂, 降低模型的效率, 而PCA则通过线性变化将高维数据投影至一个新的坐标系中, 使得投影后的数据在新的坐标系上的方差最大化, 从而找到数据中潜在的主要变化趋势, 即主成分, 在保留数据中有效信息的同时, 降低数据维度[10]。 原始光谱数据在维度降低后可能会带来一些问题, 一些存在价值但是贡献较小的特征信号可能被忽视, 同时降维后的数据原始结构可能发生改变, 不利于进一步的分析研究; 而传统的去噪算法往往会在一定程度对原始数据中的有效信息造成损害。 因此, 在本研究创新性的使用PCA算法对水体透射光谱进行重构降噪, 利用并结合其算法优势解决传统降噪过程中信息丢失的问题。 与其他预处理技术相比, PCA重构降噪方法的独特优势在于其能够在保持数据原始结构不变的前提下, 通过挖掘数据集自身主成分向量中包含的关键信号特征, 最大限度地减少原始数据中有效信息的损失。 这种方法不仅优化了数据的质量, 还最大化的保留了原始数据中的重要信息, 有助于提高后续分析和模型建立的准确性。 吴明磊[11]等利用PCA提取高信噪比恒星光谱的特征向量对低信噪比恒星光谱进行重构, 成功在低信噪比的恒星光谱巡天数据中准确搜寻出数量较少的特殊恒星。 基于此, 本研究提出利用PCA对透射光谱数据进行降噪处理, 对比其他传统的降噪方法, 再结合SVM和BP神经网络模型对水体BOD含量进行估算, 探索利用不同特征向量个数进行PCA透射光谱重构降噪方法的可行性与最优估算模型, 为高效准确的水体BOD含量实时预测提供一种新思路。
原始光谱采集使用Ocean Optics公司出品的OCEAN-HDX-XR微型光纤光谱仪。 该光谱仪有两大显著优势, 首先是对于低杂散光的减少, 尤其适用于对于溶液中的分析物进行精确测量; 二是强大的热稳定性和小巧的体积与兼容性, 能够集成至许多工业应用的生产过程。 其具体参数如表1所示。
![]() | 表1 OCEAN-HDX-XR光谱仪参数 Table 1 Parameters of OCEAN-HDX-XR Spectrometer |
实验平台的整体结构如图1所示, 主要由光纤光源、 比色皿支架、 比色皿、 光纤光谱仪以及计算机组成。 采集时, 光源选用光谱覆盖范围满足需求的小型集成光纤氙灯光源HPX-2000(Ocean Optics公司出品)。 为避免光照的干扰, 保证采集环境稳定, 在采集中对整个比色皿支架装置都进行了遮光处理。 为保证光源的稳定性, 在测量开始前, 将光源预热15 min以上。 光源通过光纤提供入射光照射比色皿中的待测水样, 而后经过光谱仪的分光与探测转变为电信号, 上传至电脑端。 将光谱仪狭缝为10 μ m, 得到181.1~1 030.1 nm范围内的原始光谱数据, 根据实际测量结果, 在后续的数据处理和模型构建过程中使用了其中400.1~1 023.1 nm范围内的原始光谱数据, 每条数据包含1 495个波长特征, 最后再经过白板校正得到不同浓度BOD标液的光谱透射率数据
式(1)中, RW为实验中采集到的白板数据, R0为采集到的原始光谱, RC为光谱透射率值。 采集到的原始光谱数据共计100组, 是10种不同浓度的BOD标准溶液(标液)在相同的时间间隔内各自重复采集10次获得, 标液的浓度分别为0.1、 0.2、 0.3、 0.4、 0.5、 0.6、 0.7、 0.8、 0.9、 1.0 mg· L-1。 从每个浓度中随机选取一组数据作为代表, 10种不同浓度BOD标液的原始透射光谱如图2所示。
主成分分析(principal component analysis, PCA)是一种应用广泛的数据压缩与降维技术。 高光谱数据中存在大量冗余信息, 会使模型的建立过程变得复杂, 降低模型的效率。 PCA通过线性变化将高维数据投影至一个新的坐标系中, 使得投影后的数据在新的坐标系的方差最大化, 从而找到数据中潜在的主要变化趋势, 即主成分, 在最大化保留数据中有效信息的同时, 降低数据维度[12]。
对BOD透射光谱数据进行主成分分析, 选择少于原始透射光谱数据维度数量的单位正交基, 将光谱数据变换到单位正交基后, 使得投影后的方差尽可能大, 同时协方差为0。 通过求协方差矩阵并将其相似对角化, 得到特征值和特征向量。 进一步根据特征值从大到小将其对应的特征向量排列, 将排列后的特征向量组成的矩阵乘以原始数据矩阵, 即可得到降维后的数据。 降维后的透射光谱数据中, 主成分1(principal component 1)、 主成分2(principal component 2)、 主成分3(principal component 3)对应的特征向量方差贡献率分别为88.07%、 2.27%、 0.89%, 图3展示了水体透射光谱数据在前3个主成分特征向量上的投影值分布情况, 不同颜色的圆点分别代表了不同浓度。
![]() | 图3 前3个主成分特征向量上的投影数据分布情况Fig.3 Distribution of data projected on the first 3 principal component eigenvectors |
由图3可见, 在三维空间中相同浓度水体对应的透射光谱数据位置紧密, 存在很强的相关性, 说明利用算法模型回归估算BOD含量具有可行性。 但是仍然存在代表不同浓度的数据点, 如0.3、 0.4、 0.7、 0.8、 1.0 mg· L-1, 分布接近, 不能通过直接观察区分。 这说明了前3个主成分的特征向量累计方差贡献率91.23%, 还未能更好的解释原始透射光谱数据中的主要特征和变化趋势。 进一步选择前15个特征向量, 即设置主成分数量为15。 前15个特征向量的累计方差贡献率如图4所示。 可以看到, 累计方差贡献率随着主成分特征向量个数的增加不断增长[13]。 当主成分特征向量达到10个时, 累计方差贡献率达到了95.19%; 而随后, 前11至15个特征向量的累计方差贡献率的增涨开始变得缓慢, 前15个特征向量的累计方差贡献率仅达到95.98%, 较前10个特征向量整体上变化不大, 仅增加了0.79%。
在高光谱数据的预处理过程中, PCA是一种常见的方法。 但是利用PCA减少水体透射光谱数据维度的过程中, 可能会存在一些问题: 水体中存在的有价值但是表现微弱的信号可能会被转换为较小特征值对应的特征向量而被忽视, 造成信息丢失; 降维后的数据由解释方差贡献率较高的前几个主成分构成, 多维的变量信息可能被压缩至一个主成分之中, 导致数据的原始结构发生变化, 这使得从物理层面分析和描述透射光谱数据更加困难, 也不利于对数据进行进一步的处理。
利用PCA算法对透射光谱进行重构是一种可行的降噪方法。 通常情况下, 数据中信号的总方差大于噪声的总方差, 则方差贡献率高的特征向量将包含去噪信号的近似值。 利用PCA压缩后的主成分特征向量以及其中的重要信息, 对整个数据集进行重构降噪, 重构后的数据能够保持结构不变, 并且微弱信号在最大程度上得到了保留。 假设数据集Y共有M维特征, 进行主成分分析后, 取前N个特征向量构成的特征向量矩阵P
将原始的M维数据投影至N维的主成分空间内, 即数据压缩至N维后得到数据集T
由于此时P并非实对称矩阵(N< M), 对Y进行重构则需要乘以P的广义逆矩阵
Y* 即为重构降噪后的数据集。 可以看出, 在压缩和重构过程中, 特征向量个数的选择尤为重要。 图5展示了实验中的透射光谱数据经过PCA后得到的前15个主成分对应的特征向量。
从图4可以看出, 特征向量排列越靠前, 解释方差贡献率越高的特征向量对原始透射光谱的刻画更具特点。 总体上看, 特征向量的波动随着波段的增加越来越大。 但特征向量1和特征向量2的变化趋势分别呈现出了截然不同方向, 两者基本共同刻画出了原始光谱大致的形态特征, 可能对应了2.1节图4中前2个主成分90.34%的累计方差贡献率; 可以注意到原始透射光谱中400~550 nm波段范围内明显出现的波动信息, 也被放大保留在了特征向量1中。 当累计方差贡献率增长愈发缓慢时, 相应的特征向量整体形态特征之间的差异开始变得愈发不明显。 尤其是第11到15个特征向量, 这些特征向量刻画出的光谱形态特征相似性、 重复性很高, 可能存在冗余信息[14]。
分别利用前2、 前10、 前15个特征向量对原始透射光谱数据集进行重构降噪。 图6展示了原始透射光谱与PCA重构降噪后的光谱。 可以看出, 仅用前2个特征向量重构后的数据, 光谱中的毛刺减少明显, 光谱的差异化明显增强。 但是考虑到累计方差贡献率仅达到90.34%, 仅利用前2个特征向量可能会出现信息丢失的情况, 造成数据集失真; 而使用前10和前15个特征向量进行重构, 此时累计方差贡献率均达到了95%以上, 能够看到相较于只使用前2个特征向量重构的结果, 光谱的形态变化程度虽然更小, 但是保留的原始透射光谱特征可能更为密集。
![]() | 图6 原始透射光谱以及基于前2、 10、 15个特征向量重构降噪后的透射光谱Fig.6 Raw transmission spectra and reconstructed noise-reduced transmission spectral based on the first 2, 10, and 15 eigenvectors |
小波变换降噪与Savitzky-Golay (SG)滤波降噪是光谱预处理中常用的降噪方法, 分别使用两种方法对原始透射光谱数据进行降噪。 在模型建立过程中, 选择小波变换降噪、 SG滤波降噪后的数据集和PCA中利用前2、 前10、 前15个特征向量重构降噪后的数据集, 根据模型性能对不同方法的降噪效果进行验证和对比。
利用机器学习算法对水体BOD进行估算可以在精度上媲美传统测量方法, 并且减少大量的人力物力和时间投入。 目前基于机器学习的水体BOD含量估算模型普遍存在输入变量复杂, 变量自身难以获取且样本缺失值可能较多等问题。 相较而言, 透射光谱数据更易于采集、 连续性强、 极少存在缺失值, 且高光谱分析相关技术灵敏度极高, 对物质含量要求低, 更利于面对复杂的水体环境。 但是, 高光谱数据中更大的信息量不免存在更多的噪声和冗余信息, 针对透射光谱的数据处理也是估算模型中必不可少的一部分[12]。
结合上文中给出的三种透射光谱降噪方法, 选择了基于水体高光谱的水质监测领域中常用的支持向量机(support vector machine, SVM)和BP神经网络(backpropagation neural network, BPNN)算法, 以透射光谱为输入变量, 水体BOD浓度为目标变量, 建立水体BOD含量估算模型, 模型整体结构如图7所示。
性能评估指标选择为均方根误差RMSE和决定系数R2, RMSE可以反应模型的精度, 值越小模型精度越高; R2可以反映模型的拟合程度, 值越接近1模型拟合效果越好。 考虑到实验中采集的透射光谱数据集大小, 不再进行训练集与测试集的划分, 而是采用5折交叉验证对模型进行验证评估, 随机将数据集划分为5份, 依次将每一份子数据集作为其余四份的测试集, 重复训练五次得到平均验证结果, 有效避免了可能出现的过拟合现象。
支持向量机是一种常用的监督学习算法模型。 SVM可以通过寻找一个能够最小化预测误差的超平面来解决回归问题, 对于处理特征维度较高、 样本较少的水体透射光谱数据, 使用SVM进行BOD估算具有一定优势。 SVM能够使用不同的核函数来处理非线性问题, 将数据映射到高维空间中, 从而使得原本线性不可分的数据在新的高维空间中线性可分[15]。
核函数的选择在SVM回归模型的构建过程中尤为重要, 常用的核函数包括:
(1)线性核函数, 其中x, y为数据点对应的两个不同向量, d为常数
(2)多项式核函数, 其中α 表示斜率变量, d为常数, q为多项式阶数
(3)高斯径向基核函数, g表示核函数的宽度, 其大小能够反映样本分布情况
核函数能够在一定程度上决定SVM回归的精度, 为了确认更适用于水体BOD含量估算模型的核函数, 使用原始透射光谱数据, 分别选择线性核函数, 二次多项式核函数, 三次多项式核函数和高斯径向基核函数构建SVM回归模型, 不同核函数的模型表现如表2所示。 不同的核函数对模型回归精度和拟合程度造成了差异较大的影响, 可以发现随着核函数的复杂程度提高, 模型性能并没有变得更好, 这可能是由于实验采集的透射光谱数据特征维度高, 数据集规模较小, 而较简单的线性核函数建立的SVM模型, RMSE和R2均达到最优。 因此后续的实验中均选择线性核函数构建SVM回归模型。
![]() | 表2 不同核函数下SVM模型效果 Table 2 SVM modeling effect with different kernel functions |
BP神经网络是一种应用广泛的多层前馈神经网络, 由输入层、 隐藏层和输出层构成。 其主要操作包括信号的正向传播和误差的反向传播。 在误差反向传播过程中, 使用误差逆向传播算法, 首先计算输出层的误差信号, 然后将该误差信号向后传递至所有层, 以更新隐藏层到输出层、 隐藏层到隐藏层、 以及隐藏层到输入层之间的权重和偏置[16]。
计算误差EP, 其中Yn为期望值, Tn为预测值
计算误差后调整网络参数, 反向更新每一层之间的权重W, 其中l为学习率
通过反向传播算法, BP神经网络的结构和参数被不断优化, 模型的预测精度和泛化能力从而得到提高。 考虑到激活函数的选择与隐藏层的个数都对神经网络模型的学习表达能力有一定程度的影响[17], 使用原始透射光谱数据, 隐藏层分别选择1至3层, 将每个隐藏层神经元个数固定为20, 激活函数分别设置为常用的Sigmoid函数, Tanh函数和ReLU函数, 迭代次数的阙值为1 000, 不同激活函数下不同隐藏层个数的所有模型表现如表3所示。 可以看出隐藏层个数为3时, 模型的精度和拟合程度最优, 因此在后续的实验中, 均采用包含3个隐藏层的BP神经网络模型, 其余参数保持不变。
![]() | 表3 不同激活函数与不同隐藏层数的BPNN建模效果 Table 3 BPNN modeling effect with different activation functions and different number of hidden layers |
为了验证和对比小波变换降噪、 SG滤波降噪方法和基于PCA中前2、 前10、 前15个特征向量重构降噪方法的降噪效果, 利用不同方法降噪后得到的透射光谱数据集分别结合SVM和BPNN建立BOD估算模型。 模型的验证评估结果如表4所示, 为了方便讨论, 基于PCA中前2、 前10、 前15个特征向量重构降噪方法简称为PCA-2, PCA-10和PCA-15。
![]() | 表4 结合不同降噪方法的模型性能对比 Table 4 Comparison of model performance combining different noise reduction methods |
可以看到, 在面对未降噪的原始数据集时, SVM和BPNN模型展现出了相似且较为良好的估算性能, RMSE分别为0.076 1和0.071 8, R2分别为0.931 4和0.937 8。 而进一步结合小波变换降噪和SG滤波降噪方法的SVM和BPNN模型, 精度和拟合程度相较于未降噪的原始数据集, 均有一定程度上的提升[18]。 其中优化效果最明显的为SG滤波降噪后的BPNN模型, RMSE为0.062 4, R2达到了0.953 8。 而基于PCA中前2、 前10、 前15个特征向量的重构降噪方法却出现了不同的情况。 PCA-2降噪处理在SVM和BPNN模型中都产生了负面的影响, 其RMSE分别高达0.292 9和0.537 7, R2甚至出现了负值的情况, 模型没有达到正常的拟合程度, 精度也没有达到回归的要求; 而经过PCA-10和PCA-15降噪后, 模型的估算出现了优化效果。 SVM模型的拟合效果仅有很小幅度的提升, PCA-10-SVM和PCA-15-SVM的R2分别为0.935 4和0.937 4, 较未降噪原始数据的0.931 4相差不大。 然而BPNN模型取得了更为突出的优异表现, 尤其是PCA-10-BPNN模型, RMSE低至0.040 6, R2高达0.980 3; 而PCA-15-BPNN模型的RMSE低至0.072 3, R2也达到了0.967 8, 拟合能力较数据集降噪前也有明显的增强, 相较于传统的小波变换降噪和SG滤波降噪方法, BPNN模型的优化提升也更为显著。 随机选择五折交叉验证结果中的10个样本点, 图8中分别展示了结合不同降噪方法的SVM模型和BP模型在相同样本点的预测情况。
总体上来说, 除了PCA-2, 其他的降噪方法虽然对SVM模型都起到了优化作用, 但是收效甚微, 仅有结合小波变换降噪的SVM模型R2达到了0.94以上, 其余模型的R2均保持在了0.93至0.94之间; 而BPNN模型的回归精度和拟合程度在整体上都要比SVM模型更好, 并且引入降噪方法后的优化效果表现的更为明显。 如2.2节中的分析, PCA-2对SVM和BPNN模型整体产生的负面影响, 包括模型R2的降低和RMSE的增大, 可能是由于主成分特征向量过少, 数据丢失信息过多不能满足模型建立的需求造成的。 值得注意的是, PCA-10-BPNN表现出了比PCA-15-BPNN更好的估算效果, 表明了PCA-10表现出了比PCA-15更好的降噪效果。 特征向量的增多并没有产生更好的降噪能力[19]。 这可能是由于前10个主成分特征向量已经能够保留绝大部分的主要信息用于重构降噪, 继续增加的特征向量可能又会引入冗余信息, 进而对模型产生了一定的负面影响。
传统的水体BOD测量方法操作复杂、 费时费力, 本文提出了一种基于PCA透射光谱重构的降噪方法, 结合光谱数据和机器学习建立SVM和BPNN回归模型, 精准高效便捷的实现了水体BOD含量的估算, 不但解决了传统方法在BOD测量中出现的问题, 同时也证明了机器学习模型建立过程中透射光谱数据集降噪处理的必要性以及本方法的有效性。 实验结果表明, 相较于SVM模型, BPNN模型在水体BOD含量估算任务中整体表现更为出色。 对于水体透射光谱数据的降噪处理, 利用PCA提取主成分特征向量, 再通过方差贡献率靠前的特征向量反向重构数据实现降噪, 对比高光谱预处理中常见的小波降噪和滤波降噪方法, 得出结论, 通过PCA重构透射光谱数据能够实现降噪处理, 但是需要注意特征向量个数的选择, 要保证所选择的特征向量足以表达数据中的主要信号并尽可能的舍弃干扰信号和冗余信息, 本文中对比了前2、 前10、 前15个特征向量重构降噪的效果。 其中前10个特征向量重构降噪结合BPNN后, 模型的R2较未对数据降噪处理前模型的0.937 8提升至了0.980 3, RMSE从0.071 8降低至了0.040 6, 相较其他方法展现出了更好的降噪效果, 所建立的BOD估算模型效果最好, 为利用透射光谱进行水体BOD含量估算提供了一种新的降噪方法。 随着水资源的愈发宝贵, 对于水体环境的监测也愈发重要。 本研究为水体监测提供了一种新的方法, 但是在研究对象和研究范围上仍具有一定的局限性。 从实验室水体中采集的透射光谱数据存在的干扰相对较少, 当面对室外真实水体环境中采集的样本数据时, 我们提出的PCA重构降噪方法是否有效尚待验证。 在进一步的研究中, 我们将会考虑更为复杂的真实水体环境样本, 考虑更多的水体监测参数, 进一步验证本研究提出的降噪方法以及水体估算模型的鲁棒性与普适性。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|