南漪湖叶绿素a浓度荧光反演算法研究
代前程1, 谢勇1,*, 陶醉2, 邵雯1, 彭飞宇1, 苏逸1, 杨邦会2
1.南京信息工程大学地理科学学院, 江苏 南京 210044
2.中国科学院空天信息创新研究院, 北京 100101
*通讯作者 e-mail: xieyong@nuist.edu.cn

作者简介: 代前程, 1997年生, 南京信息工程大学地理科学学院硕士研究生 e-mail: qianchengdai@foxmail.com

摘要

叶绿素a(Chlorophyll-a, Chl-a)浓度是监测浮游植物和水质状况的代表性指标, 对湖泊富营养化评价具有重要意义。 为了探求南漪湖多时相的Chl-a浓度高光谱特征及反演方法, 选取2020年—2021年间南漪湖8次走航式水体实验同步采集的98组高光谱数据和Chl-a浓度数据, 分析不同Chl-a浓度条件下南漪湖实测光谱的变化特征, 同时考虑水质组分变化和采样时间变化对光谱的影响, 提取能反映Chl-a浓度信息的特征波段。 然后引入峰谷距离法、 荧光基线高度法、 峰面积法和基于峰面积法改进的谷上峰面积法共同反演南漪湖Chl-a浓度, 并利用5折交叉验证法比较不同反演算法的优劣。 研究结果表明: (1)随着Chl-a浓度的增大, 荧光峰位置向红外方向移动, Chl-a吸收谷和荧光峰分别有加深和升高的趋势, 峰谷差异更加明显, 荧光峰附近谱段能够有效反映Chl-a浓度变化; (2)利用5折交叉验证法将样本分为5组, 依次作为验证集进行建模, 对于不同组别的验证集各方法的RMSE和 MAPE极差平均值分别为0.437 5 μg·L-1和28.27%, 可见样本建模集与验证集的选取会显著影响精度评价结果, 5折交叉验证的方法可以减小上述误差, 在样本范围内最大程度地比较出各方法的优劣; (3)结合Chl-a浓度吸收谷极小值处水平切线提出的谷上峰面积法取得了最优的反演结果, 其验证精度分别为 R2=0.756 7, RMSE=1.653 1 μg·L-1, MAPE=40.77%, 相较于峰谷距离法、 荧光基线高度法和峰面积法精度均有提升, 为叶绿素a浓度荧光反演提供了新的思路。

关键词: 南漪湖; 叶绿素a; 高光谱特征分析; 荧光峰; k折交叉检验
中图分类号:X87 文献标识码:A
Research on Fluorescence Retrieval Algorithm of Chlorophyll a Concentration in Nanyi Lake
DAI Qian-cheng1, XIE Yong1,*, TAO Zui2, SHAO Wen1, PENG Fei-yu1, SU Yi1, YANG Bang-hui2
1. School of Geographical Sciences, Nanjing University of Information Science and Technology, Nanjing 210044, China
2. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100101, China
*Corresponding author
Abstract

Serving as a representative indicator for phytoplankton and water quality monitoring, Chlorophyll a (Chl-a) is of great significance to evaluating lake eutrophication level. In order to explore the hyperspectral characteristics of multi-temporal Chl-a concentration and to select the best inversion methods of Nanyi Lake, 98 sets of hyperspectral data and Chl-a concentration data were collected simultaneously from 8 navigational water experiments in Nanyi Lake from 2020 to 2021 were selected. To extract the characteristic bands most sensitive to Chl-a concentration, measured spectrum data of Nanyi Lake under different Chl-a concentration levels were analyzed, considering the influence of changes in water quality at different timeson the spectrum. Then, the peak and valley distance method, the fluorescence line height method, the Normalized peak area method and the peak area above valley method was introduced to jointly invert the concentration of Chl-a in Nanyi Lake, followed by inter-comparing the results of the abovementioned algorithms based on the 5-fold cross-validation. The results areas follows: (1) As the concentration of Chl-a increases, the absorption valley and fluorescence peak of Chl-a tend to deepen and increase, respectively. At the same time, the position of the fluorescence peak moves towards the infrared part with increasing Chl-a concentration. The obvious difference between peak and valley under different Chl-a concentration levels indicates spectrum before and after fluorescence peak is highly sensitive to the change of Chl-a concentration. (2) Validation results using a 5-fold cross-validation method show that the mean values of RMSE and MAPE extreme differences for each method for different groups of validation sets were 0.437 5 μg·L-1 and 28.27%. It can be seen that the sampling method of the modeling set and verification set will introduce evaluation error, which can effectively be reduced by the 5-fold cross-validation method, obtaining the pros and cons of each method to the greatest extent based on samples. (3) Best inversion results have been achieved by the peak area above valley method, which was proposed in combination with the horizontal tangent line at the minimum value of the absorption valley of Chl-a concentration, with R2=0.756 7, RMSE=1.653 1 μg·L-1, and MAPE=40.77%. Compared with the peak and valley distance method, the fluorescence line height method and the Normalized peak area method witnessed significant improvement in the inversion accuracy and provided a new idea for the inversion of chlorophyll concentration based on fluorescence.

Key words: Nanyi Lake; Chlorophyll-a; Hyperspectral feature analysis; Fluorescence peak; K-fold cross validation
引言

近年来, 内陆湖泊富营养状况较为严重, 2020年中国生态环境状况公报(https://www.mee.gov.cn/hjzl/sthjzk/[2021.5.26])显示在开展营养状况监测的110个重要湖泊(水库)中, 中营养状态占61.8%, 轻度富营养状态占23.6%, 中度富营养及重度富营养状态占5.4%。 面对严峻的湖泊富营养化现状, 及时有效地监测湖泊富营养化程度变得极为重要。 Chl-a浓度不仅能反映水中浮游生物和初级生产力的分布, 还是评价水体富营养化程度的一个重要指标[1]。 分析近30年来长江中下游地区大型湖泊富营养化关键指标变化的特征及其驱动因素, 发现浮游植物Chl-a是最主要的营养状态指数贡献因子之一[2]

当水体叶绿素浓度、 固体悬浮物和有色可溶性有机物等光学组分浓度发生变化时, 水体吸收和散射等光学特性也会随之发生改变, 进而引起离水反射率变化[3]。 而高光谱数据具有非常精细化的光谱通道分布, 能够敏感地捕捉到不同Chl-a浓度条件下水体反射率的差异[4]。 其中, 700 nm附近由于叶绿素荧光效应产生的荧光峰能够很好地响应Chl-a浓度变化[5]。 基于叶绿素荧光峰建立的相关荧光算法利用更为精细的光谱特征来减少其他光学组分的影响, 获得了较高的Chl-a浓度反演精度[6]。 荧光算法能够最大限度地提取Chl-a的荧光信号, 对水质组分易发生变化的内陆湖泊长时间尺度Chl-a浓度反演具有重要意义。

本研究以南漪湖为实验区, 利用同步采集的实测高光谱数据与Chl-a浓度数据, 分析不同Chl-a浓度条件下湖面的实测光谱特征, 探索不同Chl-a浓度荧光反演方法在南漪湖的适用程度, 并结合光谱特征分析结果对效果欠佳的方法进行改进。 为了更好地评价各方法, 采用k折交叉验证法减少验证集选取带来的误差, 筛选出适用性较强、 精度较高的反演算法, 以期为内陆湖泊Chl-a浓度的反演研究提供支持。

1 实验部分
1.1 研究区及采样点

南漪湖属于长江下游外流淡水湖, 是皖南第一大湖泊, 位于安徽省宣城市。 其地理位置为118° 50.051'— 119° 2.653'E和31° 1.279'— 31° 10.402'N, 湖面呈扁“ V” 型, 面积约为183 km2, 湖心处湖床高程6~7 m, 正常水位8.5~9.0 m。 实验采样要求天气晴朗、 无风、 大气环境稳定, 采样点的布设间隔约2 km, 采样时间和采样点分布如图1所示。

图1 2020年— 2021年间8次南漪湖走航式采样时间与采样点分布图Fig.1 Distribution of sampling time and sampling points of 8 times of navigable sampling in Nanyi Lake from 2020 to 2021

1.2 数据处理

实验采取走航式的观测方式, 当船只到达规划采样点处停稳后, 架设水面辐射移动测量系统(above-water radiance mobile measuring system, AWRMMS)获取实测高光谱数据, AWRMMS是一款德国TriOS公司生产的水色遥感表观光学特性测量仪器, 其光谱波段范围为320~950 nm, 采样间隔3.3 nm。 为了提高光谱测量的准确性, 选择水上法并应用国际水色SIMBIOS观测几何, 确保避开船体遮挡和船舷阴影, 每个样点采集15条光谱数据, 进行平均和重采样处理得到该采样点1 nm间隔实测光谱曲线。 同时布设EXO1型多参数水质分析仪同步采集Chl-a浓度数据, 对每个采样点进行不少于15次测量, 对质量合格的数据取平均得到每个样点的Chl-a浓度数据。

1.3 南漪湖光谱特征分析

为了解南漪湖光谱特征, 绘制历次实验所有采样点的光谱曲线(图2)。 可以看出南漪湖具有典型的内陆湖泊光谱特征, 在320~450 nm范围内水体反射率较低, 之后逐渐增大并在550~580 nm范围内形成一个反射峰, 这是由于叶绿素、 胡萝卜素弱吸收, 细胞和总悬浮颗粒物的散射影响[7]。 因为Chl-a对红光的强烈吸收作用, 675 nm附近形成吸收谷。 由于纯水的高吸收, 波长超过650 nm时向上辐照度很小, 700 nm附近的峰值受到Chl-a荧光效应影响显著, 称为Chl-a荧光峰[8]。 730 nm之后由于水的强吸收作用, 反射率逐渐降低。 761 nm处形成的微弱反射峰是因为叶绿素荧光信号在大气中氧气吸收谱线的填充效应[9]。 810 nm附近形成反射峰, 可能与悬浮物浓度有关[10]

图2 2020年— 2021年间八次南漪湖采样实测光谱Fig.2 Measured spectra of eight sampling in Nanyi Lake from 2020 to 2021

根据南漪湖实测光谱曲线, 单次采样期间光谱曲线形态特征和反射率大小变化幅度很小, 不同采样时间对应的光谱曲线存在着较大的差异。 可见采样时间和水质组分等因素的变化对实测光谱的形态特征和反射率大小影响显著。 为了更好地探寻不同Chl-a浓度对光谱特征的影响, 将每次实验获取的Chl-a浓度进行统计, 得到实测Chl-a浓度特征如表1所示。

表1 2020年— 2021年间八次南漪湖实测Chl-a浓度特征 Table 1 Characteristics of Chl-a concentration measured eight times in Nanyi Lake from 2020 to 2021

不同采样时间的南漪湖Chl-a浓度存在明显的差异, 单次采样的Chl-a浓度变化范围较小, 这与南漪湖实测光谱曲线特征相一致。 为了更直观地比较不同采样时间光谱变化趋势, 依照采样时间将南漪湖实测光谱进行平均, 并标注每次实验Chl-a浓度平均值(图3)。 可以看到不同采样时间实测光谱反射率差异十分明显, 仅从反射率大小很难与Chl-a浓度建立联系, 例如2021.07.15和2020.10.23两次采样平均Chl-a浓度近似, 但光谱反射率却十分悬殊。 通过分析光谱形态特征变化, 探寻实测光谱中与Chl-a浓度密切相关的变化特征, 可以有效地消除水体反射率差异带来的影响[11]。 对照Chl-a浓度数据可以发现较低Chl-a浓度对应的光谱曲线在675 nm附近仅有轻微的波动, 而随着Chl-a浓度的升高, 光谱曲线在675 nm附近的吸收谷变得更加明显。 对于不同营养状态、 不同时相的水体, 其荧光峰位置均会随着Chl-a浓度的增加逐渐向长波方向移动, 同时反射率增大, 称为荧光峰红移现象。 由于Chl-a吸收谷和荧光峰所在的光谱范围受到固体悬浮物和有色可溶性有机物影响较小[12], Chl-a吸收谷与荧光峰特征能更为有效地提取Chl-a浓度信息。

图3 2020年— 2021年间南漪湖每次采样平均实测光谱Fig.3 Average measured spectrum of each sampling in Nanyi Lake from 2020 to 2021

根据光谱分析的结果, 选取与Chl-a吸收谷与荧光峰结合较为紧密的峰谷距离法、 荧光基线高度法和峰面积法三种典型荧光算法, 并基于峰面积法提出谷上峰面积法。 利用四种方法共同反演南漪湖Chl-a浓度, 旨在最大可能地凸显Chl-a信息, 减少不同时相反射率差异的影响, 精确反演Chl-a浓度。

1.4 峰谷距离法

由于Chl-a荧光峰红移现象, 荧光峰随着Chl-a浓度的增大向长波方向偏移。 峰谷距离为Chl-a吸收谷和相邻的荧光峰对应的波长差值, 能够反映Chl-a浓度[13]

Dp-v=λp-λv(1)

式(1)中, Dp-v为峰谷距离, λ p为Chl-a荧光峰对应的波长, λ v为Chl-a吸收谷对应的波长。 南漪湖Chl-a浓度变化较大, Chl-a荧光峰有明显的红移现象, 符合峰谷距离法的应用条件。

图4 峰谷距离示意图Fig.4 Schematic diagram of peak and valley distance

1.5 荧光基线高度法

荧光基线高度法利用Chl-a荧光峰相邻的两个吸收谷的连线作为基线, 基线之上的荧光峰高度被称为荧光基线高度(fluoresce line height, FLH)[14]

FLH=Rrs(λp)-λv2-λpλv2-λv(Rrs(λv)-Rrs(λv2))+Rrs(λv2)(2)

式(2)中, λ p是Chl-a荧光峰对应波长, λ v是Chl-a荧光峰左侧吸收谷对应波长, λ v2是荧光峰右侧吸收谷对应波长, Rrs(λ )是λ 波长对应反射率。

图5 荧光基线高度示意图Fig.5 Schematic diagram of fluorescence line height

1.6 峰面积法

峰面积法利用Chl-a荧光峰相邻的2个吸收谷来计算Chl-a浓度在红波段的反射峰面积(normalized peak area, NPA), 峰面积法综合考虑了叶绿素散射效率, 反演Chl-a浓度取得了很好的结果[15]

NPA=λvλv2Rrs(λ)dλ-(Rrs(λv)+Rrs(λv2))×(λv2-λv))2(3)

式(3)中, NPA是指峰面积, λ v是Chl-a荧光峰左侧吸收谷对应波长, λ v2是荧光峰右侧吸收谷对应波长, Rrs(λ )是λ 波长对应反射率。

图6 峰面积示意图Fig.6 Schematic diagram of normalized peak area

1.7 谷上峰面积法

研究发现峰面积法对于Chl-a浓度较低但反射率整体较高的的光谱曲线适用性不足, 因此在南漪湖实测光谱特征的基础上, 将峰面积法进行改进, 定义Chl-a吸收谷极小值处的水平切线L与荧光峰围成的面积为谷上峰面积(peak area above valley, PAAV)。

PAAV=λvλ'vRrs(λ)dλ-Rrs(λv)×(λ'v-λv)(4)

式(4)中, λ v为Chl-a吸收谷极小值对应波长, λ 'vL与荧光峰右侧光谱交点对应波长, Rrs(λ )是λ 波长对应反射率。 谷上峰面积减小了荧光峰以纯水吸收为主导部分的影响, 更能体现出Chl-a荧光信号为主导的荧光峰特征。

图7 谷上峰面积示意图Fig.7 Schematic diagram of peak area above valley

2 结果与讨论

利用k折交叉验证法对不同反演方法的结果进行评价, k折交叉验证将样本均匀地分成k份, 依次选择其中的k-1份进行反演, 利用余下的一份进行验证, 取k次验证误差的平均值来评价不同反演方法的精度。 k折交叉验证法可以保证所有数据均参与反演和验证, 避免实测数据较少时因为验证样本选择不当而带来的误差。

依照4:1的比例建立建模集和验证集, 因此选择5折交叉验证法, 将98条数据分为5组, 前三组各20条后两组各19条。 使用决定系数(R2)来评价不同样本集建立算法的可靠程度和反演结果与真值的线性相关程度; 均方根误差(RMSE)和平均绝对百分比误差(MAPE)用于衡量观测值同真值间的偏差, 两者分别反映方法的稳定性和精度。

表2列出5折交叉验证得到的四种方法分别对应的五组验证集反演算法公式, 其中自变量为各方法在光谱曲线上的提取值, 因变量为反演的Chl-a浓度。 峰谷距离与Chl-a浓度呈指数关系, 其余三种方法均为线性关系。 谷上峰面积法相较于峰面积法R2有明显提升(平均值从0.430 4提高到0.748 9)。 峰谷距离法和荧光基线高度法的R2平均值分别为0.767 8和0.735 5, 可见除了峰面积法其余三种方法均与Chl-a浓度具有较好的相关性。

表2 四种反演方法构建算法结果 Table 2 Construction algorithm results of four inversion methods

图8中一到五行依次对应五组验证集, 比较各组的反演结果可发现, 不同组别的验证集对应的反演结果差异较大, 第一组和第五组反演结果要优于其余三组, 第三组的反演结果最不理想。 从不同评价指标来看, 四种方法各验证集的R2极差范围为0.1075到0.2358, 平均极差0.154 0; RMSE极差范围为0.286 1~0.684 5 μ g· L-1, 平均极差0.437 5 μ g· L-1; MAPE极差范围为15.15%~40.16%, 平均极差28.27%。 由此可见验证集的选取对反演结果有着显著的影响, 5折交叉验证利用五组验证集精度评价的平均值(表3)综合评判各方法反演结果的优劣, 减小了样本建模集与验证集选取不当造成的精度评价误差, 最大程度地比较出各方法的优劣。

图8 四种方法Chl-a浓度反演结果与实测值对比Fig.8 Comparison of Chl-a concentration inversion results and measured values by four methods

表3 五组验证集精度评价平均值 Table 3 Average of five groups of validation set accuracy evaluation

根据四种反演方法5折交叉验证精度评价平均结果, 谷上峰面积法取得了最优的反演结果, 其精度和稳定性均高于其余三种方法。 峰谷距离法和荧光基线高度法的精度略差于谷上峰面积法, 而峰面积法精度最差。 根据光谱分析结果, 峰面积法受到Chl-a荧光峰高度差异影响显著, 不能很好地将Chl-a浓度相似但荧光峰高度差异较大的采样数据区分开来, 对于Chl-a浓度较低但整体反射率较高的的光谱曲线也不能适用。 谷上峰面积法能够减少荧光峰高度差异的影响, 更有效地提取Chl-a荧光峰信息, 因此谷上峰面积法和峰面积法相比精度有显著的提升。 根据图8可以看出谷上峰面积法精度优于峰谷距离法和荧光基线高度法的原因是在中等Chl-a浓度(2~7 μ g· L-1)具有最好的拟合效果, 将2~7 μ g· L-1范围内各方法反演精度进行比较(表4), 可见谷上峰面积法在2~7 μ g· L-1范围内相较于其他方法精度提升明显。

表4 中等Chl-a浓度(2~7 μ g· L-1)下 四种方法精度比较 Table 4 Comparison of the accuracy of four methods at medium Chl-a concentrations (2~7 μ g· L-1)

四种方法利用了Chl-a荧光峰的不同特性, 峰谷距离法基于荧光峰的红移现象、 荧光基线高度法基于荧光峰的基线高度、 峰面积法和谷上峰面积法基于荧光峰的面积, 各方法从不同的角度尽可能地提取Chl-a荧光峰信息。 谷上峰面积法优化了峰面积法的计算方式, 更好地利用了Chl-a荧光峰的面积, 提高了反演的精度。 尽管谷上峰面积法取得了较好的反演结果, 增添了一种新的内陆湖泊Chl-a浓度荧光反演方法, 但是考虑到研究样本缺少冬季和春季的数据, 方法的普适性亟待进一步研究。 接下来将着重开展冬春季节的实验, 丰富研究样本, 更加深入的研究谷上峰面积法对于不同Chl-a浓度水体的适用性, 提高方法的精度。

3 结论

通过分析南漪湖不同时相、 不同Chl-a浓度条件下的光谱特征, 利用5折交叉验证法比较不同荧光算法反演精度, 得出以下结论:

(1)南漪湖Chl-a荧光峰特征显著, 随着Chl-a浓度的增大, 荧光峰出现明显的红移现象, Chl-a吸收谷和荧光峰分别有加深和升高的趋势, 成为反演Chl-a浓度最为关键的两个谱段范围。

(2)谷上峰面积法取得了最好的反演精度(R2=0.756 7, RMSE=1.653 1 μ g· L-1, MAPE=40.77%), 相较于峰谷距离法、 荧光基线高度法和峰面积法精度均有提升, 为Chl-a浓度荧光反演提供了新的思路。

参考文献
[1] Wang Junlei, Zhang Yongjie, Yang Fei, et al. Environmental Earth Sciences, 2015, 73(8): 4063. [本文引用:1]
[2] ZHU Guang-wei, XU Hai, ZHU Meng-yuan, et al(朱广伟, 许海, 朱梦圆, ). Journal of Lake Sciences(湖泊科学), 2019, 31(6): 1510. [本文引用:1]
[3] LUO Jie-chun-yi, QIN Long-jun, MAO Peng, et al(罗婕纯一, 秦龙君, 毛鹏, ). Remote Sensing Technology and Application(遥感技术与应用), 2021, 36(3): 473. [本文引用:1]
[4] SHEN Wei, JI Qian, QIU Yao-wei, et al(沈蔚, 纪茜, 邱耀炜, ). Journal of Hydroecology(水生态学杂志), 2021, 42(3): 1. [本文引用:1]
[5] WANG Lin, YANG Jian-hong, ZHAO Dong-zhi(王林, 杨建洪, 赵冬至). Journal of Applied Oceanography(应用海洋学学报), 2014, 33(1): 111. [本文引用:1]
[6] Tenjo C, Ruiz-Verdú A, Wittenberghe S V, et al. Remote Sensing, 2021, 13(2): 329. [本文引用:1]
[7] WANG Jin-liang, QIN Qi-ming, LI Jun, et al(王金梁, 秦其明, 李军, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2014, 30(3): 128. [本文引用:1]
[8] Song Kaishan, Li Lin, Wang Zongming, et al. Environmental Monitoring & Assessment, 2012, 184(3): 1449. [本文引用:1]
[9] WEN Yan-sha, DENG Jian-ming, MAO Zhi-hua, et al(温颜沙, 邓建明, 毛志华, ). Journal of Remote Sensing(遥感学报), 2018, 22(3): 424. [本文引用:1]
[10] GAO Chen, XU Jian, GAO Dan, et al(高晨, 徐健, 高丹, ). Remote Sensing for Land and Resources(国土资源遥感), 2019, 31(1): 101. [本文引用:1]
[11] PENG Ling, MEI Jun-jun, WANG Na, et al(彭令, 梅军军, 王娜, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(9): 2922. [本文引用:1]
[12] Kim G, Baek I, Stocker M D, et al. Remote Sensing, 2020, 12(13): 2070. [本文引用:1]
[13] SONG Ting, ZHOU Wen-lin, LIU Jun-zhi, et al(宋挺, 周文鳞, 刘军志, ). Acta Scientiae Circumstantiae(环境科学学报), 2017, 37(3): 888. [本文引用:1]
[14] HUANG Qi-hui, HE Zhong-hua, LIANG Hong, et al(黄启会, 贺中华, 梁虹, ). Environmental Science & Technology(环境科学与技术), 2019, 42(1): 134. [本文引用:1]
[15] MA Wan-dong, WANG Qiao, WU Chuan-qing, et al(马万栋, 王桥, 吴传庆, ). Journal of Geo-information Science(地球信息科学学报), 2014, 16(6): 965. [本文引用:1]