对数变换、 导数变换的高寒草地反射光谱特征分析与识别——以那曲地区HJ-1A/HSI图像为例
刘炜, 孙海霞, 杨晓波, 董建民
西藏光信息处理与可视化技术重点实验室, 西藏民族大学, 陕西 咸阳 712082

作者简介: 刘 炜, 1976年生, 西藏民族大学副教授 e-mail: remote2009@126.com

摘要

对比3种类型高光谱数据以及2种分类算法, 从那曲地区HSI高光谱图像上识别4个草种。 结合实地踏勘从HSI高光谱图像上采集藏北嵩草、 紫花针茅、 高山蒿草和小嵩草这4个草种的原始光谱反射率数据, 并分别进行导数变换、 对数变换, 得到4个草种的原始光谱、 一阶导数光谱、 对数变换光谱。 对这3种光谱数据进行谱线波形分异特征比较、 单因素方差分析以及相关分析, 从这3种光谱数据中提取出各自适用的敏感谱段, 然后将3种光谱数据的敏感谱段分别导入KICA-NFCM算法, 通过对HSI图像分类识别出4个草种。 对比3种光谱数据各自分类图的识别精度, 评价3种光谱数据敏感谱段的适用性; 再将3种光谱数据的敏感谱段分别导入ICA-FCM算法, 与KICA-NFCM算法分类结果比较对4个草种的识别精度。 结果显示谱线波形分异特征比较、 单因素方差分析以及相关分析表明, 原始光谱、 一阶导数光谱、 对数变换光谱的敏感谱段分别为788~925, 711~742, 669~682与788~925 nm; 使用这3种光谱数据进行KICA-NFCM分类, 总体精度、 Kappa系数分别为75.38%, 0.685, 81.26%, 0.752, 87.65%, 0.823; 使用3种光谱数据进行ICA-FCM分类, 总体精度、 Kappa系数分别为64.39%, 0.569, 67.74%, 0.604, 73.14%, 0.662。 比较结果表明对数变换能够增强多组相似光谱数据之问的峰谷特征差异, 为通过谱线波形分异特征比较选取敏感谱段创造条件; KICA-NFCM算法可以优化输入特征、 并引入加权邻域空间信息计算隶属度函数, 针对性解决了标准FCM算法在处理高光谱图像时, 目标识别过程受邻域噪声影响, 分类图像“椒盐效应”显著、 同质区域连通性差的问题。 结果表明: 应用“对数变换光谱/KICA-NFCM算法”组合能够最准确的从HSI图像上识别4个草种, 有效减少混分误判现象, 为精准开展高寒草地成像高光谱观测提供技术基础。

关键词: 成像高光谱; 对数变换光谱; 导数变换光谱; 峰谷特征; 敏感谱段; 隶属度函数
中图分类号:TP751.1 文献标志码:A
Spectral Reflectance Characteristics of Alpine Grassland Based on Derivative and Logarithmic Transform Spectra —Take HJ-1A/HSI Images of Naqu Prefecture as an Example
LIU Wei, SUN Hai-xia, YANG Xiao-bo, DONG Jian-min
Xizang Key Laboratory of Optical Information Processing and Visualization Technology, Xizang Minzu University, Xianyang 712082, China
Abstract

This paper points out KICA-NFCM algorithm to identify 4 alpine grassland types using HSI hyper-spectral images, by the comparative study of three spectra and two algorithms. Spectral reflectance data for stipa purpurea, kobresia tibetica, little kobresia and kobresia pygmaea was collected from HSI images, based on field investigation and inspection on the spot. Logarithm transformation and derivative transformation were used in the original spectra of 4 alpine grassland types. Sensitivity bands were determined for original spectra data, first-derivative spectra and logarithmic transform spectra, after the application of waveform analysis, one-way ANOV and correlation analysis. Then, sensitivity bands were imported into KICA-NFCM algorithm to identify 4 alpine grassland types mentioned above. For the sake of contrast, ICA-FCM algorithm was tested too. For original spectra data,first-derivative spectra,and logarithmic transform spectra, sensitivity bands were as follows: 788~925, 711~742, 669~682 and 788~925 nm respectively. Based on original spectra data,first-derivative spectra,and logarithmic transform spectra using KICA-NFCM algorithm, overall classification accuracy and KAPPA coefficients were as follows: 75.38%, 0.685; 81.26%, 0.752; 87.65%, 0.823. In contrast, overall classification accuracy and KAPPA coefficients were as follows: 64.39%, 0.569; 67.74%, 0.604; 73.14%, 0.662, based on three types of spectra using ICA-FCM algorithm. Results show that comparing with original spectra data and first-derivative spectra using ICA-FCM algorithm, logarithmic transform spectra using KICA-NFCM algorithm can make a more accurate and efficient identification of 4 alpine grassland types mentioned above, as well as the “salt and pepper noise” was suppressed in classed images. In contrast, ICA-FCM algorithm decreased boundary precision of patch in classed images and region consistency. Using “logarithmic transform spectra / ICA-FCM algorithm” proposed in this paper, the above 4 alpine grassland types in Naqu prefecture can be identified more accuracy. This method provides technical foundations for the development of hyper-spectral imaging observation for alpine grassland.

Keyword: Hyper-spectral imaging observation; Logarithmic transform spectrum; First-derivative spectrum; Peak-valley characteristics; Sensitivity bands; Membership function
引言

星载高光谱图像HJ-1A/HSI在波长范围459~956 nm内拥有115个工作波段, 平均光谱分辨率为4.32 nm。 HSI图像携带精细的光谱信息, 能够反映地物连续的波谱变化特征, 对于在大地域范围区域开展林草资源调查、 生态环境监测具有突出的应用价值[1]。 进一步对HSI图像进行一阶导数计算(导数变换)[2], 可以去除原始光谱数据中线性及接近线性成分, 突出反映光谱反射率的增减速率, 捕捉原始光谱曲线的拐点和极值点, 从而准确定位原始光谱曲线中由于叶绿素等物质吸收形成的峰谷特征; 另一方面, 由于对数函数在定义区间(0, 1]内具有良好的放大增益, 因此还可以对HSI图像先取倒数、 再进行对数运算(对数变换)[3]。 对数变换能够更突出的反映地物谱线波形变化特征, 增强多组光谱数据之问的峰谷特征差异对比, 有利于从多谱线间的分异表现中提取敏感波段, 为准确辨识光谱特征相近的地物创造条件。

模糊C-均值(FCM)算法依据最小二乘法原理, 采用迭代法解算关于隶属度矩阵和聚类中心矩阵的目标函数, 由此得到数据集中每个样本点(即像元)到各个聚类中心的隶属度, 再依据样本点的最大隶属度值判定样本点的类别归属。 FCM是常用的图像模式识别算法, 然而, 标准FCM算法在处理高光谱图像时, 是以单个像元作为独立的数据处理单元, 其隶属度函数的计算过程没有顾及中心像元的邻域空间信息。 这导致采用标准FCM算法对高光谱图像分类后, 目标识别结果受邻域噪声影响大, 识别准确度不高, 且分类图中出现显著的“ 椒盐效应” [4, 5], 很难被进一步用于GIS空间分析。 为此, 设计了KICA-NFCM算法, 对标准FCM算法做出一定改进: (1)采用核独立成分分析(KICA)预先对HSI图像的多波段数据进行非线性变换, 分离出相互独立的特征波段导入分类算法。 (2)采用结合邻域加权的模糊C-均值(NFCM)分类算法。 NFCM在依据目标像元光谱特征的同时, 能够参考目标像元与邻域像元的空间关系, 并赋予邻域像元一定的权重, 使其对目标像元的识别结果产生影响。 由此降低邻域噪声对识别结果的干扰, 提升目标识别精度, 抑制“ 椒盐效应” 。

那曲地区地处西藏自治区北部, 全区高寒干旱。 藏北嵩草、 紫花针茅、 高山蒿草和小嵩草是那曲地区具有代表性的高寒草地类型[6]。 以覆盖那曲地区那曲县、 安多县、 聂荣县的HJ-1A/HSI高光谱图像作为基础数据, 利用导数变换、 对数变换得到上述4个草种的原始光谱、 一阶导数光谱、 对数变换光谱; 通过谱线波形分异特征比较, 以及单因素方差分析和相关分析, 提取出这3种光谱数据各自适用的敏感谱段; 再设计KICA-NFCM算法利用敏感谱段从HSI图像中识别出上述4个草种, 对比3种光谱数据各自分类图的识别精度, 评价3种光谱数据敏感谱段的适用性。 并与ICA-FCM算法的分类结果比较识别精度。 本研究旨在为利用HSI图像精准开展高寒草地成像高光谱观测提供技术基础, 所用方法对于处理其他类型高光谱图像具有一定的借鉴意义。

1 数据来源与技术路线

表1显示了实验所用4景HSI图像的基本参数以及进行的5项预处理工作(波段筛选、 图像拼接、 大气校正、 几何精校正与融合)。 将图像波段95, 71, 67(中心波长依次为805, 673和656 nm)分别输入红、 绿、 蓝三通道合成标准假彩色图像, 即为图1。 为从HSI图像上采集藏北嵩草、 紫花针茅、 高山蒿草和小嵩草的光谱反射率曲线, 于2016年8月中旬, 结合Google Earth图像在那曲县开展实地踏勘, 采用近距离调查法和远观判别法为每一个草种选取样本点17个。 规定在样本点方圆30 m× 30 m范围内具有相同的草种类型, 然后将样本点的经纬度坐标导入HSI图像; 之后在HSI图像上在每个样本点周围选定5个像元, 采集它们的光谱反射率曲线并计算出它们的平均值, 以此作为该样本点的光谱反射率曲线。

表1 HSI图像基本参数 Table 1 The parameters of HSI images

图1 那曲地区HJ-1A/HSI图像Fig.1 HSI images of Naqu prefecture

采集4种高寒草地类型的3种光谱数据: 原始光谱反射率数据、 一阶导数光谱、 对数变换光谱, 通过谱线波形分异特征比较、 以及单因素方差分析和相关分析, 提取出3种光谱数据适用的敏感谱段; 将3种光谱数据的敏感谱段分别输入KICA-NFCM算法, 自动分类识别4种高寒草地类型; 依据分类图对比3种光谱数据敏感谱段的适用性; 并与ICA-FCM算法比较分类精度。 技术路线如图2。

图2 技术路线Fig.2 Technical route

2 四类草种光谱特征分析
2.1 原始光谱特征分析

图3对比了在波长范围470~925 nm内, 藏北嵩草、 紫花针茅、 高山蒿草和小嵩草的光谱反射率曲线, 结果表明: (1)在波长范围505~591 nm(波段21— 50)、 652~692 nm(波段66— 75)、 687~782 nm(波段74— 92)、 788~925 nm(波段93— 112)内, 藏北嵩草的光谱曲线依次出现“ 绿峰” 、 “ 红谷” 、 “ 红边” 和“ 近红外平台” [7], 显现出典型的绿色植被光谱特征。 其中, “ 绿峰” 最大值、 “ 红谷” 最小值分别位于555 nm(波段39)、 678 nm(波段72)处, 两处光谱反射率分别为6.91%和2.69%; 在“ 近红外平台” 788~925 nm波长范围内, 藏北嵩草的光谱反射率一直处于较高水平且平缓增加, 平均值为54.71%。 (2)与藏北嵩草相比, 小嵩草、 高山蒿草光谱曲线在“ 绿峰” 和“ 红谷” 处光谱反射率增高; 但在“ 近红外平台” 范围内的反射率却降低。 在“ 绿峰” 处, 小嵩草、 高山蒿草最大反射率依次为7.39%(552 nm)和8.51%(565 nm), 分别是藏北嵩草的1.07倍、 1.23倍; 在“ 红谷” 处, 二者最小反射率依次为4.45%(673 nm)和8.39%(660 nm), 分别是藏北嵩草的2.75倍、 4.32倍; 在“ 近红外平台” 788~925 nm波长范围内, 小嵩草、 高山蒿草的反射率平均值为39.10%和32.87%, 是藏北嵩草的71.47%和60.09%。 尤其是高山蒿草, 它在“ 红谷” 与“ 近红外平台” 这两处的反射率差距显著小于藏北嵩草, 致使其“ 红边” 长度明显缩短、 倾斜幅度减小; 并且高山蒿草的光谱反射率从“ 绿峰” 顶端至“ 红谷” 平缓波动, 使得其在可见光范围555~692 nm内光谱曲线轮廓近似一个平台, 光谱曲线总体上表现出了退化草地的迹象。 (3)紫花针茅光谱曲线的“ 绿峰” 、 “ 红谷” 、 “ 红边” 特征则进一步弱化, 其在“ 绿峰” 565 nm处最大反射率为10.71%, 是藏北嵩草的1.55倍; “ 红谷” 664 nm处最小反射率为11.31%, 是藏北嵩草的3.01倍; 在“ 近红外平台” 788~925 nm内的光谱反射率的平均值为22.26%, 是藏北嵩草的42.70%。 相较于与其他3个草种, 紫花针茅在“ 红谷” 与“ 近红外平台” 的光谱反射率更接近, “ 红边” 长度进一步被压缩。 光谱曲线轮廓接近于砂土地的光谱曲线轮廓, 显现出荒漠化迹象。

图3 四种高寒草地光谱反射率曲线图Fig.3 Spectral reflectivity of 4 types of alpine grassland

4个草种原始光谱反射率曲线出现“ 绿峰” 、 “ 红谷” 、 “ 近红外平台” , 分别是由于草地叶片叶绿素对绿光强反射、 对红光吸收、 以及叶内细胞组织结构对近红外光反射、 折射所致。 这3个谱段是反演植被生化参量, 监测植被生长状况的敏感谱段。 依据所采集的样本点(每个草种17个点), 将“ 绿峰” 、 “ 红谷” 、 “ 近红外平台” 内各个波段的光谱反射率, 分别与4个草种(视作单因素的4个水平)进行单因素方差分析和相关分析。 结果显示在“ 近红外平台” 范围内, 4个草种的光谱值在0.05显著水平下存在差异, 相关系数最小值为0.791, 最大值为0.828; 而“ 绿峰” 、 “ 红谷” 内各波段的光谱值均没有通过0.05水平的显著性检验, 它们对4个草种区分效果不及“ 近红外平台” 内各个波段。 因此, 对于原始光谱反射率数据, 选取“ 近红外平台” 的波长范围788~925 nm作为敏感谱段用以辨识4个草种。

2.2 一阶导数光谱特征分析

对原始反射率光谱数据进行一阶导数变换[8], 可以去除原光谱数据中线性及接近线性成分, 突出反映光谱反射率的增减速率, 捕捉原光谱曲线的拐点和极值点, 从而有利于准确定位光谱曲线中由于叶绿素等物质吸收形成的峰谷特征。 鉴于此, 采用如式(1)对HSI图像进行导数变换

Dm(λi)=[Rm(λi)-Rm(λi-1)]/(λi-λi-1)(1)

式(1)中, i为HSI图像波段序号, 取值范围为6~112; λ i表示第i波段的波长位置; m=1~4, 分别代表藏北嵩草、 紫花针茅、 高山蒿草和小嵩草这4个草种。 Rm(λ i)表示第m种草地类型, 在波长位置λ i nm处的原始光谱反射率; D(λ i)则表示第m个草种, 在表示波长位置λ i nm处的一阶导数光谱值。

图4对比了在“ 红边” 687~782 nm波长范围(波段74— 92)内, 藏北嵩草、 紫花针茅、 高山蒿草和小嵩草的一阶导数光谱曲线, 结果表明: (1)在“ 红边” 范围内, 4个草种的一阶导数光谱均呈现出“ 凸” 状特征峰, 但特征峰形态差异明显。 其中, 藏北蒿草具有典型的“ 双峰” 特征, 其“ 次峰” 、 “ 主峰” 分别位于701 nm(波段77)、 737 nm(波段84); 小嵩草、 高山嵩草、 紫花针茅的“ 次峰” /“ 主峰” 则分别位于701 nm(波段77)/732 nm(波段83)、 711 nm(波段79)/726 nm(波段82)、 721 nm(波段81)/732 nm(波段83)。 相较于其他3个草种, 在紫花针茅“ 凸” 状特征峰顶部, 主、 次峰之间的波长距离最小, 主、 次峰的振幅差值也最小, “ 次峰” 特征被弱化。 (2)在绿色植被“ 红边” 特征中, 一阶导数光谱曲线的“ 红边位置” 、 “ 红边振幅” 、 “ 红边面积” 被认为是用来跟踪叶绿素、 生物量和物侯变化的最具显著性的3个诊断性指标[9]。 高山蒿草、 小嵩草、 藏北嵩草的“ 红边位置” 分别位于726, 732和737 nm, 依次向长波方向移动; 藏北嵩草、 紫花针茅、 高山蒿草和小嵩草的“ 红边振幅” 分别为62.61, 33.06, 24.92和10.14。 其中, 紫花针茅的“ 红边振幅” 最小, 分别是藏北嵩草的16.20%、 小嵩草的30.67%和高山蒿草的40.69%; 另外, 通过数值积分可以得到藏北蒿草、 小嵩草、 高山嵩草和紫花针茅的“ 红边面积” 分别为518.703, 305.241, 198.322, 98.171。 藏北蒿草的“ 红边面积” 分别是小嵩草、 高山蒿草和紫花针茅的1.70倍、 2.62倍和5.28倍。 显然, 相较于其他3个草种, 紫花针茅的“ 红边” 特征表现最弱, 显示出其生长旺盛程度不及其他3个草种; 而藏北蒿草则显现出旺盛的生长状况。

图4 四种高寒草地一阶导数光谱曲线图Fig.4 First-derivative spectra of 4 types of alpine grassland

“ 红边位置” 能够捕捉到原始光谱反射率增长速度由快到慢变化转折的“ 拐点” , 常被用作分析植被生长状况、 跟踪植被营养亏缺程度的重要指标。 图4表明在“ 红边位置” 附近, 4个草种原始光谱反射率增速存在明显差异。 依据所采集的样本点, 将“ 红边位置” 两侧687~782 nm范围内的一阶导数光谱值, 分别与4个草种(作为单因素的4个水平)进行单因素方差分析和相关分析。 结果表明, 只有在波长范围711 nm(波段79)~742 nm(波段85)内, 4个草种的一阶导数光谱值在0.05水平下存在显著差异; 相关系数最小值、 最大值分别为0.783和0.812。 因此, 对于一阶导数光谱数据, 可以选取“ 红边位置” 两侧波长范围711~742 nm, 作为敏感亲段用以辨识4个草种。

2.3 对数变换光谱特征分析

对数函数在定义区间(0, 1]内具有良好的放大增益。 通过对植被原始光谱反射率数据先取倒数、 然后再进行对数运算(对数变换), 可以突出表现谱线波形变化特征, 增强多组光谱数据之问的峰谷特征差异, 从而有利于从多谱线间的分异表现中提取敏感波段, 改善对光谱特征相近地物的识别精度。 鉴于此, 采用如式(2)对HSI图像进行对数变换

RLm(λi)={ln[Rm(λi+1)]-1}3(2)

式(2)中, i, λ i, m, Rm(λ i)的意义同式(1)。 RLm(λ i)表示第m个草种, 在波长位置λ i nm处的对数变换光谱值。

图5对比了波长范围472~925 nm内, 藏北嵩草、 小嵩草、 高山蒿草和紫花针茅的对数变换光谱曲线, 结果表明: (1)在505~591 nm(波段21— 50)范围内, 4个草种对数光谱值均呈现先下降、 后上升的“ 凹” 状波谷。 在“ 凹” 状波谷中部, 藏北嵩草、 小嵩草、 高山蒿草、 紫花针茅对数光谱出现最小值, 依次为-60.37(555 nm), -64.04(552 nm), -29.60(565 nm)和-106.75(565 nm)。 相较之图3中的“ 绿峰” , 在图5所示“ 凹” 状波谷的中部, 4个草种谱线之间的距离有所增加, 但仍容易混淆藏北嵩草与小蒿草的谱线。 (2)在652~692 nm(波段66— 75)范围内, 藏北嵩草、 小嵩草、 高山蒿草、 紫花针茅对数光谱的最大值依次为-1.64(678 nm), -18.83(673 nm), -42.01(660 nm)和-111.69(664 nm)。 与图3中的“ 红谷” 比较, 在652~692 nm范围内, 4种草地谱线之间的距离显著增加, 能够被准确分辨。 (3)在687~925 nm(波段74— 112)范围内, 4个草种对数变换光谱值均呈现出先快速下降、 再小幅波动延伸的变化趋势。 其中, 在788~925 nm(波段93— 112)内, 藏北嵩草、 小嵩草、 高山蒿草、 紫花针茅对数变换光谱值变化稳定, 其平均值依次为: -499.58, -381.27, -329.82和-240.87, 与图3中的“ 近红外平台” 比较, 在图5中788~925 nm内各谱线之间相互距离明显增加, 因而分异表现更为显著。

图5 四种高寒草地对数变换光谱曲线图Fig.5 Logarithmic transform spectra of 4 types of alpine grassland

依据所采集的样本点, 将505~591 nm(波段21— 50)、 652~692 nm(波段66— 75)、 788~925 nm (波段93— 112)内的对数变换光谱值, 分别与4个草种(视作单因素的4个水平)进行单因素方差分析和相关分析。 结果显示, 在波长范围669~682 nm(波段70— 73)、 788~925 nm(波段93— 112)内, 4个草种的一阶导数光谱值在0.05显著水平下存在差异; 相关系数最小值、 最大值分别为0.795和0.837。 因此, 对于对数变换光谱数据, 可以选取两个波长范围669~682和788~925 nm, 作为敏感谱段用以辨识4个草种。

3 KICA-NFCM算法
3.1 KICA非线性变换

高光谱图像每个像元在各波段的灰度值(即观测信号的各个分量)由该像元覆盖的多种地物的光谱特征(即源信号的各个分量)混合而成, 源信号各分量之间彼此独立。 独立成分分析(ICA)是一种线性变换, ICA基于高阶统计矩分析观测信号, 能够从观测信号中提取出相互统计独立且呈非高斯分布的源信号估计值。 HSI图像光谱分辨率高, 相邻多波段之间存在高相关性和高冗余度。 利用ICA线性变换, 可以将HSI图像各波段转换成光谱信息相互独立的分量, 去除相关性对图像分类的不利影响。 然而, 囿于100 m的空间分辨率, 一个HSI图像像元通常覆盖相互独立的多种地物。 受太阳光照射角度、 地形高程差异等因素的影响, 这个HSI像元在每个波段的灰度值(观测信号的一个分量)实则为其覆盖的多种地物的光谱特征(源信号各个分量)的非线性组合。 因此, 直接利用ICA线性变换处理HSI图像就存在一定的局限性。

采用核独立成分分析(KICA)方法对HSI图像进行预处理。 KICA先以满足Mercer条件的对称函数作为核函数K(xi, xj), 代替两向量间的内积运算(ICA是以内积运算表达源信号各分量之间的线性组合), 实现对多波段数据的非线性变换, 将其映射到高维希尔伯特空间, 使其线性可分; 然后再在高维空间中对被映射的数据进行ICA分析。 KICA改善了ICA处理非线性问题时的缺陷, 能够从高光谱图像中有效分离出增强目标和背景光谱特征差异的独立信源, 凸显出在原低维光谱空间没有表现出的特征, 支持后续图像通过聚类分析准确识别4个草种。 KICA算法的应用描述如下:

(1) 设单波段HSI图像有MN列个像元, 将具有H个波段的HSI图像的按波段序号展开为H行(M× N)列的矩阵X, X即为观察信号。

(2) 选用高斯径向基核函数K(xi, xj )=exp -xi-xj22σ2, 将X的各个分量映射到高维空间, 即xiΦ (xi), i=1, 2, …, M× N

(3) 对Φ (xi)进行白化处理, 消除各变量之间的线性相关性且使方差为1。 设Φ (xi)的均值μ x= 1nm=1nΦ (xi), i=1, 2, …, M× N。 则在高维空间的协方差矩阵为Cx= 1ni=1n(Φ (xi)-μ x)(Φ (xi)-μ x)T; 由于矩阵Cx具有半正定性, 因此存在一组基下的对角矩阵(以Cx特征值为对角元)与Cx相似, 故存在特征方程Cxvk=λ kvk, k=1, 2, …, n, 方程λ k, vk分别为Cx的特征值和特征向量; 由特征方程解算出Cx的特征值对角阵Λ =diag(λ 1, λ 2, …, λ n )(特征值按降序排列)和对应的特征向量的正交矩阵V=[v1, v2, …, vn]。 根据再生核理论推知vk∈ span{Φ (x1), Φ (x2), …, Φ (xn)}, 因此必有实参 aik, 使得vk= i=1naikΦ (xi), k=1, 2, …, M× N成立。 进一步由Λ V构造得到白化矩阵MΦ =-1/2VT, 在高维空间的白化向量为: (Φ (xi))'=MΦ (Φ (xi)-μ x), i=1, 2, …, M× N

(4) 采用FastICA算法分析(Φ (xi ))', i=1, 2, …n, 计算出解混矩阵WΦ , 得到源信号的估计值yΦ

yΦ=WΦ(Φ(xi))'=WΦ[λ1-1/2t=1nat1(Φ(xi)TΦ(xt)-1ns=1nΦ(xs)TΦ(xt)), λ2-1/2t=1nat2(Φ(xi)TΦ(xt)-1ns=1nΦ(xs)TΦ(xt)), , λn-1/2t=1natn(Φ(xi)TΦ(xt)-1ns=1nΦ(xs)TΦ(xt))]T

该式中以高斯核函数实现内积运算Φ (xs)TΦ (xt)=< Φ (xs ), Φ (xt)> =K(xs, xt)=exp -xs-xt22σ2。 由以上算法描述可知, 利用KICA非线性变换技术对原HSI图像进行预处理, 可有效分离出相互独立的特征波段。 有望降低在HSI图像中, 由于地物光谱的非线性混合导致的草地种类误判。

3.2 NFCM分类

由于FCM算法是以单个样本点作为数据处理单元, 它忽略了样本点的空间邻域信息, 导致算法对孤立点敏感, 抗噪性能差, 以致在对HSI图像聚类分析后, 生成的地物图斑散碎, 同质区域在拓扑空间上连通性低。 实际上, 在那曲地区, 城区以外地表上各种地物通常连续分布, 反映到HSI图像上, 相邻像元同属一个类别的概率大, 因此在对HSI图像聚类分析时, 不但要考虑目标像元的光谱特征, 而且还应考虑该像元与邻域像元的空间关系, 赋予邻域像元一定的权重, 使其对中心像元的识别结果产生一定影响。 由此降低HSI图像的光谱噪声对孤立点识别结果的影响, 改善同质区域的连通性, 得到更为连续、 完整的地物分类图斑。 鉴于此, 设计了结合邻域加权的模糊C-均值 (NFCM)算法, 对传统FCM算法做出一定改进。

设HSI图像共有H个波段, 每个单波段图像有MN列个像元, 设X={x1, x2, …, xM× N}为HSI图像的像元集合, 则第k个像元向量xk={ xk1, xk2, …, xkH, }, 其中 xkH为第k个像元在H波段的灰度值; 设目标区域的地物类别总数为L (L∈ [2, (M× N-1)]), HSI图像的聚类中心集合则可表达为Z={z1, z2, …, zL}, 其中第s个类别的聚类中心向量为zs={ zs1, zs2, …, zsH}, dsk=‖ xk-zs‖ 为xkzs的欧氏距离, dsk度量待分像元与聚类中心的相似性。 HSI图像中像元xk归属于第s类的隶属度设为tsk, 则存在隶属度矩阵为T=[tsk]L× (M× N)T的第s行所有元素表达各个像元归属于第s类的隶属度; 第k列元素则反映第k个像元归属于各个类别的隶属度。 T满足约束条件: {tsk∈ [0, 1]| s=1Ltsk=1, ∀ k, k=1M×Ntsk< (M× N) 〗, ∀ s}。 定义目标函数Gm(T, Z): Gm (T, Z)= k=1M×Ns=1L[(tsk)m× (dsk)2], m为模糊隶属度加权指数。

设第H号波段图像fMN列, fH(i, j)为坐标(i, j)处的图像像元的灰度值, 1≤ iM, 1≤ jN。 定义一个窗口半径为r的方形邻域窗口E={e(i+a, j+b)|a, b∈ [-r, r]}(即窗口尺寸为(2r+1)× (2r+1)), 其中e(i+a, j+b)是邻域内各个像元的权重系数, 反映了像元(i+a, j+b)对中心像元(i, j)的影响力

e(i+a, j+b)=(|f(i+a, j+b)-f(i, j)|+1)-12a=-rrb=-rr(|f(i+a, j+b)-f(i, j)|+1)-1a, b[-r, r](a, b)(0, 0)(3)

式(3)表明, 像元(i+a, j+b)与中心像元(i, j)的灰度值越接近(两像元同属一类的可能性越大), 其对中心像元的影响力(权重)也就越大。 在式(3)基础上进一步计算得到中心像元(i, j)的加权灰度值 fH* (i, j): fH* (i, j)= a=-rrb=-rr[f(i+a, j+b)* e(i+a, j+b)], 1≤ iM, 1≤ jN。 由 fH* (i, j)再进一步计算得到含有加权灰度的像元集合X* ={ x1* , x2* , …, xM×N* }, X* 中第k个像元向量 xk* ={ xk* 1, xk* 2, …, xk* H}, 其中 xk* H为第k个像元在H号波段的加权灰度值 fH* (i, j), k=ij。 NFCM聚类算法新的目标函数为

Gm* (T, Z)=k=1M×Ns=1L[(tsk)m×(dsk)2]+θk=1M×Ns=1L[(tsk)m×(dsk* )2](4)

式(4)中, dsk=‖ xk-zs‖ 为像元xk到聚类中心zs的欧氏距离; dsk* 为基于邻域加权灰度值得到的像元xk到聚类中心zs的欧氏距离。 θ 为加权控制参数。 目标函数 Gm* (T, Z)值越小表明图像聚类后像元聚集程度越紧密, 算法分类识别的质量越高。 因此, 需在约束条件下求取在 Gm* (T, Z)达到极小值时的变量T, Z的值。 由拉格朗日乘数法得到式(4)取得最小值得必要条件: tsk* = j=1L(dsk)2+θ(dsk* )2(djk)2+θ(djk* )21(m-1)-1, s, j∈ [1, L], k∈ [1, M× N]和 zs* = k=1M×N[(tsk)m(xk+θxk* )](θ+1)k=1M×N(tsk)m, s∈ [1, L]。 tsk* zs* 分别为新的隶属度迭代函数、 聚类中心迭代函数。 采用迭代的方法求解上述两式。 收敛时, 即可得到隶属度矩阵和聚类中心矩阵, 据此提取出全图各样本点的最大隶属度, 进而判定其类别归属。

4 三种高光谱数据和2种算法应用对比

按图2所示技术路线从4个草种的原始光谱、 一阶导数光谱、 对数变换光谱中提取各自适用的敏感谱段(表2); 然后将上述3种光谱数据的敏感谱段分别导入KICA进行非线性变换, 之后对KICA各个输出特征计算方差, 并按方差值大小对KICA所有输出特征进行排序。 设定累积方差百分比贡献率阈值为95%, 选取达到该阈值时排序在前的KICA输出特征; 将3种光谱数据各自的优选特征分别导入至NFCM, 并设置初始条件(模糊隶属度加权指数m=2.0, 加权控制参数θ =4), 和迭代收敛条件(隶属度最小变化量为ε =1× 10-6, 允许最大迭代次数为Tmax=200, 窗口半径为r=1)。 KICA-NFCM算法对上述3种光谱数据图像进行分类, 结果如图6(a)— (c)。

表2 分类精度比较 Table 2 Comparison of classification accuracy

图6 三种光谱数据KICA-NFCM算法分类
(a): 原始光谱分类; (b): 一阶导数光谱分类; (c)对数变换光谱分类
Fig.6 Classification results of KICA-NFCM algorithm
(a): Original spectrum; (b): First dirivative spectrum; (c): Log transform spectrum

为与KICA-NFCM算法比较, 还将3种光谱数据敏感谱段内的各波段, 直接导入结合ICA与标准FCM的算法, 分类结果如图7(a)— (c)。 在图像分类后, 从原HSI图像中随机抽取426个像元, 从图像元目视判别类别归属, 再与图6(a)— (c), 图7(a)— (c)所示分类结果依次进行比较, 然后据此计算每个分类图的混淆矩阵以及总体精度、 Kappa系数(表2)。

图7 三种光谱数据ICA-FCM算法分类
(a): 原始光谱分类; (b): 一阶导数光谱分类; (c)对数变换光谱分类
Fig.7 Classification results of ICA- FCM algorithm
(a): Original spectrum; (b): First derived spectrum; (c): Log transform spectrum

对比图6(a)— (c)、 图7(a)— (c)表明: 采用“ 对数变换光谱/KICA-NFCM算法” 组合能够最准确的识别出4个草种[图6(c)], 图6(c)的总体精度、 Kappa系数分别为87.65%, 0.823, 较之图6(a)分别提高18.31%, 20.15%; 较图6(b)分别提高7.86%, 9.44%, 并且在图6(c)中, 4个草种的图斑轮廓位置准确, 可与原HSI图像准确叠加复合; 叠加对比图6(a)— (c)进行目视检查还可以发现, 在图6(a)和(b)中, 混分藏北嵩草与小蒿草、 在水体图斑边界处将水体图斑误分为藏北嵩草、 将高山蒿草误分为小嵩草或紫花针茅、 将紫花针茅误分为砂土地的情况主要出现在不同草种相互邻接的地带, 而在图6(c)的相同地域, 上述遗漏、 错误判别小斑类别的情况显著减少。 另一方面, 叠加对比图6(a)— (c)和图7(a)— (c)进行目视检查发现, 在图7(a)— (c)中分类图斑内部分布有孤立的噪声碎斑, 图像“ 椒盐效应” 显著, 部分砂土地图斑轮廓线杂乱, 发生了位置偏移。 而在图6(a)— (c)中, 同质区域的连通性得到改善, “ 椒盐效应” 被抑制, 为进一步执行GIS分析创造条件。

5 结论

对数函数在定义区间(0, 1]内具有良好的放大增益, 通过对4个草种原始光谱反射率数据进行对数变换, 可有效增强多组相似光谱数据之问的峰谷特征差异, 有利于通过谱线波形分异特征比较提取敏感谱段辨识4个草种; 较之ICA-FCM算法, KICA-NFCM算法能够提高从HSI图像上识别4个草种的准确度, 并有效去除分类图中的噪声碎斑, 抑制“ 椒盐效应” 。 2018年4月、 5月, 我国陆续发射了珠海一号星座群4颗高光谱卫星、 以及高分5号高光谱卫星[10]。 在后续研究中, 研究团队将协同使用上述高光谱卫星数据与HSI图像, 在更大尺度的地域范围内, 测试、 改进本文提出的“ 对数变换光谱/KICA-NFCM算法” , 为在那曲地区开展高寒草地成像高光谱观测提供技术支持。

致谢: 感谢中国资源卫星应用中心提供HJ-1A/HSI和HJ-1A/CCD数据。

参考文献
[1] WEI Xiu-hong, QIN Gui-li, FAN Yan-min, et al(魏秀红, 靳瑰丽, 范燕敏, ). Chinese Journal of Grassland (中国草地学报), 2017, 39(6): 33. [本文引用:1]
[2] CHEN Yong-qiang, CHEN Biao, LEI Xin-ming, et al(陈永强, 陈标, 雷新明, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(11): 3483. [本文引用:1]
[3] CONG Meng-long, SUN Dan-dan, WANG Yi-ding(丛梦龙, 孙丹丹, 王一丁). Infrared and Laser Engineering(红外与激光工程), 2017, 46(2): 226. [本文引用:1]
[4] Kaur A, Kumar R, Kaur S. International Journal of Computer Applications, 2017, 158(10): 5. [本文引用:1]
[5] Liu G Y, Zhang Y, Wang A M. IEEE Transactions on Image Processing, 2015, 24(11): 3990. [本文引用:1]
[6] AN Ru, LU Cai-hong, WANG Hui-lin, et al(安如, 陆彩红, 王慧麟, ). Geomatics and Information Science of Wuhan University(武汉大学学报·信息科学版), 2018, 43(3): 399. [本文引用:1]
[7] YANG Ke-ming, XIA Tian, LIU Yi-cong, et al(杨可明, 夏天, 刘一聪, ). Journal of China University of Mining & Technology(中国矿业大学学报), 2018, 47(3): 691. [本文引用:1]
[8] LI Chang-chun, CHEN Peng, LU Guo-zheng, et al(李长春, 陈鹏, 陆国政, ). Chinese Journal of Applied Ecology(应用生态学报), 2018, 29(4): 1225. [本文引用:1]
[9] LI Shao-ping, WU Zheng-fang, ZHAO Yun-sheng, et al(李少平, 吴正方, 赵云升, 等). J. Infrared Millim). Waves(红外与毫米波学报), 2016, 35(5): 584. [本文引用:1]
[10] WANG Jian-yu, LI Chun-lai, Gang, et al(王建宇, 李春来, 吕刚, 等). J. Infrared Millim). Waves(红外与毫米波学报), 2017, 36(1): 69. [本文引用:1]