作者简介: 范晓勇, 1999年生,江西理工大学河流源头水生态保护江西省重点实验室硕士研究生 e-mail: 6120230145@mail.jxust.edu.cn
离子吸附型稀土矿是重要的战略资源, 长期的粗放式开采导致矿区地表覆盖遭到严重破坏, 生态环境面临严重挑战。 准确精细的土地利用信息是矿区生态恢复和过程监管的重要基础, 利用高光谱影像获取土地利用信息被认为是准确监测大范围矿区的有效手段。 然而, 稀土矿区的地物复杂性和高光谱图像的信息冗余给其精细分类带来了挑战。 本研究构建了一种基于面向对象思想和多层注意力卷积神经网络的稀土矿区精细分类方法。 首先利用尺度参数估计模型定量分析了稀土矿区影像的多层次最优分割尺度, 并获取了分割影像中的光谱、 指数、 纹理、 几何4类影像特征, 然后基于距离可分性分析得到了最优特征组合, 在此基础上应用多层注意力卷积神经网络(OCTC)模型完成分类, 该模型由一维卷积神经网络(1D-CNN)改进而来, 通过引进Transformer和CBAM提升模型的特征提取能力和整体分类精度。 为验证方法的有效性, 以“珠海一号”高光谱遥感影像作为数据源, 以江西赣南岭北稀土矿区作为研究区域进行实际验证, 并与KNN、 RF和1D-CNN分类方法进行精度对比分析。 结果表明, 该分类方法有效避免了椒盐现象的出现, 分类整体性好, 并且改进后的多层注意力卷积神经网络模型获得了最佳的分类精度, 其总体精度可达88.11%, 较其他分类方法提高1.22%~8.84%, Kappa系数提高了0.015 9~0.109 0。 该方法能为稀土矿区的土地利用精细化分类与生产监测、 环境保护管理提供方法借鉴与科学参考。
Ion-adsorption-type rare earth minerals are important strategic resources. Long-term extensive mining has led to severe surface damage in mining areas, posing significant challenges to the ecological environment. Accurate and detailed land use information is a critical foundation for ecological restoration and process monitoring in mining areas. Hyperspectral imagery is considered an effective means for large-scale monitoring of mining areas to obtain land use information. However, the complexity of the land cover and the information redundancy in hyperspectral images pose challenges for fine classification. This study proposes a fine classification method for rare earth mining areas based on object-oriented thinking and a multi-layer attention convolutional neural network (OCTC). First, a scale parameter estimation model was used to quantitatively analyze the optimal segmentation scale at multiple levels of the rare earth mining area images. Four types of image features—spectral, index, texture, and geometric—were extracted from the segmented images. Then, an optimal feature combination was obtained through distance separability analysis. Based on this, a multi-layer attention convolutional neural network model (OCTC) was used for classification. This model is an improved version of the 1D-CNN, integrating the Transformer and CBAM to enhance the model's feature extraction capabilities and overall classification accuracy. To verify the method's effectiveness, Zhuhai-1 hyperspectral remote sensing imagery was used as the data source, and the Jiangxi Gan'nan Lingbei rare earth mining area served as the study region. The proposed method was compared with KNN, RF, and 1D-CNN classification methods for accuracy analysis. The results demonstrate that the proposed method effectively mitigates salt-and-pepper noise, maintains good overall classification integrity, and achieves the highest classification accuracy. The overall accuracy reached 88.11%, representing an improvement of 1.22% to 8.84% compared to other classification methods, with the Kappa coefficient increasing by 0.015 9 to 0.109 0. This method can provide valuable reference and scientific insights for the fine classification of land use and production monitoring, as well as environmental protection management in rare earth mining areas.
重稀土作为广泛应用于国防、 电子、 航空航天等尖端领域的关键元素, 是国家重要的战略资源[1]。 目前, 全球已知的重稀土资源几乎全部集中于中国南方地区, 尤其以离子型稀土矿最为典型[2]。 但是由于各种原因, 离子型稀土矿遭到大量破坏, 资源储量急剧下降, 并造成了严重的生态问题[3]。 针对上述情况, 加强对稀土的开发与管理、 矿区生态环境恢复状况的监测与判断等的需求日渐迫切[4]。
通过不同的分类算法从遥感影像获取土地利用结果[5], 并基于此进行土地利用调查, 是对大范围矿区进行监测的重要手段。 遥感技术的发展为矿区的土地利用调查研究提供了丰富的数据源, 高光谱遥感数据、 高分辨率遥感数据和SAR雷达影像等数据类型已经得到了广泛应用, 使得研究学者可以在不接触地面的条件下, 获取矿区地表信息[6]。 这些遥感数据具备空间覆盖广、 更新频率高、 历史数据可追溯等优势, 能够实现对矿区土地利用类型的高效识别与时序监测[7]。 范沛薇等利用高分辨率影像, 提取了研究区多年的土地利用信息, 分析了其土地利用动态变化情况[8]。 尽管高分辨率影像在矿区监测中具有较高的应用潜力, 但其获取成本较高、 数据处理复杂。 而Landsat等中等分辨率多光谱影像虽然经济高效, 但由于稀土矿点的分布小而分散[9], 在中等分辨率影像中并不能较好捕捉矿区土地分布特点。 “ 珠海一号” 高光谱(OHS)影像凭借其宽幅覆盖与高光谱分辨率, 既可满足大范围宏观监测的需求[10], 又能对地表微小的光谱差异高度敏感, 能够提取细致的地类光谱特征[11]。 Li等利用OHS数据对稀土矿区的土地利用进行详细分类, 为大范围矿区内的农业生态环境的精确监测提供支持[12]。
随着遥感影像信息自动化提取技术的不断进步, 面向矿区土地利用信息提取的影像分类方法也在不断丰富。 霍光杰等结合面向对象思想, 选择支持向量机与K-最近邻方法对河南省禹州市的较小范围、 地类简单的采矿区进行土地利用信息提取, 分类结果整体性较好, 无“ 椒盐” 噪声出现[13]。 然而, 在稀土矿区, 受限于多种开采与修复方式造成的地表结构复杂, 上述传统机器学习方法难以实现高精度分类。 Zhou等提出了一种边缘特征增强卷积神经网络模型(EG-UNet), 其中添加了长距离信息模块, 在构建的复杂矿区土地利用分类数据集和公开的地类较多的Gaofen图像数据集上都表现出不错的分类性能[14]。 这表明, 具有高效降维和高层次特征提取能力的深度学习算法能够被较好应用于复杂地表的地物分类和土地利用信息提取中[15]。
基于以上研究背景, 利用OHS遥感影像, 构建了一种结合面向对象思想和多层注意力卷积神经网络的稀土矿区精细分类方法。 该方法基于面向对象分类的思想, 在一维卷积神经网络的基本框架中增加了多层注意力机制(Transformer和CBAM), 并以江西赣南地区的岭北稀土矿区作为研究对象进行实际验证。 在此基础上, 对比了KNN、 RF、 1D-CNN与该方法的分类结果与精度。 本研究将有助于发掘高光谱数据在土地利用分类及后续生态系统多样性监测中的应用前景, 也能够验证结合面向对象-深度学习模型的分类方法在复杂地类区域信息提取中的有效性。
选取定南县岭北稀土矿区作为研究区域, 地理位置如图1 所示, 该矿区整体占地面积约为200 km2, 位于江西省赣州市定南县北部区域, 地处南方丘陵山地带内, 地形以丘陵、 山地为主, 属于中亚热带季风湿润气候区, 冬夏季风盛行、 春夏降水集中、 四季分明、 气候温和、 热量丰沛、 雨量充沛、 酷暑和寒流时间短、 无霜期长。
OHS遥感影像的空间分辨率为10 m、 光谱分辨率为2.5 nm, 涵盖可见光和近红外的32个波段、 波长范围400~1 000 nm。 数据来源于欧比特珠海一号数据服务平台(
综合利用面向对象与多层注意力机制卷积神经网络模型结合的分类方法实现了稀土矿区的土地利用精细化分类。 首先, 根据国家现行标准与现有相关研究, 结合实地勘察信息与遥感影像, 确定了稀土矿区分类体系。 然后, 使用尺度参数估计模型定量分析影像中对应地物的全局最优分割尺度, 分析得到了适用于稀土矿区的多层次最优分割尺度, 并以此对影像进行多层次面向对象分割。 进而, 提取了影像对象的光谱特征(64个)、 指数特征(8个)、 纹理特征(8个)和几何特征(17个)并基于距离可分性确定了最优分类特征组合。 在此基础上, 应用改进得到的多层注意力卷积神经网络实现了稀土矿区的土地利用精细分类, 并对结果进行精度评价。 为了评估本研究方法的优劣, 基于现有研究, 选取了KNN、 RF以及1D-CNN分类方法进行对比分析。
依据国家标准《土地利用现状分类》(GB/T21010— 2017), 结合OHS影像与矿区实地调查情况, 制定本研究的稀土矿区土地利用分类体系如表1所示。 其中, 常见地表包含建设用地, 林地, 园地, 运输用地, 耕地, 大棚耕地, 水域7类常见土地利用分类类别; 稀土矿区特征地表则包含稀土加工区和复垦植被2类土地利用分类类别。
![]() | 表1 稀土矿区土地利用分类体系 Table 1 Land use classification system of rare earth mining areas |
使用多尺度分割算法对影像实现对象分割, 该方法相对于其他影像分割算法可以更好地避免影像细节和噪声的影响[16]。 多尺度分割算法会先生成一个过分割结果, 然后在每次迭代中将分割对象合并, 得到最终的分割结果。 对象合并的标准是一个同质性成本度量, 定义为对象的异质性, 基于每个可能要合并的对象的颜色和形状特征进行计算, 然后, 将异质性与用户定义的尺度大小进行比较, 以决定是否在下一次迭代中继续进行合并, 其参数涉及光谱异质性权重和形状异质性权重的确定, 两者的基本关系如式(1)和式(2)
式(1)和式(2)中, F为异质性参数, w为光谱信息权重, 取值范围(0, 1), hcl为光谱异质性值, hsh为形状异质性值, wco为紧致度信息权重, 取值范围(0, 1), hco为紧致度值, hsm为平滑度值。 其中hco与hsm的计算方式如式(3)和式(4)
式(3)和式(4)中, n1与n2分别指将要合并对象的像素值, nm是两者之和, l1与l2分别指将要合并对象的边界周长, lm是两者之和, b1与b2分别指将要合并对象的最小外界矩形边界周长, bm是两者之和。
本研究根据多次分割实验结果, 将光谱信息权重设置为0.5, 紧致度信息权重设置为0.3, 识别稀土矿区不同土地利用分类的效果最佳。
为充分挖掘不同类别影像特征的差异, 从光谱、 指数、 纹理和几何特征4个角度提取特征。 光谱特征包括各波段均值(band mean)、 标准差(standard deviation)共计64个特征。 选择影像的32个原始光谱作为输入参数, 构建8种指数特征, 加入由植被指数和红边指数构成的指数特征, 可以更好的区分园林、 复垦植被等包含绿色植被的土地利用类别[12]。
结合遥感影像的纹理信息进行分类能得到更好的分类效果[17], 为此, 基于灰度共生矩阵(gray level co-occurrence matrix, GLCM)构建了8种纹理特征。 基于多尺度分割的分割结果, 计算得到每个分割对象17类几何特征[18]。 由初始影像特征构成的总计97维特征空间具体信息如表2所示。
![]() | 表2 基于OHS影像的特征空间信息 Table 2 Characteristic spatial information based on OHS images |
为了有效剔除各影像特征间的冗余信息, 提高分类精度与效率, 以不同土地利用类别间平均最小距离作为类别的可分性判断[19], 利用可分离距离算法确定各影像特征对于各地类的可分性。
多尺度分割算法获取的图像对象在大小上会存在较大差异, 而CNN则需要一个固定大小的图像块作为输入。 因此, 本研究构建了一个面向对象-基于多层注意力机制的一维卷积神经网络分类模型(OCTC)进行深度特征学习和预测, 其模型架构图如图2所示。
2.4.1 一维卷积神经网络
首先构建了包含卷积层、 激活函数、 池化层和全连接层的1D-CNN, 用于从输入的原始特征中提取深层特征。
卷积层是CNN的核心, 如式(5)所示, Xi作为输入数据, 经过Wj中大小为1× k的卷积核卷积后, 计算得到映射特征Yj。
式(5)中, bj为偏差, f(· )是非线性激活函数, 使用Rule函数作为网络的激活函数。
采用最大池化方法构建池化层, 并对特征图进行下采样。 如式(6)所示, 其中Yj便是输入, Pg表示池化操作的输出, max(· )表示最大池化操作。
全连接层通常设置在一系列的卷积层和池化层后, 如式(7)所示, 其中Zi和Yi分别表示扁平化的输入和对应的输出, W和b是权重和偏置, n是块的数量。
2.4.1 Transformer模块
为了进一步增强模型的特征提取能力, 在特征提取过程中引入了Transformer模块, 这使得模型在卷积层提取局部特征的基础上, 可以对这些局部特征进行编码和解码以获得全局信息, 从而提高分类精度。
Transformer模块由多层多头注意力机制和前馈神经网络组成, 通过多头注意力捕获特征间的不同关系, 这使得模型可以更好地处理序列数据的特征关联, 提升分类效果。 为了适应一维卷积网络结构, 本研究对Transformer编码器模块的输入进行了适配, 确保序列维度和通道维度的排列符合1D-CNN的输入要求, 以增强模型的特征提取深度, 其结构如图3所示。
Transformer的输入是一个序列或特征图, 经过位置编码(Input Embedding)后送入模型。
式(8)中, X是输入特征, Epos为位置编码。
对输入特征进行查询、 键和值矩阵转换, 通过自注意力机制计算特征之间的关系。 为了让模型能并行学习多个注意力表示, Transformer使用多头注意力机制(multi-head attention)。
式(9)— 式(11)中, Q是查询矩阵, K是键矩阵, V值矩阵, dk是键的维度。
每个自注意力机制后都接着一个前馈神经网络。
式(12)中, x是输入, W1, W2和b1, b2是可学习的权重和偏置。
2.4.2 卷积注意力模块
为了减少特征信息冗余和筛选显著特征信息, 利用卷积注意力模块(CBAM)来增强网络的信息提取能力, 这相当于一个隐式的特征优选, 在分类任务中有利于挖掘可区分性。
卷积注意力模块(CBAM)通过探索光谱和空间相关性, 为网络提高强大的信息过滤能力, 它由两个连续的子模块组成, 分别是Channel Attention和Spatial Attention。 一个自然的想法是利用其信息过滤能力, 从输入的众多特征中提取有价值的信息, 进行可分离性挖掘以提高分类精度。 本研究修改了CBAM的注意力模块以适应所提出的1D-CNN网络, 并将其部署在网络的特征提取末端以过滤信息, 其结构如图4 所示。
Channel Attention通过全局平均池化和全局最大池化提取输入特征图的全局信息, 然后通过共享全连接层生成每个通道的注意力权重, 再通过Sigmoid激活函数得到通道的注意力权重。
式(13)中, F为输入特征图, σ为Sigmoid函数, Poolavg和Poolmax分别为平均池化和最大池化操作, MLP是多层感知机。
Spatial Attention通过对输入特征图在通道维度上进行池化(平均池化和最大池化), 得到空间信息, 然后通过卷积层生成空间注意力权重, 最终通过Sigmoid函数输出空间的注意力权重。
式(14)中, Conv是卷积操作, F为输入特征图。
3.1.1 全局最优分割尺度
使用尺度参数估计模型计算影像的最优分割尺度, 该模型计算了不同分割尺度对影像对象局部同质性(local variance, LV)的影响, 表示为同质性局部变化率(rates of change, ROC)[20]。 当ROC线出现峰值时, 该点对应的分割尺度即为最优分割尺度, 在实验过程中, ROC线会产生多个峰值(如图5所示)。
3.1.2 多层次最优分割尺度
根据构建的分类体系, 通过对比选取的各类样本对应的分割对象确定某一峰值为各类别的全局最优分割尺度, 综合所有类别的全局最优分割尺度得到多层次最优分割尺度。
使用尺度参数估计模型共确定了8个最优分割尺度备选值, 分别以20、 47、 55、 63、 75、 94、 101、 116尺度对图像进行分割, 对比在不同分割尺度下得到的分割效果。 根据实验确定的各土地利用分类类别的多层次最优分割尺度, 最终将图像分为5层, 以116尺度分割得到第1层对象层, 以75尺度分割得到第2层对象层, 以63尺度分割得到第3层对象层, 以47尺度分割得到第4层对象层, 以20尺度分割得到第5层对象层。
利用可分离距离算法对原始特征集进行分析, 得到了不同特征空间维度的可分性。 当特征空间维度(即特征数量)为69时, 可分离距离达到最优值1.927, 表明在此特征组合下不同地物类别间的类内相似性最高、 类间相似性最低, 可分性最好, 即得到最优特征组合。 最优特征组合包含48个光谱特征、 5个指数特征、 2个纹理特征、 14个几何特征。
采用生产者精度(PA)、 用户精度(UA)、 总体精度(OA)和Kappa系数作为稀土矿区土地利用精细化分类结果的评价指标。 基于KNN[21]、 RF[22]、 1D-CNN与本研究构建的OCTC算法得到的研究区域分类精度如表3所示。 对比其分类结果精度, 各分类结果的总体精度和Kappa系数按从小到大的顺序为: KNN< RF< 1D-CNN< OCTC。 在机器学习算法的结果中, RF算法的分类精度最好, 其总体精度为80.49%, Kappa系数为0.762 4。 与之相比, 深度学习算法1D-CNN的分类效果更好, 分类精度也更高, 其总体精度达到了86.89%, Kappa系数达到了0.837 9。 而在所有的分类方法中, 本研究构建的OCTC的分类效果最好, 分类精度也是最高, 其总体精度达到了88.11%, Kappa系数达到了0.853 8。 OCTC可以有效的识别建筑、 稀土加工区等规则地物, 且对特征相似的地物类别之间的细微差别更为敏感, 可以较为准确识别复垦植被与园地。 综合来看, OCTC可以有效提高稀土矿区分类精度。
![]() | 表3 不同分类方法分类精度对比 Table 3 Comparison of the classification accuracies of the different classification methods |
基于KNN、 RF、 1D-CNN与OCTC算法得到的岭北矿区稀土矿区分类结果如图6所示。 对比其分类结果可以看出, 在面向对象的基础上, 各分类方法的结果都有效避免了“ 椒盐” 现象。 在机器学习算法的分类结果中, KNN的分类精度最差, 其总体精度只达到了79.27%, Kappa系数也只有0.744 8。 并且, KNN的分类效果也是最差, 从分类图中可以看出, 其难以准确区分耕地和园地, 对于运输用地也有很多漏分现象。
而RF的分类结果整体较好, 但是在一些细节部分尤其是在多地类耦合区域, 普遍存在错分现象, 如矿区和复垦植被区域, 复垦植被提取效果不佳, 同时, 复垦植被与园地之间也存在较多的混淆错分现象, 这是由于复垦植被与园地之间的分类特征都较为相似, 只存在部分细小差别, RF算法对两者的区分效果较差。 OCTC的分类效果最好, 不仅精度最高, 从其结果图也可以看出, 在处理地类破碎细小的区域较机器学习算法更有优势, 错分漏分现象大幅减少, 有效提高破碎地物的提取精度。 对于分类特征较为相似的地物之间, OCTC算法的分类精度也更高, 可以有效区分复垦植被与园地。
稀土矿区的土地利用精细化分类对于矿区的生态环境保护和生产监管都具有重要意义。 本研究将面向对象分类思想与深度学习分类思想相结合, 选取岭北稀土矿区为研究对象, 构建了一种面向对象-卷积神经网络的稀土矿区土地利用精细分类方法。 该方法集成面向对象与CNN的优势, 分类结果及其精度如图7和表3所示, 相较于其他分类方法, 该方法的分类结果整体良好且精度高。
高光谱数据拥有多个窄波段, 包含信息量大, 从高光谱数据出发可以得到更多更为精准细致的特征变量[23]。 本研究定量分析了面向对象的多层次最优分割尺度, 在稀土矿区影像分割的结果中充分挖掘到了光谱、 指数、 纹理、 几何4类共计97个特征。 这些特征包含地物对象丰富的光谱信息和空间信息[18], 可以为稀土矿区的土地利用精细化分类提供有效支持。
基于像素的分类方法因其基本处理单元为像素, 分类结果不可避免的会出现“ 椒盐” 现象, 这会降低分类精度和影响分类结果的整体性效果[24]。 相对而言, 面向对象的分类方法则在很大程度上避免了上述问题[25]。 随着深度学习技术的发展, 具有高效降维和高层次特征提取能力的神经网络算法在遥感影像精细化分类任务中已经表现出巨大潜力[15]。 其中, 基于图像块(patch-based)的方法通过关注像素邻域的空间上下文信息, 在一定程度上也可以减少椒盐现象, 提升分类地物的空间连续性[26]。 但是该类方法事实上仍然是以像素为基本单位, 无法像面向对象的方法那样显状地融合形状、 纹理等信息, 在复杂地貌条件下的稀土矿区中应用存在一定局限性[27]。
将面向对象分类与CNN相结合应用于土地利用精细化分类具有重要的实际意义。 本研究将面向对象与CNN分类方法相结合, 构建了一种稀土矿区精细分类方法, 为了更好地分析和探讨本研究构建的方法的分类效果, 将其与其他方法进行对比。 结果表明, 本研究构建的方法体系是稀土矿区土地利用调查的有效补充手段, 对稀土矿区土地利用精细化分类制图具有参考价值。 与Li等[12]的研究相比, 本研究加入了面向对象分类思想, 并利用OCTC方法对稀土矿区进行土地利用精细化分类, 结果显示本研究构建的分类方法具有分类精度高、 分类结果整体性良好的特点。 本研究构建的分类方法集成了面向对象与深度学习分类的优势, 从侧面印证了该方法对于复杂地物环境的识别精度高、 分类效果好, 可以为稀土矿区的生态环境保护和生产监管提供有效参考。
构建了一种基于面向对象思想和多层注意力卷积神经网络的稀土矿区精细分类方法, 并以OHS数据为数据源, 以岭北稀土矿区为研究区域进行验证, 主要结论如下:
(1)OHS数据能够很好地应用于岭北稀土矿区土地利用分类任务, 分类精度可以达到80%以上, 基本满足稀土矿区精细化土地利用分类的要求, 可以很好的为稀土矿区的生态环境监测与生产管理提供支持。
(2)相较于RF等机器学习算法, OCTC算法获得了最佳的稀土矿区分类结果, 总体精度为88.11%, Kappa系数为0.853 8, 能够较好地识别建筑与稀土加工区, 并且对于复垦植被与园地这些特征相似的地物类型更为敏感, 可以较为准确地区分两者。
OHS数据为大范围的稀土矿区的土地利用类别信息提取提供了新的数据源, 本研究利用OCTC算法验证了其在稀土矿区地物类型识别中的应用潜力, 也验证了面向对象思想与深度学习算法结合在影像分类任务中的适用性。 我国矿物类型繁多, 矿区分布广泛, 后续有必要结合多源遥感数据与构建更先进的算法模型进一步提升矿区土地利用分类信息的识别能力。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|