禄丰恐龙谷三种典型沉积岩的高光谱响应特征分析及识别模型方法研究
王俊杰1, 袁希平2,3, 甘淑1,2,*, 胡琳1, 赵海龙1
1.昆明理工大学国土资源工程学院, 云南 昆明 650093
2.云南省高校高原山区空间信息测绘技术应用工程研究中心, 云南 昆明 650093
3.滇西技术应用大学地球科学与工程学院, 云南 大理 671009
*通讯作者 e-mail: gs@kust.edu.cn

作者简介: 王俊杰, 1998年生, 昆明理工大学国土资源工程学院硕士研究生 e-mail: 1589069452@qq.com

摘要

高光谱遥感技术能够更细致地检测出岩矿的光谱特征, 为高光谱岩矿识别提供了强有力手段。 基于特定吸收特征波段的高光谱岩矿识别模型依赖很高的先验知识且难以满足区分不同类型岩石的要求, 因此探索建立准确、 高效的高光谱岩石自动识别模型具有重要意义。 在禄丰恐龙谷地区采集三类典型的沉积岩(泥岩、 砂岩和灰岩各21个)作为目标样本, 采用ASD FieldSpec3地物光谱仪获取沉积岩样本在350~2 500 nm范围内的高光谱数据, 对原始光谱进行一阶微分、 连续统去除变换并分析其光谱特征, 采用连续投影(SPA)、 竞争性自适应重加权采样(CARS)和迭代保留信息变量法(IRIV)三种特征变量选择算法选取原始光谱及其变换光谱中的特征波长, 基于全波段和特征波长数据分别建立支持向量机(SVM)和随机森林(RF)识别模型。 结果表明: 三种特征变量选择算法对高光谱数据都具有较好的降维效果, 从原始光谱及两种变换光谱选取出的特征波长数量在7~59个之间。 综合光谱变换处理与特征变量选择算法进行模型测试对比试验, 发现组合连续统去除-SPA-SVM模型方法在识别三类目标沉积岩上的表现最好, 其识别精度为0.952 4, 此时选取出用于输入模型的特征波长数量为10个, 只占全波段的0.5%, 大大降低了模型的运算量, 其中2个特征波长位于550 nm附近的Fe2+和Fe3+吸收带, 2个位于900 nm附近Fe3+吸收带, 5个位于1 900和2 200 nm附近的水分子、 羟基吸收带, 其分布可以较好地反映沉积岩化学成分差异导致的光谱吸收特征规律。 实验结果表明采用光谱变换与特征变量选择算法进行高光谱沉积岩自动识别是可行的, 能为高光谱岩矿识别方法提供参考。

关键词: 高光谱; 沉积岩; 光谱分析; 特征波长选取; 支持向量机
中图分类号:P237 文献标志码:A
Hyperspectral Identification Method of Typical Sedimentary Rocks in Lufeng Dinosaur Valley
WANG Jun-jie1, YUAN Xi-ping2,3, GAN Shu1,2,*, HU Lin1, ZHAO Hai-long1
1. Faculty of Land Resources and Engineering, Kunming University of Science and Technology, Kunming 650093, China
2. Application Engineering Research Center of Spatial Information Surveying and Mapping Technology in Plateau and Mountainous Areas Set by Universities in Yunnan Province, Kunming 650093, China
3. College of Geosciences and Engineering, West Yunnan University of Applied Sciences, Dali 671009, China
*Corresponding author
Abstract

Hyperspectral remote sensing technology can show the spectral characteristics of rocks and minerals in more detail, which provides a powerful means for hyperspectral rock and mineral identification. The traditional hyperspectral rock and mineral identification model based on specific absorption characteristic band depends on high a priori knowledge and is difficult to meet the requirements of distinguishing different types of rocks. Therefore, exploring and establishing an accurate and efficient hyperspectral rock automatic identification model is of great significance. Three typical sedimentary rocks (21 mudstone, sandstone and limestone) were collected as target samples in the Lufeng Dinosaur Valley area. The hyperspectral data of sedimentary rock samples in the range of 350~2 500 nm were obtained with the aid of the ASD fieldspec3 ground feature spectrometer. The original spectrum's first-order differential and continuous removal transformation were carried out, and the spectral characteristics were analyzed. The continuous projection algorithm (SPA) was used. Competitive adaptive reweighted sampling algorithm (CARS) and iterative retained information variable method (IRIV) select the characteristic wavelengths in the original spectrum and transformed spectrum and then establish support vector machine (SVM) and random forest (RF) recognition models based on the full band and characteristic wavelength data respectively. The results show that the three feature variable selection algorithms have a good dimensionality reduction effect on hyperspectral data, and the number of feature wavelengths selected from the original spectrum and the two transform spectra is between 7~59. It is obtained that the combined continuum removal SPA-SVM model method performs best for identifying three types of target sedimentary rocks, and its recognition accuracy is 0.952 4. At this time, 10 characteristic wavelengths are selected for the input model, which accounts for only 0.5% of the whole band, which greatly reduces the amount of calculation of the model. Two characteristic wavelengths are located in the Fe2+ and Fe3+ absorption bands near 550 nm, Two Fe3+ absorption bands near 900nm and five water molecules and hydroxyl absorption bands near 1 900, and 2 200 nm can better reflect the spectral absorption characteristics caused by the difference of chemical composition of sedimentary rocks. The experimental results show that the automatic recognition of hyperspectral sedimentary rocks using spectral transformation and characteristic variable selection algorithm is feasible and can provide a reference for hyperspectral rock and mineral recognition methods.

Keyword: Hyperspectral; Sedimentary rock; Spectral analysis; Characteristic wavelength selection; Support vector machine
引言

沉积岩作为地球上三大岩石类型之一, 虽然只占岩石圈的5%, 但在地表岩石的比例中占70%, 由沉积和沉积变质作用而形成的矿产约占世界矿产资源总储量的80%, 使得沉积岩在遥感地质领域的地位非常重要。 相比于多光谱遥感, 高光谱遥感技术能够以更高的光谱分辨率获取岩石的光谱特征信息, 为研究沉积岩或其他岩石的光谱特征、 光谱岩矿识别方法提供了强有力的手段[1]

随着人工智能技术的发展, 机器学习方法越来越多地运用于高光谱岩矿识别领域[2, 3]。 由于高光谱数据波段多, 数据量大, 光谱之间存在大量的冗余信息, 使用全部数据建模导致模型计算复杂, 影响模型的运行效率和推广能力。 研究表明, 采用光谱识别岩矿主要依赖化学组分的吸收特征[4], 有研究采用煤与其他岩石中Al元素的不同存在形式, 将光谱吸收特征差异明显的2 130~2 250 nm作为特征识别波段, 建立随机森林和支持向量机模型对煤岩进行识别分类, 识别精度可以达到90%以上。 有报道获取了石榴子石热红外光谱受硅酸根离子影响而具有诊断性的3个反射峰位和1个反射峰波长差值信息, 采用BP神经网络开展石榴子石亚类分类实验, 结果证明该方法的可行性与优越性。 采用吸收特征波段建立高光谱岩矿识别模型可以减少数据冗余, 改善建模效果。 然而即使特定的吸收特征波段具有非常丰富的识别信息, 但对于吸收特征复杂且分布广泛的岩石光谱, 使用这种方法可能会产生误判, 另外特征波段的选取十分依赖先验知识和工作人员的经验, 不利于岩石光谱的快速自动识别。 特征变量选择算法可以从高光谱波段信息中挖掘出有效信息特征波长变量, 近年来已经被广泛运用于农产品高光谱检测[5]、 高光谱土壤物质含量反演[6]等领域, 但在高光谱岩矿领域的应用还较少。

本工作以禄丰恐龙谷三类典型沉积岩为研究对象, 对原始光谱进行一阶微分与连续统去除变换扩大光谱特征, 采用连续投影算法(successive projections algorithm, SPA)、 竞争性自适应重加权采样算法(competitive adaptive reweighted sampling, CARS)和迭代保留信息变量法(iteratively retains informative variables, IRIV)三种特征变量选择算法选取原始光谱与变换光谱中的特征波长, 基于特征波长数据分别建立支持向量机(support vector machine, SVM)和随机森林(random forest, RF)识别模型, 对比建模结果找出最准确、 高效的沉积岩高光谱识别方法。

1 实验部分
1.1 研究区概况

研究区位于云南省禄丰恐龙国家地质公园南缘, 地理坐标为: N24° 53'54″— 24° 59'01″, E102° 06'10″— 102° 01'34″; 属于亚热带低纬度高原季风气候, 具“ 温暖多雨, 干湿分明” 的低纬度山地季风气候特点[7]

研究区以构造侵蚀地貌为主, 形成了独特的环状构造地貌景观。 主要地层为下、 中侏罗统冯家河组+张河组: 主要岩性为紫红色泥岩、 灰白、 灰黄色砂岩, 夹钙质泥岩、 泥灰岩, 以及下白垩统马头山组: 主要岩性为紫红、 灰紫色砂岩, 夹砂质泥岩及含铜砂、 页岩。

1.2 沉积岩光谱数据采集与预处理

选取研究区内三类典型沉积岩采样, 尽可能采集岩石的新鲜面, 最终获取研究区不同地理位置的63个岩石样品, 其中泥岩、 砂岩和灰岩各21个。 用于测量沉积岩光谱的仪器是美国ASD公司的ASD FieldSpec3地物光谱仪, 其光谱范围为350~2 500 nm, 光谱采样间隔为1.38 nm(350~1 000 nm)和2 nm(1 000~2 500 nm), 重采样间隔为1 nm。 为保证光谱数据质量, 所有光谱测定均选择时间在10:00— 14:00时、 晴朗无云、 自然光照良好的天气下进行, 测量时保持岩样周围通视良好, 无阴影遮挡的环境, 镜头距离岩样10 cm, 与直射太阳光保持一定角度。 每个岩样采集10次光谱数据, 取算数平均值作为岩样的代表性光谱数据。 由于受测量时环境及设备等因素的影响, 所测光谱存在抖动和噪声, 因此去掉受干扰严重的光谱波段, 截取后的光谱波段范围为400~2 400 nm, 然后采用SG平滑(Savitzky-Golay smoothing)[8]对其进行平滑降噪, 得到原始光谱。

1.3 研究方法

1.3.1 光谱变换方法

在光谱分析中, 单一的原始光谱曲线有时对光谱特征的反映不够突出, 故采用一阶微分及连续统去除法分别对原始光谱进行光谱变换。 一阶微分变换能减少背景噪声的影响、 增强光谱曲线斜率的细微变化, 强化谱带特征[9], 计算公式为

R'(λi)=dR(λi)dλ=R(λi+1)-R(λi-1)2Δλ(1)

式(1)中, R'(λ i)为波长λ i处的一阶微分光谱; R(λ i+1)、 R(λ i-1)为波长λ i+1λ i-1处的原始光谱反射率; Δ λ 为波长λ i+1λ i-1之间的差值。

连续统去除变换在野外岩矿高光谱应用中表明, 能有效突出光谱曲线吸收特征[10]。 计算公式为

CR(λi)=R(λi)RH(λi)(2)

式(2)中, CR(λ i)为λ i处的连续统去除值; R(λ i)为λ i处光谱反射率; RH(λ i)为λ i处直线的光谱反射率。

1.3.2 特征波长选择算法

高光谱数据量大, 冗余度高, 可能会影响模型运行的效率与准确度, 因此使用特征波长选择算法对数据进行降维。 采用SPA、 CARS和IRIV三种特征选择算法分别选取原始光谱及两种变换光谱的特征波长, 将全波段与所选取的特征波长数据作为模型的输入变量。

SPA是使矢量空间共线性最小化的前向变量选择算法, 通过将波长投影到其他波长上, 选择投影向量最大的波长为待选波长, 然后建立多元线性回归模型选出最佳特征波长[11]。 本实验使用SPA算法时设置特征波长为2~30个。

CARS是基于蒙特卡洛采样和偏最小二乘模型(partial least square, PLS)回归系数的特征波长选择方法, 采用自适应加权采样保留PLS模型中回归系数权重值较大的波长变量再次建立PLS模型, 选择交叉验证均方根误差最小的子集作为最佳特征波长变量子集[12]。 执行CARS时设置最大迭代次数为100, 交叉验证为10折, 蒙特卡洛采样次数为50。

IRIV算法基于模型集群分析方法将所有波长变量分为强信息变量、 弱信息变量、 无信息变量和干扰信息变量, 经过多次迭代剔除无信息变量和干扰变量, 最后采用反向消除获取最佳变量[13]。 执行IRIV时设置交叉验证次数为5, 最大主成分数为10。

1.3.3 识别模型构建方法

为准确评价模型的识别效果, 采用Kennard-Stone算法[14]将63个岩样以2:1的比例划分为42个训练集与21个预测集, 同时保证训练集及预测集中三类沉积岩的数量相等。 基于训练集样本数据建立三类沉积岩的SVM和RF识别模型, 对预测集样本进行识别, 并用识别精度作为模型评价标准选出最优的识别方法。 识别精度为正确识别的预测集样本数与预测集样本总数的比值, 该值越接近于1, 表明模型的识别效果越好。

2 结果与讨论
2.1 沉积岩光谱变换及特征分析

图1(a, b, c)分别为三类沉积岩样本的原始光谱曲线, 图1(d)为均值曲线。 从图中可以看出, 三类沉积岩光谱曲线的变化趋势基本相同, 由于不同沉积岩所含的铁离子、 水分、 羟基、 碳酸根离子等化学成分含量不同, 导致其在一些波段上的光谱特征有所差异[4, 15]。 泥岩总体反射率在0.02~0.28之间, 砂岩总体反射率在0.02~0.3之间, 灰岩总体反射率在0.06~0.42之间。 三类沉积岩在1 400和1 900 nm附近都存在水分子吸收带, 在2 200 nm附近都存在由所含黏土矿物中的羟基振动的吸收带, 其中灰岩在这些吸收带上的吸收特征最明显[见图1(c)]; 泥岩与砂岩在550 nm附近有一个吸收谷, 主要是这两种岩石所含矿物中含有的Fe2+和Fe3+离子引起的; 砂岩在900 nm附近还存在Fe3+弱吸收谱带; 灰岩在2 350 nm存在明显的碳酸根离子特征吸收谱带, 部分泥岩和砂岩样本中会含有少量钙质胶结物, 因此在2 350 nm附近也出现了较明显的碳酸根离子吸收带。

图1 三类典型沉积岩原始光谱曲线
(a): 泥岩; (b): 砂岩; (c): 灰岩; (d): 均值曲线
Fig.1 Original spectral curve of three typical sedimentary rocks
(a): Mudstone; (b): Sandstone; (c): Limestone; (d): Mean curve

图2(a)和图2(b)分别是原始光谱经过一阶微分和连续统去除变换后的光谱曲线。 一阶微分变换后的光谱, 其纵坐标表示原始光谱曲线变化的速率, 正值表示正的光谱曲线变化速率, 负值表示负的光谱曲线变化速率, 能够凸显原始光谱曲线的曲率变化。 连续统去除变换后, 光谱反射率归一化为0~1, 形成若干明显的吸收谷, 有效地扩大了光谱曲线中的吸收特征。

图2 三类典型沉积岩光谱变换后的光谱曲线
(a): 一阶微分光谱; (b): 连续统去除光谱
Fig.2 Spectral curves of three typical sedimentary rocks after spectral transformation
(a): First order differential spectra; (b): Continuum removal spectra

2.2 光谱特征波长的选取

使用SPA、 CARS和IRIV算法分别在沉积岩样品的原始、 一阶微分及连续统去除光谱数据中选取特征波长, 选取出的特征波长在全波段中的分布分别如图3(a, b, c)所示。 三种算法从原始光谱中分别选取12、 51和7个特征波长, 分别占全波段的0.6%、 2.6%和0.4%; 从一阶微分光谱中分别选取10、 59和19个特征波长, 分别占全波段的0.5%、 3%和1%; 从连续统去除光谱中分别选取10、 51和10个特征波长, 分别占全波段的0.5%、 2.6%和0.5%。 通过对比, 三种特征波长选择算法对高光谱数据都有很好的降维效果。

图3 不同算法选取的特征波长分布曲线
(a): 原始光谱; (b): 一阶微分光谱; (c): 连续统去除光谱
Fig.3 Characteristic wavelength distribution curves selected by different algorithms
(a): Original spectra; (b): First order differential spectra; (c): Continuum removal spectra

选取出特征波长的分布较好地对应了岩石光谱的吸收特征区间。 以原始光谱为例, SPA从原始光谱中选取的12个特征波长, 其中2个位于550 nm附近的Fe2+和Fe3+吸收带, 1个位于900 nm附近Fe3+吸收带, 3个位于1 900和2 200 nm附近的水分子、 羟基吸收带, 1个位于2 350 nm的碳酸根离子吸收带, 特征谱带附近的特征波长数量占了特征波长总数的58%; CARS和IRIV提取的特征波长中特征谱带附近的特征波长所占的比例分别为65%和100%, 表明岩石化学成分差异所导致的光谱特征规律对构建识别模型有重要的作用, 可以作为采用光谱信息进行岩石类型识别的基础。

2.3 建模结果

对训练集原始光谱、 一阶微分光谱和连续统去除光谱的全波段光谱(full spectra, FS)数据, 以及经过SPA、 CARS和IRIV算法选取出的特征波长光谱数据, 分别建立SVM和RF沉积岩识别模型。 SVM模型采用径向基函数作为核函数, 使用交叉验证和网格搜索方法寻找最佳惩罚因子C和核参数γ 。 RF模型使用交叉验证和学习曲线方法寻找最佳决策树数量n。 不同模型确定的参数见表1。 模型在预测集上的识别结果见表2

表1 不同SVM和RF模型的参数 Table 1 Parameters of different SVM and RF models
表2 基于不同特征波长选择方法建立模型的识别结果 Table 2 Recognition results of models based on different characteristic wavelength selection methods

表2可以看出: 在SVM和RF模型对全波段光谱数据的识别结果中, 原始光谱的识别精度分别为0.857 1和0.761 9, 一阶微分变换后光谱的识别精度分别为0.904 8和0.857 1, 连续统去除变换后光谱的识别精度分别为0.809 5和0.857 1。 变换后光谱的识别精度得到明显提高, 说明对原始光谱进行合适的光谱变换可以有效提升建模效果。

在对特征波长光谱数据的识别结果中, 识别精度最高的是连续统去除-SPA-SVM模型, 识别精度达到了0.952 4, SPA共选取出10个特征波长, 其中2个为550 nm附近的Fe2+和Fe3+吸收带, 2个为900 nm附近Fe3+吸收带, 5个为1 900和2 200 nm附近的水分子、 羟基吸收带, 因此该模型可以较好地反映沉积岩化学成分差异导致的光谱吸收特征规律。 识别精度最低的是一阶微分-IRIV-RF模型, 识别精度为0.714 3, 分析认为一阶微分光谱在较多波段的共线性较高, 而且IRIV选取的特征波长数量较少, 信息量不足, 导致最终的建模效果欠佳。

3 结论

针对禄丰恐龙谷三种典型的沉积岩, 地面实测其高光谱数据, 对原始光谱进行一阶微分和连续统去除变换并分析光谱特征, 采用SPA、 CARS和IRIV算法分别选取原始光谱及两种变换光谱的特征波长, 然后将全波段数据与选取出的特征波长数据作为模型的输入变量, 建立SVM和RF沉积岩识别模型, 对比选出最佳建模方法。 结果表明: (1)基于全波段数据建立的识别模型中, 一阶微分-FS-SVM模型的识别精度最高, 为0.904 8, 合适的光谱变换可以有效提升全波段数据的建模效果。 (2)相比于用全波段数据建立模型, 有的特征波长选择算法可以在有效减少输入变量数的情况下提升建模效果, 有的虽然减少了变量数, 但是使得建模效果降低, 不利于识别模型的优化。 连续统去除-SPA-SVM模型表现最好, 其识别精度为0.952 4, 输入模型的波长变量数只占全波段的0.5%, 能够更准确高效地实现对沉积岩的精确识别。

对沉积岩的光谱分析与识别方法的研究可为高光谱遥感数据运用于地质资源勘察提供参考。 然而岩石光谱会受到包括矿物成分、 风化作用、 表面结构和表面颜色等各种因素的影响, 导致岩石光谱异常复杂, 这些干扰因素是影响模型精度的主要原因, 本实验的样本数量相对较少, 可能会限制模型的适用范围, 因此今后的实验中将增加样本数量, 提高模型的普适性。

参考文献
[1] ZHANG Cheng-ye, QIN Qi-ming, CHEN Li, et al(张成业, 秦其明, 陈理, ). Optics and Precision Engineering(光学精密工程), 2015, 23(8): 2407. [本文引用:1]
[2] Schneider S, Murphy R J, Melkumyan A. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 98: 145. [本文引用:1]
[3] Kumar C, Chatterjee S, Oommen T, et al. International Journal of Applied Earth Observation and Geoinformation, 2020, 86: 102006. [本文引用:1]
[4] GAN Fu-ping, WANG Run-sheng, MA Ai-nai, et al(甘甫平, 王润生, 马蔼乃, ). Earth Science Frontiers(地学前缘), 2003, (2): 445. [本文引用:2]
[5] LIU Li-xin, HE Di, LI Meng-zhu, et al(刘立新, 何迪, 李梦珠, ). Chinese Journal of Lasers(中国激光), 2020, 47(11): 291. [本文引用:1]
[6] LI Guan-wen, GAO Xiao-hong, XIAO Neng-wen, et al(李冠稳, 高小红, 肖能文, ). Acta Optica Sinica(光学学报), 2019, 39(9): 361. [本文引用:1]
[7] Lin H, Shu G, Xiping Y, et al. Earth Science Informatics, 2022, 15(1): 455. [本文引用:1]
[8] WANG Liu-san, HUANG Zi-liang, WANG Ru-jing(汪六三, 黄子良, 王儒敬). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2021, 52(6): 361. [本文引用:1]
[9] XU Nian-xu, TIAN Qing-jiu, SHEN Huai-fei, et al(徐念旭, 田庆久, 申怀飞, ). Remote Sensing for Natural Resources(自然资源遥感), 2018, 30(4): 28. [本文引用:1]
[10] YAN Xin-fang, GAN Shu, HU Lin, et al(闫馨芳, 甘淑, 胡琳, ). Science of Surveying and Mapping(测绘科学), 2021, 46(7): 60. [本文引用:1]
[11] GUO Wen-chuan, ZHU De-kuan, ZHANG Qian, et al(郭文川, 朱德宽, 张乾, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2020, 51(9): 350. [本文引用:1]
[12] ZHANG Xu-hui, ZHANG Kai-xin, ZHANG Chao, et al(张旭辉, 张凯新, 张超, ). Journal of Xi'an University of Science and Technology(西安科技大学学报), 2020, 40(5): 760. [本文引用:1]
[13] YU Lei, ZHANG Tao, ZHU Ya-xing, et al(于雷, 张涛, 朱亚星, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(16): 148. [本文引用:1]
[14] Xu Y, Wang J, Xia A, et al. Remote Sensing, 2019, 11(3): 254. [本文引用:1]
[15] WANG Shan-shan, ZHOU Ke-fa, WANG Jin-lin, et al(王珊珊, 周可法, 王金林, ). Chinese Journal of Geology(地质科学), 2015, 50(4): 1261. [本文引用:1]