基于岩石高光谱图像迁移学习的岩性智能识别
李珊1,2,3, 林鹏1,2,3, 许振浩1,2,3,*, 向航1,2,3, 李千纪1,2,3
1.山东大学齐鲁交通学院, 山东 济南 250061
2.隧道工程灾变防控与智能建养全国重点实验室, 山东 济南 250061
3.山东大学岩土与地下工程研究院, 山东 济南 250061
*通讯作者 e-mail: zhenhao_xu@sdu.edu.cn

作者简介: 李 珊, 女, 1999年生, 山东大学齐鲁交通学院博士研究生 e-mail: 202135410@mail.sdu.edu.cn

摘要

岩性快速识别具有重要的基础地质研究意义与工程应用价值。 传统岩性识别主要依赖于岩石图像特征, 但在识别外观相似的岩石时易出现混淆。 为此, 相关研究进一步利用光谱特征以反映岩石组成信息, 但光谱测试通常需要制样, 且属于有损测试。 为此, 凭借成像高光谱技术图谱合一、 无损非接触的优势, 提出了一种基于岩石高光谱图像迁移学习的岩性智能识别方法。 首先, 对岩石感兴趣区域的高光谱数据进行归一化和降维处理, 降低光谱数据的冗余度。 然后, 结合三维残差网络(3D-ResNet)构建岩石高光谱图像迁移学习模型, 利用残差网络提取三维信息。 再利用迁移学习的方法, 通过加载预训练权重对模型进行训练, 从而实现岩性智能识别。 采用混淆矩阵、 准确率( ACC)、 精确率( P)、 召回率( R)、 F1值( F1)作为模型准确率的评价指标, 针对基于ResNet-101和ResNet-18/34/50的模型开展对比分析。 结果表明, ResNet-101迁移模型在测试集的准确率最高, 可达98.29%。 P最高可达98.32%, R最高可达98.29%, F1最高可达98.31%。 ResNet-101对岩石光谱数据识别的准确率基本达到90%以上(除了绿泥石片岩), 大部分结果甚至可以达到100%。 相较于ResNet-18/34/50, ResNet-101识别精度更高且对每类岩石识别的稳定性更好。 此外, 利用本方法对隧道现场采样岩石进行了逐个像素点的岩性预测, 验证了本文提出的岩性智能识别方法具有良好的鲁棒性和泛化性, 可用于地质、 测井、 交通、 水利等工程中的岩性快速智能识别。

关键词: 高光谱成像; 岩性识别; 迁移学习; 三维残差神经网络; 光谱特征
中图分类号:P588 文献标志码:A
Intelligent Lithology Identification Based on Transfer Learning of Rock Hyperspectral Images
LI Shan1,2,3, LIN Peng1,2,3, XU Zhen-hao1,2,3,*, XIANG Hang1,2,3, LI Qian-ji1,2,3
1. School of Qilu Transportation, Shandong University, Jinan 250061, China
2. State Key Laboratory for Tunnel Engineering, Jinan 250061, China
3. Institute of Geotechnical and Underground Engineering, Shandong University, Jinan 250061, China
*Corresponding author
Abstract

The rapid identification of lithology holds significant fundamental geological research significance as well as engineering application value. Traditional lithology recognition primarily depends on the image features of rocks. However, confusion tends to arise when identifying rocks with similar appearances. Consequently, relevant studies further utilize spectral features to reflect the compositional information of rocks. Nevertheless, spectral testing usually demands sample preparation and belongs to the category of destructive testing. This article proposes an intelligent lithology recognition method based on transfer learning of rock hyperspectral images, taking advantage of the integrated imaging hyperspectral technology and the non-destructive, non-contact imaging characteristics. Firstly, the hyperspectral data of the rock region of interest are normalized, and dimensionality reduction is performed to reduce the redundancy of spectral data. Then, a rock hyperspectral image transfer learning model is constructed using a 3D ResNet network, and three-dimensional information is extracted through a residual network. The transfer learning method is reused to train the model by loading pre-trained weights, thereby achieving intelligent recognition of lithology. In this article, the confusion matrix, accuracy ( ACC), precision ( P), recall ( R), and F1 values ( F1) are used as evaluation indicators for model accuracy. A comparative analysis is conducted on ResNet101 and ResNet18/34/50 models. The results indicate that the ResNet-101 migration model has the highest accuracy in the test set, reaching 98.29%. The highest P can reach 98.32%, the highest R can reach 98.29%, and the highest F1 can reach 98.31%. The accuracy of ResNet-101 in identifying rock spectral data is over 90% (except for chlorite schist), and most results can even reach 100%. Compared to ResNet18/34/50, ResNet101 has higher recognition accuracy and better stability for identifying each type of rock. In addition, this method was employed to predict the lithology of sampled tunnel site rocks pixel by pixel, verifying the good robustness and generalization performance of the proposed lithology intelligent identification method, which can be used for rapid and intelligent lithology identification in engineering fields like geology, logging, transportation, and water conservancy.

Keyword: Hyperspectral imaging; Rock identification; Transfer learning; 3D residual neural network; Spectral characteristics
0. 引言

岩性识别是地质学、 岩土勘察、 岩石力学与工程等领域的关键基础性环节, 对于矿产、 石油等资源的勘探, 以及岩土与地下工程的设计方案优化、 安全评估与风险评价均具有重要的应用价值[1, 2, 3]。 传统的岩性识别方法主要包括肉眼观察、 薄片鉴定和实验分析三类[4]。 然而, 这些方法各有局限, 肉眼观察依赖于研究人员的地质经验积累, 主观性强易出现误判, 特别是在识别外观相似的岩石时容易出现混淆[5]; 薄片鉴定需通过偏光显微镜观察岩石薄片的矿物晶体特性和光学性质来确定岩石类型, 但是受限于实验条件的苛刻和对岩石样品薄片加工的要求, 无法满足原位岩性识别的需求; 实验分析包括X射线荧光分析技术(X-ray fluorescence, XRF)、 X射线衍射技术(X-ray diffraction, XRD)和高光谱技术等, 虽然是获取光谱信息的重要手段, 但XRF和XRD属于有损检测, 需对样品进行磨粉处理[6]。 相比之下, 高光谱遥感技术因数据量丰富、 快速无损、 原位非接触、 大面积检测等特点在岩性识别领域具有突出优势。 该技术已被广泛应用于医学诊断、 精准农业、 生态环境监测以及自然资源勘探等多个领域[7, 8, 9], 为相关研究提供了重要的技术支撑。

岩石的高光谱特征主要是由岩石的矿物组成成分、 物质内部晶体结构、 物化特征所决定。 在遥感地质领域, 岩石光谱一直是热门研究方向, 主要包括成像光谱岩矿识别、 岩石光谱特征分析、 影响岩石光谱因素分析以及岩石光谱分类。 使用高光谱仪对岩石样本进行反射光谱采集时, 在电磁波的作用下岩矿会作出电子跃迁和分子振动跃迁, 并在特定电磁波波段内表现出不同的光谱特征, 因此岩矿光谱特征能间接地反映出物质的组成, 结构及其他信息, 从而根据这些信息实现不同岩矿的识别[10]。 高光谱技术根据数据获取方式可分为非成像(点状测试)和成像(面状测试)两类。 贺金鑫等[11]采用融合学习模型对花岗岩、 灰岩、 砂岩非成像高光谱仪实测岩石光谱进行了自动分类; 王俊杰等[12]利用非成像高光谱仪采集了泥岩、 砂岩、 灰岩三类典型的沉积岩, 发现组合连续统去除-SPA-SVM模型方法在识别三类目标沉积岩上的表现最好。

虽然非成像高光谱技术具备操作简单、 成本低等优点, 但其通常为单点接触式扫描方式, 需在不同的位置多次测量以评估样本整体的信息, 易受到样本分布均匀性的影响, 导致有效数据缺失, 同时会因不同的采样方式带来巨大的差异, 存在信息不够充分、 效率低、 可达性有限等缺点。 反而, 基于成像高光谱技术获得的岩石高光谱图像, 不仅包含丰富的光谱信息(各种波长下的光反射率或辐射强度), 还捕捉到了空间信息(图像中每个像素点的位置和排列)[13]。 传统的岩石高光谱图像分类, 是通过提取部分区域的平均光谱值作为某岩石种类的一维光谱反射率曲线, 然后对提取的光谱曲线进行分析, 以达到岩石分类的目的。 例如李廉洁等[14]采集Vis/NIR-NIR两个范围内的煤与矸石的高光谱图像, 基于判别模型与样本的平均光谱实现了煤和矸石的可视化分类; 胡程浩等[15]针对81种岩浆岩和变质岩岩石样本的成像光谱仪岩矿影像高光谱数据集, 开展岩石初分类体系的高光谱岩石分类研究, 分类精度最高达到89.39%。 虽然上述方法可以降低数据处理的复杂性, 提高计算效率, 但也有明显的局限性, 其完全忽略了成像光谱数据中丰富的二维空间信息, 这种空间信息的丢失可能导致识别精度的下降[16]。 因此, 为了提高岩性识别的准确度和可靠性, 采用深度学习技术, 尤其是卷积神经网络(convolutional neural network, CNN)来提取岩石的深层次特征成为了一个有效的方案, 相较于传统成像光谱数据识别方法, CNN可以有效地捕捉和利用成像光谱数据的空间-光谱特征[17]

近年来, 国内外学者利用成像光谱数据结合CNN开展了多个领域的地物分类识别研究[18, 19]。 例如, Oatsuo等[20]采集400~1 000 nm范围的岩矿高光谱成像数据, 建立CNN模型对方铅矿、 黄铜矿、 赤铁矿等五种矿物进行自动识别; Afjal等[21]提出了一种3D-2DCNN与多分支特征融合相结合的高光谱图像分类方法, 其中3D-2DCNN的集成提取联合的空间和光谱特征, 多分支网络提取了光谱维度不同的局部特征, 结果表明此方法可以有效提取光谱和空间特征, 提高识别准确率。

基于以上的讨论, 通过CNN直接处理三维矩阵数据, 能够捕捉到原始数据中包含的与岩石本身性质相关的信息, 使成像光谱数据分类识别更加高效、 准确[22]。 虽然CNN处理具有深度信息的成像光谱数据方面具有显著的优势, 但在捕捉高维数据中复杂和细微特征方面, 其能力仍存在一定的局限性[23]。 为了提高CNN模型的表现, 需采用更深的卷积神经网络提取更丰富的抽象特征。 但随着网络层数的增加, 简单的叠层堆积会带来梯度退化或爆炸问题, 使模型不能有效收敛, 从而导致更大的训练错误。 本工作采用三维残差网络(three-dimensional residual network, 3D-ResNet)建立岩石高光谱图像深度学习模型, 允许卷积神经网络结构层数更深, 从而在特征提取和识别能力上取得显著的提升, 这种增强的学习能力使3D-ResNet极为适用于处理复杂的岩性识别任务。 不过, 尽管3D-ResNet的网络架构能够显著提高模型性能, 但模型的最终识别效果还高度依赖于训练过程中使用的数据集质量和规模, 在岩性识别的具体应用场景中, 这一点尤为重要。 这要求地质领域的研究人员和实践者投入相当的时间和资源进行数据的收集、 预处理, 以建立一个覆盖广泛的、 具有代表性的数据集。

而迁移学习作为一种优化, 可以将卷积神经网络在一个任务上学习到的模型结构、 参数权重等迁移到其他识别的任务上, 大大提高了建模速度, 降低了网络训练难度, 同时可解决现场数据集不够庞大的问题[24]。 例如, Liu等[25]探索了迁移学习在土壤光谱学中的潜力及其在利用高光谱数据估计土壤粘土含量方面的性能, 将CNN用于矿物土壤, 用有机土壤微调和验证预训练模型, 探索光谱指数效果, 利用HyMap图像光谱和野外样本进一步微调模型, 最终用微调模型和高光谱数据生成土壤粘土图。 Galdames等[26]证明了利用高光谱图像进行岩性分类的性能大大超过了彩色和深度图像的性能, 并提出了一种基于深度学习和高光谱图像的岩性识别方法, 通过降维方法将高光谱图像的维数从268减少到3个通道, 然后使用深度学习网络预训练数百万张彩色图像来应用迁移学习方法对岩石进行分类。 相较于之前的研究, 本工作利用实验室收集的大量岩石样本数据进行预训练, 其在内容上更接近最终的隧道应用场景, 包含了更多关于岩石光谱和纹理的特定特征, 然后使用现场采集的岩石光谱数据进行迁移学习。 从源域(即实验室岩石光谱数据)和目标域(即现场岩石光谱数据)的数据中找到它们之间可以共享的模型参数信息, 加快网络训练速度, 扩充岩石成像光谱数据集。

综上所述, 基于岩石短波红外成像高光谱数据, 首先采用3D-ResNet网络构建岩性智能识别模型, 通过残差网络提取岩石三维信息中复杂和抽象特征。 然后利用迁移学习的方法, 将基于实验室数据进行预训练的参数加载到基于现场岩石成像光谱数据的深度学习迁移模型上, 进行训练与测试, 并采用混淆矩阵、 准确率(accuracy, Acc)、 精确率(precision, P)、 召回率(recall, R)和F1值(F1 Score, F1)作为可靠性的评价指标。

1 基于岩石高光谱图像迁移学习的岩性智能识别

基于岩石高光谱图像迁移学习的岩性智能, 需要考虑影响岩性识别效果的两个主要因素: (1)岩石短波红外成像光谱数据的特征提取; (2)岩性智能识别模型的泛化性能。 本工作从短波红外成像高光谱原始数据中提取感兴趣区域(region of interest, ROI), 对ROI内的光谱数据做提取和重构, 获取高质量的数据集; 然后对ROI区域内光谱数据进行归一化和主成分分析(principal component analysis, PCA)降维处理; 接着采用3D-ResNet网络建立岩石光谱数据深度学习迁移模型, 利用残差学习的手段自动提取岩石成像光谱数据复杂和抽象的特征, 通过迁移学习的方法, 显著提高了模型在岩性识别任务上的泛化能力。 最后利用自行构建的数据集验证了方法与模型, 实现了岩性的快速智能识别。

1.1 岩石高光谱图像预处理方法

岩石高光谱图像本质上是一种特殊的多通道、 类图像的三维矩阵数据, 它在传统RGB图像的基础上加入了光谱维度, 每个像素点包含了从不同波长采集的光谱特征信息。 同时, 由于高光谱仪器分辨率较高, 成像光谱数据的规模较大。 此外, 在地质学领域, 岩石样本数据的标注准确性会直接影响光谱数据集的质量, 对模型训练及测试的影响较为显著, 高质量的数据可以提供更准确的地质信息, 帮助模型学习到更有区分度的特征, 而标注错误可能导致模型学习到错误的岩石光谱特征, 进一步导致岩性识别准确率降低。

因此, 在利用高光谱成像数据开展岩性识别工作前, 首先要从大量的短波红外成像高光谱原始数据中精确提取对研究具有重要意义的ROI, 然后利用ROI获取高质量的数据集。 确立ROI不仅能够显著降低数据处理的难度, 而且还能够提高后续分析的准确性和效率。 在ROI的确立过程中, 需要考虑到数据集的代表性和多样性, 确保数据集能够全面覆盖不同类型的岩石, 同时也要涵盖同一类岩石在不同风化和变质状态下的区域, 以应对岩石物理特性和光谱特征的变化, 这是提升模型泛化能力的关键。 引入广泛样本后, 模型不仅学习到特定条件下的岩石特征, 也能适应由环境因素引起的光谱变异。 这增强了模型在遇到不同状态岩石时的识别准确性, 提高了其在复杂环境下的应用性能和鲁棒性。 为此, 首先分析成像光谱原始数据, 随机标注出每一类岩石具有代表性的区域, 这些区域包含了大量岩石的光谱信息, 可以为深度学习网络的训练和测试提供高质量的输入数据。

然而, 在岩石光谱数据采集过程中, 由于仪器的差异、 光照条件的变化以及岩石样品本身背景、 形态的差异, 不同像素点在各个波段的光谱值可能会有很大的区别。 为了使数据更加稳定, 便于分析和解释, 在将数据导入深度学习模型之前, 对成像光谱数据进行归一化处理成为了一项必要的预处理步骤。 确定ROI后, 对ROI内部的所有像素点的光谱进行归一化, 就是针对每个像素点, 将该点在所有波段上的光谱值进行归一化处理。 这对于强调单个像素点在不同波段上相对强度的变化特别有用, 这种方法有利于强调每个像素点在不同波段的光谱特征, 从而帮助识别和区分不同的岩石类型。

归一化是一种广泛应用于信号处理和数据分析的预处理方法, 它通过调整数据的尺度来实现数据值的统一。 对于原始数据中的每个值x, 根据选定的范围[0, 1]和原始数据的最小值xmin以及最大值xmax, 将每个原始数据点x转换到新尺度上的归一化处理后的值x'。 具体公式如式(1)

x'=x-xminxmax-xmin(1)

成像高光谱数据由于其固有的高维度特性, 通常包含大量的光谱波段, 每个波段都包含了每一类岩石的光谱信息。 虽然这种丰富的光谱信息有助于详细描述物质的光谱特征, 但高维数据在进行复杂的数据分析和模型训练时, 往往伴随着高计算成本, 且高维数据中可能包含大量冗余信息, 这可能会降低岩性识别的效率和准确性。 PCA是一种广泛使用的数据降维技术, 它可以有效地从高维数据中提取关键信息, 同时减少数据的复杂性[27]。 因此, 利用PCA对归一化后的数据集进行降维操作, 通过选择合理的主成分个数, 能够有效增强模型的泛化能力。

综上所述, 岩石成像高光谱数据预处理方法, 首先从短波红外高光谱成像数据中提取ROI, 对ROI内的光谱数据做提取和重构, 获取高质量的数据集; 然后对ROI区域内光谱数据进行归一化和PCA降维操作, 进一步减少由于光照条件、 仪器差异等因素引起的岩石光谱数据变异, 并降低光谱数据的冗余度。

1.2 基于岩石高光谱图像迁移学习的岩性智能识别模型

成像光谱数据在经过预处理之后, 虽然降低了数据分析的难度, 但数据集仍然保持着高维度的性质, 且成像光谱数据不仅包含二维空间信息, 还包含一维光谱信息, 在利用成像光谱数据进行岩性识别的过程中, 这些数据的高维性质和复杂的光谱特征提取任务往往使得数据分析的难度大大提高。 因此, 为了提高岩性识别的准确度和可靠性, 采用深度学习技术, 尤其是三维卷积神经网络来提取岩石的深层次特征成为了一个有效的方案[28], 可以在处理这类复杂数据时, 更有效地捕捉和利用高光谱图像数据的空间-光谱特征。

首先, 对预处理之后的岩石高光谱图像数据进行提取和重构, 转换成适合3D-ResNet网络结构的数据格式。 这个步骤包括提取小的数据块(patch), 这些patch反映了成像光谱数据的局部区域, 每个patch都可以被视为一个独立的数据样本, 其形状为深度× 高度× 宽度× 通道数(D× H× W× C), 这种转换不仅可以使数据结构与网络输入要求相匹配, 而且也实现了数据批量处理的可能, 即同时处理多个这样的patch。 在深度学习中, 采用小批量(mini-batch)多次导入的方式进行模型的训练是一种常见做法, 这种方法通过将数据划分为多个小批量来提高训练效率, 同时充分利用现代计算硬件的并行处理能力。 因此, 成像光谱数据在输入到3D-ResNet之前, 通常会被组织成批次× 深度× 高度× 宽度× 通道数(batch Size× D× H× W× C)的格式。

然后, 将数据输入到3D-ResNeu网络中, 在网络内部, 数据通过一系列的卷积块(block)进行处理。 每个卷积块包含了多个卷积层, 这些层利用卷积操作来提取岩石的特征。 具体而言, 每个卷积块通过其内部的卷积层对输入数据进行特征提取, 生成一个特征值向量x=[x0, x1, x2, ···, xi], 向量x包含了当前块提取的岩石光谱特征信息。 紧接着, 这个特征向量x被传递到下一个卷积块进行进一步处理。 最终, 经过多个残差块的处理后, 网络产生了一个综合特征表示的输出向量F(x), 这个输出向量捕获了输入岩石数据的高级特征, 并被用于最终的分类任务。 将这个向量导入模型最后一个全连接层, 使其映射到一个新的空间, 该空间的维度与任务的标签数量相等, 紧接在全连接层之后的是Softmax层, 它的任务是将全连接层的输出分数转换成概率分布。 通过这种方式, 每个类别都被赋予一个0到1之间的概率值, 所有值的总和为1。 在光谱岩性识别的任务中, 这意味着每个岩石类别都会有一个对应的概率, 表示该光谱样本属于该类别的可能性。 通过上述流程, 可以实现基于岩石光谱数据的岩性智能识别, 整个过程不仅展示了ResNet深度学习模型在特征提取和分类方面的能力, 也说明了它如何能够有效地用于复杂的岩性识别任务。

如图1所示, 每个蓝色大的矩形框表示ResNet-50的一个Stage, 从上到下为Stage1(Conv1_x)、 Stage2(Conv2_x)、 Stage3(Conv3_x)、 Stage4(Conv4_x)和Stage5(Conv5_x), 蓝色大矩形框内的每个黄色小矩形框表示1个或多个标准的残差结构单元, 即block, 黄色矩形框左侧的数值表示残差单元串联的数量, 输入通道为1, 后4个Stage的通道数依次为64、 64、 128、 256、 512, 包含的block数量依次为3、 4、 6、 3, 每个残差单元包含3个卷积层, 再算上第一个7x7卷积层和3x3最大池化层, 总的层数为50, 即ResNet-50; 黄色小矩形框中红色字体代表发生下采样操作, 即特征图大小减半, 深度也减半, 其右侧箭头标识即为下采样后的特征图大小, 以输入特征图256* 256* 64为例, ResNet网络中的下采样操作发生在每个Stage的第一个残差单元或最大池化层, 实现方式都是在卷积或者池化中取步长为2; 黄色小矩形框中的卷积层参数以“ Conv 3* 3* 3, c512, s2, p1” 为例, 3* 3* 3表示3D卷积核大小, c512表示卷积核数量和输出通道数量为512, s2表示卷积步长为2, p1表示卷积的padding取1。

图1 ResNet50模型网络结构示意图Fig.1 ResNet-50 network structure diagram

为了训练得到一个对岩石特征识别较好的3D-ResNet网络, 需要大量的岩石高光谱图像数据集。 由于时间和地理位置上的差异, 同一地区的岩石的种类繁多; 即使是发育在不同地区的同一种类的岩石, 其岩石特征也存在一定的差异。 因此, 这要求地质领域的研究人员和实践者投入相当多的时间和资源进行数据的收集、 预处理, 以建立一个覆盖广泛的、 具有代表性的数据集[29]。 同时, 3D-ResNet网络本身参数量极大, 直接采用3D-ResNet需要从零开始训练数据集, 模型的收敛速度和识别效果都不及采用迁移学习进行训练。 基于以上两点, 采用了一种定制化的迁移学习策略来开展岩性识别。 区别于传统的使用大规模数据集(如ImageNet)进行预训练的模型, 本研究利用实验室收集的大量岩性样本数据进行预训练, 这些数据虽然在规模上可能无法与ImageNet等公开数据集相比, 但它们在内容上更接近最终的隧道应用场景, 包含了更多关于岩石光谱和纹理的特定特征; 然后, 使用现场采集的岩石光谱数据进行迁移学习, 从源域(即实验室岩石光谱数据)和目标域(即现场岩石光谱数据)的数据中找到它们之间可以共享的模型参数信息, 再将经过微调的权重和参数加载到基于ResNet的深度学习模型中。 从而实现加快网络训练速度, 扩充岩石成像光谱数据集, 提高模型泛化性的目的。

图2所示为岩石短波红外成像高光谱数据分类方法的具体流程。 在实践中, 这个过程允许地质学家和研究人员进行自动化的岩石分类, 提高分析的速度和准确性。 通过训练具有充足和多样化光谱数据集的ResNet模型, 可以实现对不同环境条件下、 具有不同化学和物理特性的岩石的高效识别。

图2 岩石短波红外成像高光谱数据分类方法Fig.2 Classification method for hyperspectral data of rock shortwave infrared imaging

1.3 可靠性评估

为了评估岩性识别的结果, 对岩石高光谱图像深度学习迁移模型进行可靠性分析。 采用机器学习领域、 特别是统计分类问题中常用的两类指标评价该模型的优劣。 选用混淆矩阵来反映每种岩石光谱数据分类的精度; 选用AccPRF1四种评价指标衡量模型整体的准确度。

1.3.1 混淆矩阵

混淆矩阵反映了每种岩石光谱数据分类的精度, 可以直观了解模型对不同种类岩石光谱数据的分类预测情况。 混淆矩阵的每一列代表了模型预测的类别, 而每一行代表了实际的类别。 因此, 通过获取以下四个基本指标, 可以清楚地了解模型在哪些类别上出现了混淆, 如表1所示: TP表示某类岩石被正确预测的个数, FP表示其他种类岩石被预测为某类岩石的个数, FN表示某类岩石被错误预测为其他种类岩石的个数, TN表示其他种类岩石被正确预测为其他种类岩石的个数。

表1 混淆矩阵及其基本指标 Table 1 Confusion matrix and its basic indicators

1.3.2 准确率指标

在面对整体数据时采用准确率(Acc)、 精确率(P)、 召回率(R)、 F1来衡量模型的优劣。 准确率(Acc)表示分类模型对岩石类型判断正确的结果占测试集总体的比重

Acc=TP+TNTP+TN+FP+FN(2)

精确率(P)衡量了模型对负样本的区分能力, 精确率越高, 模型对该类别岩石的分类越准确, 对负样本区分能力越强。 对于某一种岩石类别i, 精确率Pi表示某种岩石样本被模型预测正确的个数占全部预测为该种岩石的比例, 对精确率进行加权平均, 得到总体精确率P

Pi=TPiTPi+FPi(3)

P=i=1MPi* wiwi(4)

式(3)和式(4)中, i为某类岩石的索引, i∈ [1, M], TPi为某种岩石样本中被模型正确预测为该类岩石的数量, FPi为其他种类岩石样本被错误预测为该类岩石的数量。 M为岩石种类总数, wi为某类岩石图像数量占整体的权重。

召回率(R)衡量了模型对正样本的区分能力, 召回率越高, 模型对正样本区分能力越强。 对于某一种岩石类别i, 召回率Ri表示某种岩石样本被模型预测正确的个数占该种岩石样本总数的比例, 对召回率进行加权平均, 得到总体召回率R

Ri=TPiTPi+FNi(5)

R=i=1MRi* wiwi(6)

式(5)和式(6)中, i为某类岩石的索引, i∈ [1, M], TPi为某种岩石样本中被模型正确预测为该类岩石的数量。 FNi为某种岩石样本被错误预测为其他种类岩石的个数。

F1为精确率(P)、 召回率(R)的加权平均值, 同时考虑了精确率和召回率。 F1取值范围为[0, 1], 1代表模型的输出最好, 0代表模型的输出结果最差。

F1=2P* RP+R(7)

2 案例分析与验证

为了验证本方法和模型的有效性, 选取了45种岩石的短波红外成像光谱数据开展实验, 建立了基于3D-ResNet网络的岩性智能识别模型, 并利用AccPRF1和混淆矩阵对岩石智能识别模型开展了对比分析。

2.1 岩石短波红外高光谱图像数据库

选取了来自不同产地共计45种岩石, 利用短波红外高光谱相机采集图像并建立岩石高光谱图像数据库。 其中, 火成岩包括I1-橄榄岩、 I2-角闪石岩、 I3-辉石岩、 I4-辉绿岩、 I5-杏仁状玄武岩、 I6-气孔状玄武岩、 I7-斜长岩、 I8-角闪闪长岩、 I9-花岗闪长岩、 I10-正长岩、 I11-粗面岩、 I12-粗粒花岗岩、 I13-斜长花岗岩、 I14-斑状花岗岩、 I15-花岗斑岩15类; 沉积岩包括S1-石英砾岩、 S2-角砾岩、 S3-石英砂岩、 S4-细砂岩、 S5-炭质页岩、 S6-千枚状页岩、 S7-粘土页岩、 S8-泥质页岩、 S9-蒙脱石粘土岩、 S10-高岭石粘土岩、 S11-介壳石灰岩、 S12-普通石灰岩、 S13-泥晶石灰岩、 S14-石英硅质岩、 S15-白云岩15类; 变质岩包括M1-石英岩、 M2-雪白大理岩、 M3-粗晶大理岩、 M4-红柱石角岩、 M5-黑云母角岩、 M6-云英岩、 M7-蛇纹岩、 M8-灰白色板岩、 M9-绢云母板岩、 M10-滑石片岩、 M11-绿泥石片岩、 M12-花岗片麻岩、 M13-角闪石变粒岩、 M14-条带状混合岩、 M15-花岗混合岩15类。

短波红外高光谱成像系统由高光谱成像相机、 光纤卤素灯、 电控位移平台、 数据采集软件四部分组成。 成像系统以推扫模式工作, 收集短波红外波段(1 000~2 500 nm)区域的高光谱数据。 成像光谱仪采集数据共有272个波段。 具有室内成像系统和户外扫描两种形式, 如图3所示。 本研究采用室内推扫平台成像系统进行成像光谱数据采集。

图3 高光谱成像系统
(a): 室内; (b): 户外
Fig.3 Hyperspectral imaging system
(a): Indoor; (b): Outdoor

自然界中的岩石由于成分和结构的不同, 导致其电磁波的吸收和反射特性各异, 同时测量设备自身的噪声, 包括仪器的暗电流、 环境电磁干扰和光照不均匀性, 需要对所有原始光谱图像的反射率进行黑白校正。 通过摄像机采集白色校准板获取白色参考图像, 采集镜头被完全遮挡时的图像作为黑色参考图像。 使用采集的黑白图像进行校正, 公式计算如式(8)

I=Ir-IdIw-Id(8)

式(8)中, Ir为原始高光谱图像, Id为暗反射图像, Iw为白色反射图像。 所有图像校准后, 即可进行下一步的数据处理。

岩石高光谱图像数据预处理流程, 如图4所示。 首先, 通过分析原始数据, 随机标注出每一类岩石具有代表性的区域, 即ROI, 这些区域包含了岩石大量的光谱信息, 可以为深度学习网络的训练和测试提供高质量的输入数据; 其次, 对ROI内部的所有像素点的光谱进行归一化, 减少由于光照条件、 仪器差异等因素引起的岩石光谱数据变异, 使得不同像素点在所有波段上的光谱值具有可比性; 再次, 在光谱维度上, 对归一化处理后岩石成像光谱数据进行PCA降维, 选择主成分个数为10, 降维后特征维数占原始特征维数的3.68%; 最后, 对提取的ROI数据做转换得到我们的标签数据, 对降维后的成像光谱数据提取patch, 将数据和标签导入模型进行训练。

图4 成像光谱数据预处理流程Fig.4 Data preprocessing process of spectral imaging

由于本研究模型训练时采用的是迁移学习的策略, 因此, 实际上扫描了三组成像光谱数据, 一组包含50块岩石样本(这一组样本与上述岩石样本完全不同), 代表实验室岩块的短波红外成像光谱数据, 用于预训练, 见表2; 另一组包含45块岩石样本, 代表工程现场岩块的成像高光谱数据, 用于迁移学习, 测试迁移模型的效果, 见表3; 此外, 另外一组采集了隧道现场的岩样, 见表4, 验证本方法的可行性。

表2 预训练样本 Table 2 Pre-training samples
表3 迁移学习样本 Table 3 Transfer learning samples
表4 隧址区样本 Table 4 Sample of tunnel site area
2.2 网络训练

在Pytorch框架下进行训练, 选取了自行构建的ResNet-101作为网络框架。 在岩性识别任务中, ResNet-18/34/50/101四种网络的应用都比较多, 而ResNet-18、 ResNet-34、 ResNet-50相较于ResNet-101层数少。 虽然通常认为层数更多的卷积神经网络识别效果会更好, 但是不同层数的网络应用在不同的数据集上的效果是不同的, 有时层数越多不一定能带来更好的收益, 层数的提升往往伴随着过拟合风险的提高以及计算资源的增加。 因此, 为了更好地评价岩石高光谱图像深度学习迁移模型, 将ResNet-18、 ResNet-34、 ResNet-50网络作为对比, 同时开展训练。

首先开展预训练, 让模型学习光谱数据的通用特征。 然后加载预训练模型开展迁移学习, 对比不同模型要求实验在相同的硬件条件下进行, 且模型的参数调整为一样。 同时迁移学习为了加快训练的收敛速度, 一般只需要调整部分卷积层和全连接层的权重和偏置, 迭代次数(Epoch)、 批次大小(batch size)等参数应小于预训练时设置的参数。 因此, 经过多次实验, 设置模型选取Epoch为30, batch size为128, pca_components为10, patch_size为25, test_ratio为0.4; 预训练阶段学习率为0.0025, 微调阶段学习率为0.001; Resnet-101的每一个3D卷积层的核大小为7, 步长为1。 用于迁移学习的光谱数据输入大小为10× 25× 25× 1(深度× 高度× 宽度× 通道数)。 基于ResNet-18、 ResNet-34、 ResNet-50和ResNet-101建立的成像光谱特征分类模型准确率曲线, 如图5(a)和(b)。 模型在迭代10轮后准确率均基本趋于稳定, 说明已基本具备了对岩石光谱特征的提取能力。 在训练集上, 基于ResNet-18的模型准确率最高只有76.49%, 基于ResNet-34的模型准确率最高可达92.09%, 基于ResNet-50的模型准确率最高可达88.98%, 基于ResNet-101的模型准确率最高可达94.95%; 在测试集上, 基于ResNet-18的模型准确率最高可达81.83%, 基于ResNet-34的模型准确率最高可达96.24%, 基于ResNet-50的模型准确率最高可达93.41%, 基于ResNet-101的模型准确率最高可达98.29%。 基于ResNet-18、 ResNet-34、 ResNet-50和ResNet-101建立的成像光谱特征分类模型损失曲线, 如图5(c)和(d), 可以看出随着迭代次数的增加, 所有模型的损失值均呈下降趋势, 后趋于稳定。

图5 岩石高光谱图像深度学习迁移模型准确率和损失函数图
(a): 训练集准确率图; (b): 测试集准确率图; (c): 训练集损失函数图; (d): 测试集损失函数图
Fig.5 Accuracy and loss curves of deep learning transfer model for rock HIS
(a): Training accuracy; (b): Test accuracy; (c): Loss of training set; (d): Loss of test set

2.3 结果与验证

采用识别准确率和混淆矩阵对分类模型进行比较。 如图6(a)所示, 对于火成岩而言, 基于ResNet-101模型识别效果最好, 识别准确率均在97%以上; 图6(b)所示, 对于沉积岩而言, 基于ResNet-101模型识别效果最好, 识别准确率均在94%以上; 图6(c)所示, 对于变质岩而言, 基于ResNet-101模型识别效果最好, 除绿泥石片岩外, 其余识别准确率均在94%以上。

图6 岩石高光谱图像分类识别正确率对比
(a): 火成岩; (b): 沉积岩; (c): 变质岩
Fig.6 The identification accuracy of the rock HIS
(a): Igneous rock; (b): Sedimentary rock; (c): Metamorphic rock

如图7(a)所示, 基于ResNet-18的模型对蒙脱石粘土岩、 石英硅质岩、 白云岩、 云英岩、 绢云母板岩5种岩石的识别准确率达到了100%。 如图7(b)所示, 基于ResNet-34的模型对斜长岩、 蒙脱石粘土岩、 高岭石粘土岩、 泥晶石灰岩、 云英岩、 绢云母板岩6种岩石的识别准确率达到了100%。 如图7(c)所示, 基于ResNet-50的模型对高岭石粘土岩、 泥晶石灰岩、 石英硅质岩、 云英岩、 绢云母板岩5种岩石的识别准确率达到了100%。 如图7(d)所示, 基于ResNet-101的模型对气孔状玄武岩、 斜长岩、 花岗闪长岩、 石英砾岩、 普通石灰岩、 泥晶石灰岩、 黑云母角岩、 云英岩、 绢云母板岩、 花岗片麻岩10种岩石的识别准确率达到了100%。 可以看出基于ResNet-101模型对岩石高光谱图像的分类稳定性更高。

图7 不同深度模型混淆矩阵图对比
(a): ResNet-18模型; (b): ResNet-34模型; (c): ResNet-50模型; (d): ResNet-101模型
Fig.7 Comparison of confusion matrix diagrams for different depth models
(a): ResNet-18 model; (b): ResNet-34 model; (c): ResNet-50 model; (d): ResNet-101 model

表5可知, 整体上, ResNet-101的评价指标最高, ResNet-18的评价指标最低, 而ResNet-34、 ResNet-50则介于两者之间。 其中, ResNet-101模型的P为98.32%, 这表明ResNet-101模型对负样本的区分能力更强; ResNet-101模型的R为98.29%, 这表明ResNet-101模型对正样本的区分能力同样更强; 综合PR指标得到ResNet-101模型的F1为98.31%。 由此可见, 基于ResNet-101的模型对岩石成像光谱数据的分类识别能力较好。

表5 不同深度ResNet的模型整体评价指标对比 Table 5 Comparison of overall model evaluation indicators based on different depth ResNets

本文在某隧道工程现场的多个隧道断面采集了包含花岗岩和灰岩两种岩性的17块岩石, 并建立岩石高光谱图像数据库。 采用本文构建的岩性识别方法, 对隧道岩性预测分析。 首先加载预训练模型, 在隧道现场获取的岩石成像光谱特征上开展迁移学习。 基于四种模型的准确率曲线如图8所示。 在训练集上, 基于ResNet-18的模型准确率最高达到88.01%, 基于ResNet-34的模型准确率最高可达92.03%, 基于ResNet-50的模型准确率最高可达85.00%, 基于Res-Net-101的模型准确率最高可达98.34%; 在测试集上, 基于ResNet-18的模型准确率最高可达89.76%, 基于ResNet-34的模型准确率最高可达93.78%, 基于ResNet-50的模型准确率最高可达85.86%, 基于ResNet-101的模型准确率最高可达98.48%。 图9所示, 利用最优ResNet101模型对隧道现场岩石进行逐像素点的岩性预测。

图8 工程现场岩石高光谱图像深度学习迁移模型准确率图
(a): 训练集; (b): 测试集
Fig.8 Accuracy curves of deep learning transfer model for rocks HSI at engineering sites
(a): Training set; (b): Test set

图9 工程现场岩石及岩性识别结果
(a): 假彩色(1 357、 2 061、 2 398 nm); (b): 逐像素点预测
Fig.9 Rock and lithology identification results at engineering site
(a): False colour(1 357, 2 061, 2 398 nm); (b): Pixel-by-pixel prediction

3 结论

提出一种基于岩石高光谱图像迁移学习的方法, 得出主要结论如下:

(1)利用3D-ResNet网络深层次特征提取的能力, 有效捕捉了岩石成像光谱二维空间信息和一维光谱信息。 通过选择合理的ResNet网络层数来构建模型, 可以有效增强岩性智能识别模型的分类效率和泛化能力;

(2)3D-ResNet网络依赖于大量的训练数据, 利用迁移学习的训练网络, 将基于实验室数据进行预训练的参数加载到基于现场岩石成像光谱数据的深度学习迁移模型上, 扩充了岩石成像光谱数据集, 加快了网络训练速度, 提高了模型泛化性;

(3)采用ResNet-101网络获得了最佳的识别效果, 对岩石光谱数据识别的准确率基本达到90%以上(除了绿泥石片岩), 大部分结果甚至可以达到100%。 相较于基于ResNet-18、 ResNet-34和ResNet-50网络建立的模型, 对每类岩石识别的稳定性更好, 显示出基于ResNet-101的岩石成像光谱分类模型具有较好的识别能力及良好的鲁棒性。

参考文献
[1] Shi H, Xu Z H, Lin P, et al. Geoenergy Science and Engineering, 2023, 231: 212382. [本文引用:1]
[2] Liang H B, Chen H F, Guo J H, et al. Expert Systems with Applications, 2022, 189: 116142. [本文引用:1]
[3] Song L, Yin X Y, Yin L J. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 7503105. [本文引用:1]
[4] XU Zhen-hao, MA Wen, LI Shu-cai, et al(许振浩, 马文, 李术才, ). Geological Review(地质论评), 2022, 68(6): 2290. [本文引用:1]
[5] Xu Z H, Ma W, Lin P, et al. Journal of Rock Mechanics and Geotechnical Engineering, 2022, 14(4): 1140. [本文引用:1]
[6] LI Juan, SUN Hui-lan, HOU Qing-xiang(李娟, 孙惠兰, 侯庆香). China Petrochem(中国石油石化), 2017, 10: 61. [本文引用:1]
[7] Hou S K, Shi H Y, Cao X H, et al. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5521213. [本文引用:1]
[8] Farmonov N, Amankulova K, Szatmári J, et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 1576. [本文引用:1]
[9] ZHONG Jia-ping, LI Yun-song, XIE Wei-ying, et al(钟佳平, 李云松, 谢卫莹, ). Acta Electronica Sinica(电子学报), 2024, 52(5): 1716. [本文引用:1]
[10] YAN Shou-xun, ZHANG Bing, ZHAO Yong-chao, et al(燕守勋, 张兵, 赵永超, ). Remote Sensing Technology and Applications(遥感技术与应用), 2003, 18(4): 191. [本文引用:1]
[11] WU Meng-juan, JIN Jia, WANG Jin-lin, et al(吴梦娟, 靳佳, 王金林, ). Acta Geologica Sinica(地质学报), 2024, 98(1): 314. [本文引用:1]
[12] WANG Jun-jie, YUAN Xi-ping, GAN Shu, et al(王俊杰, 袁希平, 甘淑, ). Journal of Lanzhou University (Natural Science Edition)[兰州大学学报(自然科学版)], 2023, 59(6): 786. [本文引用:1]
[13] Lin N, Fu J W, Jiang R Z, et al. Remote Sensing, 2023, 15(15): 3764. [本文引用:1]
[14] LI Lian-jie, FAN Shu-xiang, WANG Xue-wen, et al(李廉洁, 樊书祥, 王学文, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(4): 1250. [本文引用:1]
[15] Xu Y H, Wang H, Zhou F, et al. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5511216. [本文引用:1]
[16] He L, Li J, Liu C Y, et al. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(3): 1579. [本文引用:1]
[17] Li Z Y, Xue Z H, Xu Q, et al. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5502019. [本文引用:1]
[18] ZHAO Xin, MA Jing-yi, CHEN Han, et al(赵昕, 马竞一, 陈晗, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2024, 55(4): 368. [本文引用:1]
[19] ZHOU Fei-xiang, JIANG Hong, GUO Bao-lin, et al(周飞翔, 姜红, 郭宝林, ). China Journal of Chinese Materia Medica(中国中药杂志), 2024, 49(24): 6660. [本文引用:1]
[20] Okada N, Maekawa Y, Owada N, et al. Minerals, 2020, 10(9): 809. [本文引用:1]
[21] Afjal M I, Mondal M N I, Mamun M A. Journal of Spatial Science, 2024, 69(3): 821. [本文引用:1]
[22] Mei S H, Ji J Y, Hou J H, et al. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(8): 4520. [本文引用:1]
[23] Ma X T, Man Q X, Yang X M, et al. Remote Sensing, 2023, 15(4): 992. [本文引用:1]
[24] LIU Ye, HAN Yu-bo, ZHU Wen-rui(刘烨, 韩雨伯, 朱文瑞). Earth Science Fronties(地学前缘), 2024, 31(4): 95. [本文引用:1]
[25] Liu L F, Ji M, Buchroithner M. Sensors, 2018, 18(9): 3169. [本文引用:1]
[26] Galdames F J, Perez C A, Estevez P A, et al. Chemometrics and Intelligent Laboratory Systems, 2022, 224: 104538. [本文引用:1]
[27] Yang K, Zhao M, Argyropoulos D. Postharvest Biology and Technology, 2025, 219: 113247. [本文引用:1]
[28] Xu Z H, Shi H, Lin P, et al. International Journal of Rock Mechanics and Mining Sciences, 2024, 180: 105814. [本文引用:1]
[29] Xu Z H, Yu T F, Lin P, et al. Engineering Geology, 2023, 325: 107279. [本文引用:1]