热红外光谱的石榴子石亚类识别方法
刘婷玥1, 代晶晶2,*, 田淑芳1
1.中国地质大学(北京), 北京 100083
2.自然资源部成矿作用与资源评价重点实验室, 中国地质科学院矿产资源研究所, 北京 100037
*通讯作者 e-mail: daijingjing863@sina.com

作者简介: 刘婷玥, 1997年生, 中国地质大学(北京)地球科学与资源学院硕士研究生 e-mail: 3394998821@qq.com

摘要

高光谱技术快速、 无损、 精确探测矿物, 能够清楚的反映矿物化学成分的改变。 石榴子石在热红外波段具有诊断性的三峰式特征。 反射峰波长与化学成分关系密切, 所以可以依据石榴子石在热红外波段的光谱特征开展其亚类分类研究。 钙铬榴石和锰铝榴石反射峰位置易于与其他亚类区分, 而铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石的反射峰位置有较大重叠区域, 无法直接判别, 因此亟需一种基于热红外光谱的快速、 准确识别石榴子石亚类的分类方法。 基于热红外光谱库中85个不同类型的石榴子石样本数据获取其3个反射峰位置及波长差值信息, 利用非线性BP神经网络、 聚类分析以及多元线性判别分析3种方法开展石榴子石亚类识别实验, 并运用精确率、 召回率和F1值进行分类精度评价。 结果显示: BP神经网络算法分类的精确率、 召回率和F1值均能达到100%, 铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石得到很好地区分; 聚类分析和多元线性判别分析分类的精确率、 召回率和F1值分别为86.1%、 80%和79.2%, 84.2%、 80%和79.5%, 这两种方法对反射峰重叠的铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石分类效果不好, 因此BP神经网络更适合石榴子石亚类识别。 本研究利用BP神经网络强大的非线性自动映射能力, 找到了石榴子石热红外谱段反射峰位置与亚类类型之间复杂的映射关系, 证明了BP神经网络方法与热红外光谱特征结合使用的可行性与优越性, 为石榴子石亚类识别提供了快速有效的技术支撑, 同时为其他矿物的快速有效识别提供了良好的技术启示。

关键词: 石榴子石; 矿物识别; 热红外光谱; 聚类分析; 多元线性判别; BP神经网络
中图分类号:P578.94+7 文献标志码:A
A Neural Network Recognition Method for Garnets Subclass Based on Hyper Spectroscopy
LIU Ting-yue1, DAI Jing-jing2,*, TIAN Shu-fang1
1. China University of Geosciences (Beijing), Beijing 100083, China
2. MLR Key Laboratory of Metallogeny and Mineral Assessment, Institute of Mineral Resources, Chinese Academy of Geological Sciences, Beijing 100037, China
*Corresponding author
Abstract

Hyperspectral technology is a rapid, nondestructive and accurate means of mineral detection, which can clearly reflect mineral chemical composition change. Garnets have the characteristic of three diagnostic peaks in the thermal infrared wavebands, and the wavelength positions of the reflection peaks are closely related to the chemical composition, so the subclass classification of garnets can be studied according to the thermal infrared wave spectrum characteristics. Reflection peak wavelength positions of uvarovite and spessartine are easy to distinguish with other types. However, that of almandine and pyrope, andradite and grossular have a large overlap and are difficult to distinguish with each other. Therefore, a fast and accurate classification method based on the thermal infrared spectrum is urgently needed. In this paper, the information about wavelength position and difference between wavelengths of the three reflection peaks of 85 different types of garnet samples were obtained from the thermal infrared spectroscopy library. Three nonlinear BP neural network methods, cluster analysis and multiple linear discrimination analysis were used to carry out garnet subclass recognition experiments, and the accuracy rate, recall rate and F1 value were used to evaluate the classification accuracy. The experimental results showed that the accuracy rate, recall rate and F1 value of BP neural network algorithm after classification could all reach 100%, and all types of garnets got a good distinction; the accuracy rate, recall rate and F1 value of clustering analysis and multivariate linear discriminant analysis were 86.1%, 80%, 79.2% and 84.2%, 80%, 79.5% separately, the four types of garnets with overlapping reflection peaks could not be well differentiated. According to the results, the nonlinear BP neural network is more suitable for the subclassification of garnets. Our study used powerful automatic nonlinear mapping ability of the BP neural network, has found the complex mapping relationship between the wavelength positions of the reflection peak in the thermal infrared spectrum of the garnets and the subclass types, and proved the feasibility and superiority of BP neural network method combined with thermal infrared spectrum characteristics. The identification of garnet subclass provided is fast and effective, and it can give good technical enlightenment for the rapid and effective identification of other minerals.

Keyword: Garnets; Mineral recognition; Thermal infrared spectrum; Cluster analysis; Multiple linear discrimination; BP neural network
引言

石榴子石是一族具有岛状结构的硅酸盐矿物的总称, 化学式为X3Y2[ZO4]3, 其中X代表二价阳离子钙、 铁、 镁、 锰, Y代表三价阳离子铝、 铁、 铬、 锰, Z一般代表四价阳离子硅。 依据X位置和Y位置阳离子的特征, 可将目前已知的石榴子石族矿物分为两类: 钙系列石榴子石和铝系列石榴子石[1, 2]。 钙系列石榴子石包括钙铬榴石、 钙铁榴石、 钙铝榴石等亚类, 铝系列石榴子石包括锰铝榴石、 铁铝榴石、 镁铝榴石等亚类。 传统的石榴子石亚类分类的判别主要是通过实验室测试分析, 存在耗时耗力、 破坏性、 昂贵等缺点, 所以迫切需要一种新方法快速、 准确地判别石榴子石类型。 高光谱可以捕获大量信息, 反映研究对象复杂的内在特征, 且具有无损探测、 省时省力的优点[3], 近年来被应用到矿物识别中。 高光谱研究表明金属离子替代引起的矿物成分变化可以反映在光谱上[4], 石榴子石也不例外。 石榴子石亚类之间通过金属离子替代相互转化, 反映在高光谱上为热红外波段吸收谷及反射峰位置的不同。 其中, 钙铬榴石和锰铝榴石反射峰位置特征明显, 易于识别, 而铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石的反射峰位置特征不明显, 有较大重叠区域, 无法直接进行判别, 因此需要找到一种能够挖掘热红外波谱中的成分信息进而识别石榴子石亚类的方法。 BP(back propagation)神经网络是一种非线性监督分类方法, 无需事先确定映射关系, 仅通过自身的训练得到连接规则[5], 能够解决许多传统信息分析方法解决不了的问题。 目前, 还没有利用热红外波谱特征和神经网络开展石榴子石亚类分类的相关报道。

尝试将石榴子石在热红外波段的反射峰波长特征作为亚类判别标志, 开展BP神经网络与聚类分析、 多元线性判别分析方法对比研究, 经过精确率、 召回率和F1值三个评价指标的评定, 找到一种判别石榴子石亚类类型的快速有效的方法, 并对其他矿物的快速识别提供新的技术启示。

1 石榴子石热红外光谱特征

热红外谱段在结构分析和组成分析中非常重要, 它能够探测可见-短波红外谱段探测不到的无水硅酸盐类(架状、 岛状、 链状硅酸盐)、 硫酸盐、 磷酸盐等矿物, 石榴子石是一种岛状硅酸盐矿物, 因此热红外波段对于石榴子石的识别具有更大优势[6]

受硅酸根离子影响, 石榴子石在9~13 μ m的热红外谱段具有诊断性的三峰式吸收特征(如图1所示), 3个反射峰分别为反射峰1、 反射峰2、 反射峰3(reflection peak 1, 2, 3), 主吸收谷位于反射峰1与反射峰2之间, 次吸收谷位于反射峰2与反射峰3之间[5]。 矿物的吸收谱带主要由阴离子决定, 但是当阳离子变化时, 吸收谱带位置将会有微小的位移。 石榴子石亚类之间的不同主要是阳离子的不同, 因此可以通过反射峰波长判断石榴子石中阳离子的类型, 进而判别石榴子石类型, 本文将选择反射峰的波长位置作为石榴子石亚类识别的标志。

图1 石榴子石热红外光谱图Fig.1 Thermal infrared spectra of garnets

表1是在热红外光谱库中提取的石榴子石光谱特征数据, 包括18个铁铝榴石、 15个钙铁榴石、 25个钙铝榴石、 18个镁铝榴石、 6个锰铝榴石、 3个钙铬榴石的3个反射峰波长信息(反射峰1波长、 反射峰2波长、 反射峰3波长)和1个反射峰波长差值信息(波峰3波长减去波峰2波长)。 将表1中的石榴子石光谱特征数据绘制成6种石榴子石反射峰波长分布图(图2), 由图可知: ①钙系和铝系石榴子石可以通过反射峰波长进行区别。 ②钙铬榴石和锰铝榴石反射峰波长特点明显, 易于与其他类型分别, 而铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石的各反射峰均有较大重叠, 通过简单的阈值划分无法判别这几类石榴子石。

表1 石榴子石光谱特征信息统计表 Table 1 Statistical table of spectral characteristics of garnets

图2 6种石榴子石反射峰波长位置分布图Fig.2 Positions of reflection peaks of 6 types of garnets

2 实验部分

利用聚类分析、 多元线性判别分析和BP神经网络3种方法开展石榴子石亚类分类实验, 使用表1中的3个反射峰波长信息和1个反射峰波长差值信息; 在SPSS和Python软件中进行, 分类效果将通过预测结果正确的概率— — 精确率、 样本被正确预测的概率— — 召回率、 精确率和召回率结合得到的F1值进行综合评价。

2.1 聚类分析与多元线性判别分析

聚类分析与多元线性判别分析采用的是k均值聚类和Bayes多元线性判别, 分析均通过SPSS软件实现, 结果如表2表3所示。

表2 聚类分析结果及评价 Table 2 Results and evaluation of cluster analysis
表3 判别分析结果及评价 Table 3 Results and evaluation of discriminant analysis

表2表3可知: k均值聚类分析的精确率、 召回率和F1值分别为86.1%, 80%和79.2%, 除了钙铬榴石(类型4)完全正确地分类, 其他类型的石榴子石都有被误分类的情况, k均值聚类分析是一种非监督分类方法, 仅仅从距离的角度划分类别, 判别效果不理想。 多元线性判别分析的精确率、 召回率和F1值分别为84.2%, 80%和79.5%, 铁铝榴石、 镁铝榴石、 钙铁榴石和钙铝榴石依然没有得到很好的区分, 多元线性判别计算复杂度相对较低, 判别石榴子石亚类的效果同样不理想。

2.2 BP神经网络判别分析

BP神经网络是一种基于人脑所建立的模型, 通过模拟人脑结构和功能来处理信息, 具有任意复杂的模式分类能力和优良的多维函数映射能力。 BP神经网络方法与热红外光谱特征的结合, 可以充分利用二者优势, 构建快速判别模型。 BP神经网络非线性判别分析借助Python软件完成, 采用典型的三层神经网络模式。 表1中的反射峰波长信息及反射峰波长差值信息作为BP神经网络的输入信息, 6个石榴子石亚类类型作为BP神经网络的输出类型, 根据公式(1)和测试结果确定隐含层神经元个数为10个。

$m=\sqrt{n+a}+b$(1)

式(1)中, m为隐藏层神经元数, n为输入层神经元数, a为输出层神经元数, b为0— 10的任意常数。 分类模型的构建过程如下[7]: ①实验数据划分训练集和验证集。 ②信息输入到BP神经网络中并进行归一化处理。 ③参数初始化, 设置神经网络的隐含层层数、 隐含层神经元个数、 激活函数、 优化方法、 输出函数和终止条件。 ④正向传播并计算各层的输出值, ReLU函数增加网络非线性[8]。 ⑤计算输出层与期望值的误差, 若是计算得到的输出值与期望得到的输出值存在不符合要求的误差, 则转为误差反向反馈过程。 ⑥反向反馈并利用L-BFGS算法修正权值。 ⑦达到终止条件终止训练, softmax回归函数对输出值归一化处理[9]。 ⑧得到石榴子石亚类分类预测模型。 ⑨使用精确率、 召回率和F1值进行结果及精度评价, 评价报告如表4所示。

表4 BP神经网络预测结果评价 Table 4 Evaluation of BP neural network prediction results

表4可知: 分类的精确率、 召回率和F1值均能达到100%, BP神经网络创建的模型有效, 所有石榴子石都能正确分类, 铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石能够很好地区分开。 由此可见, BP神经网络更适用于石榴子石亚类判别。

3 结论

(1) 通过BP神经网络和聚类、 多元线性判别分析应用于石榴子石亚类分类的结果对比可知, 非线性的BP神经网络在光谱信息挖掘方面具有无可比拟的优势, 能够将铁铝榴石和镁铝榴石、 钙铁榴石和钙铝榴石很好地区分, 判别石榴子石亚类分类的效果最好。

(2) 用来训练BP神经网络的样本数据会对判别结果产生决定性的影响。 一般来说, 样本数量和涵盖的产出环境类型越多, 训练结果越好, 因此实际应用中还需要不断扩充样本数据。 对已有样本数据进行微调是一种扩充样本数据、 提高模型训练精度的有效手段, 也可以给小样本训练的神经网络增加自学习能力, 以满足复杂的现实需要[10]

参考文献
[1] ZHENG Kun, MENG Bao-hang, YIN Xue-qin(郑坤, 孟宝航, 银雪琴). Geological Review(地质评论), 2015, 61(Supp): 784. [本文引用:1]
[2] FAN Da-wei, LI Bo, CHEN Wei, et al(范大伟, 李博, 陈伟, ). Chinese Journal of High Pressure Physics(高压物理学报), 2018, 32(1): 4. [本文引用:1]
[3] Smith C, Karunaratne S, Badenhorst P, et al. Remote Sensing, 2020, 12(6): 928. [本文引用:1]
[4] LIANG Shu-neng, GAN Fu-ping, YAN Bo-kun, et al(梁树能, 甘甫平, 闫柏琨, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(7): 1763. [本文引用:1]
[5] JIN Jing, LI Zong-hao, ZHU Liang, et al(金晶, 李宗昊, 朱亮, ). Journal of Railway Engineering Society(铁道工程学报), 2019, 36(3): 103. [本文引用:1]
[6] WANG Jian-yu, LI Chun-lai, JI Hong-zhen, et al(王建宇, 李春来, 姬弘桢, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2015, 34(1): 52. [本文引用:1]
[7] ZHOU Zhi-hua(周志华). Machine Learning(机器学习). Beijing: Tsinghua University Press(北京: 清华大学出版社), 2016. [本文引用:1]
[8] ZHANG Ju-xian, LIU Wei(张聚贤刘伟). China Earthquake Engineering Journal(地震工程学报), 2019, 41(2): 406. [本文引用:1]
[9] LIU Ya-chong, TANG Zhi-ling(刘亚冲唐智灵. Computer Engineering(计算机工程), 2018, 44(2): 98. [本文引用:1]
[10] Gao K, Liu B, Yu X, et al. Remote Sensing, 2020, 12(6): 923. [本文引用:1]