基于共焦LIBS技术结合机器学习的矿石分类识别方法
苏云鹏, 贺春景, 李昂泽, 徐可米, 邱丽荣, 崔晗*
“复杂环境智能感测技术”工信部重点实验室, 北京理工大学光电学院, 北京 100081
*通讯作者 e-mail: han.cui@bit.edu.cn

作者简介: 苏云鹏, 1997年生, 北京理工大学光电学院硕士研究生 e-mail: whatuncle@163.com

摘要

矿物分类与识别是地质研究领域的重要内容, 对地质勘探和环境演化的研究具有重要意义。 然而, 传统的矿石分类识别方法依靠专业人员通过矿石的外形及物理性质进行人工鉴定, 主观性强, 准确率低, 激光诱导击穿光谱技术(LIBS)由于其元素“指纹”特性、 灵敏度高以及快速在线检测的特点, 非常适合用于地质研究领域。 利用共焦激光诱导击穿光谱技术与机器学习结合, 提高了矿石分类识别的精准度, 利用共焦LIBS系统获得8种天然矿石样品(金矿、 铜矿、 银辉矿、 赤铁矿、 铝矿、 方铅石、 磷灰石以及闪锌矿)的光谱数据, 采用主成分分析方法(PCA)对数据进行降维处理, 并对降维后的数据采用线性判别分析(LDA)、 最邻近规则(KNN)以及支持向量机(SVM)三种方法进行特征谱线的高精准分类识别。 首先, 采用标准铜片作为样品, 对比了非共焦LIBS系统和共焦LIBS系统的稳定性及其对PCA主成分累计贡献率的影响, 结果表明与非共焦LIBS系统相比, 共焦LIBS系统的稳定性提升了63.75%, 主成分累计贡献率提高了17.81%; 然后, 采用共焦LIBS系统获取上述8种矿石样品的光谱信息, 并进行去噪等预处理, 采用PCA对矿石特征数据进行提取, 并保留累计贡献率达到99.4%的前10维特征空间; 最后, 将特征数据分别与LDA, KNN以及SVM结合构建分类模型, 进行种类识别。 结果表明, PCA方法与LDA和KNN方法结合的分类准确度分别为95.78%和92.58%, 而与SVM相结合的方法, 准确率可达到97.89%。 因此, 采用共焦激光诱导击穿光谱技术与PCA和SVM相结合的方法, 可为地质勘探和矿物识别领域提供一种快速、 高准确度的分类识别方式, 具有广阔的应用前景。

关键词: 激光诱导击穿光谱; 共焦LIBS; 主成分分析; 机器学习
中图分类号:O433.1 文献标志码:A
Ore Classification and Recognition Based on Confocal LIBS Combined With Machine Learning
SU Yun-peng, HE Chun-jing, LI Ang-ze, XU Ke-mi, QIU Li-rong, CUI Han*
Ministry of Industry and Information (MIC) Key Laboratory of Complex-Field Intelligent Exploration, School of Optics and Photonics, Beijing Institute of Technology, Beijing 100081, China
*Corresponding author
Abstract

Mineral classification and identification is an important area in the field of geological research, which is of great significance to geological exploration and environmental evolution. However, the traditional ore classification and identification methods rely on professionals to conduct manual identification through the shape and physical properties of the ore, which has strong subjectivity and low accuracy. Laser-induced breakdown spectroscopy (LIBS) is suitable for geological research due to itselement “fingerprint” characteristics, high sensitivity and fast on-line detection. In this paper, we use confocal laser-induced breakdown spectroscopy combined with machine learning to improve the accuracy of ore classification and recognition. The confocal LIBS system is used to obtain the spectral data of 8 natural ore samples (Gold, Copper, Silver, Hematite, Aluminum, Galena, Apatite and Sphalerite). Principal component analysis (PCA) is used to reduce the dimension of the data, Linear discriminant analysis (LDA), nearest neighbor rule (KNN) and support vector machine (SVM) are used for high-precision classification and recognition of feature spectral lines. Firstly, a standard copper is employed as the sample to conduct the comparison experiments between non confocal LIBS system and the confocal LIBS system for the stability and its influence on the cumulative contribution rate of PCA principal components. The results show that compared with non-confocal LIBS system, the stability of the confocal LIBS system is improved by 63.75%, and the cumulative contribution rate of principal components is increased by 17.81%. Then, the confocal LIBS system is used to obtain the spectral information of the above eight ore samples with data preprocessing, such as denoising. PCA is used to extract the ore feature data, and the first 10-dimensional feature space with a cumulative contribution rate of 99.4% is retained. Finally, the feature data are combined with LDA, KNN and SVM to build a classification model for classification and recognition. The experimental results show that the classification accuracy of PCA combined with LDA and KNN is 95.78% and 92.58% respectively, while that of SVM can reach 97.89%. Therefore, combining confocal laser-induced breakdown spectroscopy with PCA and SVM can provide a fast and accurate classification and recognition method for geological exploration and mineral recognition and has wide application prospects.

Keyword: Laser-induced breakdown spectroscopy; Confocal LIBS; Principal component analysis; Machine learning
引言

我国矿产资源丰富, 种类繁多, 成分结构复杂, 因此, 研究矿物快速、 准确分类识别方法已成为地质研究领域的重要内容, 同时也是地质勘探领域的必要环节。 激光诱导击穿光谱技术(LIBS)因其元素“ 指纹” 特性、 灵敏度高以及快速在线检测等优势, 广泛应用于地质科学[1, 2]、 工业检测[3]、 生物医学[4]、 材料科学[5]等领域。 目前, 研究人员将LIBS技术与主成分分析(PCA)方法、 偏最小二乘判别分析(PLS-DA)、 软件独立建模类模拟(SIMCA)等多元分析方法结合[6, 7], 提升了LIBS技术在各领域分类识别工作中的准确性。

针对矿产资源成分结构复杂、 分类识别困难等问题, 国内外研究人员进行了大量研究, 尤其在利用化学计量法和聚类算法辅助分析方面取得了较大进展。 闫梦鸽[8]等利用自组织特征映射网络模型训练LIBS特征谱线, 对天然地质样品中主要元素进行分类, 全谱准确率达到83.75%。 杨彦伟[9]等将非共焦LIBS技术与强度阈值方法结合对光谱数据进行降维处理, 建立最邻近规则、 随机森林以及支持向量机等分类模型实现对多种天然铁矿石的快速、 精确分类, 精确度分别达到83.0%, 80.7%和90.3%。 Alvarez[10]等利用树状图和最近邻识别方法结合LIBS技术对不同地理位置的铜矿进行识别, 其精确度达到90.6%。Tavares[11]等基于偏最小二乘回归方法建立土壤元素的LIBS分类预测模型, 实现对土壤中磷、 钾、 钙等元素精确分类, 剩余预测偏差提升至1.44, 分类效果优异。

通过采用共焦LIBS技术与机器学习算法相结合的方法, 实现了对8种天然矿石样品(金矿、 铜矿、 银辉矿、 赤铁矿、 铝矿、 方铅石、 磷灰石以及闪锌矿)的快速、 高准确分类识别。 利用共焦LIBS成像系统采集矿石样品的特征谱线; 然后, 采用主成分分析方法(principle component analysis, PCA)对特征谱线进行降维处理; 最后, 采用线性判别分析(linear discriminant analysis, LDA)、 最近邻分类算法(K-nearest-neighbors, KNN)以及支持向量机(support vector machines, SVM)对矿石进行分类。 实验数据表明, 与非共焦系统相比, 采用共焦LIBS系统, 光谱稳定性提升63.75%, 主成分累计贡献率提高17.81%; PCA与LDA和KNN算法结合准确度分别为95.78%和92.58%, 而与SVM算法结合准确度最高, 达到97.89%。

1 实验部分
1.1 装置

共焦LIBS成像系统原理如图1所示[12], 该系统采用532 nm半导体连续激光器作为共焦显微成像系统的指示光源, 使用20× 显微物镜(MPlanApo20× , Olympus, Japan)作为样品聚焦与谱线收集的物镜。

图1 实验装置示意图
PZT: 压电陶瓷驱动器
Fig.1 Experimental set-up
PZT: Piezoelectric ceramic transducer

LIBS系统激发光源为二倍频Nd∶ YAG固体激光器(Nimma-400, Beamtech Optronics, China), 其激光脉宽为8.93 ns, 发散角为0.34 mrad, 频率为1 Hz, 最大能量为480 mJ; 脉冲光束通过显微物镜会聚到待测样品表面诱导产生等离子体光谱, 并采用多通道光纤光谱仪(MX2500+, Ocean Optics, USA)进行LIBS信号收集, 其光谱分辨力为0.1 nm, 采集延迟时间为1 μ s, 积分时间为1.0 ms。

1.2 样品

8种常见的天然矿石样品作为实验样品, 具体包括: 金矿(Gold)、 铜矿(Copper)、 银辉矿(Silver)、 赤铁矿(Hematite)、 铝矿(Aluminum)、 方铅石(Galena)、 磷辉石(Apatite)和闪锌矿(Sphalerite), 如图2所示。 实验开始前, 首先, 用蘸有无水乙醇的无尘棉签对矿石样品表面进行清洁处理, 清除样品在包装运输过程中受到的污染, 从而消除实验结果因污染导致错误的可能性; 然后, 将清洁后的样品放置于空气中, 静待清洁溶液挥发干燥, 完成样品预处理。 在相同实验条件下, 对8种常见矿石样品分别进行240次脉冲激发, 获取待处理LIBS数据集。

图2 8种矿物样品图Fig.2 Eight kinds of mineral samples

依据美国国家标准与技术研究院(NIST)的标准原子光谱数据库, 对实验采集的矿石LIBS谱线进行解谱表征。 其中, 金矿谱线峰位识别结果如图3所示, 从图中可知, 金矿的LIBS谱线密集, 样本中主要含有Au, Fe, Al, Cu和Mg等元素。 矿石中普遍存在所含元素种类丰富且不同元素特征峰位相近的特点, 使得直接区分难度较大。

图3 金矿等离子体发射光谱图Fig.3 Plasma emission spectra of gold ore

2 结果与讨论
2.1 光谱预处理

实验采用多通道光纤光谱仪, 各通道获得的LIBS谱线由于摄入光量和光谱特性不同, 以及暗电流噪声的不同, 在全谱段范围出现光谱基线差异问题。 因此, 对LIBS谱线进行建模分析前, 需要分段校正各通道背景信号。 以金矿LIBS谱线为例, 首先, 利用光谱仪对背景光进行10次测量, 并取平均值作为环境背景噪声信号; 然后, 将原始光谱数据减去背景信号, 得到去除背景噪声的光谱信号; 最后, 为减少信号采集不确定性对光谱分析的影响, 对于背景去除后的LIBS谱线, 将每2条谱线数据取平均值作为新的光谱数据, 共得到120组新的光谱数据。

此外, LIBS谱线除背景噪声外, 还包含由模数转换和杂散光引起的随机噪声。 对去除背景噪声后的LIBS谱线, 采用窗口为5的加权高斯滤波方法对随机噪声信号进行去除, 高斯滤波更加强调谱峰中心强度, 可以更好的保留LIBS谱峰信息[13]。 金矿LIBS谱线预处理操作前后的对比结果如图4所示。 预处理后获得每个样本各120组光谱数据, 每组具有1566个维度, 将8种样品数据合成为960× 1 566矩阵, 对此矩阵进行处理分析。

图4 金矿LIBS谱线预处理操作前后对比图Fig.4 Laser-induced breakdown spectra of gold ore

2.2 主成分分析

主成分分析方法(PCA)是一种基于多元统计分析的化学计量分析方法[14], 其核心理论是借助于正交变换, 将数据进行降维处理。 共焦LIBS成像系统的引入, 极大地提高了矿石特征谱线采集的稳定性, 从而在主成分分析时提升特征谱线主成分累计贡献率。

采用具有一定倾角的标准铜片作为样品, 首先, 对比了非共焦LIBS系统和共焦LIBS系统采集标准铜片特征谱线的稳定性。 图5(a)和(b)显示了在采集10组标准铜片特征谱线的条件下, 非共焦LIBS系统和共焦LIBS系统三个光谱峰值(Cu Ⅰ 481.006 nm, Cu Ⅰ 510.554 nm, Cu Ⅰ 515.324 nm)的相对标准偏差(RSD), 非共焦LIBS系统RSD分别达到22.3%, 24.1%和22.4%, 共焦LIBS系统RSD分别达到7.9%, 8.2%和8.7%, 二者RSD的平均值分别为22.9%和8.3%。 根据实验结果可知, 共焦LIBS系统相比非共焦LIBS系统, 光谱稳定性提高了63.75%。

图5 (a)非共焦LIBS系统铜片光谱阵列; (b)共焦LIBS系统铜片光谱阵列Fig.5 (a) Non-confocal LIBS spectral array of copper; (b) Confocal LIBS spectral array of copper

其次, 利用PCA提取并统计上述两种系统测量结果的主成分累计贡献率。 如图6(a)所示, 提取前10个主成分, 非共焦LIBS系统与共焦LIBS系统铜片测试谱线的主成分累计贡献率分别为69.73%和82.15%。 结果表明, 共焦LIBS系统相较非共焦LIBS系统铜片测试谱线的主成分累计贡献率提高17.81%。

图6 (a)不同系统铜片测试谱线的主成分贡献率对比; (b)共焦系统下8种矿石主成分贡献率; (c)4种矿石前3个主成分散点分布图Fig.6 (a) Comparison of principal component contribution rate of copper test lines in different systems; (b) Principal component contribution rate of 8 ores using confocal system; (c) Scatter diagram of the first three principal components for 4 types of ore

图6(b)中显示了共焦LIBS系统采集的特征谱线前10个主成分的贡献率和累计贡献, 其累计贡献率达到99.4%, 表明前10个主成分即可代表矿石样本原始数据所具备的绝大部分特征, 实现了数据降维处理。 为验证特征数据的聚类效果, 采用均值聚类判断特征点的聚集情况。 均值聚类是无监督聚类算法, 常用于快速简单聚类分析[14]。 基于PCA降维, 在样品全谱数据10维特征空间中, 获取所有特征点, 并结合均值聚类构建分类模型。 图6(c)为样本点相对于前3个主成分的三维得分图, 8种样品在空间上都明显分离, 但是由于视角限制, 图中仅显示视觉分离效果较明显的4种样品。 每个样本由对应散点展示, 显示出较好的聚类效果, 可以看出, 代表同种矿石特征点的聚集效果优异, 区分明显。

2.3 三种分类算法研究

通过PCA方法对8种矿石样品的全部特征峰进行降维处理后, 提取前10个主成分用于表征原始数据特征, 并构建特征空间。 将特征空间分别与线性判别分析方法(LDA)、 最近邻分类算法(KNN)以及支持向量机(SVM)三种方法结合, 建立分类模型对矿石谱线进行分类识别。

LDA适用于各个类别的样本数据符合高斯分布的情况[16], 其基本原理是通过构建投影空间, 使高维的模式样本投影到最佳识别矢量空间, 满足空间中类间与类内间距比值最大化, 以此区分样本类别; KNN根据高斯权重和欧式距离计算样本特征与不同类别数据特征接近程度, 以此实现分类识别[17]; SVM能够根据较少的样本信息在模型的复杂性和学习能力之间寻找最佳折中, 使得结构风险最小化, 同时获得拥有较小的置信区间, 以获得最好的分类能力[18], SVM常用的径向基核函数即为高斯核函数, 可以把输入特征扩展到高维空间, 适用于非线性问题分类。

三种方法都属于有监督机器学习算法, 需将特征空间划分为训练集和测试集两部分, 通过训练集建立训练模型, 再对测试集进行预测。 分类准确率不仅受到样品物质成分均匀度影响, 还受到训练集与测试选取比例的影响。 图2中八种矿物样品在不同的训练集与测试集比例下, 算法的测试精度有所不同。 为获取三种算法最佳测试精度, 需要多次调制不同比例的训练集与测试集, 进而获得更高的分类准确率。 随机选取不同数量的样本作为训练集, 将剩余样本作为测试集, 分别统计在当前训练集与测试集比例下LDA、 KNN以及SVM分类算法的测试准确率, 其中, LDA分类方法使用Fisher评价标准, 评价参数J大于6, KNN分类方法使用欧式距离, K值选取为5, SVM分类方法使用高斯核函数, 惩罚系数C设置为5, 最终得到结果如图7所示。

图7 不同训练集数量下LDA, KNN和SVM测试精度Fig.7 LDA, KNN, SVM test accuracies for different number of training sets

从图7中可以看出在样本数为120组不变的情况下, 增加训练集比例所得到的测试准确率先增后减, LDA, KNN以及SVM分类算法分别在训练集数量为86, 75以及92个时达到最佳测试准确率。 因此, LDA, KNN以及SVM算法中训练集和测试集最佳比例关系分别为86∶ 34, 75∶ 45, 92∶ 28。 采用上述最佳比例关系的样本对三种算法做分类训练, 测试矿石样品特征数据, 最终得到三种方法对于8种矿石样品的具体测试准确率如表1所示, 平均准确率分别达到95.78%, 92.58%以及97.89%。

表1 测试集准确率(%) Table 1 Test set accuracy (%)
3 结论

利用共焦LIBS成像系统采集8种天然矿石样品的LIBS谱线, 采用加权高斯平滑算法进行背景噪声去除; 然后利用PCA方法对主成分数据进行提取, 依次测试了LDA, KNN以及SVM方法在最佳训练集和测试集比例条件下的分类效果。 分类结果表明, 与非共焦系统相比, 采用共焦LIBS系统, 光谱稳定性提升63.75%, 主成分累计贡献率提高17.81%; LDA和KNN方法的平均准确率分别达到95.78%与92.58%, 而SVM方法的平均准确率最高, 达到97.89%。 实验结果表明共焦LIBS技术结合机器学习算法可实现对矿石样品的快速、 准确分类识别, 为地质勘探领域提供了一种高效可靠的分析检测手段。

参考文献
[1] Lanza N L, Wiens R C, Clegg S M, et al. Applied Optics, 2010, 49(13): 211. [本文引用:1]
[2] Chen T T, Zhang T L, Li H. Trends in Analytical Chemistry, 2020, 133(7): 116113. [本文引用:1]
[3] Trautner S, Lackner J, Spendelhofer W, et al. Analytical Chemistry, 2019, 91(8): 5200. [本文引用:1]
[4] Gaudiuso R, Ewusi-Annan E, Melikechi N, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2018, 146(9): 106. [本文引用:1]
[5] Pagnotta S, Lezzerini M, Campanella B, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2018, 146(20): 9. [本文引用:1]
[6] Teng G E, Wang Q Q, Kong J L, et al. Optics Express, 2019, 27(5): 6958. [本文引用:1]
[7] Nardecchia A, Fabre C, Cauzid J, et al. Analytica Chimica Acta, 2020, 1114(1): 66. [本文引用:1]
[8] YAN Meng-ge, DONG Xiao-zhou, LI Ying, et al(闫梦鸽, 董晓舟, 李颖, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(6): 1874. [本文引用:1]
[9] YANG Yan-wei, ZHANG Li-li, HAO Xiao-jian, et al(杨彦伟, 张丽丽, 郝晓剑, ). Infrared and Laser Engineering(红外与激光工程), 2021, 50(5): 273. [本文引用:1]
[10] Alvarez J, Velasquez M, Myakalwar A K, et al. Journal of Analytical Atomic Spectrometry, 2019, 34(10): 2459. [本文引用:1]
[11] Tavares T R, Mouazen A M, Nunes L C, et al. Soil & Tillage Research, 2021, 216(12): 105250. [本文引用:1]
[12] Huang W H, He C J, Wang Y, et al. Journal of Analytical Atomic Spectrometry, 2020, 35(7): 2530. [本文引用:1]
[13] Wohlbrand t A, Hu N, Guerin S, et al. Computers and Fluids, 2016, 132(5): 46. [本文引用:1]
[14] Trisnawati N L P, Krisand i A, Widagda I G A, et al. Journal of Physics: Conference Series, 2020, 1572(8): 012002. [本文引用:2]
[15] Guo Y M, Tang Y, Du Y, et al. Plasma Science and Technology, 2018, 20(6): 2058. [本文引用:1]
[16] Gyftokostas N, Nanou E, Stefas D, et al. Molecules, 2021, 26(5): 1241. [本文引用:1]
[17] Xu Y L, Meng L W, Chen X J, et al. Plasma Science and Technology, 2021, 23(8): 133. [本文引用:1]
[18] LI Ang-ze, WANG Xian-shuang, XU Xiang-jun, et al(李昂泽, 王宪双, 徐向君, ). Chinese Optics(中国光学), 2019, 12(5): 1139. [本文引用:1]