激光诱导击穿光谱的自组织特征映射结合相关判别对天然地质样品分类方法研究
闫梦鸽1,3, 董晓舟1,3, 李颖2, 张莹2, 毕云峰1,3,*
1. 山东大学(威海)机电与信息工程学院, 山东 威海 264209
2. 中国海洋大学光学光电子实验室, 山东 青岛 266100
3. 山东大学(威海)燃气检测技术研究中心, 山东 威海 264209

作者简介: 闫梦鸽, 1994年生, 山东大学(威海)机电与信息工程学院研究生 e-mail: mengge_94@163.com

摘要

激光诱导击穿光谱技术具有微损、 原位、 快速分析的特点, 在样品分类识别、 成分分析等领域有广阔的应用前景。 为探索该技术在天然地质样品识别应用的可行性, 提出了一种自组织特征映射神经网络结合相关判别对天然地质样品LIBS光谱分类识别的方法。 为减小全谱中背景噪声等不相关数据干扰、 降低计算量, 在元素谱线归属的基础上进行了特征谱线提取, 实现了高维光谱数据的降维。 以特征谱数据为输入建立网络训练模型, 得到具有输入样本特征的权向量, 通过权向量与待测样本进行相关分析可以实现样品分类。 对16种天然地质样品的分类算法实验证明, 在全谱、 主成分降维和特征谱段三种数据处理方法中, 特征谱的降维和提取LIBS数据主特征效果最优。 改进的SOM网络结合相关判别算法比支持向量机方法和直接应用SOM网络方法的分类准确度更高, 初步证实了该方法的有效性。

关键词: 激光诱导击穿光谱; 特征谱线; 自组织特征映射; 相关分析; 分类识别
中图分类号:TP391 文献标志码:A
Classification of Geological Samples with Laser-Induced Breakdown Spectroscopy Based on Self-Organizing Feature Map Network and Correlation Discrimination Analysis
YAN Meng-ge1,3, DONG Xiao-zhou1,3, LI Ying2, ZHANG Ying2, BI Yun-feng1,3,*
1. School of Mechanical and Information Engineering, Shandong University, Weihai, Weihai 264209, China
2. Optical Photoelectron Laboratory, Ocean University of China, Qingdao 266100, China
3. Research Center for Gas Detection, Shandong University, Weihai, Weihai 264209, China
Abstract

Laser-induced breakdown spectroscopy has the characteristics of small-invasive, in situ and rapid analysis. It has wide application prospects in the field of sample identification and component analysis. In order to explore the feasibility of the technology in the automatic identification of natural geological samples, a method of identifying and sorting LIBS spectral of natural geological samples by self-organizing feature map neural network combined with correlation is proposed in this paper. In order to reduce the interference of unrelated data such as background noise in the whole spectrum and the computational complexity, the feature spectral line is extracted on the basis of elemental to achieve the dimensionality reduction of high dimensional spectral data. The network training model is established by using the feature spectrum data as input, then the weight vectors which have the feature of input samples are obtained. Finally the geological sample classification is achieved by the correlation analysis between the weight vectors and the samples to be tested. The classification results of the 16 kinds of natural geological samples prove that the feature spectrum is superior to full spectrum and PCA dimension reduction, especially in the aspects of descending dimension and extracting the main features of data. The algorithm proposed in this paper has a better classification effect on the feature spectrum data of 16 samples than SVM and SOM neural network algorithm. Moreover, the validity of the proposed method is initially verified in this paper.

Keyword: LIBS; Feature spectral line; Self-organizing feature map; Correlation analysis; Classification and recognition
引 言

现代生产生活对矿产资源的需求不断增加, 对地质资源的开发提出了更高的要求, 而地质样品的识别是勘探开发中的基础环节。 实际工作中大多采用传统的人工方法和化学分析方法。 前者在实践中应用普遍, 但费时费力, 且高度依赖勘查技术人员的专业知识和经验; 后者虽分析结果准确, 但往往需要在实验室中进行, 成本高、 耗时长、 专业操作要求较高。 因此, 亟待需要一种原位、 快速、 准确的天然地质样品识别手段。

X射线荧光光谱(X-Ray fluorescence spectroscopy, XRF)技术出现早, 发展较为成熟, 在冶金、 地质、 有色建材、 商检、 环保、 卫生等多个领域得到了广泛应用。 XRF是利用X射线照射待测物质中的原子, 使它产生次级特征X射线, 进而进行元素分析。 其分析元素种类多, 但检测限往往较高, 系统结构较为复杂且存在一定的辐射问题[1]。 激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)技术是新发展起来的一种典型的发射光谱技术, 它利用高能激光脉冲激发材料产生等离子体, 通过收集处理等离子体光谱来识别物质成分。 LIBS技术凭借其微损、 无需样品制备、 现场快速分析等优势, 成为近年来的研究热点, 其在地质领域的应用前景受到人们高度关注。

但目前LIBS技术本身稳定性不高, 利用该技术进行物质分类识别的准确度还不能满足工业应用的需求。 越来越多的人将LIBS技术与化学计量学方法结合来提高物质分类的准确性, 典型方法如主成分分析、 偏最小二乘判别分析、 软建模分类、 人工神经网络、 支持向量机等[2, 3, 4]。 其中人工神经网络是一种模仿人脑结构及其功能的信息处理系统, 有强劲的适应和学习能力, 对非线性问题也有较好的映射能力, 在物质分类识别等方面有广泛应用。 例如, 北京理工大学王茜倩等利用激光诱导击穿光谱结合反向传播(back propagation, BP)神经网络初步实现了对七种塑料样品分类。 合肥工业大学的陈兴龙等[5]利用自组织特征映射(self-organizing feature map, SOM)神经网络初步实现了对五种岩石岩性的分类识别。

SOM神经网络通过无监督学习方式自动寻找样本中的内在规律和本质属性, 能主动发现多维数据集里的聚类结构和关系, 实现输入与输出之间的高度非线性映射。 但SOM神经网络的“ 聚类” 功能容易将相似却不同类的输入样本聚为一类, 导致错分。 为解决这一问题, 本文提出了一种将自组织神经网络与相关判别结合的改进神经网络方法, 并应用于16种天然地质样品的分类识别, 验证了本文算法的有效性。

1 实验部分
1.1 仪器

实验装置如图1所示, 激光光源为Nd∶ YAG脉冲激光器(Quantel, Brilliant B), 基频1 064 nm输出, 脉冲重复频率10 Hz。 脉冲激光束经全反镜反射后, 通过焦距为100 mm的透镜聚焦于地质样品表面。 激发产生的等离子体经焦距为38.1 mm的双透镜f2和f3收集会聚后, 由光纤耦合到中阶梯光栅光谱仪(Andor, Mechelle5000)进行分光, 由ICCD(Andor, iStar DH734i-18F-03)采集光谱数据。 为了得到较好的LIBS信号, 设置光谱延迟采集时间为200 ns, 积分时间15 μ s。

图1 LIBS实验装置示意图Fig.1 Diagram of LIBS experimental setup

1.2 光谱采集与预处理

样品为16种未经任何预处理的天然地质样品。 每种地质样品有5个样本, 每个样本在不同点位上采集20组LIBS光谱数据。 受样品表面不平整、 击穿时颗粒飞溅以及岩石样品成分本身不均匀性等因素的影响, 获得的光谱信号很不稳定。 为获得更稳定的LIBS数据, 将每个样本采集的20个LIBS数据按照每4个一组进行平均, 最终每种地质样品共获得25组LIBS数据。 每种样品各随机抽取3个样本, 将其平均后得到的15组LIBS数据作为网络训练样本, 剩余2个样本的10组LIBS数据作为网络测试样本。

每条光谱有28 243个数据点, 直接将其输入SOM网络中处理可能会引起网络无法收敛、 部分信息丢失等问题。 因此, 在网络训练前, 先将高维LIBS数据转换为无量纲化指标测评值, 利用最大— 最小值标准化方法, 将原始LIBS数据归一化。 并对归一化后的全谱数据进行小波去噪等预处理操作, 以减少噪声对数据的干扰[6, 7]。 图2为LIBS全谱数据预处理的流程图。

图2 LIBS数据预处理流程图Fig.2 Flow chart of data preprocessing

天然地质样品包含的元素种类丰富, 为避免全谱数据在网络训练过程中信息丢失, 需要对预处理后的全谱数据特征提取。 对16种天然地质样品在谱线归属上进行了特征提取(见表1), 每条光谱由28 243维的原始谱线降至1 614维的特征谱线[8, 9]。 每种地质样品的特征谱线数据保留了原始谱线的主要特征信息, 实现了降维的目的, 在保证样品分类准确率的前提下提高了网络训练效率。 也尝试采用了主成分分析方法(principal component analysis, PCA)实现降维, 设置累计贡献率为95%, 确定降维至11个主因子的数据。 虽然PCA降维后数据在网络训练阶段比特征谱段提取数据更易处理, 但分类准确率相对较差, 下文中有两种降维方法的比较分析[10, 11, 12]

表1 部分元素对应的波长范围 Table 1 The wavelength range of some elements (nm)
2 分类识别算法
2.1 SOM网络建立与训练

首先选定由输入层和竞争层构成的两层神经网络模型, SOM网络的输入层各节点通过权向量将外界信息汇集到输出层的各节点, 节点之间通过权重连接。 输入层的节点数与输入样本维数相同, 竞争层即输出层。 节点的排列方式有多种, 通常采用二维平面阵。 其次根据输入网络中的样本数据特点和类别数设计输入与输出层的节点数, 确定网络的拓扑结构(如图3为二维平面线阵)。 例如将1 614维的特征谱数据作为SOM神经网络输入样本时, 则输入层节点数设置为1 614。 输出层节点数与训练集样本有多少模式类有关, 一般情况下, 输出节点数会适当多于输入样本的类别数, 以便较好的映射样本的拓扑结构。 经过多次实验比较, 输出节点数设置为36个, 效果较明显。 其他初始化参数依据经验设置。

图3 自组织特征映射Fig.3 Self-organizing feature map

16种天然地质样品经特征提取后的LIBS数据作为SOM网络模型的输入样本。 在多次训练迭代过程中, 权向量不断朝着每种地质样品的LIBS数据特征方向调整。 训练结束后, 得到保留了16种输入样本光谱数据主要特征的权向量Wi(i=1, 2, …, 16)。

2.2 相关判别

若将测试样本直接代入SOM网络模型中检验, 容易将测试集与训练集中相似却不同类的样本归为一类, 错分率较高。 为解决这一问题, 提取SOM网络训练中得到的权向量W作为输入模式类特征量, 将权向量与测试样本进行相关分析, 很大程度上提高了分类识别准确率。

将每类样品的特征谱线权向量组合得到16种天然地质样品的特征向量T, 特征向量T作为与测试集进行相关分析的判别标准。 将测试集中的每组LIBS数据分别与特征向量T中的每一列求相关系数r[相关系数的计算公式如(1)所示], 比较得到相关系数最高且接近于1的列数L(L=1, 2, …, 16)。 则该组LIBS测试样本归属于第L种矿物。 同理依次检验剩余的待测样本, 从而实现16种天然地质样品的快速识别与分类。 图4为SOM网络结合相关判别的算法流程图。 表达式如下:

T=[W1,  W2,  W3,  ,  WL]r=i=11578(Mi-M̅)(Ti-T̅)i=11578(Mi-M̅)2i=11578(Ti-T̅)2 (1)

图4 SOM网络结合相关判别算法流程图Fig.4 Flow chart of improved algorithm

3 结果与讨论

为了验证本算法的有效性, 分别应用全谱数据、 PCA降维数据、 特征谱线数据对SOM网络、 支持向量机、 改进的SOM结合相关判别三种算法进行了对比实验, 着重研究三种算法的分类准确率情况。

3.1 全谱数据

将样品的LIBS全谱数据(每条光谱包含28 243个数据)分别应用于SOM网络、 支持向量机、 改进的SOM结合相关判别三种算法。 如前文所述, 共有240组LIBS数据(15组× 16种)作为训练集, 160组LIBS数据(10组× 16种)作为测试集。 三种方法的分类准确率结果见表2所示。

表2 基于全谱数据的三种算法的分类准确率(%) Table 2 Classification accuracy of three algorithms based on full spectrum data(%)

结果表明基于LIBS全谱数据, SOM网络、 SVM、 SOM结合相关判别三种算法对16种地质样品的总体分类准确率分别为60.625%, 83.75%, 83.75%。 SVM与本文提出的SOM结合相关判别算法的分类识别效果接近, 正确率较高, 而直接应用SOM网络方法效果较差。

但可能由于全谱数据的波长范围太大, 信息量过多, 导致网络训练过程中部分特征信息丢失。 某些元素含量相近或全谱曲线特性相似的样品之间特征信息不明显, 导致本算法在几种样品间存在误判, 错误识别数为26/160。 表3为错分结果统计。

表3 SOM网络结合相关判别算法的错分结果统计表 Table 3 Error statistics results based on the SOM and related algorithm
3.2 PCA降维数据

PCA是一种描述几种变量之间关系的多元分析技术, 它采用特征分解方法获得最大方差的主成分来代替原有变量, 实现数据降维。 本工作设定主成分累计贡献率为95%, 得到11个主成分的降维数据。 需要注意的是, 对测试样本进行PCA降维时, 一定要减去训练样本的均值, 并且使用训练样本得到的转换矩阵, 以保证训练样本和测试样本转换到相同的样本空间中。 主成分分析算法中的训练集与测试集的分组方法同全谱数据一致。 表4为PCA降维后的数据应用三种算法的分类准确率。

表4 基于PCA降维数据的三种算法的分类准确率(%) Table 4 Classification accuracy of three algorithms based on PCA dimension reduction data (%)

结果表明, 基于PCA降维数据, 直接应用SOM神经网络算法的总体分类准确率为61.875%, 本算法的总体分类准确率为73.75%, 而SVM算法的总体分类准确率则高达95%。 这充分证明了SVM算法结合主成分降维这一常用方法在分类识别应用中的优势。 而本方法对样品的误判较多(表5为本文提出的算法基于PCA降维数据分类识别的错分统计表, 误判率为42/160)。 分析原因可能是主成分分析方法中获取的主成分物理意义不明确, 且主成分数据量较少, 在应用权向量进行相关判别时不一定存在着明确、 充分的对应关系, 影响分类准确率。

表5 SOM网络结合相关判别算法的错分结果统计表 Table 5 Error statistics results based on the SOM Network and Related algorithm
3.3 特征谱数据

按照表1选取样品LIBS数据中多种元素的原子或者离子谱段作为特征谱数据。 16种天然地质样品的全谱数据经提取后得到特征谱线, 既达到了降维目的也保留了每类地质样品的主要特征。 将提取的1614维特征谱线作为SOM网络的输入, 较全谱数据提高了算法处理速度。 训练集与测试集的样本个数以及分组方法同全谱数据保持一致。 将特征谱线数据分别应用于SOM神经网络、 支持向量机SVM、 改进的SOM网络结合相关判别三种算法, 分类准确率见表6

表6 基于特征谱线数据的三种算法的分类准确率(%) Table 6 Classification accuracy of three algorithms based on characteristic spectral data(%)

分类结果表明, 特征谱线数据直接应用SOM网络算法的总体分类准确率为75%; 应用支持向量机算法的总体分类准确率为95.625%; 而基于本算法的总体分类准确率为96.25%, 错误识别数6/160, 误判结果统计如表7。 误判原因可能是在按照元素特征提取的谱线数据中, 某些地质样品在元素含量上的差异逐渐缩小, 相似性逐渐增强; 在神经网络模型中, 初始化权值可能没有与输入样本的大致分布区域充分重合, 影响了聚类结果。

表7 SOM网络结合相关判别算法的错分结果统计表 Table 7 Misclassification results based on the SOM network and related algorithm

通过与SOM神经网络和支持向量机两种算法在全谱数据、 PCA降维数据、 特征谱数据条件下的分类结果比较分析, 初步肯定了本算法对16种天然地质样品的特征谱段提取的有效性, 在保留原始数据特征的前提下实现了降维, 提高了网络训练效率, 达到了预定效果。

4 结 论

不同于直接利用SOM神经网络实现样本间的分类识别, 本方法是在特征谱数据基础上, 将SOM网络训练后的权向量作为检验待测样本的标准, 通过相关判别实现分类。 该方法有效的改进了SOM神经网络算法在相似样品间易错分等不足。 将改进后的算法应用到16种天然地质样品的LIBS数据分类识别, 获得了较好的识别效果, 分类准确率达96.25%。 为天然地质资源分类提供了一种新的思路。

目前应用的SOM神经网络结合相关判别预测模型还有一定的误判率, 如何进一步消除误判、 提高分类准确度, 将是进一步研究的重点。 下一步工作将集中在根据应用需求丰富地质样品数据库, 优化特征谱段的范围; 改进数据预处理方法, 增强光谱数据的稳定性; 优化神经网络参数, 训练获得更好的神经网络预测模型等方面。

The authors have declared that no competing interests exist.

参考文献
[1] GAO Jie, SHENG Cheng, ZHUO Shang-jun(高捷, 盛成, 卓尚军). Metallurgical Analysis(冶金分析), 2015, 35(2): 74. [本文引用:1]
[2] GONG Rui-kun, WANG Xiao-lei, ZHANG Li-wei(龚瑞昆, 王晓磊, 张励维). Journal of North China University of Science and Techology(华北理工大学学报), 2016, 38(4): 91. [本文引用:1]
[3] ZHU Yi-ning, LI Jia-ming, GUO Lian-bo, et al(朱毅宁, 李嘉铭, 郭连波, ). Chinese Journal of Analytical Chemistry(分析化学研究报告), 2017, 45(3): 336. [本文引用:1]
[4] YU Yang, HAO Zhong-qi, ZENG Qing-dong, et al(于洋, 郝中骐, 曾庆栋, ). Acta Physica Sinica(物理学报), 2013, 62(21): 215201-3. [本文引用:1]
[5] CHEN Xing-long, DONG Feng-zhong, TAO Guo-qiang, et al. (陈兴龙, 董凤忠, 陶国强, ). Chinese Journal of Lasers(中国激光), 2013, 40(12): 1215001-3. [本文引用:1]
[6] PENG Guang-min, CHEN Ting(彭广民, 陈婷). Geomatics and Spatial Information Technology(测绘与空间地理信息), 2016, 39(7): 25. [本文引用:1]
[7] YANG Chong-rui, WANG Jia-sheng, SHENG Xin-zhi, et al(杨崇瑞, 汪家升, 盛新志, ). Infrared and Laser Engineering(红外与激光工程), 2014, 43(11): 3809. [本文引用:1]
[8] ZHU Yuan-shuo, LI Ying, LU Yuan, et al(朱元硕, 李颖, 卢渊, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(9): 2892. [本文引用:1]
[9] DONG Chen-zhong, YANG Feng, SU Mao-yin(董晨钟, 杨峰, 苏茂银). Journal of Northwest Normal University·Natural Science(西北师范大学学报·自然科学版), 2015, 51(1): 45. [本文引用:1]
[10] CHEN Tie-ming, MA Ji-xia, CAI Jia-mei, et al(陈铁明, 马继霞, 蔡家楣, ). Journal of Computer Research and Development(计算机研究与发展), 2012, 49(4): 735. [本文引用:1]
[11] LIU Xiao-na, ZHANG Qiao, SHI Xin-yuan, et al(刘晓娜, 张乔, 史新元, ). Chinese Journal of Traditional Chinese Medicine(中华中医药杂志), 2015, 30(5): 1612. [本文引用:1]
[12] KE Zhi-quan, WANG Yang-en, WANG Shao-long, et al(柯梽全, 王阳恩, 王绍龙, ). SCIENTIA SINICA Physica, Mechanica & Astronomica(中国科学: 物理力学天文学), 2015, 45(8): 084204. [本文引用:1]