激光诱导击穿光谱和人工神经网络的青白色软玉产地溯源
鲍珮瑾1, 陈全莉1,3,*, 赵安迪1, 任跃男2
1. 中国地质大学(武汉)珠宝学院, 湖北 武汉 430074
2. 国检珠宝培训中心, 北京 102627
3. 滇西应用技术大学珠宝学院, 云南 大理 671000
*通讯作者 e-mail: chenquanli_0302@163.com

作者简介: 鲍珮瑾,女, 1997年生,中国地质大学(武汉)珠宝学院硕士研究生 e-mail: 791674012@qq.com

摘要

建立基于激光诱导击穿光谱仪技术获取的半定量青白色软玉的微量元素含量的人工神经网络模型, 以促进人工神经网络技术在宝石产地溯源方面的应用。 以我国新疆、 广西、 江苏、 青海, 以及韩国和俄罗斯六个产地的青白色软玉为样品, 利用激光诱导击穿光谱仪在颜色均匀干净的部分获取元素含量数据。 使用数据筛选原则对数据进行了筛选和Al的归一化处理之后, 以因子分析和线性回归分析讨论了数据间的共线性, 在数据间不存在明显多重共线性的情况下建立了三层人工神经网络的判别模型。 结果表明, 所选取的每个变量的VIF值小于5, 数据间不存在明显的多重共线性, 因子分析的KMO值小于0.6, 表明变量间无明显关系。 同时利用软玉t-SNE图对数据进行降维和可视化处理, t-SNE图显示大部分数据点都重叠在一起, 表明对此数据进行简单聚类和相关分析是无法区分产地的, 因此选择人工神经网络的方法对六个产地的数据进行产地判别分析。 经人工神经网络模型迭代判别之后, 模型对我国新疆、 广西、 江苏、 青海, 以及韩国和俄罗斯六个产地的青白色软玉判别的精度达到0.933, 其中韩国软玉的数据判别结果精度最高, 达到0.995, 误差为0.028, 青海软玉的数据判别结果最低为0.803, 误差为0.090。 综上所述, 激光诱导击穿光谱结合人工神经网络的方法在宝石产地溯源方面的应用是具有很大潜力的。

关键词: 激光诱导击穿光谱仪; 人工神经网络; 软玉; 产地溯源
中图分类号:O212 文献标识码:A
Identification of the Origin of Bluish White Nephrite Based on Laser-Induced Breakdown Spectroscopy and Artificial Neural Network Model
BAO Pei-jin1, CHEN Quan-li1,3,*, ZHAO An-di1, REN Yue-nan2
1. Gemmological Institute, China University of Geosciences (Wuhan), Wuhan 430074, China
2. National Gemological Training Center, Beijing 102627, China
3. Gemmological Institute, West Yunnan University of Applied Sciences, Dali 671000, China
*Corresponding author
Abstract

To promote the application of artificial neural network technology in identifying the origin of gems, an artificial neural network model of semi-quantitative trace element content of bluish white nephrites obtained by laser-induced breakdown spectrometer was established. The element content data were obtained by laser-induced breakdown spectrometer in the uniform and clean parts of nephrites from six regions: Xinjiang, Guangxi, Jiangsu, Qinghai, Korea and Russia. After screening using data filtering principles and normalizing the data, the collinearity between data is discussed by factor analysis and linear regression, and the discriminant model of the artificial neural network is established. The results show that the VIF value of each selected variable is less than 5, so there is no obvious multicollinearity among the selected elements. The KMO value of factor analysis is less than 0.6, indicating that there is no obvious relationship between variables. Moreover, thet-SNE graph of nephrite is used to reduce and visualize the data. T-SEN graph shows that most of the data points are overlapped together, indicating that the data's simple clustering and correlation analysis could not distinguish the origin. Therefore, the artificial neural network is selected for the identification analysis of the six origin data. After the iterative discrimination of the artificial neural network model, the accuracy of the model for the identification of the blue and white nephrite from six producing areas is up to 0.933, and the nephrite from Korea has the highest data discrimination accuracy of 0.995 with an error of 0.028,while nephrite from Qinghai has the lowest data discrimination accuracy of 0.803 with an error of 0.090. In conclusion, a laser-induced breakdown spectrometer combined with the artificial neural network has great potential in applying gem origin tracing.

Key words: Laser-induced breakdown spectroscopy; Artificial neural network model; Nephrite; Identification of the origin
引言

近年来宝石产地溯源的研究越来越重要, 由于价格和市场需求的影响, 越来越多的方法被运用在宝石的产地溯源上。 软玉中目前价值相对较高的是产自于新疆昆仑山和阿尔金山地区的软玉, 该产地所产的软玉结构细腻、 质地温润、 质量较高, 而由于产地效应而在价格上略占优势的哥伦比亚祖母绿、 缅甸红宝石、 克什米尔蓝宝石等都是主要的受益者。 所以软玉也具有产地效应, 在此情况下, 对软玉进行产地溯源就显得尤为重要。

目前宝石的产地溯源所使用的方法大致可分为以下几种: (1)从内外部特征上区分。 例如缅甸红宝石的“ 鸽血红” 、 “ 糖浆状” 颜色特点, 克什米尔蓝宝石的“ 矢车菊” 浓重蓝色、 哥伦比亚祖母绿的三相包体等[1]; (2)从特殊光学效应上区分, 这个适用于那些具有特殊光学效应的宝石, 如变石。 不同产地变石的变色效应有差别, 如斯里兰卡变石在日光下偏黄绿色, 在烛光下显棕或橙色调, 而巴西变石在日光下偏蓝绿色, 在烛光下为偏紫的红色[2]; (3)从化学元素上区分, 不同产地的宝石因其形成原因不同, 所含有的化学元素种类和含量也有一定差别。 一般来说, 由于是同种宝石, 所以主要化学元素上差别不大, 若要进行产地区分, 从元素和同位素上入手可有较好效果[3, 4]

随着计算机和多元统计方法的发展, 数理模型越来越多地被应用在更广泛的学科上。 传统的利用元素含量进行宝石产地溯源的方法是二维或三维投点图[3, 4, 5], 但所用的微量元素往往倾向于高维, 若进行降维, 可能会损失很多必要的分类信息。 人工神经网络又称为深度学习, 它能够使计算机通过层次概念来学习经验和理解世界。 属于机器学习的一种[6]

本研究旨在利用激光诱导击穿光谱仪结合人工神经网络技术, 通过自主学习的模型达到利用数据中尽可能多的信息来对青白色软玉进行产地鉴别, 也是光谱技术结合人工神经网络在宝石溯源方面的一次尝试。

1 实验部分
1.1 样品

选取以下六个产地— — 新疆、 广西大化、 江苏小梅岭、 青海、 韩国和俄罗斯的样品。 其中新疆样品18块、 广西大化7块、 青海20块、 韩国9块、 俄罗斯15块、 江苏小梅岭1块, 每个样品的表面为轻微抛光的平面, 之后选择相对均匀干净的区域测试五个点, 因江苏小梅山的样品太少, 为使得不同产地间数据样本大致相同, 在其上测试五十个点。 综上, 新疆样品采集的光谱数据共90个, 广西大化样品共35个, 江苏小梅岭样品共50个, 青海样品共100个, 韩国样品共45个, 俄罗斯样品共采集75个光谱数据。

图1 软玉样品
(a): 大化; (b): 俄罗斯; (c): 韩国; (d): 青海; (e): 小梅岭; (f): 新疆
Fig.1 Nephrite samples
(a): Da Hua; (b): Russia; (c): South Korea; (d): Qing Hai; (e): Xiao Meiling; (f): Xin Jiang

1.2 仪器

所选用的仪器为中国地质大学(武汉)珠宝学院自制的激光诱导击穿光谱仪, 主要由样品台、 激光器、 光谱仪和计算机四部分组成, 分为激光光源、 等离子体信号采集系统、 分光系统和光电探测系统。 波长为1 064 nm的Nd:YAG脉冲激光器, 脉冲宽度为20 ns, 激光重复频率1~20 Hz; 4CCD光纤光谱仪(AvaSpec-2048FT-4-DT), 内置延迟系统, 光谱分辨率为0.1 nm。 仪器参数如表1所示。 激光累积次数为20次、 激光能量为70 mJ、 采集延时为1.1 μ s。

表1 LIBS仪器参数表 Table 1 LIBS instrument parameter
1.3 数据处理

为消除基底效应、 激发光能量、 收集效率等测量误差和参数对实验数据的影响, 一般需要对光谱进行归一化预处理。 强度归一化与面积归一化都可以增强值的稳定性, 在此选用较为便捷的强度归一化的处理方式。 软玉为硅酸盐矿物, 其中Si元素在样品中稳定出现且含量都为56%左右, 可以此进行峰值归一化, 选择强度最大的Si的波长作为归一化的数据。

图2 软玉LIBS光谱图Fig.2 LIBS spectrum of nephrite

2 结果与讨论
2.1 数据选择与共线性(相关性分析)

软玉样品属于硅酸盐矿物, 主要成分是透闪石-阳起石类质同象系列矿物。 其中镁、 铁可呈完全类质同象替代。 在激光诱导击穿光谱实验中, 由于光谱仪的分辨率限制, 有些相邻谱线靠的太近无法分辨, 测得的谱线很可能是很多谱线叠加在一起。 根据王亚军的选线原则, 不同元素的选择谱线分立、 信噪比高、 发射强度大、 谱线轮廓清晰对称的谱线; 同种元素的则选择强度大的谱线。

表2 不同产地的软玉LIBS数据 Table 2 LIBS data of nephrite samples from different origins

不同产地的样品中不同元素的含量不同, 有些元素几乎在每一个产地的每一个样品上都能都检测到, 但有些元素只有在少数几个样品上能够检测到, 这对于数据分析非常不利。 因此为了后期的数据分析, 选择相对稳定的元素, 即相同产地的每个样品上几乎都有的元素, 剔除掉那些不确定因素, 以排除干扰。 本工作的样品中出现的元素种类有稀土元素、 过渡元素、 造岩元素以及铁族元素等, 根据各类元素特点以及样品所能检测到的最终数据对元素进行筛选。

在剔除掉过于少量的元素、 不稳定元素及非金属元素之后, 留下所需要的金属元素种类, 通过筛选最终选择CeⅡ 413.80 nm, ErⅠ 400.80 nm, HfⅡ 273.92 nm, MnⅡ 259.31 nm, NaⅠ 589.08 nm, TiⅡ 334.98 nm作为最终使用的数据样本, 部分数据如表2所示。

建立人工神经网络模型需要及其庞大的数据, 数据量越大, 得出的效果就越好[6]。 为了能对现有的少量数据进行随机排列组合以增加数据量, 利用因子分析和线性回归分析判断不同元素之间是否存在相关性。

利用因子分析可得如下KMO和巴特利特检验表。 其中KMO值为0.514, 小于0.6, 表明变量间的相关性较低, 因此可看做相互独立的变量[7, 8, 9]

表3 KMO和巴特利特检验 Table 3 KMO and Bartlett's test

以产地为因变量, 利用线性回归分析可得表4, 每个变量的VIF值都小于5, 表明这些变量之间不存在严格的多重共线性, 与因子分析结论相符合, 因此变量之间的信息几乎不重叠[7, 8, 9]

表4 线性回归分析结果 Table 4 Results of linear regression analysis
2.2 人工神经网络的构建与结果

在进行深度学习的数据分析前, 一般会进行可视化, 用以对数据进行直观了解。 当我们想要对高维数据进行分类但是又不确定数据是否可分时, 先对数据进行降维, 把数据投到二维或三维空间中观察, 若在低维空间中是可分的, 则数据可分。 目前来说t-SNE是效果最好的数据降维和可视化方法, 因为所用的数据有六个产地并且每个产地都有六个元素特征因此属于高维数据, 仅用肉眼并不能观察出数据是否可分, 因此用t-SNE对所用数据进行降维和可视化处理, 得到图3。

图3 软玉t-SNE图Fig.3 t-SNE of nephrite

图3显示, 经过降维和可视化处理后的数据全都堆叠在一起, 表明此数据进行简单聚类和相关分析是无法区分产地的。

鉴于以上结论, 需要对数据进行深度学习训练。 由于这些数据均可做为相互独立的数据, 所以可把每个产地的数据进行排列组合, 得到大化产地软玉有166个数据组、 新疆产地软玉有406个数据组、 江苏小梅岭产地软玉有126个数据组、 青海产地软玉有276个数据组、 俄罗斯产地软玉有186个数据组, 韩国有96个数据组。

为简化训练过程, 每个产地仅产生十万个数据点, 然后随机选取五分之四的数据作为训练集, 剩下五分之一作为测试集。

把训练集的数据组输入Keras模型中让其进行自主学习和结果收敛, 如图4所示构建了一个三层的神经网络模型(输入层一般不算一层神经网络, 图中中间层就是隐含层, 为两个隐含层的神经网络)。

图4 三层神经网络结构图Fig.4 Structure diagram of three-layer neural network

神经网络具体的参数为; 第一层有128个神经元, 选取“ relu” 激活方式, dropout的比率为0.5, 第二层也有128个神经元, 同样选取“ relu” 激活方式, dropout的比率为0.5, 第三层有6个神经元(因为是6个产地), 采用“ softmax” 激活方式。

从六十万个数据中随机抽取五分之四作为训练集供神经网络学习, 在经过不停的迭代学习后, 可以得到一个成型的神经网络模型。 然后输入测试集中的数据对模型进行测试, 所得到的结果为模型的正确率是93.84%, 错误率仅为0.198。 此时的各个参数所对应的模型为我们所需要的模型。

抽取预测集中六个产地的数据进行测试, 如表5所示, 发现韩国的软玉正确率最高, 高达99%, 而青海的最低只为80%。 对此结果进行分析, 初步推断对于测试的6个微量元素来说, 青海的软玉所含的微量元素含量与其他产地相比差别最小, 而韩国与其他产地差别较大, 因此分辨正确率较高。

表5 神经网络结论表 Table 5 Table of neural network conclusions
3 结论

宝石的产地溯源是近些年来宝石行业及市场和消费者最为关心的问题, 传统的鉴别方法不仅需要鉴定者多年的积累、 无法普及而且耗时长、 准确性低。 由于不同产地的同种宝石因为地质矿床的不同而具有不同的微量元素成分和含量, 近些年有些学者利用不同元素的含量进行二维或者三维投点图的绘制, 以期划分出不同产地元素含量范围。 然而微量元素属于高维数据, 降维势必会造成数据信息的损失, 人工神经网络能够充分利用高维数据中的信息, 建立自主学习的网络模型, 对未知产地的数据进行产地的判别。 本研究显示, 利用人工神经网络结合激光诱导击穿光谱仪测试得到的元素数据进行青白色软玉的产地溯源, 正确率可以达到93.84%, 错误率仅为0.198, 表明此方法在宝石产地溯源方面具有很大的潜力。

参考文献
[1] ZHANG Bei-li, WANG Man-jun, LI Jing-zhi, et al(张蓓莉, 王曼君, 李景芝, 等). Systematic Gemology(系统宝石学). Beijing: Publishing House of Geological(北京: 地质出版社), 2006. [本文引用:1]
[2] Sun Z, Palke A, Muyal J, et al. Gems & Gemology, 2019, (4): 660. [本文引用:1]
[3] Lee A G, Gaston G, Jennifer S, et al. Gems & Gemology, 2019, (4): 512. [本文引用:2]
[4] Aaron C P, Sudarat S, Nathan D R, et al. Gems and Gemology, 2019, (4): 536. [本文引用:2]
[5] Saeaeaw S, Renfro N D, Palke A C, et al. Gems & Gemology, 2019, 55(4): 614. [本文引用:1]
[6] Goodfellow I, Bengio Y, Courville A. Deep Learning(深度学习). Translated by ZHAO Shen-jian, LI Huo-jun, FU Tian-fan, et al(赵申剑, 黎或君, 符天凡, 等译). Beijing: Publishing House of People's Posts and Telecommunications(北京: 人民邮电出版社), 2017. [本文引用:2]
[7] LI Hong-cheng, JIANG Hong-hua(李洪成, 姜宏华). Tutorial Analysis of SPSS Data(SPSS数据分析教程). Beijing: Publishing House of People's Posts and Telecommunications(人民邮电出版社), 2012. [本文引用:2]
[8] XIANG Dong-jin, LI Hong-wei, LIU Xiao-ya, et al(向东进, 李宏伟, 刘小雅, 等). Practical Multivariate Statistical Analysis(实用多元统计分析). Wuhan: Publishing House of China University of Geosciences(武汉: 中国地质大学出版社), 2005. [本文引用:2]
[9] XIA Yi-fan(夏怡凡). SPSS Statistical Analysis Essentials and Examples(SPSS统计分析精要与实例详解). Beijing: Publishing House of Electronics Industry(北京: 电子工业出版社), 2010. [本文引用:2]