变量重要性-反向传播人工神经网络辅助激光诱导击穿光谱测定铁矿石中硅、 铝、 钙和镁含量
刘曙1, 金悦1,2, 苏飘1,2, 闵红1, 安雅睿2, 吴晓红1,*
1.上海海关工业品与原材料检测技术中心, 上海 200135
2.上海理工大学材料与化学学院, 上海 200093
*通讯作者 e-mail: wuxiaohong_2196@163.com

作者简介: 刘曙, 1982年生, 上海海关工业品与原材料检测技术中心研究员 e-mail: liu_shu@customs.gov.cn

摘要

快速准确测定铁矿石中的硅、 铝、 钙、 镁含量对铁矿石质量评价具有重要作用。 受制于多变量分析方法过拟合现象以及不同种类样品基体效应, 使用激光诱导击穿光谱(LIBS)准确测定铁矿石中硅、 铝、 钙、 镁含量仍然是当前存在的挑战。 采用变量重要性-反向传播人工神经网络(VI-BP-ANN)辅助LIBS定量分析铁矿石中硅(以SiO2计)、 铝(以Al2O3计)、 钙(以CaO计)和镁(以MgO计)的含量。 在这项研究中, 收集了12种244批铁矿石代表性样品的LIBS光谱, 优化了光谱预处理方法, 使用随机森林(RF)对LIBS光谱特征的重要性进行了测量, 使用袋外(OOB)误差优化RF模型参数, 变量重要性阈值用于优化BP-ANN校准模型的输入变量。 变量重要性阈值和神经元数量通过五折交叉验证(5-CV)的测定系数( R2)和均方根误差(RMSE)进行优化。 结果显示测试样本SiO2、 Al2O3、 CaO和MgO含量预测均方根误差(RMSEP)分别为0.377 2 wt%、 0.133 9 wt%、 0.059 2 wt%和0.141 1 wt%, R2分别为0.970 1、 0.955 4、 0.987 1、 0.997 5。 相比于使用相同的预处理方法作为PLS、 SVM、 RF和BP-ANN四种模型的输入, VI-BP-ANN在校准集和预测集都显示出出色的预测能力。 结果表明LIBS与VI-BP-ANN的结合有潜力在实际应用中实现铁矿石硅、 铝、 钙、 镁含量的快速准确预测。

关键词: 铁矿石; 反向传播人工神经网络; 变量重要性; 定量分析; 激光诱导击穿光谱
中图分类号:O657.319 文献标志码:J
Determination of Calcium, Magnesium, Aluminium and Silicon Content in Iron Ore Using Laser-Induced Breakdown Spectroscopy Assisted by Variable Importance-Back Propagation Artificial Neural Networks
LIU Shu1, JIN Yue1,2, SU Piao1,2, MIN Hong1, AN Ya-rui2, WU Xiao-hong1,*
1. Technical Center for Industrial Product and Raw Material Inspection and Testing of Shanghai Customs District, Shanghai 200135, China
2. College of Materials & Chemistry, University of Shanghai for Science and Technology, Shanghai 200093, China
*Corresponding author
Abstract

The rapid and accurate determination of calcium, magnesium, aluminium and silicon content in iron ore plays an important role in iron ore quality assessment. The accurate determination of calcium (CaO), magnesium (MgO), aluminium (Al2O3) and silicon (SiO2) in iron ore using laser-induced breakdown spectroscopy (LIBS) remains a challenge due to the overfitting of multivariate analysis methods and matrix effects between different types of samples. In this paper, variable importance-back propagation artificial neural network (VI-BP-ANN) assisted LIBS was used for the first time to quantify the content of SiO2, Al2O3, CaO and MgO in iron ore. In this study, LIBS spectra of 12 representative samples of 244 batches of iron ore were collected, spectral pre-processing methods were optimised, the importance of LIBS spectral features was measured using random forest (RF), RF model parameters were optimised using out-of-bag (OOB) errors, and variable importance thresholds were used to optimise the input variables for the BP-ANN calibration model. The variable importance thresholds and the number of neurons were optimised by five-fold cross-validation (5-CV) of the coefficient of determination ( R2) and root mean square error (RMSE). The results showed root mean square error of prediction (RMSEP) for the SiO2, Al2O3, CaO, MgO content of the test samples were 0.372 3 wt%, 0.129 8 wt%, 0.052 4 wt% and 0.149 0 wt% respectively, with R2 of 0.977 1, 0.950 4, 0.987 8 and 0.997 7, respectively. Compared to using the same preprocessing method as input to the three PLS, SVM and RF models, the VI-BP- ANN model showed excellent performance in both the calibration dataset and prediction dataset. The results indicate that the combination of LIBS and VI-BP-ANN has the potential to achieve fast and accurate prediction of calcium, magnesium, aluminium and silicon content of iron ore in practical application.

Keyword: Iron ore; Back propagation artificial neural network; Variable importance; Quantitative analysis; Laser-induced breakdown spectroscopy
引言

硅、 铝、 钙和镁含量是铁矿石质量评价的重要指标, 影响铁矿石的贸易价格及高炉炼铁工艺[1]。 铁矿石中硅(以SiO2计)、 铝(以Al2O3计)、 钙(以CaO计)和镁(以MgO计)含量的测定方法包括滴定法[2, 3]、 分光光度法[4]、 原子吸收光谱法[5, 6, 7]、 电感耦合等离子体原子发射光谱法[8]和X射线荧光光谱法[9]等, 预处理方法复杂, 测试周期长。 激光诱导击穿光谱(LIBS)是一种以高能激光脉冲轰击物质表面, 获取待测物质元素成分和含量的原子发射光谱技术[10], 具有原位、 快速、 无需复杂的样品制备等优点, 在铁矿石成分分析领域受到广泛关注[11]。 然而, 受制于不同种类铁矿石的基体效应、 激光能量波动以及等离子体时空演化的不确定性, 激光诱导击穿光谱定量分析铁矿石中元素含量面临测量不确定度高、 误差大的严峻挑战[12]

1991年Grant等[13]使用铁元素作内标, 通过每一种元素与铁元素的强度比建立校准曲线, 建立了LIBS分析铁矿石中TFe(总铁)、 CaO、 MgO、 SiO2、 Al2O3和TiO2含量的方法。 受到光谱干扰、 自吸收和基体效应的影响, 基于单个谱线强度建立的校准曲线有时无法真实反映元素含量, 导致分析准确度低。 多变量回归分析与LIBS相结合是克服铁矿石LIBS定量分析中基体效应的一种有效途径, 2008年Death等[14]利用主成分回归(PCR)与LIBS相结合测定铁矿石中TFe、 Al2O3、 SiO2、 MnO、 K2O, 预测均方根误差(RMSEP)分别为0.65 wt%、 0.53 wt%、 0.37 wt%、 0.017 wt%。 偏最小二乘(PLS)是在PCR基础上发展起来的, 通常被认为能提供比PCR更高的预测准确度。 2015年Hao等[15]使用PLS与LIBS相结合建立铁矿石中CaO、 MgO、 Al2O3和SiO2的定量分析模型, RMSEP分别0.036 2 wt%、 0.025 8 wt%、 0.191 4 wt%和0.281 0 wt%。 2018年Guo等[16]采用混合稀疏偏最小二乘(SPLS)建立光谱数据和浓度的多变量线性回归模型, 再通过最小二乘支持向量机(LS-SVM)对SPLS回归模型的残差进行拟合, 建立铁矿石中CaO、 MgO、 Al2O3和SiO2的定量分析模型, RMSEP值分别为0.356 9 wt%、 0.045 6 wt%、 0.096 2 wt%和0.215 7 wt%, 与传统的SPLS或LS-SVM模型相比, 混合模型SPLS-LS-SVM获得了更好的性能。 铁矿石LIBS光谱包含光谱噪声和冗余信息, 以上研究工作都是将全光谱作为输入变量, 且研究的铁矿石样本数量相对较少, 相对于数据饥渴型的机器学习算法而言, 容易导致模型过拟合, 制约模型的实际应用。

反向传播人工神经网络(BP-ANN)作为一种新兴的多变量分析方法, 在高维数据上发挥着重要的优势, 既可以处理线性问题, 又可以处理非线性问题, 已在诸多领域显示出了巨大的潜力[17, 18, 19]。 将铁矿石LIBS全光谱数据作为BP-ANN模型的输入, 容易引发维度灾难, 导致模型过拟合, 分析准确度偏低。 已有研究提出了主成分分析(PCA)[20]、 SelectBest[19]等降维或特征选择方法与BP-ANN结合用于待测物质的LIBS分析, 说明通过提取LIBS光谱中的有效信息, 减小BP-ANN模型的输入变量, 能有效提升模型的准确度。 变量重要性方法通过数据置换的方式来测量每个输入变量对模型整体预测性能的影响。 该方法不仅可以测量每个变量的重要性得分, 而且可以衡量变量与变量之间的相互关系。 通过计算输入光谱特征的变量重要性, 选取一小部分覆盖原始光谱信息的特征变量作为模型输入, 可以有效降低冗余变量对模型的干扰[21, 22]。 Liu等[21]使用变量重要性与随机森林回归(VI-RFR)相结合定量分析聚丙烯中的有毒元素Pb、 Cr、 Hg, 结果显示相比于随机森林回归(RFR)和偏最小二乘回归(PLSR), VI-RFR获得了最低的均方根误差(RMSE)和测定系数(R2)。 同年, 该课题组在识别和鉴定不同种类的塑料的研究中, 将变量重要性与偏最小二乘判别(PLS-DA)相结合构建分类校准模型, 相比于RF和VI-RF模型, VI-PLS-DA有着最高的分类准确率(99.55%)和最短的分类时间(0.096 ms)[23]。 变量重要性与BP-ANN相结合应用于铁矿石中CaO、 MgO、 Al2O3和SiO2含量分析尚未报道。

本工作在铁矿石卸货过程中采集并制备了来自4个国家的12个种类244批铁矿石代表性样品, 采用商用LIBS仪采集了相关样品的LIBS光谱, 探索了LIBS结合VI-BP-ANN定量分析铁矿石中CaO、 MgO、 Al2O3和SiO2含量的可行性。 使用随机森林(RF)对LIBS光谱特征进行重要性测量, 通过袋外(OOB)误差优化RF模型参数, 变量重要性阈值可控制输入BP-ANN的变量数量。 采用五折交叉验证(5-CV)的R2、 RMSE优化了模型的预处理方法、 变量重要性阈值、 神经元个数。 为了验证VI-BP-ANN模型的预测能力, PLS、 支持向量机(SVM)和RF应用于比对研究。

1 实验部分
1.1 铁矿石样品采集与制备

收集了来自澳大利亚、 南非、 哈萨克斯坦和智利4个国家共计12个种类244个铁矿石代表性样品, 依据GB/T 10322.1—2014制备化学分析试样。 有关铁矿类别、 样本数量和主要元素含量范围如表1所示。 根据GB/T 6730.65—2009测定铁矿石全铁含量, 根据GB/T 6730.62—2005测定铁矿石CaO、 MgO、 Al2O3和SiO2含量, 其中TFe的范围为53.26~66.24 wt%, SiO2的范围为1.03~15.66 wt%, Al2O3范围为0.20~3.06 wt%, CaO的范围为0.016~1.768 wt%, MgO范围为0.034~9.900 wt%。 在LIBS测量前, 使用聚乙烯塑料环对铁矿石粉末样品进行聚拢, 并放置在压片机下在30 t的压力下维持30 s压制成饼状, 使用洗耳球对表面进行吹扫。

表1 铁矿石类别、 数量和主要元素含量范围(wt%) Table 1 Quantity and concentration range of main elements of brand iron ore(wt%)
1.2 LIBS仪器与光谱采集

实验采用商用的LIBS仪器(Chemreveal3764, TSI公司), 激光源为调Q的Nd:YAG激光器, 波长1 064 nm, 激光能量设置为30 mJ, 延迟时间1 μ s, 频率为5 Hz。 为了尽可能降低由于元素浓度分布不均匀和物理性质差异引起的基体效应影响, 实验中通过以5× 5矩阵的方式进行光谱采集, 每个位置进行5次连续激发并累计为一个光谱, 将样品表面6个不同的位置矩阵收集的6条LIBS光谱最终平均为一条光谱, 244个铁矿石样品共计获得244个LIBS光谱。

1.3 数据处理

1.3.1 VI-BP-ANN

将铁矿石LIBS光谱按照80%和20%的比例随机划分为训练集和测试集, 训练集用于训练模型, 采用5折交叉验证优化模型参数, 测试集用于测试模型的性能。 VI-BP-ANN方法流程图如图1所示, 包括以下步骤: (1)光谱预处理; (2)使用OOB误差优化RF模型的两个参数, 森林中树的数量(ntree)和回归树在节点分支时考虑的特征变量个数(mtry), 获得最佳的RF模型; (3)在最优RF模型的条件下, 使用RF对铁矿石的LIBS特征进行变量重要性打分, 根据变量重要性的高低对特征变量进行重新排序; (4)通过变量重要性阈值对输入到BP-ANN模型的变量数进行控制, 使用5折交叉验证均方根误差(RMSECV)和R2优化BP-ANN的神经元个数; (5)选择最佳变量重要性阈值和神经元个数对BP-ANN模型进行训练; (6)输入测试样本的LIBS光谱数据, 模型根据变量重要性对特征进行排序, 并按照最佳的变量重要性阈值读取光谱特征, 返回相关的元素预测结果。

图1 VI-BP-ANN实验方法流程图Fig.1 The flowchart of VI-BP-ANN experimental method

1.3.2 PLS、 RF和SVM

为了验证VI-BP-ANN模型定量分析铁矿石中SiO2、 Al2O3、 CaO和MgO含量的能力, 保持与VI-BP-ANN模型相同的数据集划分, 以全光谱数据作为输入变量, 采用归一化作为光谱预处理方法, 构建了PLS、 RF和SVM模型。 对于铁矿石中SiO2、 Al2O3、 CaO和MgO含量的PLS模型, 最优的潜在变量数(0~25)通过5-CV进行优化, 分别为16、 17、 22和20。 对于铁矿石中SiO2、 Al2O3、 CaO和MgO含量的SVM模型, 核函数类型(kernel)(linear、 rbf、 poly、 sigmoid)和超参数C(0~10)通过网格搜索和5-CV进行优化, 参数(kernel, C)分别设置为(linear, 0.31), (rbf, 9.91), (linear, 0.01), (linear, 0.11)。 对于铁矿石中SiO2、 Al2O3、 CaO和MgO含量的RF模型, ntree(0~800)和mtry(0.5 M~8 M)采用与PLS和SVM相同的方式进行优化, 最佳参数分别为: ntree=100, mtry=4 M; ntree=100, mtry= M; ntree=300, mtry=4 M; ntree=200, mtry=1.5 M, 其中M为铁矿石原始LIBS光谱的特征数12 814。

1.4 软件运行环境

数据预处理采用Pirouette(Infometrix, Inc), 变量重要性测量和反向人工传播神经网络建模均采用Python 3.8.3(Sklearn 0.23.1)自编写脚本完成。 实验环境: 11th Gen Intel (R) Core (TM) i7-1165G7 CPU@2.80 GHz, Intel (R) Iris (R) Xe Graphics GPU, 16GB DDR 3200 MHz computer memory。

2 结果与讨论
2.1 LIBS光谱

铁矿石LIBS光谱在180~970 nm波长范围内含有12 814个数据点, 其中可以找到Si、 Al、 Ca、 Mg的特征发射线(图2)。 铁矿石中Fe的特征发射谱线数量多、 强度高, 对部分Ca、 Mg、 Si和Al的特征发射线会产生光谱干扰, 如图2 (a)中Ca Ⅱ 373.69 nm受到Fe Ⅰ 373.332 nm的干扰, 图2(c)中 Si Ⅰ 390.552 nm受到Fe Ⅰ 390.295 nm的干扰。 图2(d)Al Ⅰ 308.215 nm和 Al Ⅰ 309.271 nm特征发射线强度低, 容易被噪声掩盖。 部分元素特征峰还存在自吸收现象, 如图2(b) Mg Ⅰ 517.268 nm。 基于铁矿石LIBS光谱基体效应、 光谱干扰、 自吸收现象的存在, 在进行多变量回归分析之前, 有必要对原始光谱进行预处理和变量优化。

图2 12种铁矿石的LIBS光谱特征发射线Fig.2 Characteristic emission lines of LIBS spectra of 12 iron ores

2.2 光谱预处理

平滑、 多元散射校正(multiplicative scatter correction, MSC)、 归一化、 归一化+MSC、 归一化+平滑5种方法被用于对铁矿石LIBS光谱进行预处理。 归一化用来降低脉冲波动和样品的不稳定烧蚀对光谱数据的影响。 采用对一定长度窗口的光谱数据点进行K阶多项式拟合进行平滑处理, 用来降低噪声的干扰。 MSC用于消除不同散射水平带来的光谱差异。 不同预处理方法的性能通过5-CV进行优化, 采用R2和RMSECV进行评估(图3)。 考虑到输入变量对模型的影响, 在每一种预处理方法下, 对隐藏神经元个数进行了优化, 确保模型最优。

图3 基于5-CV不同预处理方法对比Fig.3 Comparison of different pre-processing methods based on 5-CV

与原始光谱相比, 在平滑预处理后, SiO2和Al2O3含量的VI-BP-ANN模型性能有所提高[图3(a, b)], 而对于CaO和MgO含量的模型有着更差的性能表现[图3(c, d)]。 对于MSC的预处理方法, 除MgO外, SiO2、 Al2O3、 CaO含量模型性能都表现更好。 而通过归一化预处理方法后, 所有模型的性能都得到明显提高。 当将平滑、 MSC预处理方式分别与归一化结合对光谱进行预处理后, 两种组合的预处理方式相比于原始光谱, 除CaO含量模型, 其余模型性能都出现了提高, 而与单一的归一化预处理方法相比, 模型的性能均出现了不同程度的降低, R2降低, RMSECV增大; 以上分析表明, 对于定量分析铁矿石中的SiO2、 Al2O3、 CaO和MgO, 归一化相比于其他预处理方法和原始光谱有着更好的表现性能, 此时的RMSECV最小, R2最大, SiO2, Al2O3, CaO和MgO的RMSECV和R2分别为0.861 2 wt%和0.902 7, 0.176 3 wt%和0.914 9, 0.112 8 wt%和0.942 1, 0.274 8 wt%和0.984 1。 归一化对模型的性能起主导作用, 当在归一化的基础上继续增加平滑、 MSC, 过多的预处理方式可能会使原始光谱信息失真, 从而导致定量精度降低。 在实验中将归一化预处理方法用于铁矿石的SiO2、 Al2O3、 CaO和MgO分析。

2.3 RF参数优化

RF构建的模型降低了决策树之间的相关性, 且对异常值和噪声数据的容忍度较高, 具有较好的泛化能力与准确性, 在高维数据的应用上发挥着重要作用。 使用RF对铁矿石LIBS光谱中的每个变量进行重要性测量。 RF模型中有两个重要的参数: (1)ntree: 森林中决策树的数量; (2)mtry: 树在生长过程中每个节点分枝随机候选的特征数。 在不同ntree和mtry取值下, 对SiO2、 Al2O3、 CaO和MgO的OOB误差进行研究分析, 其中, ntree分别设置为100、 200、 300、 400、 500、 600、 700、 800, mtry从0.5 M到8 M, 每隔0.5 M进行取值(M为铁矿石的LIBS光谱数, 12 814)。 从图4(a—d)中可以发现, 随着mtry的变化, OOB误差在不同的ntree取值下, 呈现相似的变化趋势。 对SiO2和MgO分析, 随着mtry的增大, OOB误差呈现先降低后增大的趋势。 对于Al2O3, OOB误差随着mtry的增大呈现不断波折上升的趋势。 而CaO的OOB误差随着mtry的变化呈现一个波动的趋势, 这种趋势可能与铁矿石样品本身的特性和元素含量范围相关。 对于SiO2, ntree=300, mtry=7 M时, OOB误差最小为0.145 3。 对于Al2O3, ntree=800, mtry=0.5 M时的OOB误差最小, 为0.097 4。 当ntree=100, mtry=5 M时, 此时CaO的OOB误差为0.030 9。 当ntree=500, mtry=3 M时, 此时MgO的OOB误差为0.008 3。

图4 不同ntree和mtry值与OOB误差的关系
(a): SiO2; (b): Al2O3; (c): CaO; (d): MgO
Fig.4 Relationship between different ntree and mtry values and OOB errors
(a): SiO2; (b): Al2O3; (c): CaO; (d): MgO

2.4 变量重要性阈值和神经元优化

为了减少输入BP-ANN模型的变量, 根据变量重要性对光谱特征进行了重新排序, 通过变量重要性阈值对输入BP-ANN模型的变量进行控制。 考虑到输入变量的变化对模型最佳神经元数量的影响。 实验充分利用数据集考察模型的性能, 通过5-CV对神经元个数(30~50)进行优化, R2和RMSECV作为评价指标。 表2表5分别为SiO2、 CaO、 MgO和Al2O3的BP-ANN模型在不同变量重要性阈值(变量数)下计算5次的平均结果。

表2 不同变量重要性阈值的BP-ANN模型性能(SiO2) Table 2 Performance of BP-ANN models with different variable importance thresholds (SiO2)
表3 不同变量重要性阈值的BP-ANN模型性能(CaO) Table 3 Performance of BP-ANN models with different variable importance thresholds (CaO)
表4 不同变量重要性阈值的BP-ANN模型性能(MgO) Table 4 Performance of BP-ANN models with different variable importance thresholds (MgO)
表5 不同变量重要性阈值的BP-ANN模型性能(Al2O3) Table 5 Performance of BP-ANN models with different variable importance thresholds (Al2O3)

不同变量重要性阈值下的BP-ANN模型性能(SiO2)见表2。 当使用原始光谱(12 814)作为输入变量时, 此时的最优神经元个数为40, RMSECV平均值为0.042 0 wt%, R2为0.999 7。 在变量重要性阈值0~0.001的范围内, 随着变量重要性阈值的不断降低, 变量数增加, 训练集的RMSECV呈现降低的趋势, R2逐渐增加。 测试集的RMSEP先增加随后在0.51~0.52 wt%范围内波动, R2先降低之后在0.94~0.95之间波动。 时间方面, 建模时间随着输入变量数的增多而持续增加, 当变量重要性阈值为0.001时, 建模时间最短, 为3 min 32 s, 此时RMSEP最低, 模型性能最好。

不同变量重要性阈值下的BP-ANN模型性能(CaO)见表3, 随着变量增多, RMSECV逐渐减小, R2不断增大。 测试集的RMSEP先降低后增加, 阈值为0.000 001时, 最佳神经元个数34, 此时的模型性能最佳, 建模时间较短。

不同变量重要性阈值下的BP-ANN模型性能(MgO)见表4, 随着输入变量的增多, 训练集的RMSECV增大, R2减小。 而测试集情况与之相反, 变量重要性阈值设置为0.001时, 最佳神经元个数为38, 这时的模型性能最佳, 建模时间仅需37 s。

不同变量重要性阈值下的BP-ANN模型性能(Al2O3)见表5, RMSECV伴随变量数增加持续减小, R2与之相反。 测试集中的RMSEP先减小后增大, R2先增大后降低, 这可能是由于模型存在过拟合的现象。 变量重要性阈值为0.000 2时, 最佳神经元个数为44, RMSEP最小, R2最大。

2.5 性能测试和对比

采用VI-BP-ANN训练模型对铁矿石测试样本中的SiO2、 Al2O3、 CaO和MgO含量进行预测, 根据RMSEP和R2评价模型的预测能力。 结果如图5(a—d)所示, 其中MgO的R2高达0.9975, RMSEP为0.141 1 wt%。 SiO2的RMSEP为0.377 2 wt%, R2为0.970 1。 Al2O3的RMSEP为0.139 9 wt%, R2为0.955 4。 CaO的RMSEP为0.058 9 wt%, R2为0.987 1。 VI-BP-ANN模型对于铁矿石中的SiO2、 Al2O3、 CaO和MgO的含量显示出较好的预测能力, 测试集的R2均大于0.95。

图5 VI-BP-ANN模型预测结果
(a): SiO2; (b): Al2O3; (c): CaO; (d): MgO
Fig.5 Predicted results of VI-BP-ANN model
(a): SiO2; (b): Al2O3; (c): CaO; (d): MgO

使用相同的归一化预处理方法, 将VI-BP-ANN方法与PLS、 SVM、 RF和BP-ANN方法进行了对比。 如表6所示为基于5-CV下PLS、 SVM、 RF、 VI-BP-ANN和BP-ANN模型用于分析预测铁矿石中SiO2、 Al2O3、 CaO和MgO的性能比较。 对训练集模型分析, BP-ANN模型性能最佳, VI-BP-ANN模型性能略差, RF性能最差。

表6 基于5-CV模型性能对比 Table 6 Model performance comparison based on 5-CV

5种模型在测试集上的预测性能对比如表7所示。 对于CaO, RMSEP为0.052 9~0.068 4 wt%, R2为0.977 7~0.987 7。 MgO的RMSEP为0.100 2~0.269 7 wt%, R2为0.991 6~0.998 5。 对于Al2O3和SiO2, 五种模型的RMSEP和R2分别为0.130 7~0.229 4 wt%和0.829 1~0.955 4、 0.305 0~0.522 8 wt%和0.942 0~0.970 1。 值得注意的是, SiO2模型的RMSEP最大, 其次为MgO模型和Al2O3模型, CaO模型的RMSEP最小, 结合表1中13种品牌铁矿石的元素组成浓度范围, 可能是由于铁矿石样品硅元素含量范围的差异过大所导致。

表7 模型在测试集上的预测性能对比 Table 7 Prediction performance comparison of the model on the test set

。图6(a—d)为PLS、 SVM、 RF、 VI-BP-ANN和BP-ANN模型用于分析预测铁矿石中硅(以SiO2计)、 铝(Al2O3计)、 钙(以CaO计)和镁(以MgO计)的性能比较。 相比于PLS、 SVM、 RF和BP-ANN模型, 在预测SiO2、 Al2O3、 CaO和MgO含量时, VI-BP-ANN模型RMSEP值最小, R2值最大, 建模时间短, 表现出优异的预测能力。

图6 PLS、 SVM、 RF、 VI-BP-ANN和BP-ANN模型的预测性能
(a): SiO2; (b): Al2O3; (c): CaO; (d): MgO
Fig.6 Prediction performance of PLS, SVM, RF, VI-BP-ANN and BP-ANN models
(a): SiO2; (b): Al2O3; (c): CaO; (d): MgO

3 结论

LIBS与VI-BP-ANN相结合成功的应用于铁矿石中硅(以SiO2计)、 铝(以Al2O3计)、 钙(以CaO计)和镁(以MgO计)含量的定量分析。 采用归一化对光谱进行预处理, 考虑到输入变量中大量冗余和有害变量对模型的影响, 使用RF对LIBS的变量重要性进行了袋外误差的测量, 采用变量重要性阈值对输入BP-ANN模型的变量进行控制, 最后通过5-CV以RMSECV、 R2为评价参数对变量重要性阈值和隐藏层神经元数进行优化。 优化的VI-BP-ANN模型用于铁矿石中SiO2、 Al2O3、 CaO和MgO含量定量分析, 并将获得的结果与PLS、 SVM、 RF和BP-ANN进行对比。 结果显示VI-BP-ANN模型在有效降低输入变量的同时整体表现出相对较为优异的预测性能, 可实现铁矿石中SiO2、 Al2O3、 CaO和MgO含量的快速预测。

参考文献
[1] Wang P, Li N, Yan C, et al. Analytical Methods, 2019, 11(27): 3419. [本文引用:1]
[2] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 13—2007 Iron Ores-Determination of Calcium and Magnesium Content-EGTA-CyDTA Titrimetric Method(GB/T 6730. 13—2007 铁矿石 钙和镁含量的测定 EGTA-CyDTA滴定法), 2007. [本文引用:1]
[3] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 11—2007 Iron Ores-Determination of Aluminium Content-EDTA Titrimetric Method (GB/T 6730. 11—2007 铁矿石 铝含量的测定 EDTA滴定法), 2007. [本文引用:1]
[4] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 9—2016 Iron Ores—Determination of Silicon Content—The Silicomolybdic Blue Spectrophotometric Method Reduced by Ammonium Ferrous Sulfate (GB/T 6730. 9—2016 铁矿石 硅含量的测定 硫酸亚铁铵还原-硅钼蓝分光光度法), 2016. [本文引用:1]
[5] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 14—2017 Iron Ores—Determination of Calcium Content—Flame atomic Absorption Spectrometric Method (GB/T 6730. 14—2017 铁矿石 钙含量的测定 火焰原子吸收光谱法), 2017. [本文引用:1]
[6] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 74—2017 Iron Ores—Determination of Magnesium Content—Flame Atomic Absorption Spectrometric Method (GB/T 6730. 74—2017 铁矿石 镁含量的测定 火焰原子吸收光谱法), 2017. [本文引用:1]
[7] State Administration for Market Regulation and Stand ardization Administration of China(国家市场监督管理总局, 中国国家标准化管理委员会). GB/T 6730. 56—2019 Iron Ores—Determination of Aluminum Content—Flame Atomic Absorption Spectrometric Method (GB/T 6730. 56—2019 铁矿石 铝含量的测定 火焰原子吸收光谱法), 2019. [本文引用:1]
[8] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 63—2006 Iron Ores—Determination of Aluminum, Calcium, Magnesium, Manganese, Phosphorus, Silicon and Titanium Content—Inductively Coupled Plasma Atomic Emission Spectrometric Method (GB/T 6730. 63—2006 铁矿石 铝、 钙、 镁、 锰、 磷、 硅和钛含量的测定 电感耦合等离子体发射光谱法), 2006. [本文引用:1]
[9] General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China and Stand ardization Administration of China(中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会). GB/T 6730. 62—2005 Iron Ores—Determination of Calcium, Silicon, Manganese, Titanium, Phosphorus Magnesium, Aluminium and Barium Content Wavelength Dispersive X-ray Fluorescence Spectrometric Method (GB/T 6730. 62—2005 铁矿石 钙、 硅、 镁、 钛、 磷、 锰、 铝和钡含量的测定 波长色散X射线荧光光谱法), 2005. [本文引用:1]
[10] Chen T, Zhang T, Li H. TrAC Trends in Analytical Chemistry, 2020, 133: 116113. [本文引用:1]
[11] YANG Ya-wen, YAN Cheng-lin, XU Ding, et al(杨雅雯, 严承琳, 徐鼎, ). Metallurgical Analysis(冶金分析), 2020, 40(12): 14. [本文引用:1]
[12] Wang Z, Afgan M S, Gu W, et al. TrAC Trends in Analytical Chemistry, 2021, 143: 116385. [本文引用:1]
[13] Grant K J, Paul G L, O'Neill J A. Applied Spectroscopy, 1991, 45(4): 701. [本文引用:1]
[14] Death D L, Cunningham A P, Pollard L J. Spectrochimica Acta Part B: Atomic Spectroscopy, 2008, 63(7): 763. [本文引用:1]
[15] Hao Z Q, Li C M, Shen M, et al. Optics Express, 2015, 23(6): 7795. [本文引用:1]
[16] Guo Y M, Guo L B, Hao Z Q, et al. Journal of Analytical Atomic Spectrometry, 2018, 33(8): 1330. [本文引用:1]
[17] ZHAO Wen-ya, MIN Hong, LIU Shu, et al(赵文雅, 闵红, 刘曙, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(7): 1998. [本文引用:1]
[18] Wang J, Shi M, Zheng P, et al. Journal of Applied Spectroscopy, 2018, 85(1): 190. [本文引用:1]
[19] Sun C, Tian Y, Gao L, et al. Scientific Reports, 2019, 9: 11363. [本文引用:2]
[20] Yang Y, Li C, Liu S, et al. Analytical Methods, 2020, 12(10): 1316. [本文引用:1]
[21] Liu K, Tian D, Xu H, et al. Analytical Methods, 2019, 11(37): 4769. [本文引用:2]
[22] Tang H, Zhang T, Yang X, et al. Analytical Methods, 2015, 7(21): 9171. [本文引用:1]
[23] Liu K, Tian D, Wang H, et al. Analytical Methods, 2019, 11(9): 1174. [本文引用:1]