作者简介: 梅佳成, 2000年生,长安大学地球科学与资源学院博士研究生 e-mail: 2022127067@chd.edu.cn
钴是全球战略性矿产资源。 红土型钴矿床规模大、 埋藏浅, 是钴矿勘查的重要目标。 传统的钴矿勘查过程, 不得不借助于室内测试分析来判定野外露头中钴的含量高低及其矿化程度。 而钴元素含量测试手段, 往往涉及复杂的样品制备流程以及对大型高精度仪器设备的依赖, 难以满足快速测试勘查需求。 可见光-近红外及短波红外(VNIR-SWIR)光谱技术具有仪器便携、 测试高效及对样品无损等优势, 在野外场景下对样品测试展现出卓越的适用性。 样品实测光谱分析表明620~810 nm反映钴离子、 铁离子吸收特征, 810~1 200 nm反映Fe2+吸收特征, 1 350~1 450和1 850~2 040 nm反映—OH、 H2O的吸收特征, 2 140~2 260和2 260~2 360 nm分别反映Al—OH和Mg—OH的吸收特征; 据此选择敏感波段范围、 特征吸收峰参数以及敏感波段比值共同作为光谱组合参数, 应用XGBoost(extreme gradient boosting)回归算法建立钴含量定量反演模型; 在此基础上进行参数寻优得到最优钴含量定量分析模型, 验证集的 R2为0.95, RMSE为89.19, RPD为4.35, 模型反演精度较高。 特征重要性柱状图表明, 钴元素的敏感波段范围为620~810 nm之间, 在增加与钴含量密切相关的矿物(绿泥石、 蛇纹石)的吸收特征的权重之后, 模型的准确性显著提高。 上述结果表明基于VNIR-SWIR光谱可准确估算红土型钴矿样品钴含量, 基于组合光谱参数的模型具备野外露头钴含量快速测定的能力, 对红土型钴矿勘查具有一定的应用价值。
Cobalt is a global strategic mineral resource. Laterite-type cobalt deposits are large and shallow, and are important targets for cobalt exploration. The traditional cobalt exploration process often relies on indoor testing and analysis to determine the level of cobalt content in field outcrops and the degree of its mineralization. The cobalt elemental content testing method often involves a complex sample preparation process. It relies on large-scale high-precision instrumentation, which makes it difficult to meet the demand for rapid testing and exploration. Visible-near infrared and short-wave infrared (VNIR-SWIR) spectroscopy offers the advantages of portability, high efficiency, and non-destructiveness to the samples. It demonstrates excellent applicability to field sample testing scenarios. The measured spectral analysis of the samples shows that 620~810 nm reflects the absorption of cobalt ions and iron ions, 810~1 200 nm reflects the absorption characteristics of Fe2+, 1 350~1 450 and 1 850~2 040 nm reflect the absorption characteristics of —OH and H2O, and 2 140~2 260 and 2 260~2 360 nm reflect the absorption characteristics of Al—OH and Mg—OH, respectively; accordingly, the sensitive wavelength range and the characteristic absorption characteristics of the samples are selected. Accordingly, the range of sensitive bands, the characteristic absorption peak parameters and the ratio of sensitive bands were selected as the spectral combination parameters, and the XGBoost (Extreme Gradient Boosting) regression algorithm was applied to establish the cobalt content quantitative inversion model; based on which, parameter optimization was carried out to obtain the optimal cobalt content quantitative analysis model, and the validation set had the values of R2 0.95, the RMSE was 89.19, the RPD was 4.35, and the model inversion accuracy was high. The histogram of feature importance shows that the sensitive band of cobalt element ranges from 620~810 nm, and the accuracy of the model is significantly improved after increasing the weights of absorption features of minerals closely related to cobalt content (chlorite, serpentine). The above results-demonstrate that the cobalt content of lateritic cobalt ore samples can be accurately estimated based on VNIR-SWIR spectra. The model, which incorporates combined spectral parameters, has the capability of rapidly determining cobalt content in field outcrops, offering significant application value for lateritic cobalt ore exploration.
钴具有重要的经济和战略意义, 在航天航空、 军工、 高分子、 电池、 合金和催化剂等领域应用广泛[1, 2], 被我国、 欧盟、 美国、 日本等国列为战略性或关键性矿产[3]。 中国极度贫钴, 目前探明的钴储量仅占全球钴储量的1%左右, 冶炼原料90%依赖进口[4]。 因此, 开发利用新技术、 新方法提高钴矿勘查效率, 探明钴矿储量迫在眉睫。
红土型钴矿床一般具有规模大、 埋藏浅、 综合利用价值高等特点, 全球钴产量中的15%来自于该类矿床[5, 6, 7, 8]。 该类矿床中钴元素主要与针铁矿、 赤铁矿、 蒙脱石、 绿泥石、 蛇纹石等矿物具有密切关系。 钴元素由多重机制富集[9], 使得野外样品钴含量快速估算较为困难。 钴含量的准确测定通常需要较为复杂的制样流程和大型精密设备(如电感耦合等离子体质谱仪、 X射线荧光光谱仪), 费时费力且价格高昂, 难以满足野外快速测试应用需求。
可见光-近红外及短波红外(VNIR-SWIR)光谱测试方法具有仪器便携、 测试快速、 对样品无损等优势。 研究表明, 某些元素在样品中的含量与其光谱响应之间存在显著的相关性[10, 11, 12, 13], 钴离子因电子跃迁而在600~900 nm表现出特定的吸收特征, 且吸收强度可反映样品中钴元素的浓度, 这为基于VNIR-SWIR光谱钴含量定量反演提供了理论基础。 前人依据VNIR-SWIR反射光谱开展了基于最小二乘的锂含量定量反演[14]、 基于偏最小二乘的铜元素定量反演[15]及基于卷积神经网络的铜矿石品位估算[16]等, 但尚缺少钴含量定量反演相关研究。
近年来, 机器学习(machine learning, ML)算法由于能够有效捕捉光谱与成矿元素之间的复杂关系, 在分析矿石光谱数据中取得了显著成果。 其中, 基于树的机器学习方法, 能够准确捕捉预测因子之间的非线性关系及其相互作用, 从而获得更高的精度。 XGBoost(extreme gradient boosting)作为一种典型的集成算法, 具有计算准确性高、 效率高等特点, 此外XGBoost还可进行变量重要性评估, 使得研究者能够更好地理解各个特征对模型预测的贡献[17, 18]。
因此, 结合前人对红土型钴矿的研究成果, 对样品光谱进行分析, 优选敏感波段范围、 特征吸收峰以及敏感波段比值, 确定最优光谱参数组合, 并进行参数寻优, 采用XGBoost回归算法, 以光谱数据为自变量构建钴含量定量反演模型, 最终获得最优钴含量定量反演模型, 为野外钴元素含量快速测定提供可行性方法。
云南元江地区的红土型钴矿自下而上为基岩层、 腐岩层和红土层, 其中基岩层一般为蛇纹石化超基性岩; 腐岩层内钴含量最高, 向上含量逐渐降低; 红土层一般为红褐色, 通常发育植物根系。 样品采自云南元江地区的红土型钴矿化露头, 共计90个样品(典型样品位置信息见表1), 样品中的钴含量最高可达1 600 μ g· g-1。 钴元素的含量测定在武汉上谱分析科技有限责任公司进行, 依据硅酸盐岩石化学分析方法(GB/T14506.30— 2010), 使用的设备为电感耦合等离子体质谱仪(Agilent 7900), 测试结果相对偏差RD≤ 10%, 相对误差RE≤ 10%。
![]() | 表1 典型样品位置表 Table 1 Table of typical sample locations |
可见光-短波红外反射光谱测试采用Spectral Evolution SR-3500地物光谱仪, 该仪器的光谱范围为350~2 500 nm, 采样间隔为1 nm。 仪器内置稳定光源, 并封闭外部光照, 波谱测试时, 为了提高测试波谱的精确性, 每隔10 min利用标准板定标一次。 在测试过程中, 为确保结果的准确性与稳定性, 每件样品均进行五次独立采集, 再取平均值。 所有样品均为化学分析的粉末副样, 确保光谱数据与化学分析数据间的一致性。
连续统去除(continuum removal, CR)是一种常用的光谱处理方法, 能够有效去除光谱背景, 从而突出光谱中的吸收特征[12]。 由于400 nm之前的数据特征不明显, 而2 450 nm之后的波段信噪比较低, 因此选择400~2 450 nm范围进行CR处理, 以获得更准确的光谱特征。 90件样品的原始及CR光谱曲线如图1所示。
![]() | 图1 典型样品光谱曲线图 (a): 原始光谱曲线; (b): 连续统去除光谱曲线; (c): 500~1 200 nm CR光谱曲线Fig.1 Spectra of typical samples (a): Original spectra; (b): Continuum removal spectra; (c): 500~1 200 nm CR spectral curve |
引入四个光谱参数, 对特征吸收峰精准刻画, 用以增强光谱分析的可靠性, 提高后续定量反演的准确性: (1)吸收峰位置(Position, Pos): 指吸收峰最低点对应的波长, 反映物质在特定波长的光谱吸收能力, 有助于识别和区分不同物质的光谱特征[19]。 (2)最大吸收深度(Depth, Dep): 表示光谱在最低点的吸收强度, 数值越大, 表明物质对该波长电磁波的吸收越强, 可用于评估物质组成成分及其含量变化。 (3)吸收峰平均面积(Area, Are): 代表吸收峰的综合吸收能力, 通过计算吸收峰区域的面积, 更全面地描述吸收特性的整体表现, 对分析复杂光谱尤其重要。 (4)光谱吸收指数(spectral absorption index, SAI): 综合考虑吸收峰的形状、 宽度和深度, 以反映吸收峰的整体特征[20](图2)。
吸收峰的光谱吸收指数(SAI)和平均面积(Are)的计算公式如式(1)
式(1)中: λ1和λ2分别是λ1和λ2的波长, λ m是最低点对应的波长。 ρ1、 ρ2和ρ m分别是点λ1、 λ2和λ m对应的反射率。
式(2)中: Are表示吸收峰的平均面积。 λ a和λ b分别表示吸收峰的起始波长和结束波长, 定义了积分的波长范围。 Li表示波段i处反射率。
采用XGBoost集成学习算法, 将红土型钴矿的钴含量实测数据与光谱数据划分为训练样本和验证样本。 为了确保定量反演实验的准确性和可靠性, 从90个自然样品中选择70%作为训练集, 30%作为验证集。 首先将样本按照钴含量进行升序排列, 接着以10为步长进行分组, 最后在每个分组中随机选取7个作为用于训练XGBoost模型的训练集; 其余的3个作为用于评估模型性能的验证集。 这种划分方法不仅能够保证样本的合理性和随机性, 还能确保高值样本、 中值样本和低值样本在训练集和验证集中均匀分布, 从而提高模型的预测能力和可靠性。
进行了三组定量反演实验(表2): 原始光谱模型以350~2 500 nm光谱数据输入变量; 组合光谱参数模型则以组合光谱参数为输入变量, 为了确保实验结果的可重复性和可比性, 仅设定了一个超参数(n_estimators=10); 最优模型同样以组合光谱参数为输入变量, 并且进行超参数寻优, 使模型具备较高的准确性和稳定性。
![]() | 表2 模型参数表 Table 2 List of model parameters |
使用均方根误差(root mean squared error, RMSE)、 决定系数(coefficient of determination, R2)和残差预测偏差(residual prediction deviation, RPD)来评价模型性能。 RMSE值越小表示预测准确度越高, 决定系数(R2)值越大, 模型的拟合程度和稳定性越好。 一般认为, R2值大于等于0.80且RPD值大于等于2.00则表示模型具有良好的预测能力; R2值大于等于0.90则表示模型具有优异的预测能力。 通过均方误差(mean squared error, MSE)估计误差值后, 乘以1.96得到95%置信区间。
将实测光谱350~2 500 nm的所有波段数据均作为自变量, 对钴含量进行定量反演, 为保证模型具备可比性, 仅确定一个超参数, 其余超参数均为默认值(表2), 结果如图3所示。 特征重要性图[图3(a)]显示620~810 nm之间的特征是最重要的, 其中684和707 nm特征占据主导影响。 训练集[图3(b)]的R2为0.99; 验证集[图3(c)]的R2为0.80, RPD为2.24, 这表明模型具备良好的预测能力。 但训练集和验证集的准确性相差较多, 存在较明显的过拟合现象。
采用光谱预处理、 敏感波段范围选择、 引入特征吸收峰参数以及敏感波段比值等方法以提高模型的准确性。 连续统去除可有效突出光谱中的吸收特征。 前人研究表明钴离子在620~810 nm之间存在特征吸收[21], 研究区高钴含量样品在620~810 nm之间也存在吸收[图1(c)], 因此选择此范围作为敏感波段范围。 样品中含有赤铁矿、 针铁矿、 蒙脱石、 伊利石、 绿泥石、 蛇纹石等矿物, 钴元素与这些矿物可能存在较强的相关性。 620~810 nm可反映钴离子、 铁离子的吸收特征, 810~1 220 nm可以反映Fe3+、 Fe2+的吸收特征, 1 350~1 450和1 850~2 040 nm可以反映— OH的吸收特征, 2 140~2 260和2 260~2 360 nm分别反映Al— OH和Mg— OH的吸收特征, 与绿泥石、 蒙脱石、 蛇纹石密切相关。 在上述范围内选择敏感波段, 计算敏感波段比值共同作为定量反演的参数(表2)。
采用上述组合光谱参数作为自变量对钴含量进行定量反演, 为保证模型具备可比性, 仅确定一个超参数(表2), 其余超参数均为默认值。 特征重要性图[图4(a)]表明特征628CR(连续统去除光谱628 nm波段)在特征重要性中占据主导地位, 证实了620~810 nm特征对钴含量的重要性。 训练集[图4(b)]的R2值为0.99; 验证集[图4(c)]的R2为0.86, RPD为2.72, RMSE为125.33, 相对于仅用原始光谱的模型而言, 应用组合光谱参数的模型的准确性有显著的提高。 但是模型的训练集和验证集的准确性也有较为明显的差距, 存在轻微过拟合现象。
为进一步提高模型的准确性, 减轻过拟合现象, 采用单参数逐步调优法进行参数寻优, 最优超参数组合和光谱组合参数如表2所示。 特征重要性图[图5(a)]620~810 nm之间的特征仍然是最重要的, 787和2 260~2 360 SAI(2 260~2 360 nm之间吸收峰的SAI)这两个特征占据绝对主导地位。 训练集[图5(b)]的R2值为0.96; 验证集[图5(c)]的R2为0.95, RMSE为89.19, RPD为4.35, 模型具备非常优秀的预测能力, 预测值和实测值基本一致。
前人研究表明, 钴离子在620~810 nm之间存在特征吸收[21]。 研究区样品实测CR光谱[图1(b)]同样表明, 高钴含量样品在620~810 nm之间存在特征吸收峰, 中心波长约为700 nm, 且吸收深度与钴离子含量呈现正相关关系, 因此620~810 nm之间特征可作为钴离子光谱特征参数。 同时, 红土型钴矿受其原岩、 成矿过程及赋存状态等因素影响, 钴离子可能与样品中的赤铁矿、 针铁矿、 蒙脱石、 绿泥石、 蛇纹石等矿物有关, 因此由Fe2+、 Fe3+、 H2O、 Al— OH、 Mg— OH导致的特征吸收也可能对钴含量较敏感, 光谱分析表明, 这些矿物、 离子在620~810、 810~1 220、 1 350~1 450、 2 140~2 260、 2 260~2 360 nm等范围具有吸收特征。 由于这些波长吸收的强度均与相应矿物或离子含量相关, 因此吸收波长、 吸收深度、 吸收面积和光谱吸收指数也可以反映矿物和离子含量, 引入这四种光谱参数对这些吸收峰进行细致描绘和数字化表达。 在上述吸收范围内选择一系列敏感波段计算敏感波段比值, 如1 387/1 470, 其中1 387 nm 处通常为低值(羟基吸收), 1 470 nm处通常为稳定高值, 1 387/1 470可稳定反映水吸收导致的特征, 这些比值可进一步增强吸收特征。
采用原始光谱对钴含量进行定量反演, 模型的预测能力较差, 验证集的R2只能达到0.80, 且存在较为明显的过拟合现象, 这表明利用VNIR-SWIR光谱数据进行钴含量定量反演是可行的, 但是准确性有较大的提升空间。 通过对钴离子以及与钴离子相关的矿物的光谱特征进行分析, 选出了组合光谱参数(表2)。 将这些组合光谱参数作为自变量对钴含量进行定量反演, 验证集的R2为0.86, RPD为2.72, RMSE为125.33, 与仅使用原始光谱的结果相比, R2提高了0.06, RPD提高了0.48, RMSE降低了45.88, 可见准确性有了非常显著的提高。 与原始光谱相比, 组合光谱参数的实测CR光谱强化了光谱吸收峰的吸收信息, 使得光谱数据可比性更强; 620~810、 810~1 220、 1 350~1 450、 2 140~2 260、 2 260~2 360 nm等特征吸收峰参数是对特征吸收峰的数字化精细描绘, 提取重要特征吸收峰的信息; 敏感波段比值则采用稳定高值除以吸收峰的低值, 强化敏感波段光谱信息。 这些针对性的特征强化方法, 显著提高了模型定量反演的准确性和稳定性。
特征重要性分析表明628CR特征占绝对主导, 重要性值大于0.7, 其他的特征重要性很低。 这与钴离子的特征吸收位于620~810 nm之间吻合, 但是钴离子也可能与绿泥石、 蛇纹石等矿物相关, 而模型并未将与绿泥石、 蛇纹石等矿物相关的特征赋予较高权重, 可能是导致模型过拟合的一个原因。
在组合光谱参数定量反演的基础上, 进行参数寻优, 选择出最优超参数组合, 最优模型的训练集的R2为0.96, 验证集的R2为0.95, RMSE为89.19, RPD为4.35; 与未做参数寻优的结果相比, R2提高了0.09, RPD提高了1.63, RMSE降低了36.14, 准确性有较大提高, 而且过拟合现象基本消失。 由此可见在组合光谱参数的基础上, 进行参数寻优即可得到非常准确且稳定的钴含量定量反演模型。
最优模型与组合光谱参数模型相比, 特征重要性有较大变化, 787、 775和786 nm重要性显著提高, 787 nm与2 260~2 360SAI为主要特征; 628CR重要性显著降低, 与767CR、 687CR一样均为次要特征。 787、 775和786 nm特征为高钴含量样品的一个的反射峰[图1(a)], 增强此位置特征, 再加上综合考虑628CR、 767CR、 687CR等特征, 使得模型的稳定性变高。 特征重要性图中可见除620~810 nm之间的特征很重要之外, 2 260~2 360SAI的重要性也占据了主要地位, 2 260~2 360SAI可能代表绿泥石、 蛇纹石的吸收, 810~1 220Pos可能代表赤铁矿、 针铁矿的吸收, 1 350~1 450SAI代表羟基的吸收。 当模型对这些与钴元素相关的矿物的吸收特征权重增强之后, 模型的准确性明显提升, 且消除了过拟合问题。
在红土型钴矿的勘查研究中, 传统的野外露头检查手段因钴赋存形式的复杂性而受限, 常规野外工具难以有效判别含矿性。 高精度化学测试分析虽精确, 但制样过程繁琐、 依赖大型设备, 成本高昂且耗时费力, 不适用于野外快速分析。
定量反演实验结果表明, 620~810 nm之间存在钴离子特征吸收; 2 260~2 360 nm之间存在与钴离子密切相关的矿物(蛇纹石、 绿泥石等)的特征吸收。 VNIR-SWIR光谱测试以其仪器便携、 无需制样、 无损样品的显著特点, 在野外和室内大量样品快速测试方面展现出独特优势。 在野外露头检查时, 可便捷地获取目标光谱, 并借助预先建立并训练好的最优钴含量定量反演模型, 即时估算出露头的钴含量。 同时, 可以在GF-5、 ZY1-02D等高光谱遥感影像上, 选择与620~810和2 260~2 360 nm对应的波段, 采用光谱角制图等图像处理方法快速且大面积的筛查潜在的红土型钴矿床露头区域, 甚至可以将钴含量定量反演模型扩展应用至高光谱影像, 进行较大露头的钴含量估算, 进而提高野外找矿的针对性, 提高勘查效率。
以云南地区的红土型钴矿化露头处所采集的90个样品为研究对象, 测试了样品的VNIR-SWIR光谱, 依据对样品光谱的细致分析, 选择了敏感波段范围、 特征吸收峰以及敏感波段比值共同组成光谱组合参数, 并在此基础上进行参数寻优, 得到了最优的钴含量定量反演模型。 结论如下:
(1) 钴离子与620~810和2 260~2 360 nm之间的光谱存在密切联系, 可以依据VNIR-SWIR光谱构建钴含量定量反演模型。 VNIR-SWIR光谱测试非常方便且快捷, 在野外检查露头时, 仅需半分钟即可完成对样品的测试, 再用预训练的钴含量定量反演模型, 即可快速获得估算的钴含量, 为后续勘查工作提供数据支持。
(2) 最优钴含量定量反演模型的训练集的R2值为0.96, 验证集的R2为0.95, 模型准确性非常高, 没有过拟合现象; 而且验证集的RMSE为89.19, RPD为4.35, 误差非常小。 依据对样品光谱的分析, 选出敏感波段范围、 引入特征吸收峰光谱参数以及敏感波段比值等方法可以显著提高钴含量定量反演的准确性。 本研究中的特征筛选和特征增强方法, 提升模型准确性效果显著, 还可以应用于镍、 铬、 稀土等元素的定量反演模型中, 具有推广意义。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|