砂岩的近红外光谱特征及其含水量反演
王东升1, 王海龙1,2, 张芳1,3,*, 韩林芳1,3, 李运1
1.中国矿业大学(北京)力学与建筑工程学院, 北京 100083
2.河北省土木工程诊断、 改造与抗灾重点实验室, 河北 张家口 075000
3.中国矿业大学(北京)深部岩土力学与地下工程国家重点实验室, 北京 100083
*通讯作者 e-mail: zhangf76@126.com

作者简介: 王东升, 1992年生, 中国矿业大学(北京)力学与建筑工程学院博士研究生 e-mail: wds0301@outlook.com

摘要

沉积岩石的强度往往会受到水的影响, 含水量不同其影响程度也不相同。 因此, 沉积岩石的含水量测定对于后续评估其物理力学特性具有重要的价值。 在岩石含水量测定方面, 传统的方法往往费时、 费力, 而且破坏了工程结构的完整性。 近红外光谱分析技术是一种非常有潜力的方法, 具有实时、 无损等优点。 基于近红外光谱分析技术对砂岩的光谱特征以及含水量的反演进行了研究。 首先, 通过室内试验获取了砂岩试样不同饱和度的近红外光谱曲线; 然后, 对原始光谱曲线进行了异常曲线剔除以及一阶导数预处理, 消除噪声、 环境等因素的影响; 其次, 对R1(1 400 nm)和R2(1 900 nm)附近的两个吸收峰进行光谱特征变量提取以及归一化处理, 消除量纲和域值的影响; 接着, 基于最大信息系数对提取的光谱特征变量进行分析和筛选; 最后, 基于筛选后的光谱特征变量采用自行搭建的BP神经网分类器对砂岩的含水量进行了反演。 结果表明: (1)含水砂岩的近红外光谱吸收曲线在1 400和1 900 nm附近有着明显的吸收峰, 位于1 400 nm附近的吸收峰, 谱带比较宽缓, 位于1 900 nm附近的吸收峰, 谱带比较尖锐; 随着含水量的增加, 近红外光谱曲线在1 400和1 900 nm附近吸收峰的吸收强度也在增加, 具有明显的正相关性, 可作为砂岩含水量分析、 反演的主要谱段。 (2)根据计算的最大信息系数值, 1 400 nm附近的峰高与含水量的相关性最强, 同样1 900 nm附近的峰高与含水量的相关性最强; 1 400 nm附近的峰面积、 峰高和1 900 nm附近的峰高、 峰面积、 半高宽、 右肩宽, 共6个光谱特征变量, 其最大信息系数值>0.9, 可作为BP神经网络反演砂岩含水量的特征变量。 (3)利用最大信息系数筛选出1 400和1 900 nm附近两个吸收峰的特征变量进行BP神经网络建模, 所建立的砂岩含水量反演模型训练集准确率为90.3%, 测试集的准确率为83.9%, 说明基于近红外光谱分析技术砂石含水量的反演方法是可行的。

关键词: 岩石; 含水量; 近红外光谱; 光谱特征; 人工神经网络
中图分类号:O657.3 文献标志码:A
Near-Infrared Spectral Characteristics of Sandstone and Inversion of Water Content
WANG Dong-sheng1, WANG Hai-long1,2, ZHANG Fang1,3,*, HAN Lin-fang1,3, LI Yun1
1. School of Mechanics and Civil Engineering, China University of Mining & Technology, Beijing 100083, China
2. Hebei Key Laboratory of Diagnosis, Reconstruction and Anti-Disaster of Civil Engineering, Zhangjiakou 075000, China
3. State Key Laboratory for Geomechanics & Deep Underground Engineering, China University of Mining & Technology, Beijing 100083, China
*Corresponding author
Abstract

The strength of sedimentary rocks is often affected by water, and the influence degree is different with different water content. Therefore, the measurement of the water content of the rock has important value for the subsequent evaluation of its physical and mechanical properties. In measuring rock water content, traditional methods are often time-consuming and laborious, destroying the integrity of the structure. At present, near-infrared spectroscopy is a very potential method, with real-time and nondestructive advantages. In this paper, sandstone's spectral characteristics and the water content prediction are studied based on near infrared spectroscopy. Firstly, near-infrared spectrum curves of sandstone samples with different saturations were obtained through laboratory tests. Secondly, the first derivative of the original spectral curve is preprocessed to eliminate the influence of noise, environment, and other factors. Thirdly, the spectral characteristic variables of R1 (1 400 nm) and R2 (1 900 nm) were extracted and normalized to eliminate the influence of dimension and domain value. Fourthly, the extracted spectral characteristic variables are analyzed and screened based on the maximum information coefficient; Finally, the self-built BP neural network classifier is used to predict the water content of sandstone. The conclusions are as follows: (1) The near-infrared absorption curve of water-bearing sandstone has obvious absorption peaks near 1 400 and 1 900 nm, the absorption peak is near 1400 nm, the band is relatively broad, the absorption peak is near 1 900 nm, and the band is relatively sharp. As the water content increases, the absorption intensity of each absorption peak is also increasing, which has an obvious correlation and can be used as the main spectrum band for sandstone water content analysis and prediction. (2) According to the calculated maximum information coefficient value, the peak height near 1 400 nm has the strongest correlation with water content, and the peak height near 1900 nm has the strongest correlation with water content. Peak area and peak height near 1 400 nm, peak area, peak height, half-height width, and right shoulder width near 1 900 nm are 6 characteristic variables. The maximal information coefficient value is greater than 0.9, which can be used as characteristic variable for BP neural network to predict sandstone water content. (3) Using the maximum information coefficient to screen out the characteristic variables of the two absorption peaks at 1 400 and 1 900 nm for BP neural network modeling, the accuracy of the training set of the sandstone water content prediction model established by it was 90.3%, and the accuracy of the test set was 83.9%. The method based on near-infrared spectroscopy analysis technology to predict the water content of sand and gravel is feasible.

Keyword: Rock; Water content; Near-infrared spectroscopy; Spectral characteristics; Artificial neural network
引言

水的存在使岩石的强度特性发生了改变, 含水量不同其影响程度也不相同。 在边坡、 地下工程和文物保护领域中, 许多灾变和病害都是由水导致岩石强度减弱而诱发的[1, 2]。 因此, 岩石中含水量的测定对于评估岩石的物理力学特性以及工程结构的稳定性具有重要的意义。

传统的岩石含水量测定方法需要现场原位取样, 破坏了工程结构的完整性, 尤其是在文物保护领域。 近红外光谱分析技术(near infrared spectroscopy, NIRS)测定岩石中的含水量是近些年研究的新思路, 通过测定含水岩石中OH基团的光谱吸收强度, 建立含水量与近红外光谱特征之间的相关关系, 从而实现含水量测定的目的, 与传统方法相比具有实时、 无损的优点[3]。 本文基于近红外光谱分析技术对砂岩的光谱特征以及其含水量反演的可行性进行了研究。 首先, 通过室内试验获取砂岩试样不同饱和度的近红外光谱曲线; 其次, 基于最大信息系数(maximal information coefficient, MIC)对试样的近红外光谱特征进行了分析和筛选; 最后, 采用搭建的BP神经网分类器对岩石的含水量进行了反演。

1 实验部分
1.1 光谱曲线采集

砂岩试样取自中国陕西省榆林市神木县柠条塔煤矿, 经加工后制作成标准试样, 试样及监测点位置见图1。 数据采集系统采用瑞士万通的XDS Smart Probe近红外光谱分析仪, 见图2。 该仪器采集光谱范围为400~2 500 nm, 数据采样间隔为0.5 nm, 采用漫反射方式采集砂岩试样的光谱信号。 试验中砂岩试样不同饱和度的近红外光谱曲线采集步骤如下[4]:

图1 岩样及其测试点位置(红点)Fig.1 Rock sample and its test point location (red dot)

图2 XDS Smart Probe近红外光谱分析仪Fig.2 XDS Smart Probe near infrared spectrum analyzer

(1)将砂岩试样放入干燥箱中干燥24 h, 待冷却至室温后取出并称重, 测量饱和度为0%的近红外光谱曲线;

(2)将砂岩试样放入恒温水箱中煮沸8 h, 待冷却至室温后取出擦去表面自由水分, 测量饱和度为100%的近红外光谱曲线;

(3)将饱和度为100%的砂岩试样放到天平上进行蒸发试验, 观察含水量的变化, 当达到理论计算饱和度时(99%, 98%, 97%, …, 1%), 放入密封袋中待其内部含水分布均匀后测量其近红外光谱曲线;

(4)重复步骤(3)即可采集到砂岩不同饱和度的近红外光谱曲线。

试验过程中为了保证采集到的近红外光谱曲线能够较准确的包含砂岩含水饱和度的信息, 测点选取位置为试样中部并将光纤探头垂直接触试样表面。 每块试样采集的饱和度位于0~100%之间, 整个试验共采集到120条近红外光谱曲线。

1.2 近红外光谱预处理

近红外光谱仪在采集光谱数据的时候受机器、 试样以及外界的干扰会存在各种噪声, 比如高频随机噪声、 基线漂移和光散射等[5, 6]。 因此, 想要通过近红外光谱曲线特征准确的分析试样的物质成分, 光谱的预处理显得格外重要。 首先, 利用马氏距离法剔除试验中采集到的异常光谱曲线[7];

其次, 对剔除后剩余的光谱曲线进行一阶导数预处理, 消除仪器背景或漂移对信号的影响, 提高光谱信号的分辨率和灵敏度[8, 9]。 图3(a)是砂岩的原始近红外光谱曲线, 图3(b)是一阶导数预处理后的近红外光谱曲线, 受篇幅的影响只展示了部分原始和一阶导数预处理后的近红外光谱曲线。

图3 不同饱和度砂岩近红外光谱
(a): 原始光谱; (b): 一阶导数预处理后光谱
Fig.3 Near-infrared spectra of sandstone with different degrees of saturation
(a): Original spectra; (b): First derivative pre-processed spectra

含水砂岩在400~2 500 nm波长范围内最主要有2个明显的吸收峰, 1 400 nm处OH和· nH2O的倍频、 合频, 以及1 900 nm处H2O的振动谱带, 依次将这2个吸收峰命名为R1和R2。 结晶水吸收峰位于1 400 nm附近, 谱带比较宽缓; 吸附水的吸收峰位于1 900 nm附近, 谱带比较尖锐。 在砂岩的原始光谱曲线中, 两个吸收峰R1和R2随着含水量的增加, 整体吸收强度也在增加, 具有明显的正相关性; 砂岩饱和度在30%~40%附近原始光谱曲线发生了整体跳跃, 其可能是砂岩内部水的赋存状态发生了改变。

2 结果与讨论
2.1 光谱特征变量提取及归一化处理

原始光谱曲线经过一阶导数去燥处理后提取其光谱初始特征, 其初始特征变量提取见图4, 分别为: 峰高(height)、 峰面积(area)、 左肩宽(left half width)、 右肩宽(right half width)、 半高宽(full width at half maxium), 共计5个初始特征参数, 分别用首字母H, A, L, RF表示。 各个初始特征变量之间存在量纲和阈值的差异, 可能导致在后续的分析计算过程中, 一些数量级较小的特征变量所占的权重较小其作用无法体现。 因此, 对提取的初始特征参数进行归一化处理, 消除量纲和域值差异带来的影响。 归一化的方法是将原始数据各元素值减去数据集的最小值后再除以该数据集的极差, 见式(1)

x'ij=xij-min(xj)max(xj)-min(xj)(1)

图4 近红外光谱特征变量的示意图Fig.4 Schematic diagram of characteristic variables of near infrared spectrum

受篇幅的限制, 只展示了部分饱和度砂岩试样的归一化结果, 见表1

表1 归一化后特征变量 Table 1 Normalized characteristic variable
2.2 基于MIC光谱特征分析

模式识别系统中相关性弱的特征会影响分类的准确性, 因而特征选择就显得尤为重要。 特征选择是从系统中挑选出一些相关性强的特征并降低特征空间维数的过程, 其选择结果的好坏将直接影响着模式识别中分类器的分类精度和泛化性能[10, 11]。 利用MIC进行光谱特征分析和筛选, 其具体计算过程如式(2)和式(3)

$\begin{matrix} & {{I}_{\text{max}}}\left( C,\text{ }\!\!~\!\!\text{ }f,{{x}_{i}},{{y}_{i}} \right)=\text{max}I\left( \left( C,\text{ }\!\!~\!\!\text{ }f \right){{|}_{G{{x}_{i}},{{y}_{i}}\left( j \right)}} \right), \\ & j=1,\text{ }\!\!~\!\!\text{ }2,\text{ }\!\!~\!\!\text{ }\ldots ,\text{ }\!\!~\!\!\text{ }n \\ \end{matrix}$ (2)

$\text{MIC}=\text{max}\left\{ \frac{{{I}_{\text{max}}}\left( C,\text{ }\!\!~\!\!\text{ }f,{{x}_{i}},{{y}_{i}} \right)}{\text{logmin}\left( {{x}_{i}},{{y}_{i}} \right)} \right\}$(3)

首先, 计算最大信息值Imax, 见式(2), 然后, 计算最大信息系数, 见式(3)。 xi为行数, yi为列数, xi, yi< B(n), B(n)为网格分割细度。 Gxi, yi(j)为含水量C和特征参数f的散点网格, j表示在确定行数xi和列数yi情况下的划分种类, 其结果见表2

表2 饱和度与光谱特征的MIC值 Table 2 MIC value caclulated to get the correlation degree between saturation and spectral characteristics

根据表2所计算的MIC值可知, R1峰(1400 nm)中饱和度与特征变量的相关性为: H> A> F> L> R; 其中A, H与饱和度S的相关性较高, 分别为0.946 0和0.980 4, 而F, L, R与饱和度S的相关性较低, 分别为0.642 3, 0.619 4和0.456 5。 R2峰(1 900 nm)中饱和度与特征变量的相关性为: H> A> R> F> L; 其中A, H, F, R与饱和度S的相关性较高, 分别为0.960 2, 0.980 4, 0.906 6和0.952 5, 而L与饱和度S的相关性较低, 为0.620 3。 整体上来看, 峰R2与砂岩饱和度的相关性大于峰R1, 是含水量反演的主要吸收峰; 分析原因可能是峰R1是结晶水的吸收峰, 在饱和度较低的情况下具有较好的相关性, 而在整个饱和度区间, 其与水的相关性就大大减弱。 由于R1峰的A, H和R2峰的A, H, F, R六个特征与岩石含水量的MIC值大于0.9, 具有较强的相关性, 本文将其作为砂岩含水量识别的特征变量。

2.3 基于BP神经网络砂岩含水量的分级识别

为了量化砂岩的含水量, 将砂岩的含水量分为5个等级, 即0~20%, 21%~40%, 41%~60%, 61%~80%, 81%~100%, 并采用自主搭建的BP神经网络进行砂岩含水量的识别。 整个数据集共采集到120条近红外光谱曲线, 经过筛选后剩余102条, 将其按7∶ 3的比例随机分为训练集(71条)和测试集(31条)。

BP神经网络是一种按照误差反向传播算法训练的多层前馈神经网络, 一般由输入层、 隐含层、 输出层组成。 该网络结构可以很好地将多个特征变量组合起来, 自动增强相关性强的特征变量权重, 降低相关性弱的特征变量权重。 目前, 理论上已经表明单隐含层的BP神经网络可以拟合出任意的非线性函数, 而且在实际的应用中单隐含层的BP神经网络已经可以满足工程上精度的需求。

基于近红外光谱砂岩含水量反演的数学思想是综合多个光谱特征变量信息, 突出相关性强的变量权重。 BP神经网络采用单隐含层, 由于基于MIC值筛选后的光谱特征变量共6个, 所以输入层神经元个数6(R1-H, R1-A, R2-H, R2-A, R2-F, R2-R); 隐含层神经元个数经过计算后最优个数为10, 参见表3; 由于含水量共分为5个等级, 所以输出层神经元个数为5。

表3 隐含层不同神经元个数训练结果 Table 3 Training results of different number of neurons in hidden layer

将训练集数据输入到BP神经网络模型中进行训练, 训练完成后输入测试集数据进行测试, 训练和测试结果见表4。 训练集准确率为90.3%, 测试集的准确率为83.9%, 反演效果整体较好, 说明基于近红外光谱砂岩含水量反演是可行的。

表4 识别结果 Table 4 Identification results
3 结论

基于近红外光谱分析技术对砂岩的光谱特征以及其含水量反演的可行性进行了研究。 首先, 通过室内试验获取不同饱和度的砂岩试样近红外光谱曲线; 其次, 基于MIC对试样的近红外光谱特征进行了分析和筛选; 最后, 采用搭建的BP神经网分类器对砂岩的含水量进行了反演。 其具体结论如下:

(1)含水砂岩的近红外光谱在1 400和1 900 nm附近有明显的吸收峰, 随着含水量增加, 吸收强度也在增加, 两者有明显的相关性。 吸收峰位于1 400 nm附近, 谱带比较宽缓, 吸附水的吸收峰在1 900 nm附近, 谱带比较尖锐。

(2)根据计算的MIC值, 1 400 nm附近的峰高与含水量的相关性最强, 1 900 nm附近的峰高与含水量的相关性也最强; 1 400 nm附近的峰面积、 峰高, 1 900 nm附近的峰面积、 峰高、 半高宽、 右肩宽共6个特征变量其MIC值> 0.9, 可作为BP神经网络反演砂岩含水量的特征变量。

(3)利用MIC值筛选出1 400和1 900 nm两个吸收峰的特征变量进行BP神经网络建模, 其所建立的砂岩含水量反演模型训练集准确率为90.3%, 测试集的准确率为83.9%, 说明基于近红外光谱分析技术砂石含水量反演的方法是可行的。

参考文献
[1] YANG Xiao-jie, WANG Jia-min, ZHANG Min, et al(杨晓杰, 王嘉敏, 张民, ). Journal of Mining Science and Technology(矿业科学学报), 2017, 2(5): 432. [本文引用:1]
[2] WU Bao-yang, LIU Kang, GUO Dong-ming(吴宝杨, 刘康, 郭东明). Journal of Mining Science and Technology(矿业科学学报), 2020, 5(6): 632. [本文引用:1]
[3] ZHANG Fang, ZHANG Xiu-lian, ZHOU Nuan, et al(张芳, 张秀莲, 周暖, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(7): 2028. [本文引用:1]
[4] Zhang F, Zhang X L, Hu C, et al. Geotechnical Testing Journal, 2021, 44(3): 564. [本文引用:1]
[5] WANG Tao, BAI Tie-cheng, ZHU Cai-die, et al(王涛, 白铁成, 朱彩蝶, ). Journal of Northwest Forestry University(西北林学院学报), 2020, 35(5): 173. [本文引用:1]
[6] LI Shang-ke, LI Pao, DU Guo-rong, et al(李尚科, 李跑, 杜国荣, ). Journal of Food Safety & Quality(食品安全质量检测学报), 2019, 10(24): 8204. [本文引用:1]
[7] XIE Yue, ZHOU Cheng, TU Cong, et al(谢越, 周成, 涂从, ). Chinese Journal of Analytical Chemistry(分析化学), 2017, 45(3): 363. [本文引用:1]
[8] TIAN Jing, LI Qiao-ling(田晶, 李巧玲). Food Science(食品科学), 2018, 39(2): 293. [本文引用:1]
[9] Obregon-Cano S, Moreno-Rojas R, Jurado-Millan A M, et al. Foods, 2019, 8(9): 364. [本文引用:1]
[10] ZHANG Mu-xing, SHEN Xiao-hong, HE Lei, et al(张牧行, 申晓红, 何磊, ). Journal of Northwestern Polytechnical University(西北工业大学学报), 2020, 38(3): 471. [本文引用:1]
[11] SUN Guang-lu, SONG Zhi-chao, LIU Jin-lai, et al(孙广路, 宋智超, 刘金来, ). Acta Automatica Sinica(自动化学报), 2017, 43(5): 795. [本文引用:1]