RF-CARS结合LIF光谱用于矿井涌水的预测评估
卞凯, 周孟然*, 胡锋, 来文豪, 闫鹏程, 宋红萍, 戴荣英, 胡天羽
安徽理工大学电气与信息工程学院, 安徽 淮南 232001
*通讯联系人 e-mail: mrzhou8521@163.com

作者简介: 卞 凯, 1992年生, 安徽理工大学电气与信息工程学院博士研究生 e-mail: kbian92@163.com

摘要

快速且准确识别矿井涌水水源对于防范煤矿水灾事故有着重大的研究意义。 利用激光诱导荧光(LIF)光谱融合智能分类算法进行矿井涌水水源识别打破了传统水化学方法耗时过长等不足, 具有灵敏度高、 响应速度快等特点; 然而目前这些已使用的算法仅能依靠分类准确率定性判别不同矿井涌水水样的种类。 把随机森林(RF)算法和竞争性自适应重加权(CARS)算法相结合, 基于激光诱导荧光的水样荧光光谱数据建立偏最小二乘回归(PLSR)模型来预测不同矿井涌水的含量, 实现水样的定量评估。 首先, 采集300组以老空水为基础混入不同含量砂岩水的矿井涌水样本, 将采集到的水样按4:1比例随机划分成校正集和预测集, 校正集共240组用于建立回归模型, 预测集共60组用于预测不同水样, 搭建激光诱导荧光涌水光谱系统完成光谱数据的获取并生成荧光光谱图。 然后分别通过S-G卷积平滑法和Lowess平滑法对原始荧光光谱进行去噪处理, 发现处理后的荧光光谱较原始光谱更为分散, 适合光谱分析, 对比了两种去噪方法的预测精度, 选择Lowess平滑法作为最终去噪方法。 接着采用RF算法约简去噪后属性重要度较低的光谱属性, 依据最优回归模型的性能选择约简出的223个属性再用于CARS算法的二次属性精简, 根据CARS算法采样过程中交叉验证均方根误差值最小原则选择出的77个属性光谱数据建立PLSR模型。 最后与全光谱、 其他变量选择方法、 不同回归模型相比, RF-CARS算法属性精简效果最好, 较全光谱建模, 属性由2 048个减少到77个, 模型预测集判定系数$R^{2}_{pre}$由0.991 4增长到0.996 7, 预测均方根误差RMSEP由0.029 4减少到0.018 3, 预测精度得到提升, 其余评估指标也相对较好。 实验结果表明, RF-CARS结合激光诱导荧光光谱可快速、 精准预测矿井涌水, 精简出的光谱属性用来建立回归模型, 为实现矿井涌水含量的实时定量评估提供了一定的理论保障。

关键词: 激光诱导荧光光谱; 回归模型; 随机森林; 竞争性自适应重加权; 矿井涌水
中图分类号:O657.3 文献标志码:A
RF-CARS Combined with LIF Spectroscopy for Prediction and Assessment of Mine Water Inflow
BIAN Kai, ZHOU Meng-ran*, HU Feng, LAI Wen-hao, YAN Peng-cheng, SONG Hong-ping, DAI Rong-ying, HU Tian-yu
College of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China
*Corresponding author
Abstract

Quick and accurate identification of mine water inflow has important research significance for preventing coal mine flood accidents, the laser-induced fluorescence (LIF) spectroscopyis used to integrate withthe intelligent classificationalgorithm to identify the mine water inflow, it breaks the shortcomings of traditional water chemistry methods, such as long time consuming, etc., and has the characteristics of high sensitivity and fast response. However, these currently used algorithms can only rely on the classification accuracy to qualitatively discriminate the types of water samples from different mine water inflow. This paper combines the random forest algorithm with the competitive adaptive weighting algorithm (RF-CARS), the partial least squares regression (PLSR) model based on fluorescencespectrum data from the laser-induced fluorescence was used to predict the water inflow in different mines and to achieve quantitative assessment of water samples. Firstly, 300 sets of mine water inflow samples mixed with different sandstone waters based on goaf water were collected, and the collected water samples were randomly divided into the calibration set and the prediction setaccording to the ratio of 4:1, a total of 240 sets of calibration sets were used to establish a regression model, a total of 60 sets of prediction sets were used to predict different water samples, and a laser-induced fluorescence inflow spectroscopy system was built to complete the acquisition of spectral data and generated a fluorescence spectrum. Then the original fluorescence spectrum was denoised by S-G convolution smoothing method and Lowess smoothing method, and it was found that the processed fluorescence spectrum was more dispersed than the original spectrum, which was suitable for spectral analysis, the prediction accuracy of two denoising methods were compared, the Lowess was chosen as the final denoising method. Then, the RF algorithm was used to reduce the spectral attributes with low attribute importance after denoising, according to the performance of the optimal regression model, the 223 reduced attributes were selected and then it was used for the secondary attribute reduction of the CARS algorithm. The PLSR model was established based on 77 spectral attribute data selected according to the principle of minimum cross validation root mean square error in the sampling process of CARS algorithm. Finally, we compared with the full spectrum, other variable selection methods, and different regression models, the RF-CARS algorithm had the best streamlining effect, and the total spectral modeling attribute was reduced from 2 048 to 77, the model prediction set determination coefficient $R^{2}_{pre}$ increased from 0.991 4 to 0.996 7, the predicted root mean square error RMSEP decreased from 0.029 4 to 0.018 3, the prediction accuracy was improved, and the remaining evaluation indicators were relatively good. The experimental results show that the RF-CARS combined with laser induced fluorescence technology can quickly and accurately predict mine water inflow, the simplified spectral attributes are used to establish regression model, which provides a theoretical guarantee for real-time quantitative evaluation of mine water inflow.

Keyword: Laser-induced fluorescence spectroscopy; Regression model; Random forest; Competitive adaptive reweighted sampling; Mine water inflow
引言

涌水灾害已成为煤矿五大灾害中影响矿井安全作业的第二大灾害[1]。 矿井涌水不仅需要现场早期预警, 还需要准确判断涌水水源的类型[2], 这有利于及时掌握涌水水害信息并采取必要的治理手段, 降低灾害所带来的伤亡事故率与重大经济损失。 煤矿井下涌水水源识别和研究的方法主要有离子浓度法、 同位素分析法、 微量元素法等[3], 这些方法虽然取得了一定的识别效果, 但存在分析时间长、 判别准确性不高、 操作过程复杂等特点[4], 难以根据其动态变化迅速提供可靠的信息, 限制了矿井涌水的实时在线分析, 达不到预警效果。

为了解决现有涌水水源识别方法的不足, 激光诱导荧光(laser-induced fluorescence, LIF)被用于矿井水害研究领域, 并结合机器学习和深度学习方法实现了矿井涌水水源类型的快速且准确识别, 取得了良好的鉴别效果; 如何晨阳[5]等采取主成分分析法将小波变换去噪的突水水样荧光光谱数据进行降维处理, 利用K最近邻算法进行水样的识别, 达到了极高的分类准确率。 Hu[6]等利用激光诱导荧光技术结合深度学习方法, 提出了一维卷积神经网络方法用于自动识别九种矿井突水水样, 在不进行复杂的预处理情况下实现了突水水样的快速、 精准识别。 然而目前这些利用激光诱导荧光对矿井涌水进行识别的机器学习和深度学习方法所建立的都只是分类识别模型, 只能定性的判别涌水的种类, 而不能预测和精准评估不同种类水样的含量以实现定量分析, 且各属性因素之间的相关程度未能进行有效分析, 部分训练模型和调参过程也较为复杂。

随机森林(random forest, RF)是一种不仅可用于分类结果分析, 还能根据属性重要度进行特征选择, 降低模型的复杂度的高效算法, 如文泽波等[7]利用RF特征选择算法提取出烟雾特征并结合支持向量机实现了视频烟雾的检测。 Brokamp[8]等使用RF模型对城市空气中的细颗粒物的浓度进行了预测。 Lefkovits[9]等提出了将RF特征选择算法应用于提升脑肿瘤图像分割的判别模型。 竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)是通过自适应重加权采样技术消去无用信息的一种变量选择方法, 能提升运算和建模效率, 如Li[10]等利用CARS结合偏最小二乘线性判别分析用于高果糖玉米糖浆和麦芽糖浆掺假蜂蜜的检测。 刘珊珊[11]等提出CARS用于激光诱导击穿光谱来确定猪饲料中铜元素的含量, Wang[12]等采用CARS方法结合近红外光谱技术对大豆秸秆的生物含量进行快速评价与分析。

偏最小二乘回归(partial least squareregression, PLSR)是一种新型多元统计回归分析算法, 可以解决多属性之间的高度相关性, 避免回归模型估计失真。 本文通过联合RF与CARS方法对荧光光谱属性进行精简, 利用精简后的光谱属性建立PLSR模型进行水样预测, 为矿井涌水激光诱导荧光光谱的预测定量评估提供理论依据。

1 实验部分
1.1 设备和仪器

用如图1所示的激光诱导荧光涌水光谱系统完成光谱数据的采集, 该系统主要由激光器、 光谱仪、 荧光探头、 光纤和上位机组成。 选用波长为405 nm的蓝紫光半导体激光器(北京华源拓达激光技术有限公司), 最大输出功率为120 mW, 光谱仪选用USB2000+微型光纤光谱仪(美国Ocean optics公司), 内含高灵敏度2 048像素的线性CCD阵列(型号ILX511, 日本索尼公司), 设定其光谱检测范围为340~1 021 nm, 分辨率为0.5 nm, 积分时间为1 s/1 000 nm, 浸入式微型荧光探头(型号FPB-405-V3, 广东科思凯公司)可插入待测水样获取荧光信号。 为了避免其他光源对荧光光谱获取的干扰, 测量在避光的暗室中进行, 测量将探头垂直浸入水样并确保探头侵入透明容器的高度始终保持一致。 使用计算机上的Spectra Suite软件进行记录收集所有样品的荧光光谱数据, 算法仿真则是在Matlab R2016b和Origin 2017环境下运行。

图1 激光诱导荧光涌水光谱系统Fig.1 Laser-induced fluorescence spectroscopy system for water inflow

1.2 材料和样本

矿井水害约80%是由老空水引起的, 老空水较其他涌水水源有着极强的破坏性, 砂岩水害有着持续时间长、 温度高等特点; 将老空水、 砂岩水、 老空水与砂岩水的混合水作为研究对象进行实验, 水样在2019年3月采集于安徽省淮南市顾桥煤矿。

由于老空水危害性之大, 其含量严重关系到水害的防治工作, 则以老空水为基础分别混入不同含量的砂岩水, 第一组水样为老空水含量占总量的0%(纯砂岩水), 第二组水样为老空水含量占总量的50%、 第三组水样为老空水含量占总量的67%、 第四组水样为老空水含量占总量的75%、 第五组水样为老空水含量占总量的80%、 第六组水样为老空水含量占总量的100%(纯老空水)。

将现场采集到的水样立即进行密封和遮光处理并带回实验室储存, 以保障实验所采集数据的真实性与可靠性, 每种水样各采集50组, 共300组光谱数据作为实验样本。

1.3 光谱的预处理

光谱数据在传输过程中会受到设备、 外界环境、 操作不当等因素的干扰而存在大量的噪声信号, 这些干扰信号与有用的光谱数据信息叠加在一起会严重影响实验结果[13], 为了避免噪声干扰, 需要对原始荧光光谱进行滤波去噪处理。 分别对原始光谱采用Savitzky-Golay卷积平滑法(Savitzky-Golay smoothing, S-G)、 局部加权回归散点平滑法(locally weighted scatterplot smoothing, Lowess)进行去噪处理, 根据选定回归模型的评估指标对比原始光谱和去噪后光谱的预测能力, 选择合适的去噪方法。

1.4 RF-CARS联合PLSR用于矿井涌水预测评估

随机森林是一种基于模型聚合思想用于解决分类和回归问题的算法, 由Breiman于2001年提出[14], 可以在不增加计算复杂度的情况下, 对变量有着较好的解释作用; RF算法进行属性约简主要是删去重要度较低的属性, 当加入随机噪声后, 袋外数据准确率无明显变化, 说明这个特征对于样本的预测结果影响不大, 进而说明重要程度较低, 需将其删去以保留重要度较高的属性。

RF算法递归属性约简的步骤如下:

(1)计算每个属性的重要度W, 并按重要度依次递减顺序降序排列

属性重要度

W=(Error2-Error1)/N(1)

式(1)中, N为随机森林树的棵树, Error2代表加入噪声干扰的属性袋外数据误差, Error1代表属性的袋外数据误差。

(2)剔除重要度最低的属性, 剩余的属性组成新的属性集合。

(3)利用新组成的属性集合构建回归预测模型;

(4)重复步骤(1)和(2), 比较每次递归所建PLSR模型的预测精度;

(5)选出预测精度最高, 评估指标最好的一组属性集合。

竞争性自适应重加权算法是基于达尔文自然选择方式提出的[15], 通过蒙特卡洛采样建立回归模型并计算变量回归系数的绝对值权重, 去掉权重小的波长点, 利用交互验证选出交叉验证均方根误差(root mean square error of cross validation, RMSECV)最小的子集, 可有效寻找出最优变量组合。

CARS算法进行属性精简的步骤如下:

(1)蒙特卡洛采样, 随机抽取一定比例样品作为校正集建立PLSR模型。

(2)计算变量回归系数的绝对值权重w, 评价属性的有用性

权重:w=|αi|/iq|αi|, i=1, 2, , q(2)

式(2)中, α i为第i个属性的重要度, q为属性个数。

(3)指数衰减函数用来去除贡献度α 较小的属性。

(4)采用ARS采样技术提取出新的属性集合X, 建立PLSR模型, 并计算RMSECV。

(5)n次采样后, 挑选出RMSECV最小的集合为最优属性子集。

最终采用判定系数R2、 残差平方和RSS、 校正均方根误差RMSEC、 预测均方根误差RMSEP、 平均绝对误差MAE作为根据PLSR建立回归模型的评估指标, 模型R2越高, RSS, RMSEC, RMSEP, MAE越小表明模型具有良好的预测精度和性能。

2 结果与讨论
2.1 原始光谱数据获取

利用激光诱导荧光涌水光谱系统采集光谱数据, 呈现出的水样原始荧光光谱如图2所示, 不同比例的老空水受激光照射时, 其中的荧光物质会吸收光能, 并释放能量产生荧光, 形成荧光光谱, 在400~600 nm之间出现峰值; 六组水样的光谱分布主要分为三个部分, 最上层是老空水光谱, 最下层是砂岩水光谱, 由于这两种水样的化学成分和荧光物质浓度不同, 导致其光谱形状与波峰数量有很大差异, 容易区分, 中间部分为老空水分别混入不同含量砂岩水的四组水样, 这四组水样化学成分接近, 所呈现的光谱难以进行准确的辨别, 因此, 需要借助机器学习回归算法对涌水样本进行精确分析。

图2 水样原始荧光光谱Fig.2 Original fluorescence spectra of water sample

2.2 光谱预处理

分别对原始光谱采用S-G卷积平滑和Lowess平滑方法进行去噪预处理, 都采用3个窗口进行平滑, 如图3所示。 较原始荧光光谱, 由于第四、 五两组水样老空水含量相近, 光谱依然存在部分重叠情况, 但其他重叠部分更为分散, 整体水样更容易区分, 说明经S-G卷积平滑和Lowess平滑去噪预处理后的涌水荧光光谱更适合光谱分析。

图3 预处理后的荧光光谱
(a): S-G卷积平滑; (b): Lowess平滑
Fig.3 Fluorescence spectra after pretreatment
(a): Savitzky-Golay smoothing; (b): Lowess smoothing

2.3 RF-CARS属性精简

原始荧光光谱数据共2 048个属性, 每个属性都含有不同光谱信息, 不同属性对于光谱分析的重要性程度存在明显差异, 非关键且重要度低的属性将会影响涌水水样回归模型的建立, 达不到较好的预测效果; 利用RF属性约简方法删除重要度低的属性, 提升建模的效率和预测能力。 随机将300组样本以4: 1的比例划分, 240组样本(每组40个样本)划分为校正集, 剩余的60组(每组10个样本)作为预测集, 先对原始光谱及两种去噪方法分别建立PLSR模型, 再用RF分别对其进行初次属性约简; 设置树的棵数ntress为200, 如表1所示, 经Lowess平滑法去噪后, 模型的预测效果最好, 且经过初次约简的属性整体重要性程度W较高且相对稳定, 最终选用Lowess平滑法去噪的光谱数据进行研究。

表1 不同去噪方法预测结果 Table 1 Prediction results of different denoising methods

属性初次约简的属性重要度分布情况如图4所示, 可以看出在2 048个属性中, 大部分属性(共1 662个)的重要度为0, 主要分布在波峰两侧平缓的光谱范围区间内, 这些属性对水样的预测结果没有任何影响, 属于非关键光谱数据信息, 可以将其删去, 其中部分属性由于平滑处理消除了干扰的噪声信号, 使其具有了重要度, 保留剩下的386个属性作为初次约简后的属性。

图4 属性重要度分布Fig.4 Distribution of attribute importance

利用RF算法继续对初次约简出的386个属性进行递归约简, 删去重要度为0的不相关属性, 根据PLSR建立回归模型, 递归循环16次的RF属性约简结果如表2所示, 随着递归次数不断增加, 关键属性个数逐渐递减且所对应的预测评估指标R2和RSS也在发生变化, 当递归次数达到6次时, 回归模型的R2达到最大, RSS达到最小, 预测效果最好, 之后关键属性个数和整体预测精度都逐渐趋于稳定, 则约简出的223个光谱属性作为RF算法的最终约简结果。

约简后的光谱属性数量明显减少, 模型预测精度得到提升, 为了达到精准评估的要求, 需进一步精简光谱属性, 将RF算法约简后的223个光谱属性采用CARS算法进行二次约简。

表2 RF属性约简结果 Table 2 Result of attribute reduction in RF

设定蒙特卡洛采样次数为200, 属性精简情况如图5所示, 图5(a)中表示属性精简过程中被选中属性的变化趋势, 随着采样次数的逐渐增加, 由于属性的粗选和精选过程, 被选属性的选择速度逐渐减小, 由图5(b)看出采样过程中, RMSECV值整体变化趋势是先减小后增大, 与矿井涌水预测评估无关的荧光光谱信息在RMSECV值减小过程中被剔除, 对照图5(c) , 当对应蓝色标注位置采样46次时, RMSECV值达到最小值0.021 1, 有用的光谱信息则在之后的采样过程中被消去而降低了模型的预测能力, CARS算法最终精简出了77个有用的光谱属性。

图5 CARS属性精简情况Fig.5 Attribute reduction results of CARS

2.4 PLSR模型验证

对RF-CARS算法精简出的77个光谱属性数据建立PLSR模型来最终预测评估不同含量的矿井涌水。 校正集、 预测集的预测结果分别为图6和图7所示, 可以看出校正集中老空水不同含量占比的预测值与真实值之间的判定系数 Rcal2为0.997 5, 预测集的预测值与真实值之间的判定系数 Rpre2为0.996 7, 均介于0.8~1.0之间, 呈极强正相关性, 模型预测性能优异, 且预测样本能够很好的拟合在回归直线上。

图6 校正集预测结果Fig.6 Prediction results of calibration set

图7 预测集预测结果Fig.7 Prediction results of prediction set

为了验证RF-CARS算法结合PLSR模型用于矿井涌水预测的评估效果与可靠性, 还需将与全属性分别使用PLSR和间隔偏最小二乘法(interval partial least squares, iPLS)建模, 精简后的属性采用PLSR、 支持向量回归(support vector regression, SVR)、 主成分回归(principle component regression, PCR)建模方法进行纵向和横向全面对比, 对比结果如表3所示, 全光谱属性先后经RF约简和RF-CARS精简后属性的PLSR模型预测结果皆好于全光谱属性, 属性个数分别减少至仅原来的10.89%和3.76%, 且较全属性和基于RF的PLSR模型, RF-CARS方法精简出属性建模的校正集判定系数 Rcal2、 预测集判定系数 Rpre2最高, 其他评估指标达到最低, 模型预测评估性能最好。 较全属性PLSR模型, iPLS建模属性个数减少至原来的8.4%, 仅校正集预测精度有所提升, 预测集预测精度基本不变, 较基于RF-CARS的PLSR模型, 虽然基于RF-CARS的SVR模型校正集达到了很高的预测精度, 但预测集预测精度较低, 采用PCR建模, 则校正集和预测集的预测精度都相对较低。

表3 预测结果对比 Table 3 Comparisons of predicted results
3 结论

提出了一种基于激光诱导荧光光谱结合RF-CARS属性精简方法对不同含量的矿井涌水进行预测评估, 通过Lowess平滑预处理能有效降低噪声影响, 经RF-CARS精简后的光谱属性建立PLSR模型的校正集判定系数 Rcal2为0.997 5, 预测集判定系数 Rpre2为0.996 7, 预测性能均高于全属性建立的PLSR模型, RMSEC和RMSEP分别为0.015 8和0.018 3, 模型预测误差很小, 同时与SVR和PCR模型及iPLS属性选择方法比较, RF-CARS算法的属性精简能力和模型性能要好于iPLS算法, 精简出的77个光谱属性仅占全属性的10.89%, 有效降低了模型的复杂程度, 减少了参数的繁琐调节过程, 增强了各光谱属性之间的联系, 避免无用属性对预测结果的干扰, 且精简后属性所建立的PLSR模型预测性能要好于SVR和PCR模型。 通过实验分析得出利用RF-CARS结合激光诱导荧光技术用于矿井涌水预测评估是切实可行的, 可做到矿井涌水含量的精准预测和定量分析。

参考文献
[1] WU Qiang, XU Hua, ZHAO Ying-wang, et al(武强, 徐华, 赵颖旺, ). Journal of China Coal Society(煤炭学报), 2018, 43(10): 5. [本文引用:1]
[2] ZHANG Hao, YAO Duo-shan, LU Hai-feng, et al(张好, 姚多喜, 鲁海峰, ). Geological Journal of China Universities(高校地质学报), 2017, 23(2): 366. [本文引用:1]
[3] LIU Guo-wang, CHANG Hao-yu, GUO Jun-zhong(刘国旺, 常浩宇, 郭均中). Coal Science and Technology(煤炭科学技术), 2017, 45(8): 223. [本文引用:1]
[4] Hu F, Zhou M, Yan P, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 219: 367. [本文引用:1]
[5] HE Chen-yang, ZHOU Meng-ran, YAN Peng-cheng(何晨阳, 周孟然, 闫鹏程). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(7): 2234. [本文引用:1]
[6] Hu F, Zhou M, Yan P, et al. RSC Advances, 2019, 9(14): 7673. [本文引用:1]
[7] WEN Ze-bo, KANG Yu, CAO Yang, et al(文泽波, 康宇, 曹洋, ). Journal of University of Science and Technology of China(中国科技大学学报), 2017, 47(8): 653. [本文引用:1]
[8] Brokamp C, Jand arov R, Hossain M, et al. Environmental Science & Technology, 2018, 52(7): 181. [本文引用:1]
[9] Lefkovits László, Lefkovits Szidónia, Emerich S, et al. Proc. SPIE, 2017, 10341: 1034117. [本文引用:1]
[10] Li S, Zhang X, Shan Y, et al. Food Chemistry, 2017, 218: 231. [本文引用:1]
[11] LIU Shan-shan, ZHANG Jun, LIN Si-han, et al(刘珊珊, 张俊, 林思寒, ). Laser & Optoelectronics Progress(激光与光电子学进展), 2018, (2): 463. [本文引用:1]
[12] Wang Y, Jiang F, Gupta B B, et al. IEEE Access, 2018, 6: 5290. [本文引用:1]
[13] LIU Wen-xia(刘文霞). Computer Simulation(计算机仿真), 2016, 33(5): 192. [本文引用:1]
[14] Matin S S, Hower J C, Farahzadi L, et al. International Journal of Mineral Processing, 2016, 155: 140. [本文引用:1]
[15] Chen W, Zou J, Wan F, et al. AIP Advances, 2018, 8(3): 035204(doi: 10.1063/1.5012685). [本文引用:1]