基于iPLS的矿井突水激光诱导荧光光谱特征波段筛选
周孟然, 卞凯*, 胡锋, 来文豪, 闫鹏程
安徽理工大学电气与信息工程学院, 安徽 淮南 232001
*通讯联系人 e-mail: kbian92@163.com

作者简介: 周孟然, 1965年生, 安徽理工大学电气与信息工程学院教授 e-mail: mrzhou8521@163.com

摘要

矿井突水一直威胁着煤矿井下施工人员的生命安全, 准确且快速识别矿井突水水源类型对于矿井的安全生产起到关键性作用。 激光诱导荧光(LIF)光谱技术识别矿井突水水源, 有效避免了常规的水化学法需要测定多种化学参数, 水源识别时间过长的缺点。 提出一种间隔偏最小二乘法(iPLS)与粒子群联合支持向量分类算法(PSO-SVC)相结合的方法, iPLS算法常应用于光谱波段优选和模型的回归分析, PSO-SVC则在机器学习领域有着重要的应用, 激光诱导荧光技术具有快速的时间响应、 测量精度高等特点, iPLS和PSO-SVC算法运用于光谱图和光谱数据的分析, 进而可以对突水水源类型识别分类。 首先, 用淮南矿区采集到的7种(每种水样30组)共210组荧光光谱数据进行实验, 对老空水、 灰岩水、 灰岩水和老空水不同体积比混合水样的激光诱导荧光光谱图的差异性进行分析。 比较了留出法和Kennard-Stone样本划分方法所得到的PSO-SVC模型分类准确率, 采用留出法得到的训练集水样(140组)和测试集水样(70组)作为实验样本。 其次, 用iPLS算法将全光谱波段依次按10~25波段区间进行等分, 选取划分区间的RMSECV(交叉验证均方根误差)值小于全光谱波段RMSECV值(阈值)的波段作为特征波段, 结合光谱图对比分析了划分10和14个子区间的建模结果, 发现通过直接观察得到的特征波段与iPLS算法筛选出的特征波段存在误差。 最后, 在不进行去噪、 降维等预处理条件下, 根据iPLS划分不同区间数的评价指标统计数据, 选取划分11个区间所筛选出具有561个波长点的410.078~478.424和545.078~674.104 nm特征波段范围数据作为PSO-SVC模型的输入, 以iPLS结合PSO-SVC算法筛选出的特征波段与全光谱波段、 直接观察得到波段建模准确率相比, 训练集与测试集的分类准确率高达100%, PSO寻优到的最佳惩罚系数 c为1.367 0, 核函数参数 g为0.576 2。 从实验结果可以看出, 利用iPLS进行荧光光谱的特征波段筛选是切实可行的, 提取出的特征波段能充分反映出全光谱波段的有效信息, 为激光诱导荧光光谱技术用于矿井突水水源精准在线识别的研究提供了理论依据。

关键词: 矿井突水; 激光诱导荧光; 间隔偏最小二乘法; 特征波段; 支持向量分类
中图分类号:O657.3 文献标志码:A
Selection of Characteristic Wave Bands for Laser Induced Fluorescence Spectra of Mine Water Inrush Based on IPLS
ZHOU Meng-ran, BIAN Kai*, HU Feng, LAI Wen-hao, YAN Peng-cheng
College of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China
Abstract

Mine water inrush has been threatening the safety of underground construction personnel, so an accurate and rapid identification of mine water inrush source plays a key role in the safe production of the mine. Identification of mine water inrush source by laser induced fluorescence spectroscopy effectively avoids the shortcomings of conventional hydrochemical methods which need to determine a variety of chemical parameters and the identification time is too long. In this paper, a method of interval PLS (iPLS) and particle swarm optimization combined with support vector classification algorithm (PSO-SVC) is proposed. The iPLS algorithm is often used in spectral bands optimization and regression analysis of models, and the PSO-SVC is an important application in the field of machine learning. The laser induced fluorescence spectroscopy (LIF) technology has the characteristics of fast time response and high measurement accuracy, and the iPLS and PSO-SVC algorithms are applied to the analysis of spectral maps and spectral data, and then it can identify and classify water inrush sources. Firstly, The 210 sets of fluorescence spectrum data of 7 kinds (30 groups of each water sample) collected from Huainan mining area were used for experiment, and differences of laser-induced fluorescence spectra of mixed water samples with different volumetric ratios of old-kiln water, limestone water, limestone water and air water were analyzed. The classification accuracy of PSO-SVC model obtained by hold-out and Kennard-Stone partitioning was compared, and the training set water samples (140 groups) and test set water samples (70 groups) obtained by hold-out were used as experimental samples. Secondly, the full spectrum bands were divided into 10~25 bands by using the iPLS algorithm, and the band whose RMSECV(cross validation root mean square error) value is less than RMSECV value(threshold) of full spectrum bands was selected as the characteristic wave bands, and the results of modeling with 10 and 14 sub intervals were compared with spectrogram. It is found that there were errors in the characteristic bands selected by direct observation and the iPLS algorithm. Finally, under the condition of no pretreatment such as denoising and dimension reduction, the statistical data of evaluating indexes for dividing different interval numbers according to iPLS were obtained, and the data of 410.078~478.424 and 545.078~674.104 nm characteristic wave bands with 561 wavelength points selected from 11 regions were used as the input of PSO-SVC model. we compared with full spectrum bands and direct observation bands, and the classification accuracy of the training set and the test set was as high as 100%. The optimal penalty coefficient C of PSO is 1.367, and the kernel function parameter g is 0.576 2. It can be seen from the experimental results that it is feasible to select the characteristic wave bands of the fluorescence spectrum by using iPLS, and the extracted characteristic wave bands can fully reflect the effective information of the full spectrum bands, and it provides a theoretical basis for the application of laser induced fluorescence spectroscopy in the accurate on-line identification of mine water inrush source.

Keyword: Mine water inrush; Laserinduced fluorescence; Interval PLS; Characteristic wave bands; Support vector classification
引 言

矿井突水是一种重大的煤矿灾害, 不仅会导人员伤亡, 还会带来巨大的经济损失[1], 随着煤矿开采深度的不断增加, 矿井突水问题变得日益严重[2]。 怎样才能在第一时间查明矿井突水的形成原因, 并且安全、 准确地获取突水水源类型, 已经成为了突水治理问题的关键所在。 煤矿突水水源识别常用水化学方法进行分析, 通过测定出pH值、 电导率、 离子浓度等参数, 最后根据这些参数建立水源识别模型, 识别出不同的突水水源类型[3]。 一般来说, 在实验过程中, 通过水化学分析法测定水样中的各个参数需要较长的时间(1~2 h), 这样很难搭建在线预警和快速突水水源识别系统, 不利于水害防治。 激光诱导荧光光谱技术具有较高的空间分辨能力、 快速的时间响应、 测量精度高和一定的抗干扰能力等优点, 在生物、 医学、 环境等领域都有着广泛的应用[4]。 对于煤矿突水水源识别, 激光诱导荧光光谱分析技术在最近几年已经应用于此领域, 并且取得了一定的成效。 如闫鹏程等通过不同的降噪预处理后的LIF技术光谱数据采用主成分分析法建模, 使用独立软模式算法对煤矿突水水源进行精准识别。 王亚等[5]将水样荧光光谱通过正则化非线性特征提取后, 采用极限学习机算法建立多分类模型, 实现了突水水源的稳定识别。 现有的煤矿突水水样荧光光谱分析方法, 如降维结合模式识别、 模糊C均值聚类算法(fuzzy C-means algorithm, FCM)、 卷积神经网络(convolutional neural networks, CNN)等都需要全波段光谱数据, 此外, 依靠主观经验观察筛选波段的定性分析存在一定的误差, 没有绝对的说服力, 主成分分析等一些特征提取降维方法所提取的主成分并没有实际的物理意义和对输出变量的解释能力。

iPLS算法是一种光谱特征波段筛选的方法, 它能够减少全光谱波段冗余数据量, 提高建模效率, 消除直接观察进行波段截取的误差。 iPLS已被广泛应用于近红外光谱、 紫外光谱、 拉曼光谱等特征波长选择, 如郭慧娴[6]将iPLS和SiPLS算法相结合对人体血清胆红素的近红外光谱数据建模, 分析了样品的含量。 杨鹏程[7]提出利用iPLS和紫外光谱法, 实现了海水硝酸盐最佳建模波长的选取。 赵芳[8]利用iPLS结合拉曼光谱对猪肉皮下脂肪的碘值进行了测定。 Giraudo[9]运用了间隔偏最小二乘判别分析法与RGB图像结合, 自动识别出榛子仁的缺陷。

PSO-SVC是一种分类优化算法, 有研究提出了一种粒子群寻优支持向量机参数的改进算法, 提升了高光谱图像的分类精度。 PSO-SVC优化模型具有更优的分类性能与泛化能力, 适合突水水源识别模型的建立与研究, 本文所采用的iPLS算法是直观地对激光诱导荧光光谱波段进行筛选的定量分析, 结合PSO-SVC算法, 免去了去噪、 降维的过程, 探究了iPLS筛选矿井突水水源激光诱导荧光光谱特征波段的可行性。

1 原 理
1.1 iPLS算法

间隔偏最小二乘法(interval PLS, iPLS)是由Norgaard等提出的波段区间选择方法。 iPLS算法主要将数据集分成若干个同等宽度间隔, 计算每个子区间的PLS模型评价指标, 并根据RMSECV(交叉验证均方根误差)值优选出建模效果比较好的一个或多个波段。 iPLS能够在光谱图上直接对各波段光谱的仿真柱状图参数统计信息进行对比分析, 通过直接观察与简单的计算就可以确定对应不同的波段范围和波长点数, 物理意义清晰明确[10]

iPLS对于预测性能进行比较主要基于参数RMSECV, 其次, 还评估了其他参数, 如相关系数r、 偏移量Bias, 以确保全面的模型概述。 RMSECV, r和Bias可以用式(1)— 式(3)来计算

Bias=yp-yq(3)

式中, yp为实验的预测值, yq为实验的测量值, ya为实验的所有样本值, n是训练集样本数, m是测试集样本数, RMSECV由交叉验证的样本中计算出。

1.2 PSO-SVC算法

支持向量分类算法(support vector classification, SVC)是一种SVM用来做分类的算法[12], 粒子群算法(particle swarm optimization, PSO)是仿效鸟类捕食行为的一种并行优化的启发式算法[13]。 在SVC训练过程中, 选用高斯(RBF)函数作为SVC的核函数, SVC模型性能受惩罚系数c和核函数参数g影响, 通过PSO算法对SVC进行参数寻优, 寻找到最佳的分类参数cg, 从而获得良好的性能模型。

PSO优化SVC模型的步骤如下:

(1)选择SVC模型的训练集和测试集, 设定cg的搜索区间;

(2)确定目标函数, 初始化种群X=(X1, X2, …, Xn)和速度v=(v1, v2, …, vn), 找到解集的方位;

(3)计算适应度函数, 给适应度定标准, 变更个体的速度v, 找到最佳适应度所在方位;

(4)若满足终止条件, 则执行步骤(5), 否则继续进行步骤(3);

(5)确定并输出最优解best c, best g;

(6)利用最优解c, g, SVC分类模型进行分类识别。

2 实验部分
2.1 材料

煤矿突水事故中, 老空水具有速度快, 破坏能力强, 静态含量多等特点, 危害性要高于其他突水水源, 淮南矿区的水文地质特点鲜明, 突水灾害治理的对象主要是灰岩水。 本实验以灰岩水、 老空水、 一定体积比例的灰岩水与老空水所组成的混合水为实验对象。 实验材料采用2018年4月13日在安徽省淮南矿区采集到的灰岩水、 灰岩水和老空水按体积比为1:3的混合水(简称“ 混合水1” )、 灰岩水和老空水按体积比为1:2的混合水(简称“ 混合水2” )、 灰岩水和老空水按体积比为1:1的混合水(简称“ 混合水3” )、 灰岩水和老空水按体积比为2:1的混合水(简称“ 混合水4” )、 灰岩水和老空水按体积比为3:1的混合水(简称“ 混合水5” )、 老空水共七种不同的水样进行实验。 其中, 每种水样各采集30组光谱数据, 总共210组, 收集到的水样需在实验室密封遮光存储。

2.2 仪器及荧光光谱采集

煤矿突水水样的荧光光谱数据采集, 是在图1所示的实验系统下完成的。

图1 激光诱导荧光实验系统图Fig.1 Laser induced fluorescence experiment system diagram

实验所选用的仪器为USB2000+型激光诱导荧光光谱仪(美国Ocean optics公司), 荧光光谱检测全波段范围为340.472~1 021.086 nm。 激光器使用100 mW的LSR 405 nm蓝紫光半导体激光器, 激光入射波长设定值为405 nm。 激光器与荧光光谱仪通过SMA905接头的光纤接口相连接, 两块滤光片过滤掉荧光多余信息。 为了避免背景光和周围环境因素对荧光光谱采集实验的影响, 荧光探头与存放水样的玻璃器皿都在相同温湿度的暗室中进行。 荧光光谱的所有数据都由Spectra suite软件采集并记录, 实验中的算法程序都均在Matlab R2016b环境下完成的, 其中, SVC算法是利用LIBSVM工具箱实现的。

3 结果与讨论
3.1 光谱图分析

为了便于谱图的辨识, 实验所测平滑后的全波段原始荧光光谱图如图2所示, 其中, 横坐标为荧光光谱的波长, 纵坐标为荧光强度。 自上而下分别是老空水、 混合水1、 混合水2、 混合水3、 混合水4、 混合水5、 灰岩水7种不同的水样。 从图中可以清楚观察到老空水与灰岩水波形差距明显, 此外, 老空水有两个波峰, 灰岩水有一个波峰, 所对应的荧光强度和波峰位置都不相同, 但混合水之间差别不大, 通过观察难以区分混合水样的种类。 因此, 需对包含混合水水样的荧光光谱图进行研究, 分析和使用波段优化的分类算法对混合水样进行识别。

图2 原始荧光光谱图Fig.2 Original fluorescence spectrum

3.2 样本的训练集和测试集划分

首先, 采用K-S(Kennard-Stone)算法[13]按照训练集与测试集2:1的比例对七种, 共计210个样本的水样进行划分。 其次, 采用留出法(hold-out)随机选取140个样本, 每种水样各20个样本作为训练集, 剩余70个样本, 每种水样各10个样本作为测试集, 分别将两种不同划分方法的训练集与测试集作为PSO-SVC模型的输入。 由表1可以看出, 使用hold-out划分样本集比K-S法的分类准确率高, 后续的实验过程将采用hold-out获得的训练集、 测试集样本进行。

表1 不同划分方法准确率结果 Table 1 Accuracy of different division methods
3.3 iPLS波段筛选

通过直接观察图2, 发现在全光谱波段340.472~1 021.086 nm范围内(共2 048个波长点), 老空水和混合水有两个波峰, 分别约在480和520 nm处, 灰岩水有一个峰, 约在470 nm处, 应当选取的特征波段范围为340~700 nm, 而其他波长范围光谱曲线平缓, 没有特征峰的出现。 直接观察得到的特征波段可以用iPLS算法来检验其正确性。

现利用iPLS波段筛选的方法将全光谱波段依次按10~25波段区间进行等分, 并在每一个区间上建立PLS回归模型。 将全光谱等分成10个子区间(每个区间波长点数206个)时, 如图3所示, 区间上斜体数字表示最佳的PLS成分数量, 红色虚线处所对应的RMSECV值是用2个PLS成分建立在全光谱波段模型所得, 称这个值为区间选择的阈值。 从每个子区间的RMSECV值来看, 第2, 3, 4和5区间RMSECV值明显小于全光谱波段子区间选择的阈值1.416 7。

图3 10个子区间iPLS建模结果Fig.3 10 sub interval iPLS modeling result

iPLS波断筛选结果如表2所示, 可见, 416.712~705.412 nm为筛选出的特征波段, 共821个波长点。

表2 iPLS波段筛选结果 Table 2 iPLS wave bands screening results

将全光谱等分为14个子区间(每个区间波长点数148个)时, 如图4所示, 395.292~502.590与554.992~656.428 nm为筛选出的特征波段, 所对应区间2, 3, 5和6共有587个波长点。 与图3相比, 不同区间筛选出的区间大体相同, 差别不大, 整体偏向中间区域, 差别主要体现在等分成14个区间的502.590~554.992 nm波段范围, 该范围的RMSECV值大于阈值, 所选波段波长点数较等分成10个区间减少了234个, 整体划分更为密集。

图4 14个子区间iPLS建模结果Fig.4 14 sub interval iPLS modeling result

iPLS划分不同区间数的统计结果如表3所示, 由于筛选出的特征波段不同, 各统计参数都在改变, 将平均RMSECV与平均r作为最终优选特征波段的评价指标。 当iPLS划分11个区间时, 筛选出特征波段所对应的平均RMSECV、 平均r分别取到最小值1.181 7和最大值0.792 8, 该波段范围为最终筛选结果。 对应波长点数为561个, 相比于全波段的2 048个波长点, 总数减少了72.61%, 也减少到直接观察1 012个波长点数的一半。 较直接观察光谱图筛选出的340~700 nm范围特征波段, iPLS却筛选出410.078~478.424, 545.078~674.104 nm两部分特征波段, 说明通过直接观察、 主观经验得到的波段存在一定的误差, 可靠性低。

表3 iPLS划分不同区间数的统计结果 Table 3 Statistical results of iPLS division of different interval numbers
3.4 PSO-SVC模型的建立

将上述等分11个区间iPLS筛选出的波段数据作为PSO-SVC模型输入, 用于最后的突水水源识别分析。 PSO进行参数寻优的适应度曲线如图5所示, 在种群数量为20, 迭代次数为100时, 最终CV意义下的分类准确率为97.1429%。 分类结果如图6所示, 突水水样种类1~7分别对应灰岩水、 混合水1、 混合水2、 混合水3、 混合水4、 混合水5、 老空水。 测试集的7种突水水样没有出现偏差, 全部分类正确, 测试集样本分类准确率为100%。

图5 PSO参数寻优图Fig.5 Optimization diagram of PSO parameters

图6 iPLS光谱波段筛选分类结果图Fig.6 iPLS spectral band screening results classification diagram

为了验证iPLS波段筛选对于PSO-SVC建模的可靠性, 现将原始光谱全波段、 观察筛选的340~700 nm范围波段、 等分成11个区间时筛选出的特征波段, 这几种不同处理方法的分类情况对比如表5所示, 对于原始全光谱波段, 错误分类主要集中在混合水2和混合水3, 而观察筛选的波段, 错误分类主要集中在混合水4和混合水5, 原因是灰岩水与老空水有相似的化学成分, 导致这2种水样组成的混合水不易识别。 iPLS算法筛选出特征波段的训练集、 测试集分类准确率皆能达到100%, 与表5其他处理方法相比, 最佳惩罚系数c最小且分类准确率最高, 因此泛化性能也是最理想的。

表5 分类结果 Table 5 Result of classification
4 结 论

对淮南矿区的的灰岩水、 老空水和按一定体积比混合的混合水原始激光诱导荧光光谱图进行分析, 通过iPLS算法筛选出特征波段, 并建立PSO-SVC模型, 最后对比了不同处理方法对分类结果的影响。 由实验分析过程和结果可以看出:

(1)iPLS筛选特征波段具有实际物理意义, 且直观、 清晰地反映出特征波段在光谱图上的分布情况, 验证了iPLS算法对于波段筛选的定量分析比主观观察得到的波段可靠性高, 降低了从光谱图上直接观察获得波段的误差。

(2)利用iPLS对荧光光谱波段进行筛选, 从全波段2048个波长点缩减为561个, 减少了光谱数据冗余信息的获取, 用较少的波长点使训练模型变得简单, 提升了建模效率和可靠性。

(3)PSO-SVC对于突水水样建模有良好分类精度, 在不进行去噪和降维的预处理情况下, 结合iPLS波段筛选方法使分类准确率达到甚至高于全波段建模, 在某种程度上减少了过拟合, 提升了模型的泛化能力。

(4)本实验充分论证了iPLS结合PSO-SVC算法在煤矿突水激光诱导荧光光谱分析的可行性, 既适用于灰岩水和老空水的混合水样的识别, 又适用于其他突水水样的识别及激光诱导荧光光谱分析。

参考文献
[1] SUN Yun-jiang, ZUO Jian-ping, LI Yu-bao, et al(孙运江, 左建平, 李玉宝, ). Rock and Soil Mechanics(岩土力学), 2017, 38(8): 2335. [本文引用:1]
[2] FENG Zhi-dong, WANG Tao, GU Qing-hua, et al(冯治东, 王桃, 顾清华, ). Systems Engineering-Theory & Practice(系统工程理论与实践), 2017, 37(12): 3289. [本文引用:1]
[3] ZHU Le-zhang(朱乐章). China Coal(中国煤炭), 2018, 44(5): 100. [本文引用:1]
[4] LI Shao-dan, LIN Yuan-sheng, TAN Si-chao, et al(李少丹, 林原胜, 谭思超, ). Nuclear Power Engineering(核动力工程), 2014, 35(4): 137. [本文引用:1]
[5] WANG Ya, ZHOU Meng-ran, CHEN Rui-yun, et al(王亚, 周孟然, 陈瑞云, ). Acta Optica Sinica(光学学报), 2018, 38(7): 367. [本文引用:1]
[6] GUO Hui-xian, ZHU Si-qi, LI Yuan-peng, et al(郭慧娴, 朱思祁, 黎远鹏, ). Journal of Optoelectronics·Laser(光电子·激光), 2016, 27(10): 1136. [本文引用:1]
[7] YANG Peng-cheng, DU Jun-lan, CHENG Chang-kuo(杨鹏程, 杜军兰, 程长阔). Marine Environmental Science(海洋环境科学), 2016, 35(6): 943. [本文引用:1]
[8] ZHAO Fang, PENG Yan-kun(赵芳, 彭彦昆). Chinese Journal of Lasers(中国激光), 2017, 44(11): 249. [本文引用:1]
[9] Giraudo A, Calvini R, Orland i G, et al. Food Control, 2018, 94: 233. [本文引用:1]
[10] XU Long, LU Jian-gang, YANG Qin-min, et al(徐龙, 卢建刚, 杨秦敏, ). CIESC Journal(化工学报), 2013, 64(12): 4410. [本文引用:1]
[11] SHI Long-qing, TAN Xi-peng, WANG Juan, et al(施龙青, 谭希鹏, 王娟, ). Journal of China Coal Society(煤炭学报), 2015, 40(1): 167. [本文引用:1]
[12] QI Shao-hua, LIU Qi-yuan, CHEN Jiu-hui, et al(齐少华, 刘启元, 陈九辉, ). Chinese Journal of Geophysics(地球物理学报), 2016, 59(12): 4544. [本文引用:1]
[13] CHEN Yi-yun, ZHAO Rui-ying, QI Tian-ci, et al(陈奕云, 赵瑞瑛, 齐天赐, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(7): 2133. [本文引用:2]