基于FCM的煤矿突水激光诱导荧光光谱分析
周孟然, 胡锋*, 闫鹏程, 刘栋
安徽理工大学电气与信息工程学院, 安徽 淮南 232001
*通讯联系人 e-mail: hufeng0106@163.com

作者简介: 周孟然, 1965年生, 安徽理工大学电气与信息工程学院教授 e-mail: mrzhou8521@163.com

摘要

快速识别煤矿突水水源类型对于矿井水害防治意义非凡。 鉴于传统水化学方法水源识别耗时较长等诸多不足, 提出了将模糊C均值聚类(FCM)算法和多维标度分析(MDS)用于激光诱导荧光光谱识别煤矿突水水源这一新思路。 由于FCM算法在光谱分析和模式识别等方面都有着成功的应用, 况且激光光谱具有时间响应快、 灵敏度高、 干扰小等优点, 通过实时采集水样的荧光光谱数据, 利用FCM和MDS对光谱数据分析后就可以辨别水样类型。 以华东地区某矿的老空水和奥灰水以及按比例混合得到水样共7种(每种水样各20个样本)为实验材料, 利用405 nm激光打入被测水体, 一共采集了140组荧光光谱数据, 随后选择合适的波长区间进行分析。 取每种水样各15组共105组光谱数据用作训练集, 其余35组光谱数据用作测试集。 使用MDS建立七种不同水样的模型, 再利用FCM算法进行聚类分析得到七种水样的簇中心, 最后使用得到的簇中心对测试集进行验证。 实验结果表明, 不同水样的光谱图有着较大差异, 选取合适的波长区间下的光谱数据, 在MDS下选择维度为2, 利用FCM算法对水样进行分类, 全部140组样本的准确率是100%。

关键词: 模糊C均值聚类; 多维标度分析; 激光诱导荧光光谱; 煤矿突水; 水源识别
中图分类号:O657.3 文献标志码:A
Laser Induced Fluorescence Spectrum Analysis of Water Inrush in Coal Mine Based on FCM
ZHOU Meng-ran, HU Feng*, YAN Peng-cheng, LIU Dong
College of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China
Abstract

Rapid identification of mine water inrush types in coal mine is of great significance for prevention and control. In view of the fact that traditional chemical method of water source identification is time-consuming and other problems, we put forward the fuzzy C mean clustering (FCM) algorithm and multidimensional scaling analysis (MDS) for laser induced fluorescence spectrum identification of mine water inrush and the new ideas.Because the FCM algorithm has been successfully used in spectral analysis and pattern recognition, and laser spectroscopy with fast response time, high sensitivity, less interference, the fluorescence spectra of the real-time data acquisition of water, the use of FCM and MDS on the spectral data analysis can identify sample types. A mine in east area of goaf water and Ordovician limestone water were mixed in proportion to get a total of 7 samples (each sample and 20 samples) as experimental materials, we used laser of 405nm to send laser into the measured water body, collected a total of 140 groups of fluorescence spectral data, and then selected the appropriate wavelength interval analysis. 105 sets of spectral data of each group were used as the training set, and the other 35 groups were used as the test set. We Used MDS to establish the model of five kinds of different water samples, and then used the FCM algorithm in cluster analysis to get the cluster center of the five kinds of water samples, finally useed the cluster center to test the test set. The experimental results show that there are dramatic difference between the spectra of different samples, we selected the appropriate wavelength range of spectral data, the dimension at 2 under MDS, and classfied the water samples by using FCM algorithm, finally the accuracy rate of all 140 samples reaches 100%.

Keyword: Fuzzy C means clustering; Multidimensional scaling analysis; Laser-induced fluorescence spectroscopy; Coal mine water inrush; Water source identification
引 言

煤矿常见的灾害为瓦斯、 水、 火、 煤尘和顶板灾害, 其中瓦斯事故一直都是最大的煤矿灾害, 煤矿水害现已成为煤矿第二大灾害[1]。 煤矿现场不仅需要进行突水的预警, 也需要在突水灾害发生后第一时间正确辨别突水水源的类型, 这样才能有针对性地对突水采取最为有效的治理措施[2, 3, 4]

传统的煤矿突水水源类型识别多数以水化学为基础, 以获得pH值、 离子浓度[5]、 电导率等参数, 根据这些参数建立水源类型识别模型[6, 7, 8]。 通常, 实验室测量这些参数需要两小时才能完成, 耗时过长, 不适宜煤矿水害预警防治。

激光诱导荧光光谱分析具有分析速度快、 精度高、 灵敏度高等优点, 在化工、 医疗和生物等诸多领域有着普遍应用。 近年来, 激光荧光光谱分析技术开始应用于煤矿突水水源识别中, 如闫鹏程[9]利用LIF技术结合SIMCA算法实现了五种不同类别的煤矿突水水源的快速识别等。 FCM是一种常用的聚类算法, 它已经有效地应用在大规模数据分析、 图像分割、 模式识别和光谱分析等领域, 如谢福鼎[10]使用改进的半监督FCM算法实现了高光谱遥感影像分类等。 MDS作为一种常用的降维算法, 被大量用于数据处理。 考虑到煤矿井下复杂的实际情况, 单一的突水水源识别不能满足煤矿安全生产的需求, 为了满足实际的井下突水预警需求, 对混合型突水水源进行分类识别才更具有实际价值。 本文将FCM和MDS用于煤矿混合突水水源的激光诱导荧光光谱分析尚未见报道。

1 原理与算法

模糊C均值聚类算法(fuzzy C-means algorithm, FCM), 也就是所谓的模糊ISODATA, 这是一种根据数据点的隶属度来表征该数据点具体隶属于某一类别可能性的聚类算法[11]。 FCM的基本思想就是让划分到相同簇的样本点最为相似, 而让划分到不同簇的样本点最不相似, 由此可见FCM是一种基于划分的聚类算法。 鉴于传统的普通C均值聚类(HCM)方法的一些不足, 贝兹德克在1973年改良了传统的HCM并提出了FCM算法。 在对数据划分的时候, HCM和FCM呈现出不同的特性, 即HCM对数据只能进行硬性划分, 而FCM则可以对数据可以实现软性的模糊划分。

FCM将xi(i=1, 2, …, n)这n个向量划分为c个相互独立的模糊簇, 同时分别求出各个簇所对应的中心, 使其具有最小的价值函数。 相比于HCM, FCM创造性的引入模糊划分这一概念, 使用(0, 1)之间的隶属度来表征给定的数据点隶属于所有簇可能性大小。 为了进一步适应引入的模糊划分思想, 隶属矩阵U中的数据值的范围规定在(0, 1)之间。 由归一化规定可知, 对于任一数据集样本, 它的隶属度相加的结果始终为1:

i=1cuij=1, j=1, 2, , n(1)

那么, FCM的价值函数(或目标函数)就是

J(U, c1, c2, , cc)=i=1cJi=i=1cjnuijmdij2(2)

这里uij介于(0, 1)之间; ci为模糊簇I的聚类中心, dij=‖ ci-xj‖ 为第j个数据样本点和第I个簇的聚类中心间的欧式距离(Euclidean distance); 且m∈ [1, ∞ )是一个加权指数。

构造如下新的价值函数, 可得出让(2)式最小的必要条件是

J̅(U, c1, c2, , cc, λ1, λ2, , λn)=J(U, c1, c2, , cc)+j=1nλj(i=1cuij-1)=i=1cjnuijmdij2+j=1nλj(i=1cuij-1)(3)

这里λ j(j=1, 2, …, n)是上述(1)式的n个约束式的拉格朗日乘子。 对全部的输入参量作求导运算, 使式(2)最小的必要条件是

由式(4)和式(5)两个必要条件可知, FCM是一个迭代的过程。

2 实验部分
2.1 材料

老空水为煤矿突水最主要, 也是危害最大的突水来源[12], 本实验主要以老空水以及老空水混入奥灰水作为研究对象。 实验材料为2017年3月在华东地区某矿采集的老空水和奥灰水, 将老空水和奥灰水以不同体积比进行混合最终得到: 纯老空水、 老空水和奥灰水体积比为10∶ 3的混合水(以下简称A混合水)、 老空水和奥灰水体积比为10∶ 6的混合水(以下简称B混合水)、 老空水和奥灰水体积比为10∶ 10的混合水(以下简称C混合水)、 老空水和奥灰水体积比为6∶ 10的混合水(以下简称D混合水)、 老空水和奥灰水体积比为3∶ 10的混合水(以下简称E混合水)以及纯奥灰水这样七种不同水样(每种水样各20个样本), 共计140个样本, 选取其中的105个样本用作训练集, 剩余的35个样本用作测试集。 为保证实验数据更加真实、 可靠, 所有采集到的水样样本都避光密封保存。

2.2 荧光光谱采集

实验仪器选用USB2000+微型光纤光谱仪(美国Oceanoptics公司), 光谱检测范围为400~800 nm, 分辨率为0.5 nm(FWHM), 使用蓝紫光半导体激光器产生激光, 设定入射激光波长为405 nm, 入射激光的功率为120 mW。 为便于今后的实际应用, 实验探头采用FPB-405-V3可浸入式激光激发荧光探头(广东科思凯公司), 可直接放入待测水体进行荧光光谱的测量。 测量水样荧光光谱时, 将水样放置在烧杯中, 使用铁架台固定荧光探头, 使得荧光探头浸入水样, 激光垂直照射水样激发从而获得水样的荧光光谱。 为了避免背景光以及其他人为因素对实验结果的影响, 荧光探头与存放水样样本的玻璃瓶全部放在相同的暗室中, 同时保证荧光探头每次伸入玻璃瓶的位置一样进行激光诱导荧光光谱的测量。 使用Spectra Suite软件采集并记录所有水样的荧光光谱数据。

2.3 数据处理方法

为了减小实验误差, 获得最佳的分析结果, 首先进行光谱波长的筛选预处理, 即选取水样样本差异较大的波长区间进行荧光光谱分析。 预处理后得到的光谱数据在经过多维标度分析(MDS)降低数据维度建立水样的模型[13], 再使用FCM算法对该模型进行聚类分析得到七种水样的簇中心, 最后使用得到的簇中心对测试集进行验证。

3 结果与讨论
3.1 原始光谱

实验测得七种水样的140个样本的荧光光谱图如图1所示, 从上到下依次为老空水、 A混合水、 B混合水、 C混合水、 D混合水、 E混合水以及奥灰水。 从图中我们可以看出, 单纯的老空水和奥灰水的荧光光谱有着较大的区别, 具有比较好的辨识度。 但是, 当我们将老空水和奥灰水按照一定的体积比混合时, 混合水的荧光光谱图难以通过直接观察的方式区分。 为此, 我们需要对混合水水样荧光光谱进行进一步处理, 选择最优的波长区间分析荧光光谱数据, 这样才能实现混合水水样的分类识别。

图1 原始光谱Fig.1 Original spectral

3.2 MDS降维

七种不同水样样本的荧光光谱数据经过荧光波长区间(400~600 nm)筛选预处理后得到的光谱数据曲线仍然难以进行水样的分类识别, 为了确保可以对实验所用的七种不同水样进行分类识别, 将经过荧光波长区间筛选预处理后得到的光谱数据经过MDS降低数据维度。 通常, 为便于分析和可视化, MDS在进行数据降维的时候优先降低到三维或者三维以下, 接下来使用MDS分别将七种水样的荧光光谱数据降维到一维、 二维和三维并分析比较训练集水样的一维、 二维和三维模型。 选取维数为1时得到水样的一维模型如图2所示, 选取维数为2时得到水样的二维模型如图3所示, 选取维数为3时得到水样的三维模型如图4所示。

图2 水样的一维模型Fig.2 One dimensional model of water samples

图3 水样的二维模型Fig.3 Two dimensional model of water samples

图4 水样的三维模型Fig.4 Three dimensional model of water samples

根据图2, 我们已经可以大致的看出七种水样分布的差异, 但是图中老空水和奥灰水按体积比混合得到的混合水样的区分度不是特别高, 尤其是混合的体积越接近时更加不容易区分, 因而水样的一维模型不能满足水样分类识别的要求。 对比图2和图3, 我们不难发现, 水样的二维模型具有更好的区分度, 水样具有明显的空间分布, 即相同类型的水样在空间上分布的大体相同, 不同类型的水样在空间上分布不同。

由图3和图4可以看出来, 在维数为2和3的情况下, 依据获取的荧光光谱数据所建立的水样模型具有非常好的辨识度, 同种水样的样本在空间上呈现聚集趋势, 不同水样的样本在空间上呈现分散趋势。 所建立的训练集的水样模型和实际的情况也是一致的, 正是因为不同类型的水样所处地层和年代的差异才导致了水样在空间上分布的不同。 老空水是最常见的煤矿突水水源, 煤矿井下实际的水源情况非常复杂, 一般都是多种水源混合形成的, 采空区形成的老空水与人类活动有关, 而与年代没有关系, 这也导致了各地老空水的千差万别。

为了方便可视化观察以及后续的FCM聚类分析, 选取维数为2, 即建立水样的二维模型。

3.3 FCM聚类

将上述MDS降维得到的维数为2的二维模型用FCM对各水样进行聚类分析, 得到不同水样的簇中心, 以便后续对测试集进行验证分析。 因为实验所用的水样为七种不同的水样, 所以在进行聚类分析时选取聚类数目为7。 使用FCM算法对MDS降维后的水样二维模型进行聚类分析, 聚类显示训练集的所有样本均聚集在相应水样的簇中心附近, 进一步证明MDS降维得到的二维模型是可靠的, 同时, FCM聚类后得到不同水样的簇中心如表1所示。

表1 七种不同水样的簇中心 Table 1 Cluster center of seven different water samples

通过FCM算法MDS降维后的水样二维模型进行聚类分析后得到的簇中心可以作为预测水样类型的依据。 在使用FCM得到水样的簇中心后, 利用簇中心通过FCM对剩余的测试集进行验证分析, 得到的聚类效果如图5所示。

图5 测试集的FCM聚类结果Fig.5 FCM clustering results of the test set

由图5, 我们可以看出, 测试集的同种水样样本都聚集在对应水样的训练集的簇中心, 测试集中35个样本全部成功聚类在相应的簇中心, 即测试集样本分类准确率为100%。

为了说明MDS降维算法对水样荧光光谱数据建模的可靠性, 还对原始光谱、 降噪预处理后的光谱以及MDS降维处理后的光谱模型的分类结果进行了对比分析, 结果如表2所示。

表2 分类的结果 Table 2 Result of classification
4 结 论

对同一煤矿的老空水、 奥灰水以及按一定体积比混合的水样的激光诱导荧光光谱数据进行分析比较, 对水样的原始光谱数据选择合适荧光波长区间筛选预处理, 再使用MDS降维并建立水样的二维模型, 最后在利用FCM进行聚类分析得到不同水样的簇中心并对测试集进行了验证。 由实验过程可以发现, 首先筛选合适的波长对应的荧光光谱, 而后进行MDS降维和FCM聚类对不同水样分类具有很好的效果。 实验结果充分证明了FCM和MDS用于煤矿突水的激光诱导荧光光谱分析是可行的, 通过分析不同水样的荧光光谱数据分析突水水样的混合成分, 对预测煤矿突水具有重要的意义。 本文采用FCM聚类分析算法不仅仅只适用于老空水和奥灰水混合水样分类识别, 还适用于其他类型水源混合的分类识别以及分析不同时间突水的差异等, 同时对其他水体的差异性分析也具有一定的参考价值。

The authors have declared that no competing interests exist.

参考文献
[1] JIN De-wu, LIU Ying-feng, LIU Zai-bin, et al(靳德武, 刘英锋, 刘再斌, ). Coal Science and Technology(煤炭科学技术), 2013, 41(1): 25. [本文引用:1]
[2] LING Zhi-qiang, DENG Jun, FENG Wu-lin, et al(凌志强, 邓军, 冯武林, ). Safety in Coal Mines(煤矿安全), 2014, 45(8): 196. [本文引用:1]
[3] LI Song-ying, LI Shu-wen(李松营, 李书文). Journal of Henan Polytechnic University·Natural Science(河南理工大学学报·自然科学版), 2013, 32(5): 552. [本文引用:1]
[4] LI Wen-guang, JI Dong, ZHAO Xu(李文光, 冀东, 赵旭). Gold(黄金), 2013, (10): 46. [本文引用:1]
[5] XU Xing, WANG Gong-zhong(徐星, 王公忠). Coal Technology(煤炭技术), 2016, 35(7): 144. [本文引用:1]
[6] WEN Ting-xin, ZHANG Bo, SHAO Liang-shan(温廷新, 张波, 邵良杉). China Safety Science Journal(中国安全科学学报), 2014, 24(2): 100. [本文引用:1]
[7] GONG Feng-qiang, LU Jin-tao(宫凤强, 鲁金涛). Journal of Mining & Safety Engineering(采矿与安全工程学报), 2014, 31(2): 236. [本文引用:1]
[8] YANG Jian(杨建). Coal Science and Technology(煤炭科学技术), 2013, 41(6): 100. [本文引用:1]
[9] YAN Peng-cheng, ZHOU Meng-ran, LIU Qi-meng, et al(闫鹏程, 周孟然, 刘启蒙, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(1): 243. [本文引用:1]
[10] XIE Fu-ding, LI Zhuang(谢福鼎, 李壮). Bulletin of Surveying and Mapping(测绘通报), 2016, (9): 60. [本文引用:1]
[11] PANG Shu-jing, PENG Jian(庞淑敬, 彭建). Microcomputer Information(微计算机信息), 2012, (1): 71. [本文引用:1]
[12] WU Gui-wu, GAO Jian-ping, LI Yu-gang, et al(吴桂武, 高建平, 李玉刚, ). Safety in Coal Mines(煤矿安全), 2015, 46(2): 172. [本文引用:1]
[13] CHU Jie-wang, YAN Shi-tao(储节旺, 闫士涛). Information Studies: Theory & Application(情报理论与实践), 2012, 35(3): 5. [本文引用:1]