基于稀疏子空间的类星体光谱异常特征并行提取与分析
马洋, 张继福, 蔡江辉, 杨海峰, 赵旭俊*
太原科技大学计算机科学与技术学院, 山西 太原 030024
*通讯作者 e-mail: zxj0226@126.com

作者简介: 马洋, 1984年生, 太原科技大学博士研究生 e-mail: mayang@tyust.edu.cn

摘要

类星体是人类所观测到的最遥远天体, 对于了解早期宇宙的演化具有重要科学意义。 由于类星体距离地球较远, 其红移一般较大, 导致在光学观测窗口中只有很少的特征(发射线), 且难以识别。 类星体光谱的异常特征提取与分析可对未知类星体的识别, 提供有效的判别依据。 离群检测作为数据挖掘领域的一个主要研究内容, 旨在发现那些稀有、 特殊数据对象及异常特征, 可作为从海量类星体光谱数据中, 发现特殊、 未知类星体的一种有效途径和手段。 Spark作为新一代大数据分布式处理框架, 可为海量天体光谱的有效分析和处理, 提供一个高效且可靠的并行编程平台。 本文充分利用集群系统和Spark编程模型的强大数据处理能力, 提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法, 其工作由三个模块组成, 即类星体光谱特征约减、 类星体光谱的稀疏子空间构造和搜索、 类星体光谱异常特征提取并行算法设计与分析。 类星体光谱特征约减模块, 通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线, 这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。 光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线, 缩小光谱数据检测范围。 类星体光谱的稀疏子空间构造和搜索模块, 通过设定的稀疏系数阈值来测量类星体光谱的子空间密度, 并采用粒子群优化方法作为稀疏子空间的搜索策略, 从而快速、 高效地获取类星体的异常特征。 在第三个模块中, 提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法, 该算法由并行化数据约减策略、 稀疏子空间并行搜索技术两个MapReduce构成, 达到适应海量光谱数据的处理目标。 最后对检测出的部分类星体异常特征进行了理论分析、 测量及人眼证认, 充分说明稀疏子空间可为识别特殊、 未知类星体候选源, 提供有效支持和有力证据。

关键词: 类星体; 稀疏子空间; 郭守敬望远镜(LAMOST); 光谱分析
中图分类号:P114.1 文献标志码:A
Parallel Extraction and Analysis of Abnormal Features of QSO Spectra Based on Sparse Subspace
MA Yang, ZHANG Ji-fu, CAI Jiang-hui, YANG Hai-feng, ZHAO Xu-jun*
School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China
*Corresponding author
Abstract

Quasi-Stellar Object (QSO), the most distant celestial body observed by humans, has important scientific value for the universe evolution.Quasars are far away from the earth, and their redshift values are large, which results in few features appearing in the optical observation window. Hence, constructing a QSO template is a difficult task, and then making the automatic identification of QSO become an urgent problem. The abnormal characteristics extraction and analysis of QSO spectra are helpful to solve the above problems, there by further providing strong evidence for exploring the mysteries of the universe. The outlier detection method, one of the main research contents in the data mining field, can detect rare data objects and anomalous characteristics from massive size data. Therefore, outlier detection can facilitate novel schemes for identifying rare QSOs and achieving validation. As a new generation of big data distributed processing framework, Spark provides an efficient, easy-to-implement and reliable parallel programming platform for analyzing and processing massive celestial spectra. The overarching goal of this paper is to investigate parallel detection methods based on sparse-subspace for QSO anomalous characteristics. We aim to optimize the performance of parallel abnormal detection through the virtue of the high-performance data processing capacity of the Spark programming model on clusters. This research embraces the following three modules, namely, QSO spectral feature reduction, sparse-subspace construction and search of QSO spectral data, and parallel algorithm design and analysis of QSO abnormal characteristics extraction. The QSO spectral feature reduction module exhibits superb performance in speeding up abnormal characteristic’s detection efficiency by the attribute correlation analysis. Specifically, some spectral feature lines with clustering structure are identified, which are usually concentrated in dense regions and are meaningless for detecting anomalous spectral features. The module aims to prune the redundant feature lines so as to narrow the search range of abnormal quasars. The second module is the sparse-subspace construction and search module, which extends the particle swarm optimization method to search sparse subspaces so as to obtain the anomalous features quickly. At the heart of this module is the determination of the sparse-subspace that contains QSO spectra anomalous features, where the subspace density of QSO spectra is measured by a threshold of sparse coefficients. In the third module, a parallel detection algorithm for abnormal spectral data under the MapReduce framework is proposed. The algorithm consists of two MapReduce: parallel data reduction strategy and sparse-subspace parallel search technique. Finally, the detectedanomalous features of some QSOs are analyzed, measured and verified by human eyes, which fully demonstrates that the sparse-subspace can provide effective support and strong evidence for identifying candidate sources of special and unknown QSOs.

Keyword: Quasi-stellar object; Sparse subspace; LAMOST; Spectral analysis
引言

LAMOST[1, 2]巡天包含银河系巡天和河外巡天, 河外巡天的目标中含有大量红移为2.2~3的类星体目标, 这些数据不仅维度高, 且数量庞大, 里面蕴含了许多未知的天文知识, 包括一些稀有的、 没有被证认的河外星系以及类星体光谱, 这些候选体对研究和完善宇宙学理论和宇宙演变具有重要价值。 类星体作为一种特殊的光谱, 在类星体分类[3]、 类星体黏度[4]、 高红移类星体[5]、 双类星体[6]等方面, 研究工作取得较好进展。 近年来, 许多学者对天体光谱的特征提取及轮廓分析进行深入研究[7, 8], 取得较好的效果, 但是, 对天体光谱的异常特征检测与分析, 鲜有人研究。 屈彩霞等针对LAMOST获取的J152238.11+333136.1进行了P-Cygni轮廓分析[9], 取得了较好的应用价值。 Cheng等[10]利用高斯径向基函数中的标准方差与恒星大气参数空间中恒星密度分布的关系, 获得内插恒星光谱。 Li等[11]通过分析Teff与脉动周期之间的相关性, 从天琴座恒星中发现一些温度异常的光谱。 Sun[12]等利用机器学习方法mean-shift算法与Plummer核函数相结合, 有效地定位密度场中的密度峰值, 为检测光晕提供了一种新方法。

采用属性相关分析方法对类星体光谱中无关特征属性进行剪枝, 然后提出基于稀疏子空间方法的类星体光谱异常特征提取算法, 并在MapReduce并行框架下加以实现, 最后对稀疏子空间中的光谱异常特征做出描述及分析。

1 类星体光谱的特征约减

由LAMOST采集的类星体光谱具有大量的特征线, 属于高维数据集, 但在光谱的识别中, 存在很多冗余的特征线, 严重影响了相关算法的检测性能。 在分析类星体光谱特征的基础上, 提出了一种类星体光谱特征约减方法, 旨在运行类星体光谱异常特征检测算法之前剪枝类星体光谱的冗余特征线。

1.1 特征属性相关分析

假设DS为d维特征空间中的一个类星体光谱数据集, 且含有N条光谱数据。 在DS中, d维特征属性集被形式化描述为A={A1, A2, …, Ad}, N条光谱对象集可描述为O={O1, O2, …, ON}。 其中Oi={oi1, oi2, …, oid}, oij(i=1, 2, …, N; j=1, 2, …, d)是类星体光谱数据对象Oi在特征属性Aj上相应的值, oij被称为1D-point。

特征属性相关性分析是通过检测每个特征属性的稠密区域来剪枝异常特征无关维, 其中稠密区域可看作拥有稠密1D-point的光谱数据对象集合, 由一些具有相似特征的光谱数据对象组成, 体现出比其周围区域更高的密度。 为了检测特征属性的稠密区域, 需计算每个1D-point的稀疏因子。

给定一个1D-point oij, 即光谱对象Oi在特征属性Aj上的值, 稀疏因子被定义为λ ij, 形式化描述为

λij=ypij(y-cij)2k+1(1)

其中, pij(xij)={nnkj(xij)oij}表示 oij和它的k个近邻集合, cij是集合 pij(oij)的中心值, 因此, cij=ypii(oij)yk+1

从式(1)很容易看出, 当稀疏因子λ ij较大时, 其相应的oij将位于一个稀疏区域; 当λ ij较小时, oij属于一个稠密区域。

1.2 特征约减

定义1 稀疏区域和稠密区域: 给定一个稀疏因子阈值ε , 1D-point oij及其稀疏因子λ ij, 如果λ ij< ε , 说明oij同周围其余点相比具有较小的差异性, 该点处于一个稠密区域, 反之, 如果λ ijε , 说明oij同周围其余点相比具有很大的差异性, 该点处于一个稀疏区域。

本文采用Zij表示1D-point oij的稀疏密度值, 当Zij被设置为1, 即Zij=1, 表示oij位于一个稠密区域。 反之, Zij=0表明oij位于一个稀疏区域。 因此, 如果λ ij< ε , 那么Zij=1; 否则, 如果λ ijε , 那么Zij=0。

应用定义1, 所有1D-point的Zij值能组成一个矩阵, 将其称为类星体光谱稀疏密度矩阵, 用Z(n× d)来表示, 该矩阵将用于类星体光谱数据集的约减。

2 类星体光谱的稀疏子空间构建
2.1 稀疏子空间

假设DS是一个包含N条类星体光谱对象的高维数据集, 每个对象彼此独立。 现将每个特征属性按等深的思想划分成θ 个离散区间, 因此, 每个区间包含f=1个类星体光谱对象。 从光谱数据集DS中任意选择t个特征属性构造t维立方体, 根据伯努利概率可知N个对象以(1)t的概率随机分布在立方体中, 每个离散区间包含的类星体光谱对象数是其数学期望值N× (1)t。 对象在子空间中的偏离程度采用稀疏系数S(D)来测量, 其形式化定义如式(2)

S(D)=nD-N×ftN×ft×1-ft(2)

在式(2)中, f=1, n(D)为包含在t维子空间D中的光谱数据对象个数, 这些光谱对象拥有相同的t维特征值。

定义2 稀疏子空间: 假定TS为用户设定的稀疏系数阈值, 如果子空间D满足S(D)≤ TS, 那么D是一个稀疏子空间。

2.2 类星体光谱的稀疏子空间搜索

粒子群优化算法(particle swarm optimization, PSO)是一种基于种群的经典优化方法, 具有强大的局部和全局搜索能力, 本文采用PSO在数据集上搜索稀疏子空间, 任一子空间D由类星体光谱数据集DS中的t维特征属性值构成。 因此, 子空间D中的所有光谱数据对象具有相同的t维特征属性值, 这些值被称为子空间的t维特征。 给定一个光谱数据对象的标识符及其t个特征属性值, 子空间可通过扫描类星体光谱数据集DS来构建。 在类星体光谱数据集DS中, 光谱数据对象被视为粒子, 其位置及速度由对象标识符和其t个特征属性值确定。 S(D)≤ TS被用作粒子的适应函数, 当S(D)是一个小值的时候, 粒子具有优化的适应值。 如果S(D)小于或等于TS, 子空间D是一个包含异常光谱数据的稀疏子空间。

3 类星体光谱异常特征并行检测

LAMOST每天都会采集海量的光谱数据, 采用单台计算机对这些数据处理无疑是一项艰巨的任务。 在类星体光谱异常特征检测中, 我们设计了并行检测算法, 即提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法PICO。 PICO由两个MapReduce作业构成, 即并行化数据约减策略、 稀疏子空间并行搜索技术, 其工作流程参见图1。 并行化数据约减策略通过在集群各个节点并行地剪枝无关的属性和对象来加快PICO的整体效率。 稀疏子空间并行搜索模块无缝集成了粒子群优化算法, 并行地在集群上查找稀疏子空间。

图1 基于MapReduce的PICO处理过程Fig.1 MapReduce-based PICO processing flow

PICO算法的第一个作业是针对数据集DS的数据约减, 在运行该作业之前, DS将被划分成多个数据文件并放置在Hadoop的分布式文件系统(HDFS)中。 值得注意的是, HDFS在Hadoop集群的所有数据节点中存储DS的输入文件, 即所有数据节点被均匀分配数据文件。

在PICO的设计中, 第二个MapReduce作业的主要任务是构建并搜索稀疏子空间, 因此将第二个作业称为稀疏子空间构造模块, 简称为构造模块。 值得注意的是, 该模块中mapper的输入来源于数据约减模块中reducer的输出。

4 实验分析

在24个节点的Hadoop集群上, 实现和评价PICO算法的性能。

4.1 伸缩性分析

为了验证PICO在数据集上的伸缩性, 在多个不同大小的光谱数据集上运行PICO并比较了它们的运行时间, 数据集的大小从2 GB到24 GB, 在6个不同大小的集群上进行了测试, 实验结果显示在图2中。

图2(a) 数据约减策略的伸缩性Fig.2(a) Data-reduction extensibility

图2(b) PICO算法的伸缩性Fig.2(b) PICO’ s extensibility

图2(a)显示了数据大小对PICO中数据约减模块效率的影响。 当处理的数据量增加时, 数据约减的运行时间随之增加。 图2(b)清楚地显示了当输入数据急剧增加时, PICO的总执行时间随之上升。 当属性个数不变的时候, 一个大尺寸的数据集意味着数据集拥有大量的数据对象, 这导致了分配给每个数据节点的对象数量将显著增加。

4.2 可扩展性

第二组实验评价PICO在Hadoop集群节点数量上的可扩展性, 节点数量从4个增加到24个, 实验结果如图3(a)和图3(b)。

图3(a) 数据约减策略的加速比Fig.3(a) Data-reduction speedup

图3(b) PICO算法的加速比Fig.3(b) PICO’ s speedup

图3(a)和图3(b)显示了数据约减模块以及PICO总运行时间的加速比。 对于大数据集(例如, 24 GB)而言, 相比于繁重的工作负载, I/O具有较低的开销, 因此PICO几乎实现了线性加速。 相反地, 在小数据集上(例如2 GB), PICO的线性加速遭到了破坏, 其原因是同较轻的计算负载相比, I/O具有相对大的开销。

4.3 类星体光谱异常特征分析

本文针对LAMOST巡天DR6分类为类星体的所有光谱进行了离群挖掘, 总数62 168条, 获得类星体光谱数据集的稀疏子空间, 稀疏子空间中包含的属性, 就是类星体光谱的异常特征, 实验结果显示, 在获得的异常特征中, 除损坏光谱、 信噪比低等原因外, 还有一些属于特殊光谱, 比如大红移光谱、 叠加成分等, 如图4(a)和图4(b)显示。

图4(a) 具有正常特征的类星体光谱Fig.4(a) QSO spectra with normal features

图4(b) 具有离群特征的类星体光谱 图4(c) J084653.45+175246.3对应伪彩图像Fig.4(b) QSO spectra with abnormal features Fig.4(c) Pseudo color image of J084653.45+175246.3

图4(a)和图4(b)分别显示了具有正常特征的类星体光谱与一类异常特征的类星体光谱。

图4(a)各子图均显示了比较明显的宽发射线特征, 而在图4(b)的上图是LAMOST J084653.45+175246.3光谱, 明显的异常特征是4 800~5 050 Å 区域和6 550~6 600 Å 区域的正信号特征, 该特征区域无法与QSO目标的特征线匹配。 图4(b)的中、 下图是邻近光纤光谱和该目标的二次观测, 均出现相应特征。

从SDSS获取该目标的伪彩图像, 如图4(c)的所示, 可以看出是一片蓝色区域, 经验证, 该区域是行星状星云PN A66 30[13], 因此可以证实两个区域的异常特征分别是0红移的Hβ /[OⅢ ]双线和Hα /[NⅡ ]双线, 而该光谱是背景QSO穿过前景PNA66 30后得到了叠加光谱。

5 结论

针对LAMOST低分辨率类星体光谱数据, 充分利用集群系统和Spark编程模型的强大数据处理能力, 提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法。 从LAMOST巡天DR6光谱数据中, 有效地构建了类星体的稀疏子空间并获得相应的类星体光谱异常特征, 对检测的异常特征同类星体光谱的正常特征进行比对分析, 并采用相同目标的SDSS图像进行验证。 该方法可作为从海量光谱数据中, 发现特殊、 未知类星体及其异常特征线的一种有效途径。

参考文献
[1] Luo A L, Zhao Y H, Zhao G, et al. Research in Astronomy and Astrophysics, 2015, 15(8): 1095. [本文引用:1]
[2] Liu X W, Zhao G, Hou J L. Research in Astronomy and Astrophysics, 2015, 15(8): 1089. [本文引用:1]
[3] Logan C H A, Fotopoulou S. Astronomy & Astrophysics, 2020, 633: A154. [本文引用:1]
[4] Lawrence, Andy. Nature Astronomy, 2018, 2(2): 102. [本文引用:1]
[5] Makhija S, Saha S, Basak S, et al. Astronomy and Computing, 2019, 29: 100313. [本文引用:1]
[6] Rubinur K, Das M, Kharb P, et al. Monthly Notices of the Royal Astronomical Society, 2017, 465(4): 4772. [本文引用:1]
[7] Yang Y, Cai J, Yang H, et al. Expert Systems with Applications, 2020, 139: 112846. [本文引用:1]
[8] Zhao Xujun, Rao Yuanqi, Cai Jianghui, et al. IEEE Access, 2020, 8: 29987. [本文引用:1]
[9] QU Cai-xia, YANG Hai-feng, CAI Jiang-hui, et al(屈彩霞, 杨海峰, 蔡江辉, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(4): 1304. [本文引用:1]
[10] Cheng L T, Zhang F H. Research in Astronomy and Astrophysics, 2020, 20(9): 148. [本文引用:1]
[11] Li L J, Qian S B, Zhang J, et al. Research in Astronomy and Astrophysics, 2020, 20(6): 94. [本文引用:1]
[12] Sun S P, Liao S H, Guo Q, et al. Research in Astronomy and Astrophysics, 2020, 20(4): 21. [本文引用:1]
[13] Frew D J, Parker Q A, Bojičić I S. Monthly Notices of the Royal Astronomical Society, 2016, 455(2): 1459. [本文引用:1]