基于相关子空间的双峰发射线光谱特征提取与分析
屈彩霞1, 杨海峰1,*, 蔡江辉1,*, 罗阿理2, 张继福1, 聂瑶瑶1
1. 太原科技大学计算机科学与技术学院, 山西 太原 030024
2. 中国科学院国家天文台光学天文重点实验室, 北京 100012
*通讯联系人 e-mail: hfyang@tyust.edu.cn; jianghui@tyust.edu.cn

作者简介: 屈彩霞, 1995年生, 太原科技大学计算机学院硕士研究生 e-mail: qucaixia@stu.tyust.edu.cn

摘要

低分辨率天体光谱中呈现的双峰发射线轮廓可能反映着比较珍稀的物理现象, 如双活动星系核(AGNs)、 双超大质量黑洞(SMBH)、 喷流云与窄线区的相互作用, 也可能是光谱处理过程产生的低质量特征线。 双峰发射线轮廓一般由2个或2个以上的波峰构成, 对该特征进行提取并分析, 可作为双AGN、 星系对、 双黑洞等稀有天体更有效的搜寻依据, 从而有助于更深入地研究星系乃至宇宙的形成与演化。 提出一种新的基于相关子空间的双峰发射线特征提取与分析方法, 主要工作分为以下三部分: 首先利用稀疏差异因子 δ度量双峰发射线光谱中属性差异程度, 利用KNN方法约束参与稀疏差异因子计算的光谱范围, 在此基础上, 针对LAMOST低分辨率光谱给出基于相关子空间的特征提取方法; 其次, 为了验证稀疏差异因子 σ以及KNN的输入参数 k对双峰发射线光谱的适应性, 选择LAMOST双峰发射线光谱样本及普通星系光谱数据, 红移范围 z<0.3(确保Hα, Hβ, [OⅢ] λλ4 959, 5 007, [NⅡ] λλ6 548, 6 584, [SⅡ] λλ6 717, 6 731等发射线落在LAMOST波长覆盖范围), 获得训练集光谱总数332+332(正负样本)条, 并借助人眼检查分析该方法中的两个参数: k δ阈值 α对结果的影响, 实验表明, 当 k=18, α=0.6时, 相关属性分布较密集且稀疏点较少, 结果比较理想; 最后, 对332条双峰发射线光谱特征子空间所在的波长区间、 双峰红/蓝移间隔、 双峰线强比等进行了理论分析、 测量及人眼认证的基础上, 给出了基于相关子空间的双峰发射线特征表述。 此外, 从双峰特征子空间上不同的发射线激发机制([OⅢ]/[NⅡ]/[SⅡ]等禁线、 Hα、 Hβ等氢线)及相关特征子空间上线强关系等角度, 对样本中双峰轮廓进行了分析。

关键词: 双峰发射线; 相关子空间; 郭守敬望远镜(LAMOST); 光谱分析
中图分类号:P14 文献标志码:A
Feature Extraction and Analysis of Double-Peaked Emission Line Spectra Based on Relevant Subspace
QU Cai-xia1, YANG Hai-feng1,*, CAI Jiang-hui1,*, LUO A-li2, ZHANG Ji-fu1, NIE Yao-yao1
1. School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China
2. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China
*Corresponding authors
Abstract

Double-peaked emission lines may reflect some rare scenes, such as binary active nucleus (AGNs), double supermassive black holes (SMBHs), interaction between jet and narrow line regions, or be low-quality spectra. Generally, at least 2 peaks are included in double-peaked emission lines, which are useful in searching rare objects such as AGNs, SMBHs, galaxypairs. It is meaningful in researching double-peaked emission lines for further studying formation and revolution of galaxies and even the universe. In this paper, a new method based on relevant subspace for extracting and analyzing of double-peaked emission line spectra is proposed. There are 3 parts in this paper: (1) Sparse difference factor δ is defined to measure attribute difference degree in spectra with double-peaked emission lines. And KNN algorithm is employed to restrain the involved spectral data. Then, characteristics extraction method for low solution spectra is proposed based on relevant subspace. (2) To test the efficient of parameters of sparse difference factor δ and k of KNN algorithm, 664 spectra are selected from LAMOST as training set, including 332 positive samples and 332 negative ones. To ensure 8 lines (Hα, Hβ, [OⅢ] λλ4 959, 5 007, [NⅡ] λλ6 548, 6 584, [SⅡ] λλ6 717, 6 731) are in wavelength coverage of LAMOST, the redshift region is z<0.3. And then influence of experiment result about two parameters k and α of δ threshold is analyzed. The result indicates that distribution of relevant attributes is dense with less sparse points when k=18 and α=0.6. (3) Wavelength coverage, red/blue shift interval and line strength ratio of double-peaked emission lines in subspace are analyzed and measured theoretically. Then characteristic description of double peaks based on relevant subspace is given. Finally profiles of double peaks are analyzed according to emission excitation mechanism and line strength relationship.

Keyword: Double-peaked emission lines; Relevant subspace; LAMOST; Spectral analysis
引言

LAMOST[1, 2](大天区面积多目标光纤光谱天文望远镜, 又称郭守敬望远镜)望远镜于2017年6月完成第五期巡天, 共获得901万条光谱, 其中星系和类星体属于LAMOST河外巡天课题, 其光谱可能具有双峰发射线特征。 双峰发射线可用于双AGNs[3]、 双BHs、 双SMBHs[4, 5]等候选体的选取, 其他机制如喷流云的相互作用[6]、 窄线区的特殊结构、 目标源的重叠[7]也会产生双峰发射线。 双峰发射线轮廓一般出现在光谱的特殊区域如[OⅢ ]线[8, 9]、 Balmer线附近[10], 在这些特殊谱线上, Shi等从LAMOST DR1数据样本中通过交叉验证找出20个双峰发射线候选体[11], Wang等在LAMOST DR4的星系与类星体样本中搜寻出325个双峰窄发射线光谱候选体[3]

本文将LAMOST给出的双峰发射线光谱数据作为训练集, 基于相关子空间方法提出特征提取算法, 然后利用算法从训练集中提取出相关属性并得出特征子空间, 最后对特征子空间上的双峰发射线作出特征描述以及轮廓分析。

1 双峰发射线光谱特征提取
1.1 相关子空间

相关子空间可用于高维数据处理[12]、 离群点检测[13]、 聚类分析[14]。 本节基于相关子空间思想提出双峰发射线特征提取算法, 通过局部稀疏因子来确定属性的稀疏度, 其定义为

λij=yp(xij)(y-xij)2k+1(1)

式(1)中, λ ij为第j维属性上第i条光谱的局部稀疏因子, p(xij)是第j维属性上第i条光谱xij的局部数据集LDS(xij, Fj), 该数据集由KNN方法计算得出。 为进一步描述每维属性上LDS局部密度的差异程度, 将局部稀疏差异因子定义为

δij=λij-CλijCλij(2)

式(2)中, δ ij为第j维属性上第i条光谱的局部稀疏差异因子, Cλ ij表示在第j维属性上LDS的均方差。

为度量属性与双峰发射线特征是否相关, 首先利用局部稀疏差异因子阈值α 定义U=M+α × 10-3, 其中M为常量。 然后建立子空间V={V1, V2, …, Vj, …, Vn}, 其中n为属性维度, Vj={V1j, V2j, …, Vij, …, Vmj}, m为数据集规模。 若Vj=1, 则第j维属性为相关子空间的成员, 否则结果相反。 Vij定义为

Vij=1δijU0else(3)

1.2 基于相关子空间的特征提取算法

基于相关子空间的特征提取算法的具体过程如下:

算法描述:

输入: 数据集DS, 参数k, 稀疏差异因子阈值α

输出: 特征子空间

(1) 选择数据, 选取双峰发射线光谱中红移< 0.3的光谱作为训练集;

(2) 数据预处理, 对训练集数据移到静止波长、 流量归一化;

(3) 选取波长段, 截取波长在4 000~5 700和5 900~7 000 Å 之间的流量数据, 并令数据长度一致;

(4) 计算属性Fj上光谱o的局部数据集LDS(o, Fj);

(5) 根据式(1)计算属性Fj上第i条光谱的λ ij;

(6) 根据式(2)计算属性Fj上第i条光谱的δ ij;

(7) 根据式(3)得出相关属性, 并形成特征子空间。

2 参数取值与特征子空间

由算法描述可知, 参数kα 的取值会影响最终特征子空间的准确性, 这里令常量M=0.999, 给出k=10, 18, 26以及α =0.5, 0.6, 0.7时的实验分析。

2.1 参数α 取值分析

k=18, 调整α , 图1(a), (b)和(c)分别为α =0.5, 0.6, 0.7时的特征子空间, 其中每个图分别包括三个子图: 上方子图中, 红色点表示相关属性, 矩形框表示相关属性范围; 中间子图为第一个矩形的局部放大图; 下方子图为第二个矩形的局部放大图。 放大图中的红色线由连续的相关属性构成, 红色点为非连续的相关属性。

图1 (a) α =0.5的特征子空间
(b) α =0.6的特征子空间
(c) α =0.7的特征子空间
Fig.1 (a) Characteristics subspace when α =0.5
(b) Characteristic subspace when α =0.6
(c) Characteristics subspace when α =0.7

图1中, 相关属性集中在4 800~5 100和6 540~6 750 Å 两段波长范围内。 随着α 的增大, 相关属性个数越多, 但集中部位以外的非连续属性也越多。 根据图1中相关属性的分布, 可观察到相关属性位于谱线Hβ , [OⅢ ]λ λ 4 959, 5 007, Hα , [NⅡ ]λ λ 6 548, 6 584, [SⅡ ]λ λ 6 717, 6 731这8条谱线附近。 α 增大, 落在谱线附近的相关属性增加, 同时非相关属性增加, 反之亦然。

2.2 参数k取值分析

α =0.6, 分别观察k=10, 18, 26时的相关属性分布。 图2(a)和(b)分别为k=10和k=26时的相关属性分布, 描述了连续属性和非连续属性在光谱中的分布。 与图2(a)相比, 图2(b)在4 400~4 800 Å 波长范围内有更多非连续点出现。

图2 (a) k=10时的特征子空间
(b) k=26时的特征子空间
Fig.2 (a) Characteristics subspace when k=10
(b) Characteristics subspace when k=26

由图2可得出, 在k减少时, 属性分布更加密集, 非连续属性减少, 同时落在谱线附近的连续属性也会相应减少; 反之亦然。 结合图1与图2可知。 分布在Hβ , [OⅢ ]λ 4 959, [SⅡ ]λ 6 717谱线附近的相关属性个数较少, 这种现象可能是由于训练集在这三处双峰发射线特征较弱, 导致提取出的相关属性在此位置分布较稀疏。

根据以上参数分析并利用人眼检查得出k=18, α =0.6时, 特征子空间比较理想。

2.3 有效性验证

利用正样本进行特征提取, 由实验结果可知特征子空间中包括8条特征谱线。 这里为验证该方法的有效性, 选取332条非双峰发射线天体光谱作为负样本, 进行了测试。 在负样本的特征提取结果中, 没有出现特征谱线, 特征子空间中的谱线个数为0。 与正样本的实验结果相对比, 负样本可以验证本文的特征提取方法具备有效性。

3 双峰光谱特征分析
3.1 光谱特征描述

由实验结果可知, 基于双峰发射线的特征子空间包含8条谱线, 根据波长范围由近及远, 谱线分别为Hβ , [OⅢ ]λ 4 959, [OⅢ ]λ 5 007, [NⅡ ]λ 6 548, Hα , [NⅡ ]λ 6 584, [SⅡ ]λ 6 717, [SⅡ ]λ 6 731。 为进一步描述双峰发射线特征, 根据双峰红/蓝移间隔red/blue shift interval(RBS)、 线强比line strength ratio(LSR)定义A=< A1, A2, …, Ai, …, A8> , 其中Ai=< line, RBS, LSR> , line表示第i条谱线, RBS表示该谱线上双峰红/蓝移间隔, LSR表示双峰线强比, RBS与LSR分别定义为

RBS=[min(RBSj), max(RBSj)](4)LSR=[min(LSRj), max(LSRj)](5)

式(4)和式(5)中RBSj与LSRj分别为第j条光谱中双峰的红/蓝移间隔与线强比, 其中j∈ {1, 2, …, len(dataset)}, 由上述公式可知谱线的RBS与LSR介于其最大值与最小值之间。 假设双峰的位置分别为(wave1, flux1), (wave2, flux2), RBSj与LSRj定义如式(6)和式(7)

RBSj=wave2rest_wave-1-wave1rest_wave-1(6)LSRj=flux2flux1(7)

式(6)中, RBSj为第j条光谱中双峰的红/蓝移间隔, rest_wave为静止波长下谱线的线芯, 该公式可度量两峰之间的距离, 若双峰距离在RBS范围之外, 说明双峰的红端与蓝端跨度过大或者重合, 则认为该双峰不可信。 式(7)中LSRj表示双峰强度比, 若某双峰线强比超出LSR范围, 则表明该双峰特征不在可信范围内。

通过人工观察训练集中的双峰轮廓, 记录产生特征的谱线以及特征的峰值信息, 根据双峰的位置坐标利用式(6)和式(7)计算每条谱线上的RBS与LSR, 表1(a)和(b)分别为红端谱线与蓝端谱线的波长区间和RBS, LSR范围。 根据表1(a)与(b)可知每条谱线上的双峰红/蓝移间隔与线强比, 该表可作为鉴定未知双峰发射线的依据。 若检测出的双峰发射线在表中范围内, 该双峰发射线可作进一步验证; 否则认为其不符合双峰发射线的基本特征, 该线不是双峰发射线。

表1 (a)蓝端双峰发射线特征描述 Table 1 (a) Characteristic description of double peaks on blue band
表1 (b) 红端双峰发射线特征描述 Table 1 (b) Characteristic description of doublepeaks on red band
3.2 光谱轮廓分析

双峰发射线在光谱中出现的位置不同, 轮廓也不相同, 通过检查训练集中的双峰发射线光谱, 对不同特征子空间上的双峰轮廓做出如下分析。

根据不同的发射线激发机制, 在不同特征子空间上的双峰轮廓([OⅢ ]/[NⅡ ]/[SⅡ ]等禁线)如图3所示。

图3 禁线双峰轮廓Fig.3 Profiles of double peaks for forbidden lines

图3中[OⅢ ]λ λ 4 959, 5 007与[SⅡ ]λ 6 717线上的双峰特征较明显, 表明该光谱中[OⅢ ]与[SⅡ ]发射线对双峰特征的激发强度较大。 而在[NⅡ ]发射线上的双峰特征不明显, 说明[NⅡ ]的激发力度较低。

图4中呈现Hβ 和Hα 等氢线的双峰轮廓, 由于Balmer衰减的原因, 高阶Balmer线的双峰特征不明显或无法识别。 在Hβ 和Hα 处均产生双峰轮廓, 训练集中H线上的双峰特征多数较明显, 但由于激发机制的不同, 某些光谱在这两处特征不明显甚至没有双峰特征。

图4 氢线双峰轮廓Fig.4 Profiles of double peaks for H lines with that of blue band

从线强关系的角度出发, 光谱中双峰轮廓见图5、 图6。

图5 红蓝端双峰轮廓一致Fig.5 Line strength of redband is consistent

图6 红蓝端双峰轮廓不一致Fig.6 Line strength of red band is inconsistentwith that of blue band

图5为红端与蓝端特征一致的双峰轮廓, 且所有的双峰轮廓上蓝端特征均强于红端, 线强比均小于1, 红/蓝端线强关系一致。 图6为红蓝端特征不一致的双峰轮廓, H线上的线强比小于1, [OⅢ ]线上的线强比大于1, 二者红/蓝端线强关系不一致。

4 结论

针对LAMOST低分辨率光谱数据, 利用相关子空间的思想, 提出双峰发射线特征提取与分析的方法。 由训练集样本得到特征子空间为Hβ , [OⅢ ]λ λ 4 959, 5 007, [NⅡ ]λ λ 6 548, 6 584, Hα , [SⅡ ]λ λ 6 717, 6 731, 并对不同特征子空间上的双峰发射线作出特征描述和轮廓分析。 该方法可应用于特殊光谱数据的特征提取, 能够降低数据维度, 并提取出特征信息。

The authors have declared that no competing interests exist.

参考文献
[1] Luo A L, Zhao Y H, Zhao G, et al. Research in Astronomy and Astrophysics, 2015, 15(8): 1095. [本文引用:1]
[2] Liu X W, Zhao G, Hou J L. Research in Astronomy and Astrophysics, 2015, 15(8): 1089. [本文引用:1]
[3] Wang M X, Luo A L, Song Y H, et al. Monthly Notices of the Royal Astronomical Society, 2018, 482(2): 1889. [本文引用:2]
[4] Liu J, Eracleous M, Halpern J P. The Astrophysical Journal, 2016, 817(1): 42. [本文引用:1]
[5] Kharb P, Das M, Subramanian S, et al. arXiv preprint arXiv, 2015, 1508: 07429. [本文引用:1]
[6] Das M, Kharb P, Honey M. Monthly Notices of the Royal Astronomical Society, 2017, 465(4): 4772. [本文引用:1]
[7] Yang H. A Study of Superimposed Components Recognition and Analysis on LAMOST Extragalactic Spectra, 2017. [本文引用:1]
[8] Eracleous M, Lewis K T, Halpern J P, et al. The Ultraviolet Spectra of Active Galaxies with Double-Peaked Balmer Emission Lines. American Astronomical Society Meeting Abstracts. 2015, 225. [本文引用:1]
[9] SHI Zhi-xin, Georges Comte, LUO A-li, et al(石志鑫, Georges Comte, 罗阿理, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(11): 3132. [本文引用:1]
[10] Comerford J M, Nevin R, Stemo A, et al. The Astrophysical Journal, 2018, 867(1): 66. [本文引用:1]
[11] Shi Z X, Luo A L, Comte G, et al. Research in Astronomy and Astrophysics, 2014, 14(10): 1234. [本文引用:1]
[12] Zhang L, Lin J, Karim R. Reliability Engineering & System Safety, 2015, 142: 482. [本文引用:1]
[13] Zhang J, Yu X, Li Y, et al. Knowledge-Based Systems, 2016, 99: 1. [本文引用:1]
[14] Piao M, Shon H S, Lee J Y, et al. IEEE Transactions on Power Systems, 2014, 29(6): 2628. [本文引用:1]