中低分辨率光谱的恒星Mg元素丰度估计方法研究
卜育德1,*, 潘景昌2, 衣振萍2
1. 山东大学(威海)数学与统计学院, 山东 威海 264209
2. 山东大学(威海)机电与信息工程学院, 山东 威海 264209
*通讯联系人

作者简介: 卜育德, 1981年生, 山东大学(威海)数学与统计学院副教授 e-mail: buyude001@163.com

摘要

主要研究了一种新的基于ELM算法的中低分辨光谱的恒星Mg元素丰度估计方法。 大科学工程郭守敬望远镜(LAMOST)为我们提供了海量的中低分辨率的光谱, 确定这些光谱的Mg元素丰度将有助于我们深入了解银河系的形成历史和演化过程。 目前从中低分辨率光谱中确定Mg元素丰度的方法主要是模板匹配法, 但该方法算法复杂, 优化参数较为困难且对噪声敏感, 因此有必要研究新的方法。 实验结果显示, ELM算法对MILES光谱的Mg丰度的估计的精度为0.009 9(0.15)dex, 而对信噪比大于50的LAMOST光谱的精度为0.002 7(0.11)dex。 通过与其他算法进行对比, 证实ELM算法是一种能精确估计中低分辨率光谱的Mg元素丰度的算法, 能够应用于LAMOST后期的光谱数据中。

关键词: ELM算法; Mg元素丰度; LAMOST光谱; MILES光谱
中图分类号:TP29 文献标志码:A
Estimation of Mg Abundances from Low Resolution Spectra Using ELM Algorithm
BU Yu-de1,*, PAN Jing-chang2, YI Zhen-ping2
1. School of Mathematics and Statistics, Shandong University, Weihai, Weihai 264209, China
2. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai 264209, China;
*Corresponding author
Abstract

In this paper, we mainly study a new method for estimating the Mg abundance of stars from the medium and low resolution spectra based on ELM algorithm. LAMOST provides us with a massive low-resolution spectrum, and determining the abundance of Mg elements in these spectra will help us understand the history and evolution of the Milky Way. At present, the traditional method of determining the abundance of Mg element from medium and low resolution spectra is the template matching method. However, this method is difficult to optimize parameters and is sensitive to noise. Therefore, it is necessary to study new methods to estimate the Mg abundance. The experiment show that ELM algorithm is agood alternative to traditional method. The accuracy of ELM algorithm on MILES spectra is 0.009 9 (0.15) dex, while on the LAMOST spectra with signal-to-noise ratios larger than 50 it is 0.002 7 (0.11) dex. A comparison of ELM with other four algorithms shows that ELM algorithm can accurately estimate the abundance of Mg elements from low resolution spectra and can be applied to the LAMOST spectra.

Keyword: ELM algorithm; Abundance; LAMOST spectra; MILES spectra
引 言

根据现有的恒星演化理论, 恒星包括Mg元素在内的元素主要来源于短时标的SN Ⅱ 型超新星爆炸, 而Fe元素主要来源于更长时标的SNIa型超新星爆炸。 因此, 恒星形成的时标越短, Mg元素丰度[Mg/Fe]越高, 反之则Mg元素丰度[Mg/Fe]越低[1]。 因此星系内恒星的Mg元素丰度的分布可以揭示该星系的形成和演化历史。 银河系是目前唯一的人类可以获取大量恒星Mg元素丰度信息的星系, 对银河系的恒星Mg元素丰度分布的研究将帮助我们深入了解银河系的形成和演化历史。

我国自主研制的大口径大视场望远镜郭守敬望远镜(LAMOST)目前获取了超过800万条中低分辨率的恒星光谱。 获取这些恒星光谱的元素丰度, 将极大的扩展恒星元素丰度分布的信息, 帮助科学家更加深入的了解银河系的形成和演化历史。 因此, 我们有必要研究如何从类似于LAMOST光谱的中低分辨率光谱中准确提取元素丰度。

目前关于从中低分辨率光谱中提取元素丰度研究较少, 主要使用模板匹配方法。 Milone, Sansom和Sanchez-BlazquezLee等研究了MILES光谱的Mg元素丰度提取方法, 主要通过模板匹配以及与高分辨光谱交叉的方法确定了Mg元素丰度, 该方法确定的Mg元素丰度精度约为0.12 dex[2]。 Xing等使用模板匹配法确定SLOAN光谱中Mg元素丰度并从贫金属星中搜寻贫Mg丰度的恒星[3]。 Xing等研究了使用模板匹配法确定低分辨率的LAMOST光谱中的Mg元素丰度并进而搜寻银晕中的贫α 星[4]

以上研究主要使用模板匹配方法。 但众所周知, 模板匹配法优化权重的方法复杂, 且易受噪声影响。 本文将研究使用极限学习机算法(ELM)估计Mg元素丰度的方法。 ELM算法是Huang等提出的一种特殊的单隐层前向神经网络(SLFNs)[5]。 ELM算法通过随机选择初始权重来提高训练速度, 同时避免传统神经网络可能陷入局部最优解的缺点。 ELM算法已经被应用于基因分析[6], 图像分类[7]等领域。 本文将使用ELM算法确定中低分辨率的MILES光谱和LAMOST光谱的Mg丰度。 实验结果显示该方法具有较高的准确度, 能够用于更大规模的LAMOST光谱的Mg丰度确定与特殊Mg丰度恒星搜寻。

1 ELM算法简介

设(xi, ti)(i=1, …, N)为样本数据, 其中xi=[xi1, xi2, …, xin]TRn为数据, ti=[ti1, ti2, …, tim]T为对应于xi的标签(目标值)。 SLFNs的数学模型为

i=1N0βigi(xj)=i=1N0βig(wixj+bi)=oj

这里wi=[wi1, wi2, …, win]T为连接输入层与隐藏层的第i个节点的权重β i=[β i1, β i2, …, β im]T, 为连接第i个隐含节点与输出层之间的权重, bi为第i个隐藏节点的偏置项, oj为SLFNs的第j个输出。 我们的目标是根据训练数据确定β i, wibi以最小化下面的目标函数

E=j=1Ni=1N0βig(wixj+bi)-tj2

传统方法是通过梯度下降法来学习wi, β ibi, 而在ELM算法中我们首先随机设置wibi, 然后使用下述公式计算β i

β=H-1T

这里H-1为下述H矩阵的Moore-Penrose广义逆矩阵H:

H=g(w1x1+b1)g(wN0x1+bN0)g(w1xN+b1)g(wN0xN+bN0)N×N0T=[tT1, tT2, ,  tTN]T

由于ELM不需要确定最优的wibi, 因此ELM算法比传统的SLFNs方法效率高。 而研究证实, 随机设置wibi并不会降低算法的准确度。

2 实验部分

本文使用的数据包括两部分: MILES光谱和LAMOST光谱。

我们使用的第一组数据包含有752个恒星光谱, 光谱来自于MILES最新释放的光谱库MILES v9.1[8]。 MILES恒星光谱库共包含有985个波长覆盖范围为3 525~7 500 Å 分辨率为2.3 Å (FWHM)的光谱, 但其中只有752个光谱具有Mg元素丰度, 其Mg元素丰度由Milone等通过模板匹配以及与高分辨光谱交叉的方法确定[2]。 第一组恒星数据的[Mg/Fe] vs.[Fe/H] 分布图由图1给出。

图1 MILES光谱的[Mg/Fe]与[Fe/H]分布图Fig.1 Distribution of MILES spectra in the [Mg/Fe]-[Fe/H] plane

实验中使用的第二组数据为LAMOST光谱, 共包含13 536条光谱, 其中信噪比S/N大于50的有9 287条。 由于LAMOST释放的星表中没有提供Mg元素丰度, 我们使用的光谱的Mg元素丰度通过与APOGEE光谱库提供的Mg元素丰度交叉获得。 APOGEE是SDSSⅢ 项目的子项目[9], 主要科学目标是使用高分辨(R~20 000)、 高信噪比(S/N~100)的红外光谱给出超过10万颗红巨星的元素丰度以研究银河系的恒星形成过程和演化历史。 这一组数据的[Mg/Fe]vs.[Fe/H]分布图由图2给出。

图2 LAMOST光谱的[Mg/Fe]与[Fe/H]分布图Fig.2 Distribution of LAMOST spectra in the [Mg/Fe]-[Fe/H] plane

实验中所有的数据将会被随机取出20%用来训练, 其余部分用来测试。 而实验结果主要由如下两个标准衡量: Δ , 目标值与预测值之间的差距的中位数; σ , 目标值与预测值之间的差距的标准差。

3 结果与讨论
3.1 Mg元素丰度估计

我们首先在MILES光谱上使用ELM算法进行Mg丰度估计, 实验结果由图3给出。 结果显示, ELM算法给出的精度为Δ =0.009 9 dex(σ =0.15 dex), 同MILES提供的Mg元素丰度精度类似。 因此, ELM算法能够较为精确的确定MILES光谱的Mg元素的丰度。

图3 ELM给出的MILES光谱的Mg丰度估计结果
x轴为MILES给出的Mg丰度估计, y轴为ELM算法给出的结果与MILES给出的结果之差
Fig.3 Mg abundance of MILES spectra determined with ELM algorithm
The x-axis represents the Mg abundance from MILES catalog, and y-axis represents the difference between results determined with ELM with those from MILES catalog

我们又使用LAMOST的信噪比S/N> 50的9 287条光谱进行了实验, 实验结果由图4给出。 结果显示, ELM算法给出的精度为Δ =0.002 7 dex(σ =0.11 dex)。 该结果比MILES光谱上的结果要好, 原因可能是MILES光谱提供Mg元素丰度本身精度不高, 导致无法精确的训练算法。

图4 ELM给出的LAMOST光谱的Mg丰度估计
x轴为LAMOST给出的Mg丰度, y轴为ELM给出的Mg丰度与LAMOST光谱的Mg丰度之差
Fig.4 Mg abundnace of the LAMOST spectra determined with ELM algorithm
The x-axis represents the Mg abundance from LAMOST catalog, and y-axis represents the difference between results determined with ELM with those from LAMOST catalog

3.2 信噪比对结果的影响

本实验中我们使用LAMOST光谱进行实验。 把LAMOST光谱按照信噪比分成如下7组数据: D1: S/N≥ 100; D2: 80≤ S/N< 100; D3: 60≤ S/N< 80; D4: 40≤ S/N< 60; D5: 20≤ S/N< 40; D6: 10≤ S/N< 20; D7: S/N< 10。 然后对每一组数据随机选取20%作为训练数据, 其余部分用来测试。 实验结果由表1给出。

表1 使用不同信噪比的光谱的Mg元素丰度估计结果 Table 1 Performance comparison of different algorithms on estimating Ma abundances

结果显示, 随着信噪比降低, 估计结果精度会逐渐下降。 在数据集D4上的精度为Δ =-0.005 7dex(σ =0.14 dex), 与ELM算法在MILES光谱上的精度类似。 而在信噪比小于40的数据集D5, D6和D7上估计精度则较差。 因此, 在使用ELM算法时, 建议使用具有较高信噪比的LAMOST光谱。 考虑到LAMOSTDR4中包含的信噪比大于40的光谱有1 871 952条, 而我们的算法可以应用于这些海量的光谱中, 因此有很重要的应用价值。

3.3 数据预处理对结果的影响

上述实验中我们均直接使用了LAMOST光谱数据, 没有对光谱数据做降维处理。 一般情形下, 使用PCA对数据做预处理, 将会减少光谱的噪声, 提高算法的效率。 为检验PCA能否提升ELM算法的结果, 我们用PCA降维之后的数据作为ELM算法的输入对Mg丰度进行了估计, 并与使用未降维的光谱的结果进行了对比, 结果由表2给出。

表2 使用PC与使用光谱的结果比较 Table 2 Comparison between results from PC those from the spectra

结果显示, 使用PCA预处理过的数据得到的丰度估计结果与使用光谱得到的结果精度类似。 这说明, 使用ELM算法估计Mg元素丰度不需要光谱预处理即可得到较为精确的估计结果, 这说明了ELM算法能够从光谱提供的信息中准确提取出和Mg丰度有关的信息而不需要借助于其他数据预处理。

3.4 不同算法结果的比较

为了进一步展示ELM算法的精度, 我们把ELM算法同如下常用的算法进行了对比: 支持向量回归(SVR), 线性回归(LR), 高斯过程回归(GPR), 核回归(KR), 人工神经网络(ANNs)。 我们使用的数据为信噪比大于50的LAMOST数据, 结果由表3给出结果显示, 相比于其他算法, ELM算法给出的估计精度最高。 因此, ELM算法可以用来估计Mg元素的丰度。

表3 不同算法结果对比 Table 3 Comparison of results of different algorithms
4 结 论

研究了一种新的估计恒星元素丰度的方法: ELM方法。 该方法基于单层神经网络方法, 但由于采用了随机设置某些参数的方法, 极大提高了运算速度, 同时不影响运算精度。 我们把该方法应用于估计MILES光谱与LAMOST光谱的Mg丰度。 实验结果显示:

(1)ELM估计MILES光谱的Mg元素丰度精度为Δ =0.009 9 dex(σ =0.15 dex), 估计信噪比S/N> 50的LAMOST光谱的Mg丰度的精度为Δ =0.002 7 dex(σ =0.11 dex)。 这说明ELM估计恒星的Mg元素丰度精度较高, 可以被用于中低分辨率光谱的Mg元素丰度的确定。

(2)ELM算法的结果会随着信噪比的下降而精度降低。 其在信噪比S/N< 40的光谱上结果低于Δ =0.012 dex(σ =0.17 dex)。 因此, 在实际应用中应把ELM算法用于信噪比大于40的光谱。

(3)使用PCA对数据进行预处理并不能提高ELM算法结果的精度。 这说明ELM算法本身能够从光谱中提取到和Mg元素丰度相关的特征, 具有很强的特征提取能力。

(4)ELM算法同GPR算法、 SVR算法、 KR算法、 LR算法和ANN算法的比较结果显示, ELM算法的精度最高。 因此ELM算法是一种可靠的Mg丰度估计方法, 可以应用于LAMOST后续光谱的Mg丰度估计。

参考文献
[1] Lee Y S, Beers T C, Prieto C A, et al. The Astronomical Journal, 2010, 141(3): 90. [本文引用:1]
[2] Milone A D C, Sansom A E, Sanchez-Blazquez P. Monthly Notices of the Royal Astronomical Society, 2011, 414(2): 1227. [本文引用:2]
[3] Xing Qianfan, Zhao Gang. The Astrophysical Journal, 2014, 790(1): 33. [本文引用:1]
[4] Xing Qianfan, Zhao Gang, Zhang Yong, et al. Research in Astronomy and Astrophysics, 2015, 15(8): 1275. [本文引用:1]
[5] Huang G B, Zhu Q Y, Siew C K. Neurocomputing, 2006, 70(1): 489. [本文引用:1]
[6] Savojardo C, Fariselli P, Casadio R. Bioinformatics, 2011, 27(16): 2224. [本文引用:1]
[7] Akusok A, Bjork K, Miche Y, et al. IEEE Open Access, 2015, 3: 1011. [本文引用:1]
[8] Falcon-Barroso J, Sanchez-Blazquez P, Vazdekis A, et al. Astronomy & Astrophysics, 2011, 532: A95. [本文引用:1]
[9] Prieto C A, Majewski S R, Schiavon R, et al. Astronomische Nachrichten, 2008, 329: 1018. [本文引用:1]