A型恒星光谱线指数岭回归有效温度的预测分析
薛仁政1, 陈淑鑫1,*, 黄宏本2
1. 齐齐哈尔大学计算机与控制工程学院, 黑龙江 齐齐哈尔 161006
2. 梧州学院大数据与软件工程学院, 广西 梧州 543002
*通讯联系人 e-mail: shuxinfriend@126.com

作者简介: 薛仁政, 1979年生, 齐齐哈尔大学讲师 e-mail: 27744950@qq.com

摘要

天文光谱线指数数据能够较好地保留着恒星的物理特征信息, 为此借助线指数特征数据构建多参数模型, 有利于更好地回归分析数据的共变关系及谱线的内在规律。 世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记, 利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关, 多元线性回归时因变量存在共线性, 导致方差较大、得到最小二乘回归系数不稳定, 虽不影响使用回归的有效性, 但较难从回归方程中得到独立预测因子的评估系数。 利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源, 选取有效温度 Teff为7 000~8 500 K, 取信噪比大于50的光谱特征值实现回归分析恒星参数 Teff值, 经箱线图呈现DR5星表中, A型光谱86 097条具备 Teff值大样本光谱数据的整体分布, 统计分析26种线指数的特征值后, 选取分布相似且带宽为12 Å的kp12, halpha12和hgamma12字段, 减少解释线指数变量的数目, 优化冗余变量方差膨胀因子(VIF)系数。 实验选取两两变量间观测数据集, 局部拟合回归散点、 同样的数据源使用散点图的总体轮廓生成高密度散点图, 利用色差透明性突出显示数据密集区域。 结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度, 但经过共线性数据分析有偏估计实验, 使用岭回归分析寻找最佳模型, 能更准确地确定恒星有效温度, 进而得到预测A型恒星有效温度及谱线回归特性。

关键词: 恒星光谱; LAMOST; 岭回归; 线性模型; Lick线指数
中图分类号:P145.4 文献标志码:A
Line Index of A-Type Stellar Astronomical Spectrum Predict Effective Temperature by Ridge Regression Model
XUE Ren-zheng1, CHEN Shu-xin1,*, HUANG Hong-ben2
1. School of Computer and Control Engineering, Qiqihar University, Qiqihar 161006, China
2. School of Data Science and Software Engineering, Wuzhou University, Wuzhou 543002, China
*Corresponding author
Abstract

Line index is widely used in describing the features of spectral lines for astronomical objects because it retains the main physical characteristic information of these objects. Based on line index, a multi-parameter model for regression analysis could be used to uncover co-variation relationship of data and the inherent laws of spectral lines. The observed spectra released by LAMOST, which has the highest spectra acquisition capability, provide us with real data for establishing a robust regression model. The multivariate linear regression was applied to get the co-linearity of the dependent variables, however, it resulted in large variance. It is unstable to obtain the least squares regression coefficient sometimes. Especially, it’s difficult for the multivariate linear regression to obtain the evaluation coefficient of independent predictor from the regression equation. In this paper, we use the A-type stellar Lick line index in the LAMOST survey data as the data source. Selecting the spectra with effective temperature ( Teff) from 7 000 to 8 500 K, and the signal-to-noise ratio higher than 50 to realize the regression analysis. After a set of linear biased estimation experiment for A-type stars, the method of ridge regression training was employed. In the catalogue of LAMOST data release 5 (DR5), 86 097 A-type spectra have provided the Teff value. After statistical analysis of the eigenvalues of 26 line indices, the kp12, halpha12 and hgamma12 with similar distribution and bandwidth of 12 Å were selected to reduce the data redundance. The number of variety was optimized for the redundant variable variance expansion factor (VIF) coefficient. Two regression experiments selected the same observation dataset to locally fit the regression scatter, using the overall contour of the scatter plot to generate a high-density scatter plot, highlighting the data-intensive region with the color difference transparency. The results show that both the multiple linear regression and the ridge regression algorithm can determine the effective temperature ( Teff) of the A-type star through the low-resolution spectrum, but the co-linearity data analysis has some biased estimation. The ridge regression model can more accurately predict the effective temperature of A type stars from the low resolution spectra.

Keyword: Stellar spectra; LAMOST (Large sky area multi-object fiber spectroscopy telescope); Ridge regression; Linear model; Lick line index
引 言

2008年10月16日作为世界上光谱获取率最高的施密特天文望远镜LAMOST投入使用, 增强了我国在国际天文研究领域巡天观测的地位[1], 提升了我国大视场天文学及大数据光学光谱观测研究方面的科研水平。 天文大数据中蕴含着海量天体光谱信息[2], 研究者们通过定义光谱线指数来描述光谱的特征, 其中Lick线指数的应用最为广泛[3], 已有研究者利用Lick指数对LAMOST光谱分析, 例如, 2015年国家天文台刘超利用LAMOST星表中线指数分析MK恒星分类CaII K特征值之间的分布[4], 2016年潘景昌等提出利用线指数特征对LAMOST DR2数据中F, G, K和M型恒星光谱聚类分析研究[5], 并基于SVM输入光谱线指数完成恒星分类等。 本文通过分析LAMOST已发布的A型光谱线指数, 利用多元线性回归算法分析实现估计A型恒星的有效温度。 实验选取温度值7 000~8 500 K, 信噪比S/N大于50的A型恒星数据, 经线性拟合分析, 最后利用岭回归方法构建共线性数据分析有偏估计回归模型, 解决过拟合问题, 得出一种预测LAMOST大样本实测光谱有效温度的回归方法。

1 天文光谱线指数

天文光谱线指数值在天文研究领域已取得诸多成果, 线指数表示天文光谱中物理特征的数值, 保留着多种类型的参数特征数据, 1994年Guy Worthey等给出Lick线指数的完整定义及描述[6], 光谱线指数的数值定义光谱中特征谱线的积分星等特征数值、谱线等值宽度(EW)以及半高全宽(FWHM)的光谱线指数组合。

1.1 LAMOST线指数

光谱数据是天体物理学研究的基础和证认依据, 我国国家天文台运行着大天区多目标光纤光谱望远镜(LAMOST)截止到2018年7月, LAMOST已经积累了六年的巡天数据(http://dr5.lamost.org/), DR5数据集共获得9 017 844个光谱。 LAMOST巡天光谱数据按MK分类标准系统进行光谱型分类, 波长覆盖范围从3 690~9 100 Å , 步长为1 Å (总采样点数N=5 491), 分辨率为1 800, 在用模板光谱来自约100万条的大量先导巡天实测恒星光谱数据。

LAMOST发布DR5数据v1版中A型恒星提供的光度类型比DR1目录中包含了更多的线指数信息, DR5星表中共计439 914条A型光谱, 其中86 097条光谱数据具备Teff值, 如图1所示经箱线图呈现大样本之间的不同, 反映线指数统计量整体分布, 从26种线指数特征值中选取分布相似, 且带宽为12 Å 的kp12, halpha12和hgamma12字段, 减少解释变量的数目, 增加方差膨胀因子(VIF)系数, 在第3.1节分析VIF冗余变量获得更好的预测效果。 后文实验选取信噪比S/N大于50, 且温度在7 000~8 500 K范围的A型恒星数据线性拟合分析恒星大气物理参数的有效温度值。

图1 A型恒星线指数26种特征值分析箱线图Fig.1 Boxplot analysis of 26 eigenvalues of A-type stellar line index

1.2 构造数据模型

LAMOST发布的观测光谱都已经过标记, 先前研究所构建的回归模型大部分都是假定自变量和因变量之间呈线性关系[7], 对于任何回归问题的预测因子都可能产生自相关, 虽然并不影响回归使用的有效性, 但很难或者不可能从回归方程中得到独立预测因子的评估系数。 后文提出的方案包括以下步骤: 首先, 利用天文可视化工具对LAMOST线指数数据统计分析; 其次, 用Lick线指数对Teff测量进行多元线性回归; 最后, 采用岭回归寻找最佳模型, 得到多元线性回归训练预测的模型。 结果表明多元线性回归和岭回归算法都能准确地从低分辨率光谱中确定A型恒星的有效温度。

2 线性模型分析

多个不同的解释变量显示相似的变量信息时, 可能导致方差非常大, 使估计准确性变差, 需要解决变量间的共线性问题。 当线指数的特征变量和恒星参数呈非线性关系时, 需保留线指数的多个类型的参数数据, 本节结合响应变量与解释变量之间的关系, 用散点图表示, 并进行多线性回归分析, 较好地解释变量相互关联性问题。

2.1 谱线多重共线性

多重共线性分析可定量解释模型中包含的多个变量函数, 基于A型恒星参数建立的回归模型能够有效预测Teff数据特征之间相关方法, 与典型线性回归不同, 使用多重线性回归来实现分析Lick线指数与Teff之间的关系, 特别是连续光谱中存在着校准和消光等较多的不确定性因素, 后文运用预测方法有效地利用谱线指数从天文光谱中提取Teff特征。 多元线性回归方程模型如式(1)所示

Teff, i=β0+β1Xi, 1+β2Xi, 2++βpXi, p+εi(1)

式(1)中, i=1, 2, …, N; 回归误差ε i; 方差σ 2; 预测因素的数量级为p; 每个独立变量的值Xip; N是测试数据N(0, σ 2), 满足E(ε i)=0和Var(ε i|X) =σ 2, 预测因子系数β 1, …, β p-1, β p常数项β 0是估计与最小二乘方法。 利用拟合函数能执行完整的线性模型分析, 输出值与最小二乘估计β 1β 0值如式(2)所示。

S(β)=i=1n(Teff, i-β0-β1Xi1-β2Xi2--βpXi2p)2=Teff-χα2(2)

2.2 线性拟合观测数据

依据1.1节分析结果, 当LAMOST观测样本量较大, 所绘制数据点非常集中时, 很多数据点重合叠加, 不利于直观展示数据的局部规律和趋势以及线指数特征值之间的相关性特征, 本文实验选取相应比例的局部数据集拟合回归。 实验将观测数据两两变量间以散点呈现在二维平面的数据点分布, 如图2— 图4所示被分析量恒星有效温度Teff与线指数之间相关关系。 实验中用模型回归线与观测数据的拟合程度来表示因变量与所有自变量之间的总体关系, 经函数拟合回归曲线如图2(a)、 图3(a)和图4(a)数据点重叠集中, 分别包含蓝色线、 绿色线和红色线显示线性回归趋势。 由于数据点的重叠使得因变量和自变量之间的关系难以识别, 不利于直观地显示观察变量之间的相关特征, 同样的数据源使用统计透明性如图2(b)、 图3(b)和图4(b)所示任意坐标上重叠点的数量, 使用散点图的总体轮廓生成高密度散点图, 利用色差突出显示数据密集区域, 将不同Counts数据点分箱, 用灰度深浅表示箱中数据点的个数, 明晰散点图的整体轮廓, 数据的散点映射表示核密度估计。 该函数自动在一定范围内设置数据点, 显示数据点被划分成几个框, 灰色的数据用来表示框中数据点的数量。

图2 A型恒星有效温度Teff与kp12线指数分析
(a): 线性回归散点图(蓝色); (b): 高密度散点图
Fig.2 A-type stellar effective temperature Teff and kp12 line indices
(a): Scatter plot with linear regression (in blue); (b): High density scatter plot

图3 A型恒星有效温度Teff与hdelta12线指数分析
(a): 线性回归散点图(绿色); (b): 高密度散点图
Fig.3 A-type stellar effective temperature Teffand hdelta12 line indices
(a): Scatter plot with linear regression (in green); (b): High density scatter plot

图4 A型恒星有效温度Teff与hgamma12线指数分析
(a): 线性回归散点图(红色); (b): 高密度散点图
Fig.4 A-type stellar effective temperature Teffand hgamma12 line indices
(a): Scatter plot with linear regression (in red); (b): High density scatter plot

从图2— 图4中散点分布趋势显示Teff与kp12, hdelta12和hgamma12变量之间的负线性相关性是非常明显的, 如表1所示两两变量间所得到协方差矩阵为对称矩阵, 表中计算各列的方差值, 其中以主对角线为对称轴对应相等的矩阵, 列出的运行结果可得因变量可变性的百分比, 后续章节利用回归方程误差度量线性模型反映拟合程度真实关系, 后文岭回归预测模型中协同因子是最关键的相关关系。

表1 线指数特征值与Teff参数线性相关系数值 Table 1 Linear correlation coefficient between line index eigenvalues and Teff

3 预测大气参数

基于上述对LAMOST观测数据模型的分析, 建立多线性回归预测恒星参数的数据模型, 预测模型体现输出的恒星有效温度Teff即被解释变量与线指数输入的多个特征变量的线性和非线性关系。

3.1 线指数共线性

结合上节提及的共线性问题是多个线指数的特征值变量给出相似的分析, LAMOST数据绘制散点图呈现所有变量的散点图表示响应变量与解释变量之间的关系相关性, 利用方差膨胀因子VIF确定解释变量的共线性程度。 实验利用多线性共同标准方差膨胀因子VIF=1/(1- rj2), 其中 rj2表示多个其他相关变量的回归系数, 线指数通过Xj变量计算VIF, 得到hgamma12的VIF值为3.288 479× 106远远超过VIF的最大限度影响因子 rj2> 0.9, 故存在多重共线性, 多线性分析会影响估计量的准确性。 依据存在非线性的因素, 建立多线性回归模型变量的相关系数, 得到与有效温度相关的皮尔森相关系数矩阵, 建立模型残差为1.213, 调整可决系数为0.993, 优化模型线指数特征值结果。 如式(3)表述线性组合在两组随机变量X'X中选取若干个相关关系的指标, 表示原来的两组变量的综合关系。 后文实验采用岭回归估计在变量X'X中增加正常矩阵kI(k> 0), 则X'X+kI更接近真实的回归值, 符合参数k值如图5所示, 正规方程最优解时当k→ 0时 β^(0)得到原来的最小二乘估计, 训练线性回归模型为式(3)。

β^(k)=(X'X+kI)-1X'y(3)

图5 A型恒星线指数系数线性回归估计分析图Fig.5 Linear regression analysis diagram of A-type star line exponential coefficient

3.2 岭回归分析

从上文得到线指数值实现多元线性回归时系数矩阵与其转置矩阵相乘得到的矩阵不能求逆, 且方差较大使得光谱特征变量间存在共线性造成最小二乘回归不稳定。 为此本节通过Ridge岭回归解决最小二乘法的无偏性, 没有抛弃任何特征缩小回归系数获得可靠的回归系数预测大气有效温度参数预测模型teff=12 770+β 1kp12+…+β 26hdelta_d02式中β 系数值, 如表2列出各特征显示模型准确地从低分辨率光谱中确定A型恒星的有效温度。

表2 岭回归模型线指数特征值与Teff参数线性相关系数值 Table 2 Line index characteristic value and Teffparameter linear correlation value with ridge regression model

当变量间存在共线性且方差很大, 得到不稳定的最小二乘回归系数。 为此系数矩阵X与其转置矩阵相乘得到的矩阵不能求得其逆矩阵, 实验通过ridge regression函数引入参数lambda, 解决上述问题, 利用第1.1节中列出26种特征值选择岭回归参数k, 从优化模型运行结果得岭回归参数值为0.014 7, 各自变量的系数显著明显提高, 岭回归模型的lambda值代入线性回归模型, 得到Teff有偏的估计, 也可采用优化广义交叉验证GCV方法自动选取得到最佳岭回归的参数k值如图6所示, 经岭回归计算变量的相关性分析, 合理简化LAMOST发布的线指数变量值, 输入由该组变量的数值预测有效温度以增强预测模型的可信度。

图6 A型恒星有效温度Teff与26种线指数特征值岭回归分析图, 修正后的估计值HKB为1.921 567× 10-5和L-W为330.336 5Fig.6 Ridge regression analysis chart of Teff and 26 kinds of eigen values with the line index of A-type stars, which modified HKB estimator was 1.921 567× 10-5 and modified L-W estimator was 330.336 5

4 展 望

线指数作为描述天文光谱较有效的数据特征方式, 若将每个波长采样点视作一个维度, 则需降维天文高维光谱数据, 进而获取更好的数据分布和知识信息。 天文光谱直接从谱线特征中获取恒星有效温度Teff值具有很好的研究价值, 特别是通过训练信息丰富的线指数值得出A型恒星特征与Teff之间的关系模型, 利用LAMOST发布的光谱和相应的恒星参数来获得这种关系, 尤其提供晚期A型恒星的Teff更为准确。 本文依据光学巡天光谱数据的Lick线指数特征值, 运用LAMOST发布DR5实测数据计算预测有效温度Teff, 实验中偏回归系数对A型恒星线指数数据绘制散点图其中X1, X2, X3分别为kp12, hdelta12, hgamma12变量与有效温度多重共线性分析相互关联时, 产生多重共线性引起系数的噪声波动, 降低其显著性。 岭回归预测模型既解决过拟合问题, 也给出大样本实测光谱数据预测有效温度Teff的方法, 进而正确预测未来恒星演化的发展趋势, 为后续研究分析A型恒星演化规律提供必要的论证模型。

参考文献
[1] Luo Ali, Zhao Yongheng, Zhao Gang, et al. Research in Astron. Astrophys, 2015, 15(8): 1095. [本文引用:1]
[2] ZHAO Yong-heng( 赵永恒). Scientia Sinica: Physica, Mechancia&Astronomica(中国科学: 物理学力学天文学), 2014, 44(10): 1041. [本文引用:1]
[3] CUI Chen-zhou, YU Ce, XIAO Jian, et al(崔辰州, 于策, 肖健, ). Chinese Science Bulletin(科学通报), 2015, 60(5-6): 445. [本文引用:1]
[4] Liu Chao, Cui Wenyuan, Zhang Bo, et al. Research in Astron. Astrophys, 2015, 15(8): 1137. [本文引用:1]
[5] WANG Guang-pei, PAN Jing-chang, YI Zhen-ping, et al(王光沛, 潘景昌, 衣振萍, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(8): 2646. [本文引用:1]
[6] Guy Worthey, Faber S M, et al. The Astrophysical Journal Supplement Series, 1994, 94: 687. [本文引用:1]
[7] Chen Shuxin, Sun Weimin, Yan Qi. Research in Astron. Astrophys, 2018, 18(6): 73. [本文引用:1]