作者简介: 薛仁政, 1979年生, 齐齐哈尔大学讲师 e-mail: 27744950@qq.com
天文光谱线指数数据能够较好地保留着恒星的物理特征信息, 为此借助线指数特征数据构建多参数模型, 有利于更好地回归分析数据的共变关系及谱线的内在规律。 世界上光谱获取率最高的施密特天文望远镜LAMOST发布的观测光谱都已经过标记, 利用天文可视化工具分析这些标记的恒星光谱线指数会产生预测因子自相关, 多元线性回归时因变量存在共线性, 导致方差较大、得到最小二乘回归系数不稳定, 虽不影响使用回归的有效性, 但较难从回归方程中得到独立预测因子的评估系数。 利用LAMOST巡天光谱数据中A型恒星Lick线指数为数据源, 选取有效温度 Teff为7 000~8 500 K, 取信噪比大于50的光谱特征值实现回归分析恒星参数 Teff值, 经箱线图呈现DR5星表中, A型光谱86 097条具备 Teff值大样本光谱数据的整体分布, 统计分析26种线指数的特征值后, 选取分布相似且带宽为12 Å的kp12, halpha12和hgamma12字段, 减少解释线指数变量的数目, 优化冗余变量方差膨胀因子(VIF)系数。 实验选取两两变量间观测数据集, 局部拟合回归散点、 同样的数据源使用散点图的总体轮廓生成高密度散点图, 利用色差透明性突出显示数据密集区域。 结果表明多元线性回归和岭回归算法都能从低分辨率光谱中确定A型恒星的有效温度, 但经过共线性数据分析有偏估计实验, 使用岭回归分析寻找最佳模型, 能更准确地确定恒星有效温度, 进而得到预测A型恒星有效温度及谱线回归特性。
Line index is widely used in describing the features of spectral lines for astronomical objects because it retains the main physical characteristic information of these objects. Based on line index, a multi-parameter model for regression analysis could be used to uncover co-variation relationship of data and the inherent laws of spectral lines. The observed spectra released by LAMOST, which has the highest spectra acquisition capability, provide us with real data for establishing a robust regression model. The multivariate linear regression was applied to get the co-linearity of the dependent variables, however, it resulted in large variance. It is unstable to obtain the least squares regression coefficient sometimes. Especially, it’s difficult for the multivariate linear regression to obtain the evaluation coefficient of independent predictor from the regression equation. In this paper, we use the A-type stellar Lick line index in the LAMOST survey data as the data source. Selecting the spectra with effective temperature ( Teff) from 7 000 to 8 500 K, and the signal-to-noise ratio higher than 50 to realize the regression analysis. After a set of linear biased estimation experiment for A-type stars, the method of ridge regression training was employed. In the catalogue of LAMOST data release 5 (DR5), 86 097 A-type spectra have provided the Teff value. After statistical analysis of the eigenvalues of 26 line indices, the kp12, halpha12 and hgamma12 with similar distribution and bandwidth of 12 Å were selected to reduce the data redundance. The number of variety was optimized for the redundant variable variance expansion factor (VIF) coefficient. Two regression experiments selected the same observation dataset to locally fit the regression scatter, using the overall contour of the scatter plot to generate a high-density scatter plot, highlighting the data-intensive region with the color difference transparency. The results show that both the multiple linear regression and the ridge regression algorithm can determine the effective temperature ( Teff) of the A-type star through the low-resolution spectrum, but the co-linearity data analysis has some biased estimation. The ridge regression model can more accurately predict the effective temperature of A type stars from the low resolution spectra.
2008年10月16日作为世界上光谱获取率最高的施密特天文望远镜LAMOST投入使用, 增强了我国在国际天文研究领域巡天观测的地位[1], 提升了我国大视场天文学及大数据光学光谱观测研究方面的科研水平。 天文大数据中蕴含着海量天体光谱信息[2], 研究者们通过定义光谱线指数来描述光谱的特征, 其中Lick线指数的应用最为广泛[3], 已有研究者利用Lick指数对LAMOST光谱分析, 例如, 2015年国家天文台刘超利用LAMOST星表中线指数分析MK恒星分类CaII K特征值之间的分布[4], 2016年潘景昌等提出利用线指数特征对LAMOST DR2数据中F, G, K和M型恒星光谱聚类分析研究[5], 并基于SVM输入光谱线指数完成恒星分类等。 本文通过分析LAMOST已发布的A型光谱线指数, 利用多元线性回归算法分析实现估计A型恒星的有效温度。 实验选取温度值7 000~8 500 K, 信噪比S/N大于50的A型恒星数据, 经线性拟合分析, 最后利用岭回归方法构建共线性数据分析有偏估计回归模型, 解决过拟合问题, 得出一种预测LAMOST大样本实测光谱有效温度的回归方法。
天文光谱线指数值在天文研究领域已取得诸多成果, 线指数表示天文光谱中物理特征的数值, 保留着多种类型的参数特征数据, 1994年Guy Worthey等给出Lick线指数的完整定义及描述[6], 光谱线指数的数值定义光谱中特征谱线的积分星等特征数值、谱线等值宽度(EW)以及半高全宽(FWHM)的光谱线指数组合。
光谱数据是天体物理学研究的基础和证认依据, 我国国家天文台运行着大天区多目标光纤光谱望远镜(LAMOST)截止到2018年7月, LAMOST已经积累了六年的巡天数据(http://dr5.lamost.org/), DR5数据集共获得9 017 844个光谱。 LAMOST巡天光谱数据按MK分类标准系统进行光谱型分类, 波长覆盖范围从3 690~9 100 Å , 步长为1 Å (总采样点数N=5 491), 分辨率为1 800, 在用模板光谱来自约100万条的大量先导巡天实测恒星光谱数据。
LAMOST发布DR5数据v1版中A型恒星提供的光度类型比DR1目录中包含了更多的线指数信息, DR5星表中共计439 914条A型光谱, 其中86 097条光谱数据具备Teff值, 如图1所示经箱线图呈现大样本之间的不同, 反映线指数统计量整体分布, 从26种线指数特征值中选取分布相似, 且带宽为12 Å 的kp12, halpha12和hgamma12字段, 减少解释变量的数目, 增加方差膨胀因子(VIF)系数, 在第3.1节分析VIF冗余变量获得更好的预测效果。 后文实验选取信噪比S/N大于50, 且温度在7 000~8 500 K范围的A型恒星数据线性拟合分析恒星大气物理参数的有效温度值。
LAMOST发布的观测光谱都已经过标记, 先前研究所构建的回归模型大部分都是假定自变量和因变量之间呈线性关系[7], 对于任何回归问题的预测因子都可能产生自相关, 虽然并不影响回归使用的有效性, 但很难或者不可能从回归方程中得到独立预测因子的评估系数。 后文提出的方案包括以下步骤: 首先, 利用天文可视化工具对LAMOST线指数数据统计分析; 其次, 用Lick线指数对Teff测量进行多元线性回归; 最后, 采用岭回归寻找最佳模型, 得到多元线性回归训练预测的模型。 结果表明多元线性回归和岭回归算法都能准确地从低分辨率光谱中确定A型恒星的有效温度。
多个不同的解释变量显示相似的变量信息时, 可能导致方差非常大, 使估计准确性变差, 需要解决变量间的共线性问题。 当线指数的特征变量和恒星参数呈非线性关系时, 需保留线指数的多个类型的参数数据, 本节结合响应变量与解释变量之间的关系, 用散点图表示, 并进行多线性回归分析, 较好地解释变量相互关联性问题。
多重共线性分析可定量解释模型中包含的多个变量函数, 基于A型恒星参数建立的回归模型能够有效预测Teff数据特征之间相关方法, 与典型线性回归不同, 使用多重线性回归来实现分析Lick线指数与Teff之间的关系, 特别是连续光谱中存在着校准和消光等较多的不确定性因素, 后文运用预测方法有效地利用谱线指数从天文光谱中提取Teff特征。 多元线性回归方程模型如式(1)所示
式(1)中, i=1, 2, …, N; 回归误差ε i; 方差σ 2; 预测因素的数量级为p; 每个独立变量的值Xip; N是测试数据N(0, σ 2), 满足E(ε i)=0和Var(ε i|X) =σ 2, 预测因子系数β 1, …, β p-1, β p常数项β 0是估计与最小二乘方法。 利用拟合函数能执行完整的线性模型分析, 输出值与最小二乘估计β 1和β 0值如式(2)所示。
依据1.1节分析结果, 当LAMOST观测样本量较大, 所绘制数据点非常集中时, 很多数据点重合叠加, 不利于直观展示数据的局部规律和趋势以及线指数特征值之间的相关性特征, 本文实验选取相应比例的局部数据集拟合回归。 实验将观测数据两两变量间以散点呈现在二维平面的数据点分布, 如图2— 图4所示被分析量恒星有效温度Teff与线指数之间相关关系。 实验中用模型回归线与观测数据的拟合程度来表示因变量与所有自变量之间的总体关系, 经函数拟合回归曲线如图2(a)、 图3(a)和图4(a)数据点重叠集中, 分别包含蓝色线、 绿色线和红色线显示线性回归趋势。 由于数据点的重叠使得因变量和自变量之间的关系难以识别, 不利于直观地显示观察变量之间的相关特征, 同样的数据源使用统计透明性如图2(b)、 图3(b)和图4(b)所示任意坐标上重叠点的数量, 使用散点图的总体轮廓生成高密度散点图, 利用色差突出显示数据密集区域, 将不同Counts数据点分箱, 用灰度深浅表示箱中数据点的个数, 明晰散点图的整体轮廓, 数据的散点映射表示核密度估计。 该函数自动在一定范围内设置数据点, 显示数据点被划分成几个框, 灰色的数据用来表示框中数据点的数量。
从图2— 图4中散点分布趋势显示Teff与kp12, hdelta12和hgamma12变量之间的负线性相关性是非常明显的, 如表1所示两两变量间所得到协方差矩阵为对称矩阵, 表中计算各列的方差值, 其中以主对角线为对称轴对应相等的矩阵, 列出的运行结果可得因变量可变性的百分比, 后续章节利用回归方程误差度量线性模型反映拟合程度真实关系, 后文岭回归预测模型中协同因子是最关键的相关关系。
基于上述对LAMOST观测数据模型的分析, 建立多线性回归预测恒星参数的数据模型, 预测模型体现输出的恒星有效温度Teff即被解释变量与线指数输入的多个特征变量的线性和非线性关系。
结合上节提及的共线性问题是多个线指数的特征值变量给出相似的分析, LAMOST数据绘制散点图呈现所有变量的散点图表示响应变量与解释变量之间的关系相关性, 利用方差膨胀因子VIF确定解释变量的共线性程度。 实验利用多线性共同标准方差膨胀因子VIF=1/(1-
从上文得到线指数值实现多元线性回归时系数矩阵与其转置矩阵相乘得到的矩阵不能求逆, 且方差较大使得光谱特征变量间存在共线性造成最小二乘回归不稳定。 为此本节通过Ridge岭回归解决最小二乘法的无偏性, 没有抛弃任何特征缩小回归系数获得可靠的回归系数预测大气有效温度参数预测模型teff=12 770+β 1kp12+…+β 26hdelta_d02式中β 系数值, 如表2列出各特征显示模型准确地从低分辨率光谱中确定A型恒星的有效温度。
当变量间存在共线性且方差很大, 得到不稳定的最小二乘回归系数。 为此系数矩阵X与其转置矩阵相乘得到的矩阵不能求得其逆矩阵, 实验通过ridge regression函数引入参数lambda, 解决上述问题, 利用第1.1节中列出26种特征值选择岭回归参数k, 从优化模型运行结果得岭回归参数值为0.014 7, 各自变量的系数显著明显提高, 岭回归模型的lambda值代入线性回归模型, 得到Teff有偏的估计, 也可采用优化广义交叉验证GCV方法自动选取得到最佳岭回归的参数k值如图6所示, 经岭回归计算变量的相关性分析, 合理简化LAMOST发布的线指数变量值, 输入由该组变量的数值预测有效温度以增强预测模型的可信度。
线指数作为描述天文光谱较有效的数据特征方式, 若将每个波长采样点视作一个维度, 则需降维天文高维光谱数据, 进而获取更好的数据分布和知识信息。 天文光谱直接从谱线特征中获取恒星有效温度Teff值具有很好的研究价值, 特别是通过训练信息丰富的线指数值得出A型恒星特征与Teff之间的关系模型, 利用LAMOST发布的光谱和相应的恒星参数来获得这种关系, 尤其提供晚期A型恒星的Teff更为准确。 本文依据光学巡天光谱数据的Lick线指数特征值, 运用LAMOST发布DR5实测数据计算预测有效温度Teff, 实验中偏回归系数对A型恒星线指数数据绘制散点图其中X1, X2, X3分别为kp12, hdelta12, hgamma12变量与有效温度多重共线性分析相互关联时, 产生多重共线性引起系数的噪声波动, 降低其显著性。 岭回归预测模型既解决过拟合问题, 也给出大样本实测光谱数据预测有效温度Teff的方法, 进而正确预测未来恒星演化的发展趋势, 为后续研究分析A型恒星演化规律提供必要的论证模型。