LAMOST恒星分类模板间相似性度量分析
陈淑鑫1,2, 孙伟民1,*, 孔啸3
1. 哈尔滨工程大学理学院, 纤维集成光学教育部重点实验室, 黑龙江 哈尔滨 150001
2. 齐齐哈尔大学机电工程学院, 黑龙江 齐齐哈尔 161006
3. 中国科学院光学天文重点实验室(国家天文台), 北京 100012;

作者简介: 陈淑鑫, 女, 1978年生, 齐齐哈尔大学副教授, 哈尔滨工程大学理学院博士研究生 e-mail: shuxinfriend@126.com

摘要

随着获取和收集天文光谱大数据能力的与日俱增, 合理利用计算科学技术正确地分析海量光谱的处理方法及结果统计。 前述工作采用了欧氏距离分析判别LAMOST实测光谱与模板之间相似度的研究, 研究恒星分类准确性取决于高质量的模板光谱, 选取LAMOST光谱在用的分类软件中183个恒星模板光谱, 分别利用欧氏距离和马氏距离方法得出A, F, G, K和M型恒星模板间的均值和最大值, 完成每条谱线相互之间的相关性分析, 找出相对距离较大的模板及形成原因。 相似度度量可视化实验数据结果表明模板之间具有一定的区分度, 通过马氏距离分析模板间相似性能更进一步辨识出相近模板之间的细微差别, 具备较优良的判别效果, 证实了LAMOST现有分类的各模板间距离较均匀, 且分类结果较为准确。 该研究可进一步优化在用光谱分类模板, 提升LAMOST恒星分类模板库的精确度和可信度。

关键词: 相似性度量; 欧氏距离; 马氏距离; 恒星光谱模板; LAMOST
中图分类号:TP391.4 文献标志码:A
Similarity Measurement Among Classification Templates for LAMOST Stellar Spectra
CHEN Shu-xin1,2, SUN Wei-min1,*, KONG Xiao3
1. Key Lab of In-Fiber Integrated Optics, Ministry Education, Harbin Engineering University, Harbin 150001, China
2. College of Mechanical and Electrical Engineering, Qiqihar University, Qiqihar 161006, China
3. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China
Abstract

With the vigorous development of the astronomical spectral big data acquired, such as LAMOST, assessments of the automated data reduction and analysis are necessary. The above work uses the Euclidean distance analysis to determine the similarity between LAMOST spectra and the template. The accuracy of star classification depends on the high-quality template spectra. Classification results from LAMOST 1D pipeline depend on the 183 templates, of which the dependencies should be inspected. In this paper, we calculate both Euclidean and Mahalanobis distances for each pair of templates, using these methods to get the template mean and maximum of A, F, G, K, M stars’. By completing the correlation analysis, we find that the distances averagely show similarity except for several templates. The Mahalanobis distances can even detect the difference between adjacent pairs. They can further identify that the slight differences between the similar templates have better discriminating effects. We conclude from our experiment that most of the LAMOST spectra are correctly classified, while some outstanding templates should be checked as the basis of the optimization for improving the accuracy and reliability of LAMOST templates.

Keyword: Similarity measurement; Euclidean distance; Mahalanobis distance; Stellar spectrum template; LAMOST (large sky area multi-object fiber spectroscopy telescope)
引 言

随着我国大天区多目标光纤光谱望远镜LAMOST的大规模巡天观测数据不断积累[1], 所获得DR4科学巡天光谱大数据截止到2016年6月已达到760万条光谱[2]。 恒星光谱分类最早可追溯到19世纪末, 目前天文学仍采用摩根· 肯那分类法(MK分类法)[3], 系美国女天文学家安妮· 詹普· 坎农在恒星光谱分类方面开创性的贡献, 该方法正确地将恒星按照温度降低的次序进行排列。 恒星光谱主要分成七大类, 即从热到冷按照字母O, B, A, F, G, K和M顺序, 并在主序列中用十进制数值表示其中间恒星的光谱。 例如A型星包含A0, A1, A2, …等子型, 顺序在前的恒星相对于在后的恒星为更早些, B型星早于A型星, A0型星早于A1型星……。 恒星分类的方法是依据某些特征谱线性质来确定, 在不损失主要信息的前提下从这些看似纷繁复杂的数据中获取尽可能多的有价值信息, 利用有效的方法简化数据后, 寻找它们间内在的关系和规律。 最直接的分类方案是基于距离计算的模板匹配方法, 这种分类结果直接取决于分类模板的完备性和模板之间的相关性。 本文利用计算模板之间的两种距离值, 从全局视角评判LAMOST所使用的模板间相似度量关系, 正确评价分类系统。

1 LAMOST恒星模板分类

恒星光谱模板按光谱的吸收谱线分类, 即在一定温度范围内, 由光谱中被吸收的谱线来确定恒星温度。 LAMOST巡天拟合观测光谱, 由特征光谱的线性组合及低阶多项式构造光谱, 再同模板光谱进行匹配, 分成不同的子类。

1.1 重构恒星分类模板方法

恒星分类准确性取决于高质量的模板光谱, 我国自主研发的LAMOST望远镜巡天数据构建出新的恒星光谱分类模板库, 从LAMOST已发布的数据显示优于斯隆SDSS巡天数据中恒星的分类结果, 现LAMOST巡天数据库中包含183条[4](61个不同的子分类)。 恒星分类模板库通过3个步骤构建模板谱线: 步骤一, 利用局部孤立性因子算法剥去离群数据, 排除5%光谱的异常值, 剩余光谱使用主成分分析方法; 步骤二, 取每组前面的主成分进行重构; 步骤三, 将剩余光谱加权平均后作为每组中的模板光谱。 最后经目视检查所有模板光谱, 废弃光谱质量低难于确认的子类。

1.2 LAMOST模板库分类情况

LAMOST光谱模板来自DR1巡天实测光谱构建而成, SDSS DR9恒星分类筛选自Indo-U.S.库中的恒星光谱模板库包括123条恒星子类。 表1比较结果显示LAMOST已构建的模板库中A, F, G, K和M型模板数量要多于DR9的模板数。

表1 LAMOST与SDSS发布DR9分类数据比对 Table 1 The classification data comparison table of LAMOST and SDSS release DR9

LAMOST DR1中高质量O型和B型恒星数量比较少, 而A, F, G, K和M型观测的恒星数据较多, 其中A型光谱49条(14个不同子类型)是模板库中包含数量最多的类型; F、 G和K型光谱共计包含84条(26个不同子类型)是巡天数据最为普遍的光谱类型。 M型光谱28条(10个不同子类型)。 后续实验将分析以上类型数据间相似性度量。

2 相似性度量数据计算

在天文光谱研究中相似性度量值能够综合评定任意两条模板之间的接近程度, 欧氏距离[5]计算高维度空间中两点之间距离的方法仅是马氏距离的特殊情形。 马氏距离利用采样协方差方法更能有效地反馈两个未知样本的相似度。

2.1 欧氏距离计算方法

欧氏距离(Euclidean distance)是求m维空间中两个点之间真实距离的距离定义。 m维欧氏空间是一组点集, 它的每个点可以表示为(x1, x2, …, xm), 其中xi(i=1, 2, …, n)是实数x的第i维坐标, 与yi(i=1, 2, …, n)之间的欧式距离d(x, y)定义如式(1)所示。

d(x, y)=(xi-yi)2(1)

计算出每条光谱模板和其他模板之间的距离后, 构造每条光谱间欧氏距离矩阵, 欧氏距离值越小表示其距离越近, 就越相似。

2.2 马氏距离计算方法

印度数学家马哈拉诺比斯(P.C. Mahalanobis)[6]率先提出马氏距离(Mahalanobis Distance)利用采样协方差来计算两点之间距离的方法。 同2.1节中定义的欧氏空间m维的点集, 马氏距离dm(x, y)其中T表示转置, S为协方差矩阵如式(2)所示。

dm(x, y)=(xi-yi)TS-1(xi-yi)(2)

本实验没有运用R语言提供的马氏距离函数mahalanobis(data, center=Avg, cov=S)其中Avg为center的均值, S为cov样本协方差矩阵, 由于函数表示每条数据与总体库的马氏距离, 而现需要计算任意两条光谱i维数据之间的马氏距离, 为此由式(2)自定义(x-y)%* %t(t(x-y)))/cov(x, y)运算得出任意两条光谱间相似性度量的距离。

2.3 距离度量选取方法

马氏距离的变换类似于主成分分析(PCA)解相关白化处理, 即PCA方法在二维空间将数据主成分旋转到x轴后, 再缩放尺度, 实现相同的相似性尺度度量[7]。 而马氏距离没有旋转变换, 只在下三角逆矩阵的xy方向同时缩放求得相似性度量值。 马氏距离能够独立于测量尺度考虑到各种特性间联系, 定义中协方差矩阵满足光谱模板间距离的四个基本公理: 非负性、 自反性、 对称性和三角不等式。 若协方差矩阵为单位矩阵, 则简化为欧氏距离。

实验数据处理[8]过程中马氏距离无需进行归一化处理, 而欧氏距离必须首先完成归一化[9]后再计算两两之间的距离, 否则距离值无意义。 后续第3节实验数据对LAMOST恒星模版库183条一维数组分类后, 计算同分类两个光谱模板sample X, Y间的两种距离值。 欧氏距离虽较为常用, 但马氏距离能更好地反映每条光谱的流量值代表不同特性, 表示不同特征向量间的相似程度。

3 实验数据分析

研究过程中马氏距离在回归分析每条光谱数据看作高维空间中的一个点, 距离值表示样本点之间的相似性, 距离较近表明两点性质较相似, 距离较远则差异较大。

3.1 实现距离计算

在R语言环境中计算模板间的欧氏距离和马氏距离, 按前述1.2节计算A, F, G, K和M类型中各条模板间的距离, 在A恒星分类的.csv文件中每列为一条模板的一维数组, 生成49列× 3 670行数据集, 直接做两两之间的距离, 欧式距离用dist()函数运行后得到与所有距离(包括自身距离)49列距离值的矩阵, 最后得到该类型模板间距离为49× 49阶矩阵, 可视化特征提取图像距离值如图1(a)所示。

图1 提取A型恒星49条模板间距离Fig.1 The Euclidean distance (a) the Mahalanobis distance (b) Extracting from 49 templates of A type stars

马氏距离直接用式(2)得到49× 49阶矩阵如图1(b)所示。 同样计算F, G, K, M型恒星得模板间的欧氏距离和马氏距离如图2— 图5所示。

图2 提取F型恒星25条模板间距离Fig.2 The Euclidean distance (a) the Mahalanobis distance (b) Extracting from 25 templates of F type stars

图3 提取G型恒星24条模板间距离Fig.3 The Euclidean distance (a) the Mahalanobis distance (b) Extracting from 24 templates of G type stars

图4 提取K型恒星36条模板间距离Fig.4 The Euclidean distance (a) the Mahalanobis distance (b) Extracting from 36 templates of K type stars

图5 提取M型恒星37条模板间欧氏距离Fig.5 The Euclidean distance (1) the Mahalanobis distance (2) Extracting from 37 templates of M type stars

3.2 分析计算结果

可视化上述两类距离值的结果矩阵, 图像颜色值提取计算距离值转换成0~255数值范围。 以图1为例, 展示49条模板光谱之间的相关性强弱, 主对角线表示模板自相关, 蓝色表示相关性最强, 红色色块表示模板之间呈负相关。 蓝色越深且饱和度越高, 说明变量相关性越大, 反之红色越深且饱和度越高, 说明模板之间的反相关性越大, 即相关性越小。

表2列出五种恒星分类模板谱线间的平均和最远距离, 标明距离最大的模板光谱。

表2 LAMOST模板分类距离数据分析 Table 2 The data analysis table of LAMOST template classification distance

从图1— 图5及表2对比得出除了个别模板之间的距离较大外, 马氏距离比欧式距离表现得更均匀。 由于每个光谱型的温度范围只有1 000~2 000 K, 且相邻子型模板之间的温度差别也只有200 K, 因此实验数据的均匀性表现更加合理。 图中不相关的模板经识别, 可认为是观测效应产生LAMOST巡天光谱数据有部分指向银盘, 并具有较强的消光能力, 这些来自实测光谱聚类的LAMOST恒星模板会出现这类距离较大的模板, 此结论为进一步优化模板库提供论证依据。

4 结 论

随着深入开展LAMOST巡天工作, 需要从海量数据中获取高质量、 分类准确率高、 有价值的光谱分类。 利用不受量纲影响的马氏距离, 计算出模板间的距离分布并可视化呈现。 分析结果显示LAMOST的模板具有较好的均匀性, 但也存在极少数距离较大的模板, 后续工作将分析此种模板对分类准确性造成何种影响, 将采取相应方法优化恒星模板库。

The authors have declared that no competing interests exist.

参考文献
[1] GUO Ping, WANG Ke, LUO A-li, et al(郭平, 王可, 罗阿理, ). Journal of Software(软件学报), 2015, 26(11): 3010. [本文引用:1]
[2] Luo A M, Zhao Y H, Zhao G, et al. RAA, 2015, 15(8): 1095. [本文引用:1]
[3] Morgan W Wilson, Keenan Philip Childs, Kellman Edith. An Atlas of Stellar Spectra, with an Outline of Spectral Classification. Chicago, 11, the University of Chicago Press, 1943. [本文引用:1]
[4] Wei Peng, Luo Ali, Li Yinbi, et al. The Astronomical Journal, 2014, 147: 101. [本文引用:1]
[5] CHEN Shu-xin, SUN Wei-min, KONG Xiao(陈淑鑫, 孙伟民, 孔啸). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(6): 1951. [本文引用:1]
[6] WU Xi-sheng(吴锡生). Geochemical Data Processing Method(化探数据处理方法). Beijing: Geological Publishing House(北京: 地质出版社), 1993. 65. [本文引用:1]
[7] Wen Xuezhi, Shao Ling, Xue Yu, et al. Information Sciences, 2015, 295: 395. [本文引用:1]
[8] TU Yang, ZHANG Yan-xia, ZHAO Yong-heng, et al(涂洋, 张彦霞, 赵永恒, ). Astronomical Research and Technology(天文研究与技术), 2016, 13(1): 124. [本文引用:1]
[9] PAN Ru-yang, LI Xiang-ru(潘儒扬, 李乡儒). Acta Astronomical Sinica(天文学报), 2016, 57(4): 379. [本文引用:1]