作者简介: 陈 奋, 女, 1998年生, 上海工程技术大学数理与统计学院硕士研究生 e-mail: chenfen199812@163.com
研究关注由分子内部能级变化引起的光谱分子带的识别和检测, 有助于研究恒星光谱类型和参数估计。 首先从分子带的曲线趋势出发, 运用曲线分析对分子带进行识别, 并剔除具备W形但下降趋势明显的伪分子带。 借鉴多类型多分类准则的识别思路, 将检测出的分子带尖峰深度、 W形宽度、 曲线趋势和回升趋势四个参数作为训练特征。 这四个参数综合考虑了始点变化速率、 曲线变化趋势、 极值点分布和曲线形状因素。 其次, 为了验证该方法的可行性与可靠性, 利用LightGBM (light gradient boosting machine)模型分别对F型恒星光谱和分子带特征参数进行识别, 准确率分别为97.62%和99.16%, 进一步验证了所提取分子带的准确性。 本工作不仅能挖掘出晚期恒星, 提高数据标签的准确性, 还能在准确识别的基础上, 利用LightGBM机器学习模型检测未知型光谱自动识别晚期恒星, 提高了识别效率并且减少了内存占用。
This study focuses on identifying and detecting spectral molecular bands caused by changes in internal energy levels of molecules, which contributes to the research of stellar spectral types and parameter estimation. First, considering the curve trend of molecular bands, pseudo molecular bands that have a W shape but an obvious downward trend should be eliminated by using curve analysis to identify molecular bands. Bringing the identification idea of multi-type and multi-classification criteriainto the model, the four parameters of the detected molecular band peak depth, W-shaped width, curve trend, and rebound trend are adoptedas training features, which consider comprehensivelythe change rate of starting point, change trend of curve, extreme point distribution and the factors of curve shape. Secondly, the LightGBM (Light Gradient Boosting Machine) model is used to identify the spectral and molecular band characteristic parameters of F-type stars with an accuracy of 97.62% and 99.16%, respectively, to verify the feasibility and reliability of this method. This work can not only excavate the late stars and improve the accuracy of data labels but also automatically identify the late stars by using the LightGBM machine learning model to detect the unknown spectrum based on accurate recognition, which improves recognition efficiency and reduces memory occupation.
自大型巡天项目(如LAMOST郭守敬望远镜、 SDSS斯隆数字巡天和GAIA盖亚卫星等)开展以来, 所收集到的恒星光谱已达千万量级[1]。 恒星光谱是恒星的“ 身份” 象征, 它蕴含了有效温度、 重力加速度和金属丰度等信息。 黄轶琦等[2]基于已知恒星参数信息的光谱通量数据, 构建纯数据驱动的The Cannon机器学习方法对恒星参数进行测量。 Paunzen等[3]对汞锰星(CP3)进行证认时利用到了MKCLASS标准光谱库和LAMOST DR4中的光谱数据。 挖掘恒星光谱信息不仅对恒星参数进行估计, 还能提高恒星识别和分类的准确性。 恒星的光谱是由连续谱及在连续谱中的许多吸收线或发射线组成[4]。 恒星光谱的吸收峰特征客观反映了该恒星的组成元素。 而组成元素相同的恒星, 其光谱强度取决于恒星大气层的有效温度和压强。 在这一背景下, Gray[5]研究得到F型恒星在特定的有效温度下, 恒星大气中的某些化学元素可以形成双原子分子, 并能够持续存在, 从而导致分子带的出现, 特别是G波段的CH分子带, 这使得分子带成为了检验晚于F3型恒星的重要判别指标之一。 文献[6, 7, 8, 9]运用Lick线指数计算光谱特征, 但不能对光谱次型进行精确分类。
在探索恒星化学丰度和温度时, 吸收峰的提取直观反映了结果的准确性。 而分子带是由多个吸收峰组成的带状吸收峰。 其形状类似于W形, 两边高, 中间低的结构。 中晚期恒星带状吸收峰的存在增加了光谱特征提取和恒星光谱分类的难度。 本文旨在辨别真分子带和伪分子带, 提出了基于W形特点的分子带检测。 通过该方法可以检测出光谱中是否含有真分子带, 从而能够快速识别出中晚期恒星, 提高恒星分类的准确性。
设Xi[us, ve]为第i条光谱在波长us与波长ve之间的通量, 记为Xi=(xi(us), xi(us+1), …, xi(ve)), i=0, 1, …, N, us为波段中的起始波长, ve为波段中的截止波长, N为光谱数量, 为避免混淆, 本文中令
形状因子用来度量波段中是否含有类W形, 初步判断是否含有明显的分子带。 在几何图形中, W是由两个V(V1, V2)组成, 设ν 11、 ν 10、 ν 12分别为第1个V的左顶点、 尖峰点和右顶点所对应的波长,
若初步判断准则s1=1, 则进一步根据准则s2确定其是否构成带状, s2公式为
为防止出现伪W形的错误判断[见图1, (a)中粗体黑色曲线为W形, 但整体框架中下降趋势明显, 为伪W形; (b)为真分子带], 对符合以下条件的V形进行整合, 整合后再计算准则s1和s2, 具体如下:
当
当
设wi1、 wi2、 wi3、 wi4、 wi5为第i条光谱在波段[us, ve]中形状因子W的五个端点所对应的波长,
式(4)中, dw1和dw2分别表示W形最高点
且W形深度dw参数为
记波段[us, ve]中, 由极大值a1、 a2和极小值b组成的V形(即向下尖峰)个数为m, 则第i条光谱的各尖峰深度di为
${{d}_{ik}}=\text{max}\left(\ \ {{x}_{{{\nu }_{ik1}}}}\ ,\ {{x}_{{{\nu }_{ik0}}}}\ ,\ {{x}_{{{\nu }_{ik2}}}} \ \ \right)-\text{min}\left(\ \ {{x}_{{{\nu }_{ik1}}}}\ ,\ {{x}_{{{\nu }_{ik0}}}}\ ,\ {{x}_{{{\nu }_{ik2}}}} \ \ \right)$(10)
式(10)中, i=1, 2, …, N; k=1, 2, …, m; ν ik1、 ν ik0、 ν ik2分别是第i条光谱在波段[us, ve]中第k个V形尖峰的左顶点、 尖峰点和右顶点所对应的波长,
${{s}_{4}}=\left\{ \begin{array}{*{35}{l}} 0, & {{\nu }_{i\text{argmax}\left( {{d}_{ik}}\ \left( k \right) \right)\eta }}\ \ \not\subset {{w}_{if}} \\ 1, & {{\nu }_{i\text{argmax}\left( {{d}_{ik}}\ \left( k \right) \right)\eta }}\ \ \subset {{w}_{if}} \\ \end{array} \right.$(11)
式中的wif={wi1, wi2, …, wi5}为形状因子W五个端点所对应波长的集合, l表示第二深尖峰的位置, 若第二深尖峰在最深尖峰的左侧, 则l=l; 若位于右侧, 则l=l+1, 即
式(13)中, η =1, 0, 2; f=1, 2, …, 5。
分子带是两边高、 中间低的类W兜形。 本文利用三阶多项式对离散光谱进行拟合, 得到分子带中的回升部分曲线, 再根据投影映射得出与wi1相对应的值, 从而计算出其宽度E, 具体如下:
已知(wif,
$\underbrace{\left\{\left(\ \ u s_{w_{i4}}\ ,\ x_{{ius}_{w_{i4}}}\ \ \right)\ \left(\ \ u s_{w_{i4}}+1, x_{i\left(u s_{w_{i4}}+1\right)}\ \ \right) \cdots\left(\ \ u s_{w_{i \bar{j}}}\ , \ x_{i u s_{w_{ij}}}\ \right)\right\}}_{n_{45}}$
则
$\hat{x}={{a}_{0}}{{u}^{3}}+{{a}_{1}}{{u}^{2}}+{{a}_{2}}u+{{a}_{3}}$ (14)
再根据残差平方和求得式(14)的拟合系数为
$\varepsilon =\overset{n}{\mathop{\underset{i=1}{\mathop \sum }\,}}\,{{({{\hat{x}}_{i}}-{{x}_{i}})}^{2}}=\overset{n}{\mathop{\underset{i=1}{\mathop \sum }\,}}\,{{[\left( {{a}_{0}}u_{i}^{3}+{{a}_{1}}u_{i}^{2}+{{a}_{2}}{{u}_{i}}+{{a}_{3}} \right)-{{x}_{i}}]}^{2}}$(15)
令
且$\frac{\partial \varepsilon }{\partial {{a}_{j}}}=\overset{n}{\mathop{\underset{i=1}{\mathop \sum }\,}}\,2u_{i}^{n-j}\left[ \left( {{a}_{0}}u_{i}^{3}+{{a}_{1}}u_{i}^{2}+{{a}_{2}}{{u}_{i}}+{{a}_{3}} \right)-{{x}_{i}} \right]=0$, 从而可以解出系数
其中
由于存在噪声等因素, 使得分子带不再是平滑的类W兜形, 而是夹杂着许多起伏的类W坑形(见图2)。 检验曲线趋势可以排除有着明显下降趋势的W形, 有效辨别真分子带和伪分子带。 本文从W形波段的始末差距T1和波段内的变化趋势T2两个因素作为曲线趋势strend的判断依据, 具体如式(18)
![]() | 图2 两图分别表现为平滑的类W兜形和类W坑形 (a): F8型恒星; (b): F3型恒星Fig.2 The two images show a smooth W-like hood and W-like pit, respectively (a): F8 type star; (b): F3 type star |
始末差距T1仅表征了W形波段的两个端点的差距, 不能反馈波段范围内的曲线变化趋势, 故采用累加法所计算得到的波段内递增Tincrease和递减部分Tdescend的差值绝对值T2作为曲线趋势参数的参量之一[式(19)— 式(21)], 同时将其对比值作为曲线趋势的判断准则Strend[式(22)]。
${{T}_{\text{descend}}}=\overset{n-1}{\mathop{\underset{j=1}{\mathop \sum }\,}}\,{{x}_{i\left( j+1 \right)}}-{{x}_{ij}},{{x}_{i\left( j+1 \right)}}-{{x}_{ij}}<0$(19)
${{T}_{\text{increase}}}=\overset{n-1}{\mathop{\underset{j=1}{\mathop \sum }\,}}\,{{x}_{i\left( j+1 \right)}}-{{x}_{ij}},{{x}_{i\left( j+1 \right)}}-{{x}_{ij}}\ge 0$(20)
${{T}_{2}}=\left| {{T}_{\text{descend}}}-{{T}_{\text{increase}}}\ \ \right|$(21)
同时考察了截取波段[us, ve]中的曲线变化趋势情况, 以便作为所提取W形波段的参照量。
其中Tse、 Tte、 Ttl分别是波段[us, ve]的始末差距、 最高点与末端的差距、 最高点与最低点的差距, n为第i条光谱在波段[us, ve]中的n个点。
曲线趋势仅表征曲线变化趋势, 为更进一步增加分子带的检测精度, 本文利用极值点分布对类W形进行了回升检验, 从而确保该波段是类W兜形, 具体如下:
根据一阶导数计算公式得x'i(j)为
式(25)中, Δ λ 为波长间隔, 则极小值
当极小值的个数mmini≥ 4时,
当极小值的个数mmini< 4时,
为了客观量化回升程度, 设rmm、 rem分别为回升部分[wi3, wi5]的最大极小值和最小极小值之差、 ${{x}_{i{{j}_{{{m}_{\ \text{min}i}}}}}}\ \ $和最小极小值之差在波段[us, ve]的最大值和最小值之差中的占比
${{r}_{mm}}=\frac{\text{max}\left( {{{{\vec{x}}}}_{\text{min}i}} \ \ \right)\ -\ \ \text{min}\left( {{{{\vec{x}}}}_{\text{min}i}} \ \ \right)}{\text{max}\left( {{x}_{j}} \right)-\text{min}\left( {{x}_{j}} \right)}, j\in \left[ {{w}_{i3}},{{w}_{i5}} \right]$(29)
${{r}_{em}}=\frac{{{x}_{i{{j}_{{{m}_{\ \text{min}i}}}}}}\ \ \ -\ \ \text{min}\left( {{{ {\vec{x}}}}_{\text{min}i}} \ \ \right)\ \ }{\text{max}\left( {{x}_{j}} \right)-\text{min}\left( {{x}_{j}} \right)}, j\in \left[ {{w}_{i3}},{{w}_{i5}} \right]$ (30)
鉴于CH双原子分子引起的G分子带是F3型及晚期F型恒星的重要温度判别依据[5], 且在恒星光谱型分类研究中, 光谱次型的分类相对光谱型的分类少。 次型光谱特征相似度较高, 增加了分类难度, 对提取特征的准确性要求较高。 因此选用F次型恒星光谱数据作为本次试验数据。 为保证初始的光谱类型是较为准确的, 故实验数据选取了LAMOST DR8和GAIA DR2的F型恒星的交叉验证数据, 采集波段为370~900 nm, 采集样本点为3 748, 在550 nm处的分辨率约为1 800[10]。 本次实验共收集了7 407条光谱, 其中F0型1 602条, 非F0型5 805条。
波段截取窗口大小n的取值范围为[10~100], 间距为10, 根据形状因子判断准则s1和s2遍历训练数据, 将每一遍历波段的判别数据作为训练特征对光谱数据中的F0型和非F0型恒星进行二分类, 根据分类准确度, 本文提取准确度较高的428~432 nm波段作为本次实验的检验波段(见图4)。
根据上述尖峰深度、 W形宽度、 曲线趋势和回升检验四个参数的定义, 分别计算7 407条光谱在波段428~432 nm中的各项参数(训练特征), 再利用LightGBM模型对其进行二分类, 得到了99.16%的准确度, 而若直接使用通量数据作为训练数据, 其准确率仅为97.62%。 这也从侧面验证了所提取特征和参数计算的准确性。
基于W几何形的光谱分子带检测为光谱识别和分类提供了一种新的思路和方向, 根据分子带的形状构型识别出真分子带, 增强了光谱的分子带特征, 提高了恒星分类的准确度。 此外对光谱数据采用曲线分析, 还可以达到量化分子带特征的目的, 在提高识别精度的同时, 亦可对比所得结果间各类参数的关系, 方便后续研究特征要素的重要性。
理论上综合考虑的光谱特征越多, 恒星分类准确率越高。 本研究在一定程度上依赖于光谱的形状, 面对海量的光谱数据, 后续将结合深度学习模型对分子带进行自动识别和检测, 而不依赖光谱形状, 继续研究纯数据驱动下分子带在光谱中的作用和影响。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|