利用融合数据分布特征的模糊双支持向量机对恒星光谱分类
刘忠宝1,2, 秦振涛1, 罗学刚1, 周方晓1, 张靖1
1. 攀枝花学院数学与计算机学院, 四川 攀枝花 617000
2. 中北大学软件学院, 山西 太原 030051

作者简介: 刘忠宝, 1981年生, 中北大学软件学院教授 e-mail: liuzb@nuc.edu.cn

摘要

恒星光谱分类是天文学研究的一个热点问题。 随着观测光谱数量的急剧增加, 传统的人工分类无法满足实际需求, 急需利用自动化技术, 特别是数据挖掘算法来对恒星光谱进行自动分类。 关联规则、 神经网络、 自组织网络等数据挖掘算法已广泛应用于恒星光谱分类。 其中, 支持向量机(SVM)分类能力突出, 被广泛应用于恒星光谱分类。 该方法试图在两类样本之间找到一个最优分类面将两类分开。 该方法具有较高的时间复杂度, 计算效率有限。 双支持向量机(TWSVM)的出现有效地解决了SVM面临的效率问题。 该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面。 TWSVM的计算效率较之传统SVM提高近4倍, 因此, 自TWSVM提出后便受到研究人员的持续关注。 但上述方法在分类决策时, 一方面没有考虑数据的分布特征, 另一方面较易受噪声点和奇异点的影响, 分类效率难以显著提升。 鉴于此, 在双支持向量机的基础上, 提出融合数据分布特征的模糊双支持向量机(TWSVM-SDP)。 该方法引入线性判别分析(LDA)的类间离散度和类内离散度, 用以表征光谱数据的分布性状; 引入模糊隶属度函数用以降低噪声点和奇异点对分类结果的影响。 在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、 双支持向量机TWSVM等传统分类方法相比, 融合数据分布特征的模糊双支持向量机TWSVM-SDP具有更优的分类能力。 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据。 接下来将利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。

关键词: 恒星光谱; 分类; 数据分布特征; 模糊隶属度; 双支持向量机
中图分类号:TP391 文献标识码:A
Stellar Spectra Classification by Support Vector Machine with Spectral Distribution Properties
LIU Zhong-bao1,2, QIN Zhen-tao1, LUO Xue-gang1, ZHOU Fang-xiao1, ZHANG Jing1
1. School of Mathematics and Computer Science, Panzhihua University, Panzhihua 617000, China
2. School of Software, North University of China, Taiyuan 030051, China
Abstract

Stellar spectra classification is one of hot spots in astronomy. With hundreds and thousands of spectra obtained by researchers, it is a big challenge to process them manually. It’s urgent to apply the automatic technologies, especially the data mining algorithms, to classify the stellar spectra. Neural networks, self organization mapping, association rules and other data mining algorithms have been utilized to classify the stellar spectra in recent years. In these methods, Support Vector Machine (SVM), as a typical classification method, is widely used in the stellar spectra classification due to its good learning capability and excellent classification performance. The basic idea of standard SVM is to find an optimal separating hyper-plane between the positive and negative samples. Its time complexity is so high that its classification efficiencies can’t be greatly improved. Twin Support Vector Machine (TWSVM) is proposed to deal with the above problem. It aims at generating two non-parallel hyper-planes such that each plane is close to one class and as far as possible from the other one. The learning speed of TWSVM is approximately four times faster than the classical SVM. The limitation of TWSVM is that it doesn’t take spectral distribution properties into consideration, and its efficiencies are prone to be influenced by noise and singular points. In view of this, Fuzzy Twin Support Vector Machine with Spectral Distribution Properties (TWSVM-SDP) is proposed, in which between-class scatter and within-class scatter in Linear Discriminant Analysis (LDA) is introduced to describe the spectral distribution properties and the fuzzy membership function is introduced to decrease the influences of noise and singular points. Comparative experiments on SDSS DR8 stellar spectra datasets verity TWSVM-SDP performs better than SVM and TWSVM. However, some limitations exist in TWSVM-SDP, for example, how to deal with the mass spectra is quite difficult to solve. We will research the adaptability of our proposed method in the big data environment based on big data technologies.

Key words: Stellar spectra; Classification; Spectral distribution properties; Fuzzy membership function; Twin support vector machine
引 言

作为一种典型的智能分类模型, 支持向量机(support vector machine, SVM)具有优良的分类能力, 已被广泛应用于恒星光谱分类。 近年来, 与支持向量机相关的研究成果不断涌现, 较为典型的成果有: 张怀福等提出分别利用小波包分析和支持向量机对天体光谱进行特征提取和智能分类方法[1]; Peng等利用支持向量机从大型巡天项目中搜寻类星体[2]; 刘忠宝等在支持向量机中引入流形判别分析, 用以提升支持向量机的分类能力[3]; Shi等利用支持向量机从SDSS DR9中对发射线星系进行分类[4]; Liu在支持向量机中引入将线性判别分析(linear discriminant analysis, LDA)中的类间离散度和类内离散度, 用以表征数据的分布性状, 确保支持向量机在分类决策时将数据的分布性状考虑在内[5]

尽管支持向量机在实际应用中表现优良, 但其时间复杂度过高, 无法处理较大规模数据的分类问题。 双支持向量机(twin support vector machine, TWSVM)[6]的提出有效地解决了SVM面临的上述问题。 TWSVM的计算效率较之传统SVM提高近4倍。 然而, 该方法亦面临一些挑战: (1)分类决策时只关注各类数据之间的绝对间隔, 并未考虑光谱数据的分布特征; (2)易受到噪声点和奇异点的影响。 鉴于此, 提出融合数据分布特征的模糊双支持向量机(fuzzy twin support vector machine with spectral distribution properties, TWSVM-SDP)。 在该方法中, 引入LDA中的类间离散度和类内离散度用以表征恒星光谱数据的分布特征; 引入模糊隶属度函数用以降低噪声点和奇异点对分类结果的影响。 SDSS DR8恒星光谱数据集的比较实验表明, 与SVM, TWSVM等传统分类方法相比, TWSVM-SDP具有更优的分类能力。

1 背景知识

给定N个样本集为X={(x1y1), …, (xN, yN)}, 其中xiRm, yi∈ {-1, 1}为类别标签。 当1≤ iN1时, yi=1; 当1≤ iN2时, yi=-1, 且N=N1+N2

1.1 支持向量机

支持向量机通过构造一个分类超平面将两类隔开。 设分类超平面为wTx+b=0, 分类间隔为2/w‖ , SVM的最优化问题可描述为

minw, b, ξi12wTw+Ci=1Nξis.t. yi(wTxi+b)1-ξi, ξi0 i=1, , N

其中, C为惩罚因子, ξ i为松弛因子。

由Lagrangian定理将原问题转化为如下对偶问题

maxααT1-12αTs.t. αTY=0, α0

其中α =[α 1, …, α N]T, 1=[1, …, 1]T, Q=[yiyj xiTxj], Y=[y1, …, yN]T, 0=[0, …, 0]T

1.2 双支持向量机

双支持向量机TWSVM试图找到两个非平行的分类面将两类分开。 设矩阵AB分别表示属于1类和-1类的数据集, 设两类超平面方程分别为 w+Tx+b+=0和 w-Tx+b-=0, 则TWSVM的最优化问题可表示为以下形式:

(TWSVM1)

minw+, b+, ξ12(Aw++e1b+)T(Aw++e1b+)+c1eT2ξs.t. -(Bw++e2b+)T+ξe2 ξ0

(TWSVM2)

minw-, b-, ξ12(Bw-+e2b-)T(Bw-+e2b-)+c2eT1ξs.t. (Aw-+e1b-)T+ξe1 ξ0

其中, c1c2为惩罚因子; e1e2为全由1组成的列向量, ξ 为松弛因子。

由Lagrangian定理将原问题转化为如下对偶形式:

(TWSVM1)

maxαeT2α-12αTG(HTH)-1GTαs.t. 0αc1

其中H=[A e1], G=[B e2]。

(TWSVM2)

maxγeT1γ-12γTP(QTQ)PTγs.t. 0γc2

其中P=[A e1], Q=[B e2]。

1.3 LDA

LDA是一种经典的特征提取方法, 该方法提取的特征具有很好的可分性, 即同类之间的距离尽可能近, 异类之间的距离尽可能远。 其优化问题可描述为

J(w)=maxwwTSBwwTSWw

其中SB= i=1cNiN( x̅i- x̅)( x̅i- x̅)T, SW= i=1cj=1Ni1N(xij- x̅i)(xij- x̅i)T, c表示类别数, Ni表示第i类的规模, x̅ix̅分别表示第i类均值和所有光谱数据均值。

2 融合数据分布特征的模糊双支持向量机

融合数据分布特征的模糊双支持向量机TWSVM-SDP在双支持向量机TWSVM的基础上, 引入LDA中的类间离散度SW和类内离散度SB用以表征光谱数据的分布特征, 引入模糊隶属度函数s用以降低噪声点和奇异点对分类结果的影响。 设两类超平面方程分别为 w+Tx+b+=0和 w-Tx+b-=0, TWSVM-SDP的最优化问题可描述为:

(TWSVM-SDP1)

minw+, b+, ξ12(Aw++e1b+)T(Aw++e1b+)+12β1wT+(SW-SB)w++c1s1eT2ξ(1)

s.t. -(Bw++e2b+)T+ξe2 ξ0(2)

(TWSVM-SDP2)

minw-, b-, ξ12(Bw-+e2b-)T(Bw-+e2b-)+12β2wT-(SW-SB)w-+c2s2eT1ξ(3)

s.t. (Aw-+e1b-)T+ξe1 ξ0(4)

其中c1c2为惩罚因子; β 1β 2为平衡参数; e1e2为全由1组成的列向量。

令TWSVM-SDP1的Lagrangian函数为

L(w+, b+, ξ, α, β)=12(Aw++e1b+)T(Aw++e1b+)+12β1wT+(SW-SB)w++c1s1e2Tξ-αT[-(Bw++e2b+)T+ξ-e2]-βTξ(5)

其中Lagrangian乘子α ≥ 0, β ≥ 0。

L分别对w+, b+, ξ 求导并令导数等于0, 可得式(6)— 式(8)

Lw+=0AT(Aw++e1b+)+β1(SW-SB)w++BTα=0(6)

Lb+=0eT1Aw++e1b++eT2α=0(7)

Lξ=0c1s1e2-α-β=0 0αc1s1(8)

由式(6)— 式(7)可得

w+=β1-1(SW-SB)-1(A-B)Tα(9)b+=-eT2α-eT1Aβ1-1(SW-SB)(A-B)Tα(10)

将式(9)— 式(10)代入式(5), 可得

maxα12αTα+12β1-1αT(A-B)[(SW-SB)-1]T·(SW-SB)(SW-SB)-1(A-B)Tα(11)

G=A-B, H=(SW-SB)-1, 式(11)转化为

maxααTα+β1-1αTGHTH-1HGTα(12)

s.t. 0αc1s1(13)

同理可得TWSVM-SDP2的对偶形式

maxγγTγ+β2-1γTQHTH-1HQTγ(14)

s.t. 0γc2s2(15)

其中Q=B-A, H=(SW-SB)-1

TWSVM-SDP的决策函数为

f(x)=argmink=+, -|wTkx+bk|(16)

2.1 算法描述

TWSVM-SDP的算法流程如下:

输入: 训练数据集X_Train

输出: 测试数据集X_Test中样本的类属

步骤1: 将目标光谱分为训练数据集和测试数据集;

步骤2: 利用Lagrangian乘子法将TWSVM-SDP最优化问题转化为如式(12)— 式(15)所示的对偶形式;

步骤3: 在训练数据集X_Train上运行的TWSVM-SDP算法, 得到分类依据;

步骤4: 计算如式(16)所示的决策函数;

步骤5: 利用步骤4得到的决策函数对测试数据集中的任一样本xX_Test判定类属, 从而得到TWSVM-SDP算法的分类精度。

3 实验分析

实验采用美国斯隆巡天发布的SDSS DR8恒星光谱数据作为实验数据集。 实验对象是K型、 F型、 G型恒星光谱, 其中K型光谱包括K1, K3, K5和K7四类次型, 其信噪比(signal noise ratio, SNR)区间为(50, 60); F型光谱包括F2, F5, F9三类次型, 其中F2次型光谱信噪比区间为(50, 60), F5次型光谱信噪比区间为(65, 70), F9次型信光谱噪比区间为(75, 80); G型光谱包括G0, G2, G5三类次型, 其中G0次型光谱信噪比区间为(50, 60), G2次型光谱信噪比区间为(55, 60), G5次型信噪光谱信噪比区间为(50, 70), 实验数据集如表1(a)— (c)所示。

表1(a) K型恒星光谱规模 Table 1(a) The total number of K stars
表1(b) 型恒星光谱规模 Table 1(b) The total number of F stars
表1(c) G型恒星光谱规模 Table 1(c) The total number of G stars

通过与SVM, TWSVM等分类方法的比较来验证所提方法TWSVM-SDP的有效性。 上述分类方法的性能与所选的参数有关。 本文选用10折交叉验证法获取实验参数, 而参数的选择采用网格搜索法。 在SVM和TWSVM中, 惩罚因子在网格{0.01, 0.05, 0.1, 0.5, 1, 5, 10}中搜索。 实验选取基于距离的模糊隶属度函数。 分别选取实验对象的30%, 40%, 50%, 60%和70%作为训练数据集, 而剩余样本作为测试数据集。 实验结果如表2(a)— (c)所示, 其中括号前的值表示样本规模, 括号中的值表示所占比例。

表2(a) K型恒星数据集上的比较实验结果 Table 2(a) The comparative experimental results on the K-type dataset
表2(b) F型恒星数据集上的比较实验结果 Table 2(b) The comparative experimental results on the F-type dataset
表2(c) G型恒星光谱规模 Table 2(c) The comparative experimental results on the G-type datase

由表2(a)— (c)可以看出: 随着训练样本规模的增大, SVM, TWSVM和TWSVM-SDP三种分类方法的分类精度呈上升趋势(训练样本为70%的F型恒星光谱的情况除外)。 在不同规模的训练样本情况下, TWSVM-SDP较之SVM和TWSVM具有更优的分类能力。 从平均分类性能看, 与SVM和TWSVM相比, TWSVM-SDP的分类表现更优。 究其原因, TWSVM-SDP一方面继承了TWSVM计算效率较高的优势, 另一方面其在分类决策时考虑了光谱数据的分布性状, 通过引入模糊隶属度函数来降低噪声点和奇异点对分类结果的影响。 因此, 与SVM和TWSVM相比, TWSVM-SDP在恒星光谱分类中表现更优。

4 结 论

针对SVM面临的计算效率低的问题, 研究人员提出TWSVM, 该方法的计算效率较之传统SVM提高近4倍。 然而, 上述方法在分类决策时并未考虑数据的分布特征, 且易受噪声点和奇异点的影响, 因而分类效率难以显著提升。 鉴于此, 提出融合数据分布特征的模糊双支持向量机TWSVM-SDP。 该方法在双支持向量机TWSVM的基础上, 通过引入LDA中的类间离散度SW和类内离散度SB用以表征光谱数据的分布特征, 引入模糊隶属度函数s用以降低噪声点和奇异点对分类结果的影响。 SDSS DR8恒星光谱数据集上的比较实验表明, 与传统的SVM和TWSVM相比, TWSVM-SDP具有更优的分类能力。 然而, TWSVM-SDP无法有效处理大规模光谱分类问题, 接下来将利用大数据处理技术对所提方法在大数据环境下的适应性展开进一步研究。

The authors have declared that no competing interests exist.

参考文献
[1] ZHANG Huai-fu, ZHAO Rui-zhen, LUO A-li(张怀福, 赵瑞珍, 罗阿理). Journal of Beijing Jiaotong University(北京交通大学学报), 2008, 32(2): 30. [本文引用:1]
[2] Peng N B, Zhang Y X, Zhao Y H, et al. Monthly Notices of the Royal Astronomical Society, 2012, 425(4): 2599. [本文引用:1]
[3] LIU Zhong-bao, WANG Zhao-ba, ZHAO Wen-juan(刘忠宝, 王召巴, 赵文娟). Spetroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(1): 263. [本文引用:1]
[4] Shi F, Liu Y Y, Sun G L, et al. Monthly Notices of the Royal Astronomical Society, 2015, 453(1): 122. [本文引用:1]
[5] Liu Z B. Journal of Astrophysics and Astronomy, 2016, 37(2): 9. [本文引用:1]
[6] Jayadeva R K, Khemchand ani R, Chand ra S. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(5): 905. [本文引用:1]