利用带无标签数据的双支持向量机对恒星光谱分类
刘忠宝1,2, 雷宇飞1, 宋文爱2, 张静2, 王杰3, 屠良平4
1. 泉州信息工程学院软件学院, 福建 泉州 362000
2. 中北大学软件学院, 山西 太原 030051
3. 中国科学院新疆天文台, 新疆 乌鲁木齐 830011
4. 辽宁科技大学理学院, 辽宁 鞍山 114051

作者简介: 刘忠宝, 1981年生, 中北大学软件学院教授 e-mail: liuzb@nuc.edu.cn

摘要

恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。 随着观测设备持续运行和不断改进, 人类获得的光谱数量与日俱增。 这些海量光谱为人工处理带来了极大挑战。 鉴于此, 研究人员开始关注数据挖掘算法, 并尝试对这些光谱进行数据挖掘。 近年来, 神经网络、 自组织映射、 关联规则等数据挖掘方法广泛应用于恒星光谱分类。 在这些方法中, 支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。 SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。 SVM在求解时, 通过将其最优化问题转化为具有(QP)形式的凸问题, 进而得到全局最优解。 尽管该方法在实际应用中表现优良, 但为了进一步提高其分类能力, 有的学者提出双支持向量机(TSVM)。 该方法通过构造两个非平行的分类面将两类分开, 每一类靠近某个分类面, 而远离另一个分类面。 TSVM的计算效率较之传统SVM提高近4倍, 因此, 自TSVM提出后便受到研究人员的持续关注, 并出现若干改进算法。 在恒星光谱分类中, 一般分类算法都是根据历史观测光谱来建立分类模型, 其中最关键的是对光谱进行人工标注, 这项工作极为繁琐, 且容易犯错。 如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。 因此, 提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。 该方法首先将光谱分为训练数据集和测试数据集两部分; 然后, 在训练集上进行学习, 得到分类依据; 最后利用分类依据对测试集上的光谱进行验证。 继承了双支持向量机的优势, 更重要的是, 在训练集上学习分类模型过程中, 不仅考虑有标记的训练样本, 也考虑部分未标记的样本。 一方面提高了学习效率, 另一方面得到更优的分类模型。 在SDSS DR8恒星光谱数据集上的比较实验表明, 与支持向量机SVM、 双支持向量机TSVM以及K近邻(KNN)等传统分类方法相比, 带无标签数据的双支持向量机TSVMUD具有更优的分类能力。 然而, 该方法亦存在一定的局限性, 其中一大难题是其无法处理海量光谱数据。 该工作将借鉴海量数据随机采样思想, 利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。

关键词: 恒星光谱; 智能分类; 双支持向量机; 无标签数据
中图分类号:TP391 文献标志码:A
Stellar Spectra Classification by Support Vector Machine with Unlabeled Data
LIU Zhong-bao1,2, LEI Yu-fei1, SONG Wen-ai2, ZHANG Jing2, WANG Jie3, TU Liang-ping4
1. School of Software, Quanzhou University of Information Engineering, Quanzhou 362000, China
2. School of Software, North University of China, Taiyuan 030051, China
3. Xinjiang Astronomical Observatory, Chinese Academy of Sciences, Urumqi 830011, China
4. School of Science, University of Science and Technology Liaoning, Anshan 114051, China
Abstract

Stellar spectra classification is one of hot spots in astronomical techniques and methods. With continuous operation and improvement of observation apparatus, hundreds and thousands of spectra were obtained by researchers, which presented challenges to process them manually. In view of this, data mining algorithms have attracted more attentions, and have been utilized to deal with the spectra. Neural networks, self organization mapping, association rules and other data mining algorithms have been utilized to classify the stellar spectra in recent years. In these algorithms, Support Vector Machine (SVM) is much more popular due to its good learning capability and excellent classification performance. The basic idea of standard SVM is to find an optimal separating hyper-plane between the positive and negative samples. SVM as a convex programming problem has a unique optimal solution, which can be posed as a quadratic programming (QP) problem. In order to further improve the classification efficiency, Twin Support Vector Machine (TSVM) has been proposed. It aims at generating two non-parallel hyper-planes such that each plane is close to one class and as far as possible from the other one. The learning speed of TSVM is approximately four times faster than that of the classical SVM. TSVM receives many attentions since it shows low computational complexity, and many variants of TSVM have been proposed in literatures. During the process of stellar spectra classification, the classification model is built based on the observation data. The key step is to manually label the spectra, which is time-consuming and painstaking. Therefore, how to construct the spectra classification model based on the labeled and unlabeled spectra is a problem deserving study. In order to effectively classify the stellar spectra, Twin Support Vector Machine with Unlabeled Data (TSVMUD) is proposed in this paper. In TSVMUD, the stellar spectra are firstly divided into two parts, one is for training, and the other is for test. Then, the proposed method TSVMUD is utilized on the training data and the classification model is obtained. At last, the spectra in the test dataset are verified by the classification model. TSVMUD not only preserve the advantage of low computational complexity, but also improve the classification efficiency by taking both the labeled and unlabeled data into consideration. The comparative experiments on the SDSS datasets verify that TSVMUD performs better than the traditional classifiers, such as SVM, TSVM, KNN (K Nearest Neighbor). However, some limitations exist in TSVMUD, for example, how to deal with the mass spectra is quite difficult to solve. Inspired by random sampling, we will research the adaptability of our proposed method in the big data environment based on big data technologies.

Keyword: Stellar spectra; Intelligent classification; Twin support vector machine; Unlabeled data
引 言

恒星光谱分类是天文技术和方法领域研究的热点问题之一。 随着观测设备持续运行和不断改进, 人类获得的光谱数量与日俱增。 这些海量光谱为人工处理带来了巨大挑战。 鉴于此, 人们开始考虑利用自动化技术, 特别是数据挖掘算法来处理这些光谱。 近年来, 不断涌现出一些卓有成效的研究成果。 Bazarghan等提出基于人工神经网络的自组织映射(self-organzing Map, SOM)算法, 该算法可以直接对光谱分类, 而无需进行预先训练[1]。 Navaro等提出的人工神经网络系统通过在温度、 光度敏感的光谱中选择线强指数集进行训练, 实现对低信噪比光谱的分类[2]。 Bolton等利用高质量的光谱源实现光谱的分类[3]。 Hernandez等利用稀疏表示和词典学习方法实现光谱分类[4]。 Gray等建立了一个MKCLASS专家系统来对MK光谱进行分类[5]。 Fuentes等将多层感知神经网络和PCA方法用于恒星光谱的次型分类, 该方法对于矮星和巨星光度型的分类可信度达到95%以上。 他们还将PCA方法应用于恒星光谱降维, 这为恒星光谱降维方法的研究提供了重要参考[6]。 有研究提出一种新的基于支持向量机(support vector machine, SVM)的非活动天体与活动天体的自动分类方法。 姜斌等针对LAMOST光谱的特点, 首先利用拉普拉斯特征映射(Laplacian eigenmap, LE)对光谱进行特征提取, 然后利用神经网络进行分类[7]。 Bu等利用等距特征映射(isometric feature map, ISOMAP)和支持向量机[8]以及局部线性嵌入(locally linear embedding, LLE)算法[9]来对恒星光谱进行分类。 Cai等利用加权频繁模式树发现恒星光谱的关联规则[10]。 刘忠宝等针对大规模光谱数据分类问题, 提出非线性集成分类方法[11], 该方法首先将大规模光谱数据分为若干子集, 在每个子集上运行传统分类器并得到分类结果, 最后将各子集的结果进行集成, 得到最终分类结果。 此外, Liu还提出“ LPP+SVM” 分类策略, 即首先利用保局投影(locality preserving projections, LPP)算法进行高维光谱降维处理, 然后利用支持向量机进行分类[12]

上述分类方法均属于有监督的学习方法, 其工作流程一般分为两个阶段: 一个是训练, 另一个是预测。 在训练阶段, 上述方法要求事先给出带类别标签的训练样本。 然而, 光谱的类别信息往往依赖于人工标注, 这项工作极为繁琐, 且容易犯错。 此外, 通过对历史观测光谱学习得到的分类模型, 对于新获取的光谱(还未进行人工标注)未必有效, 如果重新训练分类模型, 时间代价又过于庞大, 因此, 如何在分类模型中融入无标记样本进行学习值得深入研究。 在众多分类模型中, 双支持向量机(twin support vector machine, TSVM)的计算效率较之传统SVM提高近4倍, 因此, 自TSVM提出后便受到研究人员的持续关注。 鉴于此, 本文在TSVM的基础上, 提出带无标签数据的双支持向量机(twin support vector machine with unlabeled data, TSVMUD)用以对恒星光谱智能分类。 通过在SDSS DR8恒星光谱数据集上与SVM, TSVM, KNN(K nearest neighhor)等分类方法的比较实验来验证所提方法的有效性。

1 双支持向量机

双支持向量机(TSVM)试图找到两个分类面将两类分开。 设将两类样本分别存放于矩阵AB。 分别定义如下两个分类面[见式(1)]

wT+x+b+=0wT-x+b-=0(1)

在TSVM中, 每一类都接近于相对应的分类面, 而远离另一分类面, 并且两个分类面之间应有一定距离。 基于上述分析, 可得TSVM的最优化问题[见式(2)和式(3)]

minw+, b+, ξ+12Aw++e+b+2+C1e-Tξ+s.t. -(Bw++e-b+)e--ξ+, ξ+0(2)minw-, b-, ξ-12Bw-+e-b-2+C2e+Tξ-s.t. (Aw-+e+b-)e+-ξ-, ξ-0(3)

其中, C1C2为惩罚因子; ξ (± )=[ ξ1(±), ξ2(±), ξ3(±), …, ξl(±)]为松弛因子, 其保证算法具有一定的容错性; e+e-均表示全1列向量。

一个新的样本点x的类属判定取决于如下的决策函数[式(4)]

class i=argmink=+, -|xTw(k)+b(k)|w(k)(4)

其中i={-1, +1}。

2 带无标签数据的双支持向量机
2.1 最优化问题

假设给定训练数据集 T˙=TU={(x1, y1), (x2, y2), …, (xl, yl)}∪ { x1* , x2* , …, xu* }, 其中T为有标签数据集, U为无标签数据集。 xiRn, yi={+1, -1}, 其中i=1, 2, …, l; xm* Rn, 其中m=1, 2, …, ulm分别表示有标签数据和无标签数据规模。

带无标签数据的双支持向量机TSVMUD在双支持向量机TSVM的基础上, 引入无标签数据, 因此, 在建立优化问题时, 可以将目标函数分为两部分: 一部分针对有标签数据分类, 另一部分针对无标签数据分类。 TSVMUD的最优化问题表示为式(5)和式(6)

minw+, b+, ξ+, ψ12Aw++e+b+2+C1e-Tξ++DeuTψs.t. -(Bw++e-b+)e--ξ+, (Uw++eub+)+ψ(ε-1)eu, ξ+0, ψ0(5)minw-, b-, ξ-, ψ* 12Bw-+e-b-2+C2e+Tξ-+DeuTψ* s.t. (Aw-+e+b-)e+-ξ-, -(Uw-+eub-)+ψ* (ε-1)eu, ξ-0, ψ* 0(6)

其中矩阵U用于存放无标签数据; C1C2为针对有标签数据的惩罚因子, D为针对无标签数据的惩罚因子; ξ (± )=[ ξ1(±), ξ2(±), ξ3(±), …, ξl(±)]为针对有标签数据的松弛因子, ψ (* )=[ ψ1(* ), ψ2(* ), ψ3(* ), …, ψu(* )]为针对无标签数据的松弛因子; e+, e-以及eu均表示全1列向量。

根据拉普拉斯乘子法, 引入拉普拉斯算子α +β +, 可得(5)式的对偶形式[式(7)]

minα+, β+12(GTα+-JTβ+)T(HTH)-1(GTα+-JTβ+)-eT-α+-(ε-1)eTuβ+s.t. 0α+C1e-, 0β+Deu(7)

同理可得(6)式的对偶形式[式(8)]

minα-, β-12(HTα--JTβ-)T(GTG)-1(HTα--JTβ-)-eT+α--(ε-1)eTuβ-s.t. 0α-C2e+, 0β-Deu(8)

其中H=[A, e+], G=[B, e-], J=[U, eu]。

一个新的样本点x的类属判定取决于如式(4)所示的决策函数, 如式(9)和式(10)

w+b+=-(HTH)-1(GTα+-JTβ+)(9)w-b-=-(GTG)-1(HTα--JTβ-)(10)

2.2 算法描述

TSVMUD的算法流程如下:

输入: 训练数据集X_Train

输出: 测试数据集X_Test中样本的类属

步骤1: 将目标光谱分为训练数据集和测试数据集。 训练数据集中包含一定比例的有标签数据和无标签数据。

步骤2: 利用拉格朗日乘子法将TSVMUD最优化问题转化为如式(7)和式(8)所示的对偶形式;

步骤3: 在训练数据集X_Train上运行的TSVMUD算法, 得到分类依据;

步骤4: 计算如式(4)所示的决策函数;

步骤5: 利用步骤4得到的决策函数对测试数据集中的任一样本xX_Test判定类属, 从而得到TSVMUD算法的分类精度。

3 实验分析

实验采用美国斯隆巡天发布是SDSS DR8的恒星光谱数据作为实验数据集。 实验对象是K型光谱中信噪比在50~60之间的3 302条K1次型光谱, 3 176条K3次型光谱, 3 048条K5次型光谱以及1 132条K7次型光谱。 其中随机选取80%的光谱作为有标签样本, 其余的20%样本去掉其类别标签, 作为无标签样本。 实验的软硬件环境包括: 3GHz Pentium4 CPU, 4G RAM, Windows 7, MATLAB 7.0。

通过与SVM, TSVM和KNN等传统分类方法的比较来验证所提方法TSVMUD的有效性。 上述分类方法的性能与所选的参数有关。 选用10折交叉验证法获取实验参数, 而参数的选择采用网格搜索法。 在SVM和TSVM中, 惩罚因子在网格{0.01, 0.05, 0.1, 0.5, 1, 5, 10}中搜索; 在K邻近算法(K nearest neighbor, KNN)中, 参数K在网格{1, 5, 10, 15, 20, 25, 30}中搜索。 分别选取实验对象的30%, 40%, 50%, 60%和70%作为训练数据集, 而剩余样本作为测试数据集。 上述数据集中有标签样本和无标签样本的比例为4∶ 1。 由于SVM和TSVM是经典的有监督学习方法, 即上述方法无法对无标签数据进行训练。 因此, 为了表示方便, 需要事先对无标签数据进行随机分类处理。 KNN方法对无标签数据进行K近邻计算, 即首先找到与无标签数据最近的K个有标签的近邻, 然后根据“ 少数服从多数” 的原则, 确定无标签数据的类属。 实验结果如表1表4所示, 其中括号前的值表示样本规模, 括号中的值表示所占比例。

表1 K1次型光谱上的实验结果 Table 1 The experimental results on the K1 subclass spectra
表2 K3次型光谱上的实验结果 Table 2 The experimental results on the K3 subclass spectra
表3 K5次型光谱上的实验结果 Table 3 The experimental results on the K5 subclass spectra
表4 K7次型光谱上的实验结果 Table 4 The experimental results on the K7 subclass spectra

表1表4可以看出, 随着训练样本规模的增大, SVM, TSVM, KNN和TSVMUD等分类精度呈上升趋势。 在K1, K3, K5和K7次型数据集上, 与SVM, TSVM和KNN相比, TSVMUD的分类精度均最优。 从平均精度角度看, TSVMUD的平均分类精度远高于其他三种方法。 产生上述实验结果的原因是: 由于SVM, TSVM和KNN属于监督学习方法, 其无法对无标签数据进行学习。 本实验为了比较方便, 故对上述三种方法进行了预处理, 这种预处理具有一定的随机性和不确定性, 并对实验结果有一定影响。 而本文所提的TSVMUD方法擅长处理混有标签和无标签数据的分类问题, 因此, 在不同规模的训练样本上, TSVMUD均具有最优的分类性能。

4 结 论

针对已有恒星光谱分类方法面临的无法处理无标签光谱的不足, 提出带无标签数据的双支持向量机TSVMUD。 该方法在双支持向量机TSVM的基础上, 引入无标签数据以实现对恒星光谱智能分类的目的。 该方法在训练集上学习分类模型时, 不仅考虑有标记的训练样本, 也考虑部分未标记的样本。 这样, 一方面提高了学习效率, 另一方面得到更优的分类模型。 在SDSS DR8恒星光谱数据集上与SVM, TSVM和KNN等传统分类方法相比, 所提方法TSVMUD具有更优的分类精度。 然而, 该方法亦存在无法处理海量光谱数据的不足。 进一步将借鉴海量数据随机采样思想, 利用大数据处理技术, 来对所提方法在大数据环境下的适应性展开进一步研究。

The authors have declared that no competing interests exist.

参考文献
[1] Bazarghan M. Astrophysics and Space Science, 2012, 337(1): 93. [本文引用:1]
[2] Navarro S G, Corradi R L M, Mampaso A. Astronomy and Astrophysics, 2012, 538(1): 143. [本文引用:1]
[3] Bolton A S, Schlegel D J, Aubourg E, et al. The Astronomical Journal, 2012, 144(5): 507. [本文引用:1]
[4] Hernand ez R D, Barreto H P, Robles L A, et al. Experimental Astronomy, 2014, 38(1): 193. [本文引用:1]
[5] Gray R O, Corbally C J. The Astronomical Journal, 2014, 147(4): 80. [本文引用:1]
[6] Fuentes O, Gulati R K. Proceedings of the 7th Texas-Mexico Conference on Astrophysics: Flows, Blows and Glows, 2001. 209. [本文引用:1]
[7] JIANG Bin, LI Zi-xuan, QU Mei-xia, et al(姜斌, 李紫宣, 曲美霞, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(7): 2275. [本文引用:1]
[8] Bu Y D, Chen F Q, Pan J C. New Astronomy, 2014, 28: 35. [本文引用:1]
[9] Bu Y D, Pan J C, Jiang B, et al. Publications of the Astronomical Society of Japan, 2013, 65(4): 173. [本文引用:1]
[10] Cai J H, Zhao X J, Sun S W, et al. Research in Astronomy and Astrophysics, 2013, 13(3): 334. [本文引用:1]
[11] Liu Z B, Song L P, Zhao W J. Monthly Notices of the Royal Astronomical Society, 2016, 455(4): 4289. [本文引用:1]
[12] Liu Z B. Journal of Astrophysics and Astronomy, 2016, 37(2): 1. [本文引用:1]