一种基于遗传优化的BP神经网络的测光红移估计算法
范晓东1, 邱波1,*, 刘园园1, 魏诗雅1, 段福庆2,*
1. 河北工业大学, 天津 300400
2. 北京师范大学, 北京 100875
*通讯联系人 e-mail: qiubo@hebut.edu.cn; fqduan@bnu.edu.cn

作者简介: 范晓东, 1992年生, 河北工业大学电子科学与技术专业硕士研究生 e-mail: 1060988306@qq.com

摘要

除了星系的光谱红移之外, 星系测光红移的估计也对研究宇宙大尺度结构及演变有着重要的研究意义。 利用斯隆巡天项目最新发布的SDSS DR13的150 000个星系的测光及光谱数据, 在红移值 Z<0.8范围内, 先使用SOM自组织神经网络对星系样本进行早型星系和晚型星系的聚类, 然后用遗传算法优化后的BP神经网络对星系的测光红移进行估算。 估算结果与作为标准的已知星系光谱红移进行比对, 早型星系的红移估计最小均方误差约为0.001 3, 晚型星系最小均方误差约为0.001 7。 实验结果表明, 遗传优化的BP算法在精度上优于BP神经网络算法, 且效率上优于K近邻、 核回归等传统测光红移估计算法。

关键词: 测光红移; 遗传优化; SOM自组织网络; GABP神经网络
中图分类号:P157.2 文献标识码:A
A Photometric Redshift Estimation Algorithm Based on the BP Neural Network Optimized by Genetic Algorithm
FAN Xiao-dong1, QIU Bo1,*, LIU Yuan-yuan1, WEI Shi-ya1, DUAN Fu-qing2,*
1. Hebei University of Technology, Tianjin 300400, China
2. Beijing Normal University, Beijing 100875, China
Abstract

In addition to the spectral redshift of galaxies, the photometric redshift estimation of galaxies has important implications for the study of large-scale structures and evolution of the universe. In this paper, it chose about 150 000 galaxies’ photometric and spectral data in the latest SDSS DR13 of the Sloan survey project within the spectral redshift range of Z<0.8. The SOM self organizing neural networks were used to cluster galaxies in early type galaxies and late type galaxies. And then the photometric redshift of the galaxies was predicted by the BP neural network optimized by genetic algorithm. The prediction results were compared with the spectral redshift of galaxies. The mean square error of the redshift estimation of early type galaxies was about 0.001 3, and it for the late type galaxies was about 0.001 7. Experimental results showed that the BP algorithm optimized by genetic algorithm was more accurate than the BP neural network algorithm, and was more efficient than K nearest neighbor and kernel regression algorithms.

Key words: Photometric redshift; Genetic algorithm optimization; SOM self-organizing network clustering; GABP neural network
引言

星系红移是研究宇宙大尺度结构和演变的重要参数。 通过红移计算天体目标距离可以为研究天体的质量、 光度、 爆发规模等物理性质提供重要依据。

星系的红移分为光谱红移和测光红移。 用光谱方法估计的红移具有很高的精确度, 但需耗费很长的曝光和积分时间。 相较于光谱红移, 测光方法在很短的时间就可以估测同等高信噪比的红移。 除此以外, 在未来的星系红移研究中, 多数遥远星系都超出了光谱观测的极限, 很难利用光谱方法估计这些星系的红移, 而多色测光则具有更深的极限星等, 在遥远星系红移估计研究中更具优势。 近年来, 众多巡天项目都针对星系的多色测光进行了测量和统计, 其中美国的斯隆数字巡天(sloan digital sky survey, SDSS)最新公布的SDSS DR13中已包含两亿多个星系的测光数据[1]。 测光数据的急剧增长使应用高效和准确的机器学习算法进行测光估计成为必然趋势。

目前, 测光红移估计算法主要分为两类: 模板匹配和训练集方法。 模板匹配方法也就是谱能量分布(spectral energy distribution, SED)拟合方法。 该方法首先需要建立一系列模板, 供实际观测得到的星系进行颜色比对以确定星系的测光红移, 最典型SED拟合方法的应用是HyperZ。 训练集方法是通过机器学习算法建立测光数据与光谱红移之间的拟合关系以预测未知光谱红移的星系红移。 目前, 应用最广泛的训练集方法包括人工神经网络[2, 3, 4]、 最近邻[5]、 随机森林[6]、 支持向量机方法[7]等。

本文利用机器学习算法中的自组织特征映射(self-organizing feature map, SOM)网络对测光红移样本进行自聚类, 再通过遗传算法(genetic algorithm, GA)优化后的BP神经网络(GABP)对聚类结果进行测光红移的回归预测。

1 SOM网络与GABP神经网络
1.1 自组织特征映射SOM网络

SOM网络是由生物神经系统中侧抑制现象理论抽象的一种竞争型神经网络[8]。 应用SOM网络根据星系测光颜色特征对预处理后的样本聚类, 再对每一类样本分别进行测光红移的回归预测。

设SOM自组织网络输入样本Xi=( X1p, X2p, …, Xmp), (p=1, 2, …, n), 每个输入样本有p个特征。 竞争层的神经元矢量设定为Yj=(a1, a2, …, aj), (j=1, 2, …, k)竞争层与输入层神经元之间的权重矢量为Wji=(Wj1, Wj2, …, Wjn), (i=1, 2, …, m; j=1, 2, …, k), 则算法的主要步骤为:

(1)对网络的初始权值Wj和输出神经元X位置进行随机初始化, 设置学习率η (t)、 迭代次数T、 邻域函数Ne(t)和邻域半径r

(2)选择欧拉距离公式计算WjiXi之间的距离, 距离最小者确定为获胜神经元。

dj=i=1m(Xip-Wji)2

(3)对获胜神经元及其邻域内所有神经元之间的权重进行调整。

Wji(t+1)=Wji(t)+η(t)Ne(t)(Xip-Wji)

(4)选取另外一个样本输入到网络中, 返回步骤(3), 依次训练。

(5)更新学习率和邻域。

η(t)=η(0)exptT

其中, η (0)为初始学习率, t为已迭代次数, T为总迭代次数;

Ne(t)=rexp-djit1

其中, t1=tlogr

(6)当特征映射不再发生明显变化或达到最大网络训练次数时退出, 否则转入步骤(2)直至所有样本训练完。

1.2 遗传算法优化的BP神经网络

BP神经网络是一种具有连续传递函数的多层前扩人工神经网络[9]。 虽然BP神经网络应用范围广泛, 但仍存在着一些缺陷: (1)目前隐含层神经元个数的选取仍没有理论依据的支持, 常用经验法和试凑法; (2)在梯度下降过程中, 网络随机生成的初始权值和阈值使网络容易陷入局部最优解, 无法寻到全局最优而影响最终的拟合精度。

将遗传算法全局寻优的特点用于优化BP神经网络的权值和阈值。 其优化步骤如下:

(1)初始化种群。 设定染色体个数、 交叉概率以及变异概率。 从BP神经网络的初始化结果得到网络的初始权值和阈值, 并对其进行实数编码。

(2)计算每一条染色体的适应度, 按照轮盘赌算法选择优秀个体。 适应度函数设定为

f=1E(i);  E(i)=i=1l(x(i)-x0(i))2

其中l为学习样本个数, E(i)为网络输出值与期望值之间的误差平方和。

(3)按设置概率选择染色体进行交叉和变异操作, 并将新产生的个体插入到原始种群中, 重新计算新群体的染色体适应度值。

(4)如果产生满足误差要求的染色体, 将其确定为最优染色体并解码得到网络的最优权值和阈值。 否则返回步骤三继续优化。

通过遗传算法优化的BP神经网络, 可避免陷入局部最优, 提高算法精度和效率。

2 测光数据预处理
2.1 SDSS测光数据简介

SDSS巡天是迄今为止规模最大, 数据量最丰富的数字巡天项目。 其大视场CCD相机和多目标光纤光谱仪可对一万多平方度天区内的天体进行成像和光谱检测。 在最新发布的SDSS-DR13中, 光谱数据已经达到四百多万个, 其中包含240多万个星系的光谱数据[10]。 本文从SDSS-DR13中选取具有光谱红移的星系对应的测光数据进行建模。 通过SDSS DS13的Skyserver下载150 000个petrosian星等星系u, g, r, i, z 五个波段的测光数据、 各波段测光误差以及光谱红移。 其中各波段测光误差用于数据预处理, 五个波段的测光数据和由其组合相减得到的颜色特征组成训练样本的输入特征, 星系的光谱红移作为期望值来评估回归模型的精度。

2.2 数据预处理

由于星系的测光数据繁杂, 需先对样本数据进行预处理, 以避免误差较大的特殊点影响后续实验结果, 提高算法鲁棒性。

2.2.1 阈值法去除特殊样本

针对星系样本在petrosian星等中g, r, i, z四个波段的测光值误差petroMagerr_g, petroMagerr_r, petroMagerr_i, petroMagerr_z用阈值法进行数据筛选。 u波段误差较大, 故petroMagerr_u不作为排除特殊点的限制条件。 将各个波段测光误差值限定在小于0.2范围内, 经过阈值筛选后符合要求的星系样本个数为72 253。

2.2.2 星系颜色特征聚类

星系分类有很多标准, 包括传统的形态学分类、 光谱分类和颜色分类等。 在测光红移的研究中, 星系根据颜色特征可以分为早型星系和晚型星系。 早型星系即吸收线星系, 其颜色偏红, 晚型星系即发射线星系, 其颜色偏蓝。 本工作采用SOM自组织神经网络算法, 将星系颜色特征作为输入特征, 对样本进行二聚类。 星系的颜色特征由五个波段测光值组合做差而得, 共10个特征向量, 作为SOM网络输入层, 输出层神经元个数设置为2, 进行自动聚类。 其聚类结果用u-r的直方分布如图1所示。

图1 SOM聚类结果直方图Fig.1 Histogram of SOM clustering results

3 GABP神经网络回归预测实验及误差分析
3.1 GABP神经网络回归预测实验

通过数据预处理, 将星系样本聚类成早型星系和晚型星系后, 针对两个样本集分别建立GABP神经网络模型。

实验将每一类星系的样本集分为训练样本和测试样本, 样本个数所占比例分别为样本总数的60%和40%。 首先初始化BP神经网络的拓扑结构。 建立三层BP神经网络: 输入层包括星系样本u, g, r, i, z五个波段的测光值以及10个颜色特征, 隐含层神经元个数用凑试法确定, 早型星系模型为19, 晚型星系模型为28; 输出层为星系的测光红移估计值。 网络的传递函数选择双曲正切S型传递函数tansig和线性传输函数purelin, 训练函数选择Levenberg-Marquardt方法提出的trainlm函数。 接下来初始化网络的权值和阈值, 并传递给遗传算法优化模块对其进行全局寻优。 遗传算法的种群规模也分别设定, 早型星系为190, 晚型星系为170。 权值和阈值优化后, 传回BP神经网络进行网络训练, 利用星系的光谱红移作为期望值对网络进行测试和误差分析。

GABP神经网络的测光红移估计结果如图2(a)和(b)所示。 由图可知, GABP神经网络模型对早型星系的红移能达到很好的回归预测效果, 晚型星系由于其本身测光数据误差偏大导致离群率稍高。 总体来说, 两个模型在z< 0.6的低红移部分能够达到很好的回归效果, z> 0.6的高红移部分由于样本测光数据误差偏大, 样本数较少导致回归误差稍大。

图2 GABP算法的红移回归预测结果
(a): 早型星系; (b): 晚型星系
Fig.2 The redshift prediction results of the GABP algorithm
(a): The early type galaxy; (b): The late type galaxy

3.2 误差分析

利用GABP神经网络对星系的测光红移回归预测后, 将预测结果与已知的光谱红移比较分析模型误差。 为分析GA对于BP神经网络的改进效果, 将结果与BP神经网络直接回归预测的结果的误差进行比对。 误差分析指标包括:

(1)MSE: 均方误差;

MSE=1Ni=1N[Zphoto(i)-Zspec(i)]2

式中, Zphoto为测光红移估计值, Zspec为光谱红移值;

(2)RMSE: 均方根误差;

RMSE=1Ni=1N[Zphoto(i)-Zspec(i)]2

(3)Bias: Δ Z均值

ΔZ=(Zphoto-Zspec)/(1+Zspec)

(4) σ Z): Δ Z标准偏差

σ(ΔZ)=1Ni=1N[ΔZ(i)-Bias]2

(5)NMAD: 的归一化中值绝对偏差;

NMAD(ΔZ)=1.48Median(|ΔZ|)

(6)Outliers: Δ Z> 3σ 离群率。

根据两个模型的Δ Z, 做直方统计图进行误差分析。 由图3可见, GABP神经网络模型对于早型星系和晚型星系的测光红移估计误差基本都在小于0.1的范围内, 且误差分布近似于高斯分布。 经统计计算, 误差在0.1内的早型星系样本约占98.86%, 晚型星系样本约占99.03%。

图3 Δ Z的直方分布图
(a): 早型星系的直方分布, (b): 晚型星系的直方分布
Fig.3 The histogram distribution of the Δ Z
(a): The histogram distribution of the of the early type galaxy; (b): The histogram distribution of the of the late type galaxy

表1中可明显看出, GABP神经网络在早型星系和晚型星系的测光红移估计中, 精度上优于仅用BP神经网络做红移估计。 在Z< 0.8范围内, 其MSE误差最小达到0.001 3和0.001 7。 优化后, 标准偏差提升的百分比分别为14.4%和13.9%。 本实验结果同Robert Beck的K近邻算法估计星系红移[5]的结果相比, 预测精度相当的情况下, GABP算法的Outliers最优为1.11%, 较K近邻的最优Outliers 3.8%有很大的提高。 除此之外, 利用K近邻、 核回归等算法进行测光红移估计都需要对数百万的训练样本进行全局遍历的计算以达到目标精度, 算法效率很低。 经过GA优化后的BP神经网络进一步减少了迭代次数, 大大提高了算法效率, 较K近邻、 核回归等算法的效率高很多。 在日趋增长的海量测光数据的情况下, GABP神经网络算法不仅在精度上能保证很好的回归预测效果, 在效率上较其他算法也有明显优势。

表1 BP神经网络与GABP神经网络测光红移估计误差比较 Table 1 Comparison of error estimation between BP neural network and GABP neural network for photometric redshift estimation
4 结 论

星系的测光红移估计由于数据量巨大种类繁多, 对研究红移的算法精度和效率是不小的挑战。 针对星系样本测光数据的复杂性, 采用先用SOM自组织网络分类, 再用GABP神经网络回归的方法, 对预处理后的星系样本进行了测光红移的回归预测。 经过对实验结果的分析, 将样本先分类能够很好地降低数据复杂度大对回归预测的影响。 在回归建模部分, GABP神经网络很好地克服了BP神经网络容易陷入局部最优的缺陷。 该方法对于早型星系和晚型星系两个模型在z< 0.6的低红移部分能够很好地达到回归效果, z> 0.6的高红移部分回归误差稍大, 这也是后续研究着重需要改进的地方。

The authors have declared that no competing interests exist.

参考文献
[1] Franco D Albareti, Carlos Allende Prieto, Andres Almeida, et al. Astrophysics of Galaxies, 2016. [本文引用:1]
[2] Sadeh I, Abdalla F B, Lahav O. Proceedings of the International Astronomical Union, 2015, 10(S306): 316. [本文引用:1]
[3] Zhang Yanxia, Li Lili, Zhao Yongheng. Monthly Notices of the Royal Astronomical Society, 2009, 392(1): 233. [本文引用:1]
[4] Saumyadip Samui, Shanoli Samui Pal. New Astronomy, 2017, 169(9): 1384. [本文引用:1]
[5] Robert Beck, Laszl Dobos, Tamas Budavari, et al. Monthly Notices of the Royal Astronomical Society, 2016, 460(2): 1371. [本文引用:2]
[6] Almosallam I A, Jarvis M J, Roberts S J. Monthly Notices of the Royal Astronomical Society, 2016, 462(1): 726. [本文引用:1]
[7] Cavuoti S, Amaro V, Brescia M, et al. Monthly Notices of the Royal Astronomical Society, 2017, 465(2): 1959. [本文引用:1]
[8] Shi Li, Zhu Minjie. Journal of Clinical Rehabilitative Tissue Engineering Research, 2010, 14(43): 8069. [本文引用:1]
[9] Franco D Albareti, Carlos Allende Prieto, Andres Almeida, et al. Astrophysics of Galaxies, 2016. [本文引用:1]
[10] Schmidt S J, Thorman P. Monthly Notices of the Royal Astronomical Society, 2013, 431(3): 2766. [本文引用:1]