作者简介: 徐伟杰, 女, 1990年生, 山东大学空间科学研究院硕士研究生 e-mail: xuweijiewh@126.com
多源数据融合能在一定程度上扩展数据信息量, 更利于建立准确和稳健的分析模型。 行星探测中常采用多个载荷协同分析同一目标, 因此利用多载荷数据融合辨别分析火星矿物具有重要科学意义和应用前景。 分别采用可见近红外(Vis-NIR)反射光谱和拉曼(Raman)散射光谱两种技术手段测量了火星表面主要矿物(硅酸盐、 硫酸盐、 碳酸盐)的光谱特征曲线, 并对获取的光谱数据进行基线校正、 Savitzky-Golay平滑以及标准矢量归一化(SNV)等必要的数据预处理。 根据光谱特征, 首先选取样品Vis-NIR和Raman数据信息丰富、 信噪比高、 光谱信号重叠小的波段(Vis-NIR: 430~2 430 nm, Raman: 130~1 100 cm-1), 然后运用软独立建模分类法(SIMCA)、 主成分分析法-K最邻近分类法(PCA-KNN)分别建立基于Vis-NIR, Raman及两者融合(累加融合、 串联融合)的矿物聚类分析模型。 采用SIMCA算法的矿物聚类准确率由单一光谱建模的72.6%(Vis-NIR), 90.7%(Raman)提升为融合建模的96.3%(累加融合)和98.1%(串联融合); 采用PCA-KNN的准确率由单一光谱建模的68.9%(Vis-NIR), 72.9%(Raman)提升为融合后的80.3%(累加融合)和92.6%(串联融合)。 实验结果表明: 光谱融合能够发挥Vis-NIR, Raman各自的数据优势, 所建火星表面相关矿物分类模型的预测准确度更高。 该研究为我国火星探测任务奠定了岩石分类方法基础。
Multi-source data fusion is a powerful method to combine data from multiple sources to improve the potential values and interpretation performances of the source data. Multi-payload collaborative analysis is regularly used to detect the same target in planetary exploration. Therefore, it is of great significance and potential application to use spectral fusion to establish a more accurate and robust clustering analysis model for Martian minerals identification. In this paper, the spectral characteristics of the main Martian-related minerals were analyzed by using both visible near-infrared (Vis-NIR) reflectance spectroscopy and Raman spectroscopy. And some data pre-processing methods such as baseline correction, Savitzky-Golay smoothing, standard normal variate (SNV) scaling were used to produce a high-quality representation of the spectral data. Firstly, the information-rich spectral bands with higher signal-to-noise ratio and less overlapping were selected (i. e., Vis-NIR: 430~2 430 nm; Raman: 130~1 100 cm-1) for the clustering analysis. Secondly, soft independent method of class analogy (SIMCA) and principal component analysis-K-nearest neighbor (PCA-KNN), were respectively built based on selected Vis-NIR, Raman and two kinds of their fusion data(i. e., coaddition fusion and concatenation fusion), respectively. The accuracy of SIMCA model was enhanced from 72.6% (Vis-NIR) and 90.7% (Raman) to 96.3% (coaddition fusion) and 98. 1% (concatenation fusion). The accuracy of PCA-KNN model was improved from 68.9% (Vis-NIR) and 72.9% (Raman) to 80.3% (coaddition fusion) and 92.6% (concatenation fusion), respectively. The results indicate that the fused Raman/Vis-NIR data can improve the classification model’s accuracy of Martian-related minerals which will lay the foundation of quick rock classification for future Mars exploration.
多源数据融合是将多个信息源或传感器获得的同一个目标不同类型的信息组合到一起, 利用其信息上的相关性和互补性, 使目标信息更全面和准确。 数据融合广泛应用在多传感器信息融合技术中, 但对光谱数据进行融合分析的报道较少: 武晓莉等采用紫外透射和荧光光谱融合提高了水中总有机物碳(TOC)预测精度[1]; 李志刚等采用不同导数光谱融合建模策略, 提高了溶液中的葡萄糖和啤酒中的原麦汁浓度的预测模型质量[2]; 焦爱权等将黄酒NIR和IR光谱进行融合, 提高了抗氧化能力(TAC)和总酚含量(TPC)预测模型的稳健性[3]; Casale等将橄榄油NIR和MIR光谱进行融合, 提高了橄榄油鉴别分类模型的准确性[4]; 毕云峰等采用Raman和激光诱导击穿光谱(LIBS)融合对六种不同的矿物进行了分类研究, 得到较好的分类结果[5]。 火星探测的重要任务就是对火星表面的矿物类型进行鉴别分析, 为火星地质和气候演化研究提供支撑。 火星表面主要矿物如硅酸盐、 硫酸盐、 碳酸盐具有丰富的振动光谱特征, 因此光谱载荷是火星探测的首选载荷。 2020年美国航空航天局(NASA)、 欧空局(ESA)和中国都将发射火星车, 用于火星表面巡视探测。 其中中国火星车将搭载LIBS和NIR光谱仪, 美国Mars2020的SuperCam将同时搭载LIBS, Raman和Vis-IR光谱仪, ESA的ExoMars将携带IR和Raman-LIBS谱仪, 多光谱载荷协同分析已经成为行星探测的国际趋势。
Vis-NIR因能方便地获得矿物阴离子基团振动的倍频和组合频信息且对水探测较敏感, 被广泛地应用于行星探测中; Raman因谱峰尖锐、 光谱重叠度低、 能更准确地鉴别矿物阴离子基团的类型和结构信息, 将于2020年首次登陆火星, 开展更为精确的火星表面矿物探测。 本文分别采用Vis-NIR反射光谱和Raman散射光谱研究火星表面主要矿物(硅酸盐、 硫酸盐、 碳酸盐)的光谱特征, 并在一定的数据预处理、 光谱波段筛选和数据融合(累加、 串联)的基础上分别建立了基于Vis-NIR, Raman及两者光谱融合的SIMCA, PCA-KNN矿物聚类分析模型。 本研究可为2020年国际火星就位探测数据的解析和矿物识别提供借鉴方法。
火星表面主要分布着硅酸盐、 硫酸盐、 碳酸盐3大类矿物。 本实验购买和制备了上述3大类矿物中的25种典型样品。 其中6种硅酸盐(橄榄石、 拉长石、 斜方辉石、 斜长石、 钾长石、 正长石)和1种碳酸盐(白云石, CaMg(CO3)2)为地质标准品, 购自北京水远山长矿物标本公司, 经实验室优选后进行了研磨和过筛(200目标准筛)处理; 剩余样品除CaSO4· 0.5H2O是由CaSO4· 2H2O在128 ℃下烘烤12 h制得以外, 其他均为购自国药集团化学试剂有限公司的粉末状化学标准品(纯度≥ 99.0%): 其中无水硫酸盐八种(BaSO4(2种), CaSO4(2种), CuSO4, K2SO4, MgSO4, NaSO4), 含水硫酸盐5种(CaSO4· 2H2O(2种), MgSO4· 7H2O, FeSO4· 7H2O, Al2(SO4)3· 18H2O)和碳酸盐四种(CaCO3(2种), K2CO3, MgCO3)。 上述样品均为单一成分矿物, 本实验没有制备多组分混合物样品。
前期研究表明[6], 仅极个别含水矿物与水相关的振动光谱特征峰可能在模拟火星条件发生改变。 鉴于此, 所有光谱实验都是在常温、 常压条件下完成的。
实验使用显微共聚焦Raman光谱仪(英国Renishaw公司, 型号: InVia Plus)采集样品Raman光谱数据。 数据采集前, 先用标准硅片对Raman光谱峰位进行校正, 然后对每种样品进行多点多次(至少3点, 每点至少测量3次)光谱采样。
具体采集参数为: 激光波长532 nm, 激光功率1.5 mW, 光谱分辨率0.7 cm-1, 波长范围100~4 000 cm-1, 曝光时间5 s。 运用GRAMS/AI软件(美国Thermo Fisher Scientific公司, 版本号8.0)对光谱进行基线扣除、 荧光信号扣除、 平滑等处理, 以获得理想光谱数据。
实验使用美国ASD公司的FieldSpec4型光谱仪采集Vis-NIR反射光谱数据。 实验中每隔2小时重新采集光源背景光谱, 每种样品同样进行多点多次光谱采样。 光谱采集参数: 光谱范围350~2 500 nm, 700 nm处的光谱分辨率3.0 nm(1 400和2 100 nm处的分辨率是8.0 nm), 积分时间8.5 ms。 由于ASD光谱仪具有3个独立的全息衍射光栅和3个独立的CCD探测器, 因此光谱数据往往在探测器响应边缘处(即1 000和1 800 nm处)出现不连续的情况。 本文使用ASD自带软件View Spec Pro(版本号6.2.0)对上述光谱进行台阶修正(Splice Correction)。
首先对比分析了矿物样品的Raman和Vis-NIR光谱特征, 结果如下。
2.1.1 硅酸盐
橄榄石是最常见的岛状硅酸盐, 斜方辉石是链状硅酸盐, 拉长石是架状硅酸盐(也属于铝硅酸盐)。 本文对存在荧光的硅酸盐Raman数据进行了基线校正和平滑, 去除荧光对Raman信号的影响, 对于Vis-NIR数据进行台阶校正, 详见图1。
硅酸盐在800~1 100 cm-1的Raman峰源自硅氧四面体中非桥氧ν 1 (Si— Onb)的振动, 且随着硅氧四面体中非桥氧数的增加向短波数方向移动[7]。 对于铝硅酸盐, 随着铝元素进入硅氧四面体数目的增多, ν 1 (Si— Onb)向低波数方向移动, 图1(a)结果与此规律相符; 对于链状硅酸盐, 斜方辉石因其在665 cm-1处存在一个较强的特征峰[8]而有别于其他硅酸盐。 橄榄石的Vis-NIR光谱在1 000 nm处存在一个较宽的特征吸收峰且随着橄榄石中镁指数的增加, 此峰会向短波方向移动; 斜方辉石在1 000和2 000 nm处存在两个宽特征吸收峰[见图1(b)]。 对于硅酸盐矿物无论是Raman还是Vis-NIR都有较为丰富的光谱特征。
2.1.2 硫酸盐
本文选取含不同阳离子种类的代表性无水硫酸盐(Na2SO4, BaSO4, K2SO4)和含不同结晶水的硫酸盐(CaSO4, CaSO4· 0.5H2O, CaSO4· 2H2O)进行Raman和Vis-NIR光谱分析, 光谱数据如图2和图3所示。
![]() | 图2 含不同阳离子硫酸盐的(a) Raman和(b) Vis-NIR振动光谱图Fig.2 (a) Raman and (b) Vis-NIR spectra of anhydrous sulfates with different cations |
![]() | 图3 硫酸钙水合物的(a) Raman和(b) Vis-NIR振动光谱图Fig.3 (a) Raman and (b) Vis-NIR spectra of calcium sulfate hydrates |
2.1.2.1 无水硫酸盐
如图2所示, 含不同阳离子无水硫酸盐的Raman最强振动峰位于980~1 030 cm-1之间, 归属为S
2.1.2.2 含水硫酸盐
不同水合程度硫酸钙的Raman和Vis-NIR光谱特征峰和谱带归属结果如图3和表1所示。
![]() | 表1 Raman, Vis-NIR及其累加和串联融合数据的SIMCA分类结果 Table 1 Classification results of minerals using Vis-NIR, Raman, and their coaddition, concatenation data by SIMCA |
由图3(a)可见, 随着硫酸钙水合物中结晶水个数的增加, ν 1(S
2.1.3 碳酸盐
不同阳离子碳酸盐(MgCO3, CaCO3, K2CO3)的Raman和Vis-NIR光谱和谱带指认如图4。 ν 1(C
由图1— 图4可知, Raman光谱能探测到较为丰富的矿物阴离子基团信息, 对水的响应较弱; Vis-NIR能探测到部分矿物阴离子基团信息(如碳酸盐、 硫酸盐和部分硅酸盐), 对水的响应比较敏感。 若选取Raman和Vis-NIR光谱信息丰富的波段, 按照特定的方式进行数据融合计算, 能在一定程度上扬长避短, 实现最有效的矿物聚类分析, 这将对于中国及国际火星矿物探测和快速识别具有指导意义。
2.2.1 光谱预处理与数据融合
在模型建立前, 采用基线校正、 Savitzky-Golay(S-G)平滑以及标准矢量归一化(SNV)方法对光谱数据进行必要的预处理以消除随机噪声以及基线漂移等造成的误差[15]。 Moros等[16]提出四种数据融合方法: 数据累加融合、 数据串联融合、 数据外和融合以及数据外积融合方法。 本文采用数据累加和数据串联两种融合方法对Raman, Vis-NIR光谱数据进行融合处理。 数据累加是将Raman和Vis-NIR相关通道上的数据按照一定的权重进行加和, 得到的新矩阵的行数仍等于样品的数量, 矩阵列数不变, 但值变为两列光谱数据之和; 数据串联方法是将Raman和Vis-NIR数据首尾串联连接, 得到的新矩阵行数仍等于样品的数量, 但列数改变为两种光谱数据列数之和。
在对数据进行融合分析的过程中发现, 简单地将Raman和Vis-NIR全光谱数据进行融合会出现数据冗余, 如果不将这些冗余信息剔除, 模型的预测精度和稳定性将会受到一定程度的影响, 因此参与融合的Raman和Vis-NIR波段选择就显得尤为重要[3]。 为了消除Raman正峰与Vis-NIR吸收负峰叠加产生峰抵消的现象, 首先将Vis-NIR反射光谱转换为吸光度光谱, 再选取信息丰富、 信噪比较高的Raman(130~1 100 cm-1, 1 000个通道)和Vis-NIR(430~2 430 nm, 2 000个通道)光谱波段进行后续数据融合及聚类分析。 为了消除Vis-NIR与Raman光谱数据维数上的差异, 本文采用MATLAB(版本号2014a)将Vis-NIR数据从2 000通道压缩到1 000通道(相邻两个通道仅选取一个通道), 然后对Raman, Vis-NIR数据进行了加权(Raman∶ Vis-NIR=3∶ 1)累加融合以及等权串联融合计算。 以BaSO4光谱融合为例, 融合结果如图5所示。 很显然, 融合后的数据具有更加丰富的光谱信息。
![]() | 图5 BaSO4样品(a)Raman光谱图, (b)Vis-NIR光谱图, (c)数据累加融合光谱图, (d)数据串联融合光谱图Fig.5 (a) Raman spectra, (b) Vis-NIR spectra and their (c) coaddition spectra, (d) concatenation spectra of BaSO4 |
2.2.2 基于Raman、 Vis-NIR及融合光谱数据的矿物分类模型
2.2.2.1 SIMCA聚类模型
SIMCA(soft independent method of class analogy)判别方法是基于每一种类别校正集的PCA模型计算未知样本点与所建PCA模型的距离, 并以此距离为判据鉴别未知样品类别的算法。 SIMCA算法是光谱分析中进行分类、 判别等定性分析的主要方法[17]。 本文将获得的25种矿物的87条矿物光谱(每种矿物至少取三点代表性光谱)分别按照2∶ 1的比例随机选择建立校正集和验证集, 然后运用Matlab的PLS_Toollbox 8.01工具箱中的SIMCA算法对单独的Raman数据(波段: 130~1 100 cm-1, 1 000通道)、 单独的Vis-NIR数据(波段: 430~2 430 nm, 1 000通道)以及融合数据(累加融合及串联融合)进行矿物鉴别分析。
图6是运用SIMCA算法对硫酸盐样品校正集以及验证集的Vis-NIR, Raman以及融合数据的分类结果图。 横坐标是Q残差(Q Residuals Reduced), 纵坐标是归一化平 方和T2(Hotelling T2 Reduced), 其中Q残差越小代表聚类效果越好, 由图6(a)— (d)可以看出Q残差值依次为14.96%, 17.25%, 12.96%, 13.86%, 分类结果与表1结果相符, 因此可得对于硫酸盐基于融合数据的分类结果明显优于采用单一数据。 图中两条蓝色虚线与坐标轴构成的区域代表的是样品分布的95%置信区间, 分布于置信区间的样品数据越多则代表聚类效果更好, 矿物样品验证集的SIMCA分类结果如表1所示。 由表1可以看出SIMCA模型对于单独Vis-NIR数据、 Raman数据、 累加融合以及串联融合数据判别准确率分别由72.6%和90.7%提升为累加融合后的96.3%和串联融合后的98.1%, 融合后的SIMCA判别结果均优于单独使用Vis-NIR数据、 Raman数据, 其中数据串联融合算法对于矿物的分类效果最佳。 可见, 本文采用的光谱融合技术确实能够提高对于火星相关矿物的判别准确率, 有利于火星表面矿物的快速分类鉴别分析。
2.2.2.2 PCA-KNN(principal component analysis-K-nearest neighbor)聚类模型
将25种矿物的87条矿物光谱按照2∶ 1的比例随机选择建立校正集和验证集(与SIMCA建模方式相同), 然后运用PLS_Toollbox 8.01工具箱的主成分分析法(principal component analysis, PCA)算法-K值最邻近分类法(K-nearest neighbor, KNN)算法对单独的Raman数据、 单独Vis-NIR数据以及融合数据(累加融合及串联融合)进行聚类研究。 KNN算法可以将验证集和校正集样本表达成一致的特征向量, 然后根据距离函数计算验证集样本和每个训练集样本的距离, 选择距离最小的K个样本(本文选择K=1)作为近邻样本, 最后根据K个最近邻样本来判断验证集样本数据的类别[18, 19]。 运用PCA-KNN算法的矿物验证集分类结果如表2所示。 由表2可以看出运用PCA-KNN分类算法对于累加、 串联融合数据的分类结果分别为80.3%和92.6%分类效果明显高于单独使用Raman, Vis-NIR数据的68.9%和72.9%。 数据串联融合算法对于矿物的分类效果最佳(与SIMCA结论相同), 这说明串联融合数据相比累加融合数据包含更多矿物有用信息, 更利于进行矿物的鉴别分类分析。
![]() | 表2 Raman, Vis-NIR及其累加和串联融合数据的PCA结合KNN分类结果 Table 2 Classification results of minerals using Vis-NIR, Raman, and their coaddition, concatenation data by PCA combined with KNN |
火星表面相关矿物(硅酸盐、 硫酸盐、 碳酸盐)都有较丰富的Raman和Vis-NIR光谱特征, 因此就位Raman和Vis-NIR载荷将成为未来深空探测的有力工具和手段。 在进行矿物鉴别分析时, 基于特征波段筛选的Raman和Vis-NIR光谱融合算法, 有助于提高模型预测的准确性以及稳健性。 文中运用SIMCA和PCA-KNN算法大大提高了融合数据的预测准确率, 特别是SIMCA算法的准确率达到了96%以上。 本研究为未来火星探测提供了思路, 对潜在的行星探测载荷如Raman, Vis-NIR, LIBS, 荧光光谱开展联合就位与多光谱融合数据分析提供了借鉴方法。 该研究对于火星探测矿物识别工作具有重要的意义。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|