光谱数据预处理对潮间带沉积物氮LSSVM模型的影响研究
吕美蓉1, 任国兴1,2, 李雪莹1, 范萍萍1, 刘杰1, 孙中梁1, 侯广利1, 刘岩1,*
1. 齐鲁工业大学(山东省科学院)海洋仪器仪表研究所, 山东省海洋监测仪器装备技术重点实验室, 国家海洋监测设备工程技术研究中心, 山东 青岛 266100
2. 中国海洋大学信息科学与工程学院, 山东 青岛 266100
*通讯联系人 e-mail: sdqdliuyan@126.com

作者简介: 吕美蓉, 女, 1983年生, 齐鲁工业大学(山东省科学院)海洋仪器仪表研究所助理研究员 e-mail: 444868063@qq.com

摘要

光谱数据变换和光谱特征波长提取是二种重要的光谱预处理方法, 对消除环境等干扰具有重要的作用。 以往文献主要对比研究不同的光谱数据变换方法, 光谱特征波长提取方法的对比研究以及二者的组合研究较少。 为了获取适宜的光谱预处理方法, 提高潮间带沉积物氮的最小二乘支持向量机(LSSVM)模型精度, 研究了4种光谱变换方法与3种特征波长提取方法组合对沉积物氮LSSVM模型精度的影响, 以期实现潮间带沉积物氮的精确预测。 研究结果表明, 多元散射校正(MSC)或标准正态变换(SVN)光谱变换方法提高了光谱与氮含量的相关性, 最高相关系数分别达到0.69和0.71; 并且提高了LSSVM模型的预测精度, 模型的预测 R2和RPD分别为0.88, 0.87和2.78, 2.69。 无信息变量消除(UVE)特征波长提取方法也提高了LSSVM模型的预测精度, 模型预测 R2和RPD分别0.89和2.70。 但是, UVE提取的特征波长并不都与氮含量具有高相关性。 此外, 组合运用UVE特征波长提取方法和MSC或SVN光谱变换方法, 也提高了模型预测精度, 但并不优于单独运用UVE特征波长提取方法或单独运用MSC及SVN光谱变换方法。 研究结果可为潮间带沉积物氮估算和光谱数据预处理提供技术参考。

关键词: 光谱数据变换; 光谱特征波长提取; 光谱预处理; 潮间带沉积物
中图分类号:O657.3 文献标志码:A
The Effect of Spectral Pretreatment on the LSSVM Model of Nitrogen in Intertidal Sediments
LÜ Mei-rong1, REN Guo-xing1,2, LI Xue-ying1, FAN Ping-ping1, LIU Jie1, SUN Zhong-liang1, HOU Guang-li1, LIU Yan1,*
1. Institute of Oceanographic Instrmentation, Qilu University of Technology (Shandong Academy of Sciences), Shandong Provincial Key Laboratory of Marine Monitoring Instrument Equipment Technology, National Engineering and Technological Research Center of Marine Monitoring Equipment, Qingdao 266100, China
2. School of Information Science and Engineering, Ocean University of China, Qingdao 266100, China;
*Corresponding author
Abstract

Spectral data transformation and feature wavelength extraction are two important spectral pretreatment methods, which play an important role in eliminating environmental interference. Previous literature mainly compared different spectral data transformation methods and there was less studyon the spectral feature wavelength extraction methods and the combination of the two methods. In order to obtain suitable spectral pretreatment method and improve the accuracy of LSSVM model of sediment nitrogen in the intertidal zone, the effect of 4 spectral transformation methods combined with 3 characteristic wavelength extraction methods on the accuracy of LSSVM model of sediment nitrogen is studied for accurate prediction of sediment nitrogen in the intertidal zone. The results showed that the spectral transformation methods of multivariate scattering correction (MSC) or normal distribution (SVN) increasedthe correlation between spectra and nitrogen content and the highest correlation reached 0.69 and 0.71 respectively. MSC and SVN improved the prediction accuracy of LSSVM model, and the prediction R2 and RPD are 0.88, 0.87 and 2.78, 2.69, respectively. The feature wavelength extraction method of uninformative variable elimination (UVE) also improved the prediction accuracy of LSSVM model, model test R2 and RPD were 0.89 and 2.70, respectively. However, not all of the characteristic wavelengths extracted by UVE have a high correlation with nitrogen content. In addition, the combination of UVE and MSC or SVN also improved the prediction accuracy of the model, but it is not better than UVE alone or MSC or SVN alone. The results of this paper can provide a technical reference for nitrogen estimation and spectral data preprocessing of intertidal sediments.

Keyword: Spectral data transformation; Spectral feature wavelength extraction; Spectral pretreatment; Intertidalite sediment
引 言

可见-近红外光谱法具有快速、 便捷等优点, 已广泛应用于土壤/沉积物氮含量估算[1]。 尽管采用光谱法预测氮含量的研究比较多, 但是以往主要针对土壤或湖泊沉积物, 未有潮间带沉积物氮含量的预测研究。 潮间带是海陆交替的过渡地带之一, 人类活动造成大量氮元素被输送到潮间带地区, 并最终蓄积在沉积物中。 在一定的条件下(温度、 pH值、 氧化还原电位等), 沉积物中蓄积的氮元素会通过一系列物理、 化学和生物过程释放到水体中, 影响着潮间带及近岸水域环境[2]。 因此定量化快速监测潮间带沉积物氮含量具有重要的意义。

由于土壤/沉积物成分复杂, 而且在光谱采集过程中往往受到仪器、 环境等干扰, 因此光谱信息中包含了大量的噪音和冗余信息。 采用原光谱数据建模, 不但计算复杂, 而且模型预测精度低。 有必要探寻一种方法, 在保留有用光谱信息的同时, 去除噪声, 剔除冗余信息, 为氮含量估算提供良好的数据基础。 光谱变换、 特征波长提取是两个重要的去除噪音和冗余信息的方法。 光谱变换不仅可以去噪, 而且可以减少光谱信息的重叠度, 集聚与加强有用的光谱信息[3]。 特征波长提取可以剔除冗余变量, 保留相关信息变量[4]。 然而以往的研究主要对比研究不同的光谱数据变换方法, 光谱特征波长提取方法的对比研究以及二者的组合研究较少。 有必要研究特征波长提取方法及其与光谱变换方法的组合, 优选最佳的光谱数据预处理方法, 以期实现最优的去噪、 去冗余信息效果。

支持向量机(support vector machine, SVM)是一种无监督式学习算法, 学习泛化能力很强。 其中, 最小二乘支持向量机(least square support vector machine, LSSVM)是一种改进的支持向量机模型, 采用最小二乘线性系统作为损失函数, 代替传统SVM采用的二次规划方法, 进一步简化了计算复杂性, 并提高了预测结果的准确性[5]。 本研究在潮间带沉积物光谱采集的基础上, 组合运用4种光谱变换方法(多元散射矫正、 标准正态变换、 一阶微分、 二阶微分)和3种特征波长提取方法(连续投影算法、 无信息变量消除法、 遗传算法)以去除光谱噪音, 挖掘沉积物氮敏感波长, 突出相关光谱特征。 通过比较沉积物氮的LSSVM模型精度, 评价光谱预处理组合方法的效果, 以期为潮间带沉积物氮的光谱速测提供研究基础和参考。

1 实验部分
1.1 沉积物样品采集

于青岛崂山区会场附近海洋潮间带采集了197份沉积物样品, 采样深度为0~10 cm。 每个采样点之间至少间隔10 m。 采集的潮间带沉积物主要由黏土和粉砂组成。 将采集的样品自然风干, 研磨、 过60目筛, 用于光谱采集和化学分析。

1.2 分析测定方法

沉积物氮含量采用过高氯酸-硫酸消化法测定[6], 以此作为光谱建模的标准值。 光谱反射率测定采用海洋光学QE65000光谱仪, 光谱采样间隔为1 nm, 积分时间600 ms, 谱区范围200~1 100 nm。 取3~5 g沉积物样品放在自制样品盒中, 轻轻刮平, 采用45° 视场角光纤探头进行光谱采集。 每个土壤样品采集5次光谱反射率, 取平均值。 为减少噪声影响, 剔除信噪比较低的边缘波段, 保留230~970 nm的光谱数据。

1.3 数据处理

1.3.1 光谱预处理

采用多元散射校正(multiplicative scatter correction, MSC)、 标准正态变换(standardized normal variation, SVN)、 一阶微分和二阶微分进行沉积物光谱数据变换。 采用连续投影算法(successive projections algorithm, SPA)、 无信息变量消除法(uninformative variable elimination, UVE)和遗传算法(genetic algorithm, GA)进行特征波长提取。

1.3.2 模型建立

采用Kennard-Stone(KS)方法对197个沉积物样品进行分类。 采用最小二乘支持向量机法(least squares support veotormaohine, LSSVM)进行建模。

1.3.3 模型检验

模型检验采用决定系数(R2)、 误差均方根(RMSEC)和剩余估计偏差(RPD)为评价参数。 当R2越大, RMSEC越小, 表示模型的精度越好。 此外, 当RPD< 1.0时, 表明模型预测能力很差, 模型不可靠; 当1.0< RPD< 1.4时, 表明模型预测能力较差; 当1.4< RPD< 1.8时, 表明模型预测能力较好, 可以对样本进行估测; 当1.8< RPD< 2.0时, 表明模型预测能力好, 可对样本进行定量估测, 当2.0< RPD< 2.5时, 表明模型具有很好的定量预测能力; 当RPD< 2.5时, 模型具有极好的预测能力[7]

2 结果与讨论
2.1 光谱数据变换

图1显示了潮间带沉积物氮含量与光谱反射率的正相关性。 从图中可以看出, 随着波长增加, 原光谱反射率与氮含量的相关系数呈现先增加后降低的趋势, 其中350~620 nm波段的相关系数较高, 位于0.40~0.55之间, 最敏感的波长出现在503 nm处, 相关性为0.55。 经过一阶微分和二阶微分光谱变换后, 整个波段的相关系数起伏非常大, 连续性差, 且与原光谱相比, 大多数波长的相关系数降低了。 经过多元散射校正(MSC)和标准正态变换(SVN)光谱变换后, 相关性从230~325 nm波段范围呈现上升趋势, 在330~425 nm波段范围呈现急剧下降又急剧上升的趋, 之后从425~554 nm波段范围内继续升高, 但增加幅度较为平缓, 到554 nm处相关性曲线再次呈现下降— 上升— 再下降的趋势。 相对于原光谱, 除355和740 nm左右, 其他波段的相关系数都增加了。 这暗示着, MSC或SVN可以降低内外部环境因子的干扰, 将原本湮没在原光谱数据中的一些微弱的沉积物氮特征光谱信息挖掘出来。

图1 潮间带沉积物氮含量与光谱反射率的正相关性Fig.1 Positive correlation between nitrogen content and spectral reflectivity of sediment in intertidal zone

表1可以看出, 光谱变换对模型的建模精度影响不大。 无论光谱变换与否, 模型的建模集R2都很高(> 0.99), RMSEC都很低(< 0.02)。 但是, 光谱变换对模型的预测精度影响较大。 基于原光谱构建的模型检验集R2, RMSEC和RPD分别为0.83, 0.13和2.37。 经过一阶微分和二阶微分光谱变换后, 模型的检验集R2极大的降低了, 分别为0.62和0.51, 且RPD都小于1.4, 这可能与一阶微分和二阶微分降低了光谱反射率与氮含量的相关性有关。 但是, MSC和SVN均提高了模型的检验集R2, 降低了RMSEC, 且RPD都高于2.5, 这暗示着MSC和SVN均可以强化沉积物氮的相关信息, 提高模型预测精度。

表1 光谱变换和特征波长提取对潮间带沉积物氮LSSVM模型精度的影响 Table 1 Effect of spectral transformation and characteristic wavelength extraction on the accuracy of LSSVM model of nitrogen in intertidal sediments
2.2 特征波长提取

识别有用的特征波长, 剔除无关的特征波长, 突出潮间带沉积物氮的光谱信息非常重要。 但是, 不恰当的波长提取, 反而会造成有用光谱信息损失, 不利于模型精度的提高。 表1显示了3种特征波长提取方法对LSSVM模型精度的影响。 结果表明, 连续投影算法(SPA)、 无信息变量消除法(UVE)和遗传算法(GA)三种特征波长提取方法都降低了模型的建模精度, 这可能是因为特征波长提取减少了建模变量。 但是, 这三种特征波长提取方法对模型预测精度的影响并不一致。 SPA稍微降低模型的预测精度。 而UVE增加了模型的预测精度, 检验集R2, RMSEC和RPD分别为0.89, 0.12, 2.70, 表明UVE能更加充分、 准确地挖掘光谱信息, 使模型更加稳定, 预测误差更小。 从图2看, SPA提取了24个特征波长, 主要集中在830~970 nm波段间, 而UVE提取了72个波长, 且分布范围广。 此外, 遗传算法极大的降低了模型的预测精度, 检验集R2, RMSEC和RPD仅为0.39, 0.24和1.28, 即基于GA建立的模型预测能力非常差, 分析认为GA在运行过程中容易陷入了局部极小化。 从表2中可以看出GA提取的特征波长约为900 nm, 且提取的特征波长仅有17个。

图2 提取的潮间带沉积物氮特征波长点Fig.2 Extracted characteristic wavelength points of intertidal sediment nitrogen

2.3 光谱数据变换与特征波长提取组合

表1中可以看出, 在无特征波长提取的情况下或在GA特征波长提取的情况下, MSC和SVN光谱变换都增加了模型的预测精度。 但是, 在SPA或UVE特征波长提取的情况下, MSC和SVN光谱变换对模型的预测精度影响不大。 此外, 在无特征波长提取以及SPA特征波长提取的情况下, 一阶微分和二阶微分都极大的降低了模型的预测精度。 而在UVE特征波长提取的情况下, 一阶微分和二阶微分对模型预测精度的影响幅度有所减弱。 在GA特征波长提取的情况下, 一阶微分对模型预测精度影响不大, 二阶微分极大的降低了模型预测精度。

在无光谱变换、 一阶微分和二阶微分光谱变换的情况下, UVE特征波长提取都提高了模型的预测精度; 而在MSC和SNV光谱变换的情况下, UVE特征波长提取对模型的预测精度影响不大。 在无光谱变换、 MSC、 SNV和一阶微分光谱变换的情况下, SPA都降低了模型的预测精度; 但在二阶微分光谱变换的情况下, SPA对模型预测精度影响不大。 在无光谱变换、 MSC、 二阶微分光谱变换的情况下, GA极大的降低了模型预测精度; 而在一阶微分、 SNV光谱变换的情况下, GA对模型预测精度的影响幅度有所减轻。

尽管在无光谱变换或在MSC, SNV和一阶微分光谱变换的情况下, SPA对模型精度的影响趋势基本一致。 然而, 经过光谱变换后, SPA提取的特征波长点发生变化(图2)。 未经过光谱变换时, SPA提取的特征波主要集中在850~970 nm之间; 经过MSC光谱变换后, SPA提取的特征波长主要在750~800和940~960 nm; 经过SVN光谱变换后, SPA提取的特征波长主要在650~800和940~970 nm。 有意思的是, 无论是无光谱变换还是经过光谱变换, SPA提取的特征波长区域与图1中高相关性区域并不对应, 这暗示着合适的建模波长并不只是高相关性波长。 经过一阶微分和二阶微分光谱变换后, SPA提取的特征波长在全波段都有分布, 与未经过光谱变换提取的特征波长区别明显。 另外, 经MSC光谱变换后, UVE提取的特征波长数量极大幅度降低了; 经SVN光谱变换后, UVE提取的特征波长较为聚集, 主要集中在320和710 nm附近, 但特征波长点的这些变化并没有影响模型精度。 此外, 经一阶微分和二阶微分光谱变换后, UVE提取的特征波长数量极大的增加了, 这可能是模型精度增加的一个重要原因。 最后, 无论光谱变换与否, GA提取的特征波长数量均较少, 且主要分布于900 nm左右。 尤其是经过二阶微分光谱变换后, GA提取的特征波长的数量仅为1个, 这可能是模型精度降低的一个关键原因。

相对于无光谱变换和无特征波长提取预处理, 仅MSC光谱变换, 或仅SVN光谱变换, 或仅UVE特征波长提取, 或MSC与UVE结合, 或SVN与UVE结合都能提高模型的预测精度。 但是, 相对于单独运用UVE特征波长提取方法或单独运用MSC及SVN光谱变换方法, 组合运用UVE特征波长提取方法和MSC或SVN光谱变换方法并没有提高模型的预测精度。

3 结 论

复杂的沉积物成分以及测试环境都会对目标光谱产生影响, 而光谱变换可消除部分影响。 周清等[8]认为导数变换可以去除部分线性或接近线性的背景值干扰, 降低低频噪声对光谱的影响, 突显细微信息差异。 杨红飞等[9]认为光谱数据归一化比值处理可增强光谱与检测目标之间的相关性, 突出光谱敏感波段, 提高模型预测精度和稳定性。 研究发现, MSC或SVN可改变光谱反射率与氮含量的相关性, 释放被掩盖的有用光谱信息, 提升模型预测精度。 而一阶微分和二阶微分则降低了光谱反射率与氮含量的相关性。 对光谱数据进行微分变换时, 光谱反射率变化小, 则微分值接近于零, 光谱反射率变化较大, 则微分值较大。 因此, 微分有利于限制低频背景光谱的影响, 但会放大高频噪声的干扰, 这可能是本研究微分降低光谱反射率与氮含量相关性的重要原因。

本研究发现, 采用全部的波长点建模, 比选择部分波长点建模更能够提高模型的建模精度。 但是, 并不是采用的波长点数量越多, 越有利于模型的预测精度。 UVE可以有效地挖掘出有用的光谱信息, 剔除无关信息, 提高模型预测精度。 类似的, 梁梦醒等[10]也表示, 采用UVE优选敏感波长后, 模型的准确性更高。 有意思的是, UVE提取的特征波长与氮含量高相关性的波长并不是对应的, 这可能是因为, 合适的特征波长并非仅包括高相关性波长, 无吸收或吸收较弱的波长也可以作为特征波长, 用来矫正散射等影响。 本研究还发现, 并非所有的特征波长提取方法都能够增加模型的预测精度。 遗传算法降低了潮间带沉积物氮的模型预测精度, 推测可能是因为遗传算法导致变量过少而影响了模型的预测能力。

由于光谱变换能够提取微弱的光谱变化, 突出有用的光谱信息, 更有利于特征波长的选择, 因此推测光谱变换和特征波长提取组合将提高LSSVM模型精度; 部分光谱变换与特征波长提取组合比单独运用特征波长提取更有利于模型预测精度, 比如在无光谱变换的情况下, GA极大的降低了模型预测精度; 而在SNV光谱变换的情况下, GA对模型预测精度的影响幅度有所减轻。 研究结果中, UVE是效果最优的特征波长提取方法, MSC和SVN是效果最优的光谱变换方法, 但是, 相对于单独运用UVE特征波长提取方法或单独运用MSC以及SVN光谱变换方法, 组合运用UVE特征波长提取方法和MSC或SVN光谱变换方法并没有提高模型的预测精度, 这与预想并不一致。 推测可能是组合预处理反而造成了光谱数据的过度处理, 并不能够增加信噪比和模型精度。

参考文献
[1] REN Hong-yan, SHI Xue-zheng, ZHUANG Da-fang, et al(任红艳, 史学正, 庄大方, ). Remote Sensing Technology and Application(遥感技术与应用), 2012, 27: 372. [本文引用:1]
[2] NIE Jia-qin, WANG Dong-qi, CHEN Jie, et al(聂家琴, 王东启, 陈杰, ). Environmental Science(环境科学), 2018, 39: 4219. [本文引用:1]
[3] SHEN Zhang-quan, YE Ling-bin, SHAN Ying-jie(沈掌泉, 叶领宾, 单英杰). Acta Pedologica Sinica(土壤学报), 2014, 51: 1011. [本文引用:1]
[4] ZHANG Rui, LI Zhao-fu, PAN Jian-jun(张锐, 李兆富, 潘剑君). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33: 175. [本文引用:1]
[5] FAN Chang-sheng, LIU Ze-zhao, GUO Qiang, et al(范昌胜, 刘泽照, 郭强, ). Journal of Taiyuan University of Science and Technology(太原科技大学学报), 2019, 40: 159. [本文引用:1]
[6] SUN Biao, YANG Zhi-yan, ZHAO Sheng-nan, et al(孙标, 杨志岩, 赵胜男, ). Soil and Fertilizer Sciences in China(中国土壤与肥料), 2019, (2): 194. [本文引用:1]
[7] CUI Xia, SONG Qing-jie, ZHANG Yao-yao, et al(崔霞, 宋清洁, 张瑶瑶, ). Acta Prataculturae Sinica(草业学报), 2017, 10: 20. [本文引用:1]
[8] ZHOU Qing, ZHOU Bin, ZHANG Yang-zhu, et al(周清, 周斌, 张杨珠, ). Acta Pedologica Sinica(土壤学报), 2004, 41(6): 905. [本文引用:1]
[9] YANG Hong-fei, ZHENG Li-ming, HAO Zhong-yao, et al(杨红飞, 郑黎明, 郜中要, ). Journal of Anhui Agricultural University(安徽农业大学学报), 2018, 45(1): 101. [本文引用:1]
[10] LIANG Meng-xing, DAI Jun, HAN Bang-xing, et al(梁梦醒, 戴军, 韩邦兴, ). Journal of West Anhui University(皖西学院学报), 2017, 33: 1. [本文引用:1]