光谱分辨率对土壤组分建模影响分析
陈玉1, 魏永明1, 王钦军1,2,*, LI Lin3, 雷少华4, 路春燕5
1.中国科学院数字地球重点实验室, 中国科学院空天信息创新研究院, 北京 100094
2.三亚中科遥感研究所, 海南 三亚 572029
3.Department of Earth Sciences, Indiana University-Purdue University Indianapolis (IUPUI), IN 46202, USA
4.南京师范大学, 江苏 南京 210023
5.福建农林大学, 福建 福州 350002
*通讯作者 e-mail: wangqj@radi.ac.cn

作者简介: 陈 玉, 1983年生, 中国科学院空天信息创新研究院助理研究员 e-mail: chenyu@radi.ac.cn

摘要

实验室可见-近红外高光谱数据(VIS-NIR)具有快速、 高效、 无损等技术优势, 被越来越多应用于土壤组分反演中。 光谱分辨率越高所能表达的土壤信息越丰富, 但也带来了数据冗余。 目前, 对于不同光谱分辨率对土壤组分建模影响效应分析的研究相对较少。 以欧洲土壤中心数据集19036个土壤样本为数据源, 以土壤总氮(N)、 有机碳(OC)、 碳酸钙(CaCO3)、 粘土(Clay)为例, 基于偏最小二乘回归方法(PLS)并选择30%的随机样本独立验证的方式开展相关研究。 首先将所有样本原始0.5 nm分辨率4 200个波段的高光谱数据采用等间距取均值方法分别重采样到2, 4, 8, …, 1 024 nm开展分析。 结果表明: 随着光谱分辨率的降低, 土壤各类组分反演精度均呈下降趋势, 光谱分辨率在64 nm以上, 4类土壤组分普遍具有较高的模型验证精度( R2>0.65, RPD>1.7), 光谱分辨率在128 nm以下CaCO3和Clay组分精度显著变差; 4类组分中, CaCO3对光谱分辨率敏感性最强, 在高光谱分辨率下反演精度较高( R2>0.86, RPD>2.72), 但随光谱分辨率降低精度下降最快。 此外, 基于光谱响应函数将样本光谱重采样到GF2, S3A, L8, Aster, Modis和S3OLCI六种常见卫星传感器的光谱分辨率展开评价。 结果表明: 土壤N、 OC在各传感器中均可获得较高的精度, 甚至在GF2传感器仅有4个波段情况下, 也具有不错的验证精度( R2=0.56; RPD=1.51), 而土壤CaCO3及Clay反演精度普遍较差; 除传感器光谱波段数量外, 波段位置对土壤组分的反演能力的影响也很显著, 拥有近红外长波(1 100~2 500 nm)光谱范围的传感器对土壤组分的反演能力优于缺少该光谱波段的传感器, 特别是粘土矿物的吸收峰多位于近红外长波段, S3A, L8, Aster和Modis传感器的Clay反演能力均优于光谱波段数更多的S3OLCI。 该研究成果对土壤组分高光谱数据预处理、 卫星数据源的选择及未来传感器光谱通道的设计具有指导意义。

关键词: 土壤组分; 实验室可见近红外光谱; 卫星传感器; 光谱分辨率; 偏最小二乘法
中图分类号:O657.3 文献标志码:A
Effects of Different Spectral Resolutions on Modeling Soil Components
CHEN Yu1, WEI Yong-ming1, WANG Qin-jun1,2,*, LI Lin3, LEI Shao-hua4, LU Chun-yan5
1. CAS Key Laboratory of Digital Earth Science, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China
2. Sanya Institute of Remote Sensing, Sanya 572029, China
3. Department of Earth Sciences, Indiana University-Purdue University Indianapolis (IUPUI), IN 46202, USA
4. Nanjing Normal University, Nanjing 210023, China
5. Fujian Agriculture and Forestry University, Fuzhou 350002, China
*Corresponding author
Abstract

The laboratory visible-near infrared (VIS-NIR) spectroscopy has been frequently used in quantifying soil components because it is effective, fast and nondestructive etc. The higher spectral resolution is the richer soil information we could obtain. However, hyperspectral data are red undant and should be preprocessed. The study of the effects of different spectral resolutions on the modeling of soil components is relatively inadequate. Taking advantage of the European Land Use/Cover Area Frame Statistical Survey (LUCAS) dataset having 19 036 soil samples, we investigate the effects of different spectral resolutions on modeling soil components: total soil nitrogen (N), organic carbon (OC), calcium carbonate (CaCO3), and clay. To achieve this, we took the partial least squares regression (PLS) method as the evaluation model and randomly chose 30% samples for independent verification. Firstly, the spectral data which have 4 200 bands with 0.5 nm spectral resolution were resampled to 2, 4, 8, …, 1 024 nm respectively using average reflection value by of uniform interval sampling. The results are as follows: (1) when the spectral resolution was decreased, the inversion accuracy of soil components showed a downward trend; (2) when the spectral resolution was higher than 64 nm, higher model validation accuracies were obtained for estimating the four selected soil components ( R2>0.65, RPD>1.7); (3) the accuracy for CaCO3 and clay components was significantly reduced when the spectral resolution was lower than 128 nm; (4) of the four soil components, CaCO3 was the most sensitive to spectral resolution. It has higher accuracy ( R2>0.86, RPD>2.72) at high spectral resolutions, but the accuracy reduced most rapidly as the spectral resolution decreases. Secondly, based on the spectral response functions for a group of common satellite sensors, the inversion performances of using GF2, S3A, L8, Aster, S3OLCI, and Modis spectral bands are summarized as follows: (1) all sensors achieved higher accuracy for soil N and OC even if GF2 has 4 different bands ( R2=0.56; RPD=1.51); (2) a low accuracy was obtained for CaCO3 and clay; (3) besides the number of spectral bands, the band positions are also important and the sensors (S3A, L8, Aster, and MODIS) having bands in the spectral range 1 100~2 500 nm showed a stronger performance than the sensor (e. g. S3OLCI) without the corresponding bands. The results from this study provide a guiding reference for preprocessing hyperspectral data of soil, selecting suitable satellite data sources and designing new optical sensors for soil Vis-NIR spectroscopy.

Keyword: Soil components; Laboratory Vis-NIR spectroscopy (VIS-NIR); Satellite sensor; Spectral resolution; Partial least squares regression model (PLS)
引言

近年来, 实验室可见-近红外高光谱数据(VIS-NIR)被越来越多应用于土壤组分反演中。 作为传统昂贵的物理和化学性质测量方法的重要补充甚至替代方案, 该方法具有快速、 高效、 无损等技术优势。 当前, 利用实验室高光谱数据反演土壤组分的研究多集中在以下三个方面: (1)光谱预处理方法: 通过对原始光谱数据进行数学变换以消除噪声或突出待反演土壤组分的光谱特征[1], 常用有平滑、 去包络、 导数变换、 指数变换、 多元散射变换、 正态变换等[2, 3, 4]; (2)特征优选和波段选择: 通过对土壤组分光谱特征的分析或者在反演模型参数分析的基础上, 基于特定的优化策略优选特征波段组合, 从而减少高光谱数据冗余并简化模型[5, 6, 7]; (3)模型算法研究: 除传统线性回归模型, 一些非线性模型甚至深度学习模型也被引入到土壤组分反演的研究中, 以获取更高建模精度[8, 9]。 当然, 以上三个方面并非孤立存在, 大部分研究均是三者具有不同侧重点的组合。

而在已有的研究工作中, 针对不同光谱分辨率对土壤组分建模影响效应分析的研究相对较少。 土壤的可见-近红外高光谱数据本质上是电磁波在不同波长范围对土壤特征的反应(反射、 吸收)。 很显然, 光谱分辨率越高所能表达的土壤信息越丰富, 但另一方面也带来了数据冗余, 导致数据分析时产生较高的计算复杂度以及维数灾难现象[10]。 那么对于特定土壤组分信息而言, 究竟多高分辨率的光谱数据不会显著降低土壤组分建模精度? 土壤组分的诊断吸收特征究竟在什么样的光谱分辨率尺度下仍能有效识别? 现有的卫星传感器的分辨率设置对土壤组分的反演能力究竟如何?个别学者在该方面开展了试探性研究, 但限于选择的样本数量较少, 工作区范围局限, 研究结果代表性不足[11, 12]。 为探讨上述问题, 本研究基于覆盖欧洲23个国家, 多种土壤类型的标准化数据集19 036条土壤高光谱数据开展针对性研究。 选择应用最广泛的偏最小二乘回归方法(PLS)并选择30%的随机样本作为独立验证, 分析评价的标准基于独立验证的决定系数(R2)和相对分析误差(RPD)两个指标。 通过对原始高光谱数据的重采样分别开展不同光谱分辨率条件下土壤有机碳(OC)、 总氮(N)、 碳酸钙(CaCO3)、 粘土(Clay)含量建模影响的分析, 并基于光谱响应函数将光谱数据模拟到常见卫星传感器相应波段, 在光谱尺度对卫星影像的反演建模能力开展评价。

1 实验部分
1.1 土壤数据集

选用欧洲土壤中心公开的数据集(LUCAS, European Land Use/Cover Area Frame Statistical Survey), 该数据集包含土壤样本19 036个, 于2008年— 2012年间采集自23个欧盟国家, 包括耕地、 草地、 林地等用地类型, 土壤样本覆盖面广, 所有样本通过总体规划, 并对取样方式进行了一致性规范。 取样后对收集的土壤样品的理化特性进行测试, 并使用FOSSXDS近红外光谱分析仪测量土壤可见光近红外光谱, 测量前将土壤样本进行风干、 过筛预处理。 光谱仪测量范围为400~2 500 nm, 仪器测量分辨率为2 nm[13], 后重采样为0.5 nm, 因此原始数据集光谱中包含4 200维数据。 需要注意的是获取的数据为吸收系数, 依据Marco Nocita[14]介绍的方法将其转化为反射率数据。 土壤样本的理化特性分析由ISO认证的实验室完成。 LUCAS数据集的数据由欧盟委员会授权欧洲土壤数据中心(European Soil Data Centre)公开, 可以在https://esdac.jrc.ec.europa.eu/申请免费使用。

1.2 土壤光谱重采样

1.2.1 等间距平均光谱重采样

原始数据集光谱分辨率为0.5 nm, 包含4 200个光谱通道, 首先以2, 4, 8, 16, …, 1 024 nm对原始光谱重采样。 重采样后的光谱分辨率及光谱波段数见表1所示。 重采样后各光谱反射率值以采样间隔内原有光谱反射率均值替代。 以LUCAS数据集所有反射光谱平均光谱曲线为例, 重采样后的光谱曲线及色谱图如图1所示。

表1 重采样后光谱分辨率及波段数 Table 1 Spectral resolutions and band numbers after resampling

图1 光谱数据重采样色谱图
黑色曲线为对应采样间隔LUCAS数据集平均反射光谱重采样后曲线, 以色谱高度为0~1范围绘制
Fig.1 The chromatogram of spectral data after resampling
The black curve is the average reflection spectrum of the LUCAS dataset corresponding to the sampling interval after resampling, and the height range is 0~1

1.2.2 光谱响应函数重采样

为从光谱尺度考察分析卫星传感器对土壤组分的反演能力, 将LUCAS数据集19 036条土壤反射光谱基于光谱响应函数模拟到常见卫星传感器相应波段。 其中GF2 PMS1传感器波谱响应函数来自中国资源卫星应用中心http://www.cresda.com/, 其余传感器函数来自欧洲气象卫星中心网站https://www.nwpsaf.eu/。 选择了6种常用的卫星传感器, 这6种传感器在400~2 500 nm范围内波段数见表2, 对应光谱响应函数曲线见图2所示。

表2 六种卫星传感器在400~2 500 nm范围内波段 Table 2 Bands between 400~2 500 nm of the 6 satellite sensors

图2 常用6种卫星传感器光谱响应函数
红色曲线为LUCAS数据集平均光谱反射率曲线
(a): GF2; (b): S3A; (c): L8; (d): Aster; (e): Modis; (f): S3OLCI
图中横坐标为波长(nm), 纵坐标为反射率值
Fig.2 The spectral response function curves of six satellite sensors
The red curve is the average spectral reflectance of the LUCAS dataset
(a): GF2; (b): S3A; (c): L8; (d): Aster; (e): Modis; (f): S3OLCI
The X axis is the wavelength (nm) and the Y axis is the reflection value

1.3 模型选择及评价

目前, 应用高光谱数据反演土壤组分的模型种类较多, 包括多元线性回归模型、 偏最小二乘回归模型、 支持向量机、 随机森林等。 其中, 偏最小二乘回归模型(partial least squares regression, PLS)是应用最为广泛的一种模型。 该模型集典型相关分析、 多元线性回归分析和主成分分析基本功能于一体, 能够很好的解决自变量多重共线的问题, 为方便比较, 本研究统一采用PLS模型开展分析。 在建模过程中, 将所有的19 036个样本随机分成两部分: 70%样本(13 325个)用于建模, 30%样本(5 711个)用于验证。 建模过程中用内部交叉验证法(cross validation)建模, 以30%样本的独立验证结果作为模型评价标准, 选取决定系数(R2)和相对分析误差(RPD)两个指标来评价模型的稳定性和精度。 为获取更稳定的模型评价精度样本的随机划分进行10次, 最后以10次评价结果的平均值作为最终评价结果。 R2和RPD计算公式分别如式(1)和式(2)

R2=i=1n(y˙i-y̅)2i=1n(yi-y˙i)2(1)

RPD=SD1ni=1n(yi-y˙i)2(2)

其中, yi为第i个样本中组分含量的实测值; y˙i为第i个样本中组分含量的估测值; y̅为实测值的平均值; SD为样本实测值的标准差; R2反映了模型的稳定性, R2越接近于1, 说明模型的稳定性越好、 拟合程度越高。 当RPD< 1.4时, 说明模型无法对样品进行预测; 1.4≤ RPD< 2时, 则认为模型效果一般, 可以用来对样品进行粗略评估; RPD≥ 2时, 模型具有极好的预测能力[15]

2 结果与讨论
2.1 不同光谱分辨率对土壤组分建模影响分析

不同光谱分辨率下, 土壤总氮(N)、 有机碳(OC)、 碳酸钙(CaCO3)、 粘土(Clay)4类土壤组分含量的模型验证精度如表3所示, 其中决定系数随着光谱分辨率降低的变化趋势如图3。 可以看出, 随着光谱分辨率的降低, 土壤各类组分反演精度均呈下降趋势, 光谱分辨率优于64 nm, 4类土壤组分普遍具有较高模型验证精度, 光谱分辨率在128 nm以下CaCO3和Clay组分精度显著变差(R2< 0.7, RPD< 1.4)。 其中, CaCO3在光谱分辨率优于32 nm情况下, 具有比其他组分更高的模型验证精度(R2> 0.86, RPD> 2.72), 但在32 nm以后模型精度降低速度最快, 表明CaCO3对光谱分辨率敏感性较强, 在低光谱分辨率条件下极易丢失特征而不利于光谱识别。

表3 不同光谱分辨率下4类土壤组分含量的模型验证精度表 Table 3 Model validation accuracy for the 4 types of soil components at different spectral resolutions

图3 不同光谱分辨率土壤组分模型精度R2趋势图Fig.3 R2 tendency of soil component model accuracy at different spectral resolutions

2.2 不同卫星传感器土壤组分反演能力分析

基于不同传感器光谱响应函数拟合的光谱数据对土壤总氮(N)、 有机碳(OC)、 碳酸钙(CaCO3)、 粘土(Clay)4类土壤组分含量的模型验证精度如表4所示, 其中决定系数R2柱状图如图4所示。 可以看出, 土壤N、 OC在各传感器中均可获得较高的精度, 甚至在GF2 传感器仅有4个波段情况下, 也具有不错的验证精度(R2=0.56; RPD=1.51), 表明土壤N与OC主要与土壤整体光谱反射率大小走势相关, 局部光谱特征影响相对较小。 而土壤CaCO3及Clay由于各传感器波段数较少反演精度普遍较差(R2< 0.5; RPD< 1.4)。

表4 不同传感器4类土壤组分含量的模型验证精度表 Table 4 Model validation accuracy for the 4 types of soil components with different sensors

图4 不同传感器土壤组分模型验证精度R2柱状图Fig.4 R2 histogram of soil components model verification accuracy with different sensors

总体而言, 传感器波段数越多, 土壤组分反演能力越强, 但是传感器波段位置的影响也很显著, 拥有近红外长波

(1 100~2 500 nm)波段范围的传感器对土壤组分的反演能力优于缺少该波段的传感器。 比如Aster传感器尽管总体波段数较少, 但是其土壤组分反演能力整体并不比S3OLCI传感器差, 其中OC及Clay模型验证精度甚至优于后者, 这主要是由于Aster传感器虽然只有9个波段, 但在1 100~2 500 nm之间分布了6个波段, 而S3OLCI传感器21个波段均集中在1 100 nm以下, 土壤组分的反演能力相对受限。 特别是粘土矿物的吸收峰多位于近红外长波段, S3A, L8, Aster和Modis传感器的Clay反演能力均优于波段数更多的S3OLCI。

3 结论

基于目前公开的全球最大的土壤光谱数据集LUCAS, 以土壤总氮(N)、 有机碳(OC)、 碳酸钙(CaCO3)、 粘土(Clay)4类土壤组分的光谱反演为例, 从等间距均值重采样及卫星传感器光谱响应函数重采样两种方式出发探讨了不同光谱分辨率对土壤组分建模的影响。 结果表明随着光谱分辨率的降低, 土壤各类组分反演精度均呈下降趋势, 光谱分辨率在64 nm以上, 4类土壤组分普遍具有较高模型验证精度, 其中CaCO3对特征波段敏感性较强, 在高光谱分辨率条件下具有较高的反演精度, 但在低光谱分辨率条件下极易丢失特征而不利于光谱识别; 通过分析GF2, S3A, L8, Aster, Modis和S3OLCI六种常见卫星传感器在光谱尺度的反演能力可以看出, 土壤N和OC在各传感器中均可获得较高的精度, 而土壤CaCO3及Clay反演精度普遍较差。 除传感器波段数量外, 波段位置对土壤组分的反演能力的影响也很显著, 拥有近红外长波(1 100~2 500 nm)波段范围的传感器对土壤组分的反演能力优于缺少该波段的传感器。 需要指出的是, 对于不同卫星传感器土壤组分反演能力的分析仅从光谱尺度考虑, 在实际应用中还需考虑空间尺度的混合像元效应的影响。 不管怎样, 本研究对土壤组分遥感反演数据源的选择、 光谱数据的预处理及未来传感器的设计仍然具有指导意义。

参考文献
[1] Rinnan Å, Berg F V D, Engelsen S B. Trends in Analytical Chemistry, 2009, 28(10): 1201. [本文引用:1]
[2] Vašát R, Kodešová R, Klement A, et al. Geoderma, 2017, 298: 46. [本文引用:1]
[3] WANG Wen-jun, LI Zhi-wei, WANG Can, et al(王文俊, 李志伟, 王璨, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(5): 1579. [本文引用:1]
[4] Li Y, Altaner C M. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 213: 111. [本文引用:1]
[5] Shi L, Westerhuis J A, Rosen J, et al. Bioinformatics, 2019, 35(6): 972. [本文引用:1]
[6] Jia S, Li H, Wang Y, et al. Geoderma, 2016, 268: 92. [本文引用:1]
[7] Cécillon L, Cassagne N, Czarnes S, et al. Soil Biology and Biochemistry, 2008, 40(7): 1975. [本文引用:1]
[8] González Costa J J, Reigosa M J, Matías J M, et al. Science of The Total Environment, 2017, 593-594: 508. [本文引用:1]
[9] Tsakiridis Nikolaos L, Chadoulos Christos G, Theocharis John B, et al. Neurocomputing, 2020, 389: 27. [本文引用:1]
[10] ZHAO Liang, WANG Li-guo, LIU Dan-feng(赵亮, 王立国, 刘丹凤). Journal of Remote Sensing(遥感学报), 2019, 23(5): 904. [本文引用:1]
[11] XIAO Wen-ping, Cheng-wen, QIAO Tian, et al(肖文凭, 吕成文, 乔天, ). Chinese Journal of Soil Science(土壤通报), 2018, 49(6): 1279. [本文引用:1]
[12] Adeline K R M, Gomez C, Gorretta N, et al. Geoderma, 2017, 288: 143. [本文引用:1]
[13] Orgiazzi A, Ballabio C, Panagos P, et al. European Journal of Soil Science, 2018, 69: 140. [本文引用:1]
[14] Nocita M, Stevens A, Toth G, et al. Soil Biology and Biochemistry, 2014, 68: 337. [本文引用:1]
[15] Saeys W, Mouazen A M, Ramon H. Biosystems Engineering, 2005, 91(4): 393. [本文引用:1]