高光谱小波能量特征估测土壤有机质含量
章涛1,2,3, 于雷1,2,3,*, 易军1,2,3, 聂艳1,2,3, 周勇1,2,3
1. 华中师范大学地理过程分析与模拟湖北省重点实验室, 湖北 武汉 430079
2. 华中师范大学城市与环境科学学院, 湖北 武汉 430079
3. 华中师范大学可持续发展研究中心, 湖北 武汉 430079
*通讯联系人 e-mail: yulei@mail.ccnu.edu.cn

作者简介: 章 涛, 1994年生, 华中师范大学城市与环境科学学院硕士研究生 e-mail: zhangt@mails.ccnu.edu.cn

摘要

土壤高光谱在采集过程中难以避免噪声干扰, 造成高光谱数据信噪比较低, 影响土壤有机质含量估测精度。 尝试探究小波能量特征方法, 降低高光谱噪声, 提升土壤有机质含量高光谱估测模型性能。 选取湖北省潜江市运粮湖管理区为试验区, 于2016年9月采集80份深度为0~20 cm的水稻土样本; 土壤样本经风干、 碾磨、 过筛等一系列处理后, 在实验室内采集样本光谱, 并通过重铬酸钾-外加热法测定土壤有机质含量; 利用浓度梯度法, 将总体样本集(80个样本)划分为建模集(54个样本)和验证集(26个样本); 以mexh为小波基函数进行连续小波变换(continuous wavelet transformation), 将土壤高光谱转换为10个分解尺度的小波系数(wavelet coefficients); 逐尺度计算小波系数的均方根作为小波能量特征(energy features), 将10个尺度的小波能量特征组成小波能量特征向量(energy features vector); 逐尺度逐波长计算小波系数与有机质含量的相关系数, 将达到极显著水平( p<0.01)的小波系数作为敏感小波系数(sensitive wavelet coefficients); 利用主成分分析法(principal component analysis)分别计算土壤高光谱和小波能量特征向量的各主成分载荷, 通过比较两者第一主成分贡献率的高低和两者前三个主成分得分的空间离散程度, 判断小波能量特征转换前后建模自变量的主成分信息变化趋势; 基于小波能量特征向量和敏感小波系数分别建立多元线性回归和偏最小二乘回归土壤有机质含量估测模型。 结果表明, 土壤有机质含量越高, 全波段反射率越低, 但不同土样的光谱反射率曲线特征相似, 近红外部分的反射率(780~2 400 nm)高于可见光部分(400~780 nm); 敏感小波系数对应的波长为494, 508, 672, 752, 1 838和2 302 nm; 土壤高光谱与小波能量特征向量的第一主成分贡献率分别为96.28%和99.13%, 小波能量特征向量的前三个主成分散点较土壤高光谱的主成分散点在空间上更为聚集, 表明小波能量特征方法有效减少了噪声影响; 比较全部土壤有机质含量估测模型, 以小波能量特征向量为自变量的多元线性回归模型具有最佳估测精度, 其验证集决定系数( R2)、 相对估测误差(RPD)和均方根误差(RMSE)分别为0.77, 1.82和0.82。 因此, 小波能量特征方法既能够提高数据的信噪比, 提升土壤有机质含量的估测精度, 又实现了土壤高光谱数据降维, 降低了模型复杂度, 可用于土壤有机质含量快速测定和土壤肥力动态监测等研究。

关键词: 土壤高光谱; 小波系数; 小波能量特征; 土壤有机质; 水稻土
中图分类号:S127 文献标志码:A
Determination of Soil Organic Matter Content Based on Hyperspectral Wavelet Energy Features
ZHANG Tao1,2,3, YU Lei1,2,3,*, YI Jun1,2,3, NIE Yan1,2,3, ZHOU Yong1,2,3
1. Hubei Provincial Key Laboratory for the Analysis and Simulation of Geographical Process, Central China Normal University, Wuhan 430079, China
2. College of Urban and Environmental Science, Central China Normal University, Wuhan 430079, China
3. Research Institute for Sustainable Development of Central China Normal University, Wuhan 430079, China
*Corresponding author
Abstract

There is no silver-bullet solution of eliminating noise during the acquisition process of soil hyperspectral. As the noise interference, the observations of soil spectra are in low signal-to-noise ratio, which affects the estimation accuracy of soil organic matter content. This paper attempts to adopt the wavelet energy features method to reduce the noise in soil hyperspectral and improve the estimation accuracy of soil organic matter content. The Yunlianghu Farm of Qianjiang City, Hubei Province, located in the hinterland of Jianghan Plain, was selected as the experimental area, and 80 samples of paddy soil with a depth of 0~20 cm were collectedin September 2016. After pretreatment (air drying, milling, sieving), soil sample spectral reflectance and determine soil organic matter contentwere collected in the laboratory. The concentration gradient method was employed to divide the whole sample set (80 samples) into a calibration set (54 samples) and a validation set (26 samples). Continuous wavelet transformation was performed using mexh as a wavelet basis function, transforming the soil hyperspectral into sensitive wavelet coefficients of 10 decomposition scales. Then the root mean square of the wavelet coefficients was calculated scale by scaleto define wavelet energy features, and the wavelet energy features vector was determined by the wavelet energy features. The correlation coefficients between the wavelet coefficients and the organic matter content were calculated scale by scale and wavelength by wavelength, and the wavelet coefficient which reaches the extremely significant level ( p<0.01) was defined as the sensitive wavelet coefficients. Principal component analysis was conducted to calculate the principal component loads of soil hyperspectral and wavelet energy features vector, respectively. The trend of principal component information of modeled independent variables before and after wavelet energy features transformation would be judged from the difference between the first principal component contribution rate and the spatial dispersion of the first three principal component scores degree. Moreover, regression models were established based on wavelet energy features vector and sensitive wavelet coefficients, respectively, to estimate soil organic matter content. The results showed that with the increase of soil organic matter content, the full-band reflectance decreased, but the spectral reflectance curves of different soil samples were similar, and the reflectance in the near-infrared bands (780~2 400 nm) was higher than that in the visible bands (400~780 nm). The sensitive wavelet coefficients corresponded to wavelengths of 494, 508, 672, 752, 1 838, and 2 302 nm. The first principal component contribution rates of soil hyperspectral and wavelet energy features vector were 96.28% and 99.13%, respectively. The first three principal component scatter points of wavelet energy features vector were more spatially aggregated than those of soil hyperspectral, which demonstrated that the wavelet energy features method effectively reduces the influence of noise. Comparing the estimation models of soil organic matter content, the multivariate linear regression model adopting wavelet energy features vector as the independent variable had the highest estimation accuracy, whose determination coefficients ( R2), relative estimate deviation (RPD), and the root mean squared error (RMSE) of validation set were 0.77, 1.82, and 0.82, respectively. Therefore, the wavelet energy features method which is proved to raise the signal-to-noise ratio of the data without adding to the complexity, could improve the estimation accuracy of soil organic matter and realize the dimensional reduction of soil hyperspectral data. This method can be applied to studies like on-the-go soil properties measurement and soil quality monitoring.

Keyword: Soil hyperspectral; Wavelet coefficients; Wavelet energy features; Soil organic matter; Paddy soil
引 言

土壤有机质是评价土壤质量的关键因素, 在调控农田肥力和作物生长方面发挥着重要作用[1]。 采用农化分析方法测定土壤有机质含量步骤繁琐、 耗时耗力, 不利于土壤有机质的实时高效测定[2]。 土壤高光谱包含了丰富的土壤信息, 近年来, 被广泛应用于估测土壤理化性质(如土壤有机质、 土壤水分及土壤全氮等), 取得了卓有成效的研究成果[3, 4]。 然而, 高光谱采集易受测试环境、 样品质量和仪器本身等因素影响, 无法避免会产生噪声, 因此, 探索降噪方法对提升土壤有机质含量估测精度具有重要意义。

学者们尝试采用连续统去除, 一阶微分, 高通滤波等预处理方法, 消除样品背景及杂散光等因素所引起的噪声和增强特征信号, 但难以有效去除白噪声, 特别是随机和低频信号[5, 6]。 于雷等[7]、 廖钦洪等[8]基于连续小波变换法将土壤高光谱分解成多尺度小波系数, 采用相关性分析法筛选与有机质含量具有极显著相关性的敏感小波系数(sensitive wavelet coefficients, SWC)建立估测模型; 蔡亮红等[9]采用小波变换对土壤光谱进行分解, 通过竞争适应重加权采样法(competitive adaptive reweighted sampling, CARS)算法筛选SWC, 建立土壤水分高光谱估测模型, 这些研究表明小波变换方法能够克服白噪声影响, 将土壤高光谱分解为不同尺度的小波系数, 以更准确地局部描述和分离信号特征[10, 11, 12]。 但是, 通过提取SWC估测土壤属性, 难以充分利用不同尺度小波系数包含的有效光谱信息[13]。 Pu等[14]通过逐尺度提取全波段小波系数的能量特征(energy features, EF)组成小波能量特征向量(energy features vector, EFV)估测森林叶面积指数; 宋开山等[15]基于小波分析提取大豆叶片光谱的EFV, 建立叶绿素a含量高光谱估测模型, 结果表明基于EFV的回归模型可提高估测水平, 这对构建土壤有机质高光谱估测模型具有重要的参考价值。

本工作采用小波变换方法将土壤高光谱分解为10个尺度的小波系数, 利用均方根法计算各尺度的EF, 构建EFV并建立基于EFV的土壤有机质含量估测模型。 目的是探索土壤高光谱噪声去除和信息提取方法, 以提高土壤有机质高光谱估测性能。

1 实验部分
1.1 土样的采集

试验区位于湖北省潜江市运粮湖管理区[图1(a)], 该区地势平坦, 水源充足, 第一产业较为发达, 是重要的粮油生产基地。 试验区面积约为375 m× 300 m(11.25 ha)的连片田块, 土壤类型为水稻土, 是潜江市主要土类之一(占全市面积的55.22%); 常年采用中稻-油菜轮作的耕作制度。

2016年9月在试验区内均匀布设80个样点, 由北向南共5行(每行相距75 m)、 由西向东共16列(每列相距25 m) [图1(b)]; 土样采集深度为0~20 cm, 用密封袋带回实验室经一系列预处理操作后用于后续分析。

图1 研究区(a)及采样方案(b)Fig.1 The study area (a) and sketch of sampling points (b)

1.2 土壤样本集的划分

将80个土样作为总体样本集, 根据土壤有机质含量从小到大排序, 采用浓度梯度法依次每隔两个样本取一个作为验证集, 共计26个样本, 其余54个样本作为建模集(表1)。

表1 样本统计特征 Table 1 Descriptive statistics of sample sets
1.3 土样光谱数据的测定

采用ASD FieldSpec3光谱仪测定土样光谱, 详细仪器参数、 采集过程、 参数设置及预处理可参见文献[16]。 由于两端波长处的信噪比较低, 因此只保留400~2 400 nm。

1.4 小波变换和能量特征向量的计算

采用连续小波变换(CWT)对土壤高光谱数据进行转换, 通过小波分解后, 得到各尺度的小波系数[17]

Wf(a, b)f; Ψa, b-+f(λ)Ψa, b(λ)dλ(1)

Ψa, b=1aΨλ-ba(2)

其中, λ 为高光谱波段数, a为尺度参数, b为位移参数, f(λ )是光谱反射率, Ψ a, b为基函数, Wf(a, b)为小波系数。 Wf(a, b)包括ij两个维度表示为Wf(ai, bj), i为分解尺度, j为波段。

计算第i个分解尺度的小波系数的均方根, 作为该尺度的EFi[式(3)]。

EFi=1jj=1jWf(ai, bj)2(3)

构建EFV[式(4)]。

EFV=[EF1, EF2, , EFi](4)

1.5 敏感小波系数的确定

为对比EFV与SWC模型估测效果, 采用相关性分析法筛选每一分解尺度与有机质含量相关性极显著(p< 0.01)的小波系数作为SWC[式(5)]。 其中, R2为决定系数, Xsw为样本s在波长为w所对应的小波系数, Ys为样本s的土壤有机质含量, X̅w为波长为w的小波系数平均值, Y̅为土壤有机质含量的平均值。

R2=s=1n(Xsw-X̅w)(Ys-Y̅)s=1n(Xsw-X̅)2s=1n(Ys-Y̅)22(5)

1.6 模型构建与检验

偏最小二乘回归(PLSR)是最常用的高光谱估测模型之一, 其考虑了因变量的作用, 在处理高维数据、 解决多重共线性时性能优越[18]。 多元线性回归(MLR)是一种较为简单的线性回归方法, 适用于样本数大于自变量数[19]。 分别以土壤高光谱(记为: Origin)、 SWC和EFV为自变量, 有机质含量为因变量建立PLSR和MLR模型, 依次表示为Origin-PLSR, SWC-PLSR, EFV-PLSR, SWC-MLR, EFV-MLR。 通过R2, RMSE和RPD来检验估测模型精度[20]

2 结果与讨论
2.1 土壤光谱特征分析

不同土壤有机质含量的光谱反射率曲线(图2)基本特征相似, 可见光部分反射率低于近红外部分; 土样全波段反射率与有机质含量成反比。 在可见光部分的土壤反射率曲线与近红外部分差异较大; 在1 400, 1 900和2 200 nm处, 出现具有不同吸收深度和宽度的吸收谷。

图2 土壤高光谱反射率Fig.2 Spectral reflectance curves of soil

2.2 敏感小波系数分析

以mexh为小波基函数, 计算土壤高光谱在10个尺度上(21-10)的小波系数, 分析小波系数与有机质含量的相关性, 得到R2分布状况(图3)。 当p< 0.01, 则R2> 0.12, 由于波长众多, 难以提取敏感波长, 以图中红色部分(R2> 0.3)作为相关性极强的区域。 不同分解尺度和波段下的R2存在明显差异, 说明经过小波变换, 与土壤有机质相关的细节特征信息被逐层释放, 每一层小波系数信息代表性各异。 其中, 红色区域主要分布在490~500, 500~510, 670~680, 740~760, 1 830~1 840和2 300~2 310 nm, 分别对应尺度5, 4, 3, 3, 7和4, 对应最大值波长位置为494, 508, 672, 752, 1 838和2 302 nm, 将上述波长对应的小波系数确定为SWC。

图3 不同尺度R2分布Fig.3 R2 distribution at different decomposition scales

2.3 小波能量特征向量分析

根据EF计算公式, 每个尺度提取一个EF, 最终每个样本形成10维EFV。 主成分分析法(PCA)可有效降低数据维度, 以少数几个主成分变量反映原始信息。 在本工作中, PCA用于分析土壤高光谱和EFV的第一主成分贡献率及前三个主成分得分的空间离散程度, 判断EF转换前后变量的主成分信息变化趋势。 EFV的第一主成分贡献率为99.13%, 比原始光谱的第一主成分贡献率高出3%[图4(a)], 接近于100%, 表明EFV第一主成分所包含的信息量较土壤高光谱有所增加, 且具有极强的信息代表性。 前三个主成分得分所建立的三维散点图[图4(b)]更为形象地表明EFV的降维效果, 原始光谱各样本主成分得分散点分布广泛, 样本间差异显著, 主成分所含信息分散; EFV各主成分得分散点十分聚集, 表明噪声消除后样本间差异降低。 通过PCA分析, EFV在降低光谱数据维度、 消减光谱噪声的同时提高了样本变量信息贡献率。

图4 土壤高光谱、 能量特征向量前三个主成分贡献率(a)及得分散点(b)Fig.4 The first three principal component contribution rate (a) and the score scatter point (b) of soil original spectral and the root mean square energy feartures vector

2.4 估测模型比较

表2可以看出, 同一自变量集的MLR模型估测效果要优于PLSR模型, 表明当变量数小于样本数时(在此SWC和EFV自变量数分别为6和10个), MLR模型具有更好的适用性, 可更为准确地表达土壤有机质同高光谱间的关系, 简化模型结构。 由此表明, 在选取估测模型时, 应充分考虑变量及样本特征。

基于不同自变量集的最优模型分别为Origin-PLSR, SWC-MLR, EFV-MLR模型, 对应R2依次为0.70, 0.73和0.77, 表明SWC-MLR, EFV-MLR模型估测效果要优于Origin-PLSR模型。 在所有估测模型中EFV-MLR模型表现最优, RPD达到1.82, 可较为准确地估测土壤有机质含量。 利用小波分析可以降低噪声干扰, 放大土壤有机质敏感信息。

通过提取SWC和EFV均可降低数据维度, 减少模型复杂度, 提升模型估测性能。 基于EFV的模型要优于SWC模型, 表明EF在小波系数的基础上, 在每个尺度上计算小波分解系数的能量, 形成特征向量, 相比于代表部分敏感信息的SWC, EFV更为综合地表征了光谱信息。 同时, EF无需事先获取待测属性且数据压缩维度可控, 相比于基于相关性分析提取SWC, 该方法更具推广性和可重复性, 可尝试用于多领域高光谱数据提取。

表2 不同估测模型的效果比较 Table 2 Comparison of different estimation model results
3 结 论

基于小波变换方法提取EF, 有效减少了土壤光谱噪声影响, 提升了土壤有机质高光谱估测精度。 研究结果表明, 小波变换可放大光谱细节特征, 降低噪声干扰, SWC可代表部分与土壤有机质相关性较强的光谱信息; EF充分利用了各尺度小波系数包含的光谱信息, 提高了光谱数据信噪比, 具有极佳的信息代表性; 在所有模型中, EFV-MLR模型表现最优, 可有效降低数据维度与模型复杂度, 对于快速估测田间土壤属性, 推动农业精准化管理具有一定的参考价值。 但EF代表的是不同尺度小波系数整体信息, 如何更加准确地结合不同尺度的局部特征, 值得深入研究。

参考文献
[1] Dotto A C, Dalmolin R S D, Caten A T, et al. Geoderma, 2018, 314: 262. [本文引用:1]
[2] ZHOU Qian-qian, DING Jian-li(周倩倩, 丁建丽). Acta Pedologica Sinica(土壤学报), 2018, 55(2): 313. [本文引用:1]
[3] Rossel R A V, Behrens T, Ben-Dor E, et al. Earth-Science Reviews, 2016, 155: 198. [本文引用:1]
[4] Nouri M, Gomez C, Roger J M, et al. Geoderma, 2017, 298: 54. [本文引用:1]
[5] ZHANG Rui, LI Zhao-fu, PAN Jian-jun(张锐, 李兆富, 潘剑君). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33(1): 175. [本文引用:1]
[6] CHEN Hong-yan, ZHAO Geng-xing, LI Xi-can, et al(陈红艳, 赵庚星, 李希灿, ). Scientia Agricultura Sinica(中国农业科学), 2012, 45(7): 1425. [本文引用:1]
[7] YU Lei, HONG Yong-sheng, ZHOU Yong, et al(于雷, 洪永胜, 周勇, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(5): 1428. [本文引用:1]
[8] LIAO Qin-hong, GU Xiao-he, LI Cun-jun, et al(廖钦洪, 顾晓鹤, 李存军, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2012, 28(23): 132. [本文引用:1]
[9] CAI Liang-hong, DING Jian-li(蔡亮红, 丁建丽). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33(16): 144. [本文引用:1]
[10] Wang H F, Huo Z G, Zhou G S, et al. Plant Physiology & Biochemistry, 2016, 98: 39. [本文引用:1]
[11] CHEN Hong-yan, ZHAO Geng-xing, LI Xi-can, et al(陈红艳, 赵庚星, 李希灿, ). Chinese Journal of Applied Ecology(应用生态学报), 2011, 22(11): 2935. [本文引用:1]
[12] Lark R M. Geoderma, 2016, 266: 84. [本文引用:1]
[13] Yun Y H, Wang W T, Tan M L, et al. Analytica Chimica Acta, 2014, 807(1): 36. [本文引用:1]
[14] Pu R, Gong P. Remote Sensing of Environment, 2004, 91(2): 212. [本文引用:1]
[15] SONG Kai-shan, ZHANG Bai, WANG Zong-ming, et al(宋开山, 张柏, 王宗明, ). Chinese Journal of Plant Ecology(植物生态学报), 2008, 32(1): 152. [本文引用:1]
[16] ZHU Ya-xing, YU Lei, HONG Yong-sheng, et al(朱亚星, 于雷, 洪永胜, ). Scientia Agricultura Sinica(中国农业科学), 2017, 50(22): 4325. [本文引用:1]
[17] Bruce L M, Li J. Geoscience & Remote Sensing IEEE Transactions on, 2001, 39(7): 1540. [本文引用:1]
[18] Yu X, Liu Q, Wang Y B, et al. Catena, 2016, 137: 340. [本文引用:1]
[19] LI Pei-zhe(李培哲). Statistics and Decision(统计与决策), 2012, (24): 89. [本文引用:1]
[20] Xu S X, Shi X Z, Wang M Y, et al. Geoderma, 2016, 267: 174. [本文引用:1]