基于RF-GABPSO混合选择算法的黑土有机质含量估测研究
马玥1, 姜琦刚1,*, 孟治国1,2, 刘骅欣1
1. 吉林大学地球探测科学与技术学院, 吉林 长春 130026
2. 中国科学院行星科学重点实验室, 上海 200030
*通讯联系人 e-mail: jiangcg417@163.com

作者简介: 马 玥, 1990年生, 吉林大学地球探测科学与技术学院博士研究生 e-mail: yuema15@mails.jlu.edu.cn

摘要

针对土壤有机质含量高光谱估测研究中变量维数过高与特征谱段筛选问题, 提出了一种结合随机森林和自适应搜索算法的混合特征选择方法。 首先依据随机森林变量重要性原理获取初始优化集, 然后利用遗传二进制粒子群封装算法对初始优化集进一步自适应筛选。 对于土壤有机质含量估测建模问题, 选择稳健性强且能有效处理高维变量的随机森林算法。 以典型黑土区采集的土壤样品为研究对象, 将ASD光谱仪获取的可见光-近红外区间光谱数据和经化学分析得到的土壤有机质含量为数据源, 对原始光谱进行光谱变换和重采样处理后, 采用随机森林-遗传二进制粒子群混合选择方法提取特征光谱区间, 构建有机质含量随机森林估测模型。 与利用全光谱、 随机森林方法筛选的光谱和自适应搜索算法筛选的光谱构建随机森林模型得到的预测精度进行比较。 结果表明, 利用随机森林-遗传二进制粒子群混合特征选择算法筛选的波谱变量参与随机森林建模, 预测决定系数, 均方根误差和相对分析误差分别为0.838, 0.54%, 2.534。 该方案应用最少的变量个数获得最高的预测精度, 能够较高效地估测黑土有机质含量, 也能为其他类型土壤在有机质含量估测研究的变量筛选与建模问题上提供参考。

关键词: 高光谱; 黑土有机质含量; 遗传算法; 二进制粒子群算法; 随机森林
中图分类号:TP79 文献标志码:A
Black Soil Organic Matter Content Estimation Using Hybrid Selection Method Based on RF and GABPSO
MA Yue1, JIANG Qi-gang1,*, MENG Zhi-guo1,2, LIU Hua-xin1
1. College of Geo-Exploration Science and Technology, Jilin University, Changchun 130026, China
2. Key Laboratory of Planetary Sciences, Chinese Academy of Sciences, Shanghai 200030, China
*Corresponding author
Abstract

To solve the problem of high-dimensional variables and characteristic wavelengths selection on soil organic matter content estimation using hyperspectral data, a hybrid feature selection method that combined random forest and self-adaptive searching method was proposed. In this hybrid method, random forest was employed to select spectral variables as the preliminary optimal dataset, which had great importance in the modeling process. The wrapper approach which combined genetic algorithm and binary particle swarm optimization was used as the self-adaptive searching algorithm to further search variables in the preliminary dataset. As for the prediction model, random forest was picked on because of the strong robustness and the excellent performance of dealing with high-dimensional variables. In this paper, the soil samples collected in the typical black soil region were used as the research object, and the Vis-NIR spectral data of the soil obtained from ASD spectrometer and the organic matter content through chemical analysis were used as the data sources. Following reflectance transformation and spectral resampling, the proposed hybrid selection method was employed to extract the characteristic spectral regions that were used as the input data for random forest. The prediction accuracy was compared with the results from random forest algorithm with the spectral datasets which were respectively extracted by no-selected method, only random forest method and only self-adaptive searching method. The results showed that using random forest model with the characteristic wavelengths extracted by proposed method obtained the highest predicted accuracy, in which the R2, RMSE and the RPD were 0.838, 0.54% and 2.534, respectively. Moreover, the proposed method was more efficient to selected features than other approaches. It can be concluded that the hybrid feature selection method and random forest algorithm can be effectively applied to black soil organic matter content estimation using hyperspectral data and it also provides a reference for solving the problem of variables selection and modeling on other types of soil organic matter content estimation.

Keyword: Hyperspectral; Black soil organic matter content; Genetic algorithm; Binary particle swarm optimization; Random forest
引 言

黑土是宝贵的土地资源, 有机质含量的多少是反映土壤肥力、 状态和退化程度的重要指标[1]。 基于土壤有机质在可见光-近红外区域独特的光谱响应特征, 建立有机质含量与光谱变量的定量关系, 对于实现土壤有机质快速测定具有重要意义[2]。 对于土壤有机质含量的高光谱估测研究, 国内外学者在波段选择方法与模型建立方面都取得了一定成果。 波长选择方法从基于统计理论的相关性分析, 多元逐步回归法到目前被广泛应用的自适应搜索算法, 如遗传算法[3, 4, 5]。 在建模方面, 从单一的多元线性模型逐渐发展为多元化的非线性模型[6, 7, 8]。 随机森林(random forest, RF)算法以其高效处理高维数据的能力和稳健的模型性能被广泛关注, 自适应搜索算法的全局优化能力和灵活性在特征提取方面具有较强优势, 目前将两者结合应用的研究较少。 本文提出一种结合随机森林和自适应搜索算法的混合特征选择方法, 其中自适应搜索算法采用遗传二进制粒子群封装算法(genetic algorithm binary particle swarm optimization, GABPSO)。 基于土壤可见光-近红外的高光谱数据, 采用RF-GABPSO混合算法筛选特征光谱变量, 利用优化数据集构建有机质含量RF模型, 通过对比多种建模方案, 考察所提方法的有效性, 为黑土有机质含量的高光谱估测提供适宜高效的方法。

1 实验部分
1.1 土壤样品采集与化验分析

为定期监测东北黑土区的土壤状况, 于2014年5月在黑龙江省松辽平原北部的黑土带内采集65组土壤样品, 野外采样点分布情况如图1。 土样中以粘粒、 粉粒为主, 掺有少量细砂、 中沙, 质地粘重。 采集时, 取0~15 cm深度处的土壤, 以每个采样点位置为中心, 在其周围5 m× 5 m范围内采集5份充分混合, 同时用GPS记录采样点位置的地理坐标。 将采好的土样带回实验室, 剔除秸秆、 砂砾等杂物, 放在干燥处自然风干。 将风干后的土壤样本研磨过筛, 使粒径小于0.25 mm, 去除微小杂物后, 分成两份, 分别用于土壤理化成分测定及室内光谱测量。 土壤有机质的测定采用重铬酸钾加热法。 建模样本和验证样本有机质含量描述性统计特征见表1

图1 研究区Fig.1 Study area

表1 土壤样本有机质含量描述性统计 Table 1 Descriptive statistics of soil organic matter content/%
1.2 土壤光谱数据测量与预处理

利用ASD FieldSpec3 Hi-Res光谱仪获取350~2 500 nm的土壤光谱反射率数据。 光谱测量在暗室进行, 将土样压平放在黑色纸板上, 光纤探头垂直位于土壤样本正上方2 cm处, 确保测量面积在土壤样本平铺面积范围内, 测量过程中及时进行白板校正。 光谱仪每0.1 s扫描一次, 每个土壤样本采集5条光谱曲线, 算数平均后得到该土样的反射光谱数据。 在建模分析前, 对原始光谱进行断点校正, 去除边缘噪音波段, 只利用400~2 450 nm的波谱数据作为模型分析的基础数据。 为进一步降低光谱测量带来的误差, 深入提取土壤光谱信息, 并对原始光谱反射率进行了不同形式的变换: 一阶微分R', 倒数的对数lg(1/R), 倒数的对数的一阶微分(lg(1/R))'。

1.3 模型概述

遗传算法(genetic algorithm, GA)随机产生一定数量的初始个体构成原始种群, 通过选择、 交叉、 变异形成新种群, 利用适应度函数对个体评估, 将适应度高的个体遗传到下一代, 直到满足终止条件, 输出最优解[9]。 在优化过程中, 本文利用交叉率(pc)和变异率(pm)决定是否进化。

二进制粒子群算法(binary particle swarm optimization, BPSO)在d维搜索空间初始化一群粒子, 用位置、 速度和由适应度函数得到的适应度值表示该粒子特征, 通过跟踪个体极值和全局极值更新粒子位置和速度。 BPSO对每个粒子位置进行二进制编码, 用Sigmoid函数将速度转换到[0, 1]区间, 粒子速度代表每个位置为0或1的概率[10]。 位置和速度更新公式如下:

Vidk+1=ωVidk+1+c1r1(Pidk-Xidk)+c2r2(Pgdk-Xidk)(1)Xidk+1=1, ρidk+1< sigmoid(vidk+1)0, ρidk+1sigmoid(vidk+1)(2)

式中 Vidk+1Xidk+1分别为粒子ik+1次迭代时在d维搜索空间中的速度和位置; PidkPgdk分别为粒子i至第k次迭代为止时在d维搜索空间中的个体极值和全局极值所在位置; ω 为惯性权重; c1c2为加速度因子; r1r2为分布于[0, 1]之间的随机数。

随机森林算法(random forest, RF)采用bootstrap抽样技术从原始数据集中抽取N个训练集, 为每个训练集建立CART树, 构成森林。 每次抽样约有1/3的样本未被选中, 称这部分数据为“ 袋外数据” , 利用它们进行内部误差估计, 产生OOB误差[11]。 RF随机改变某个特征变量的值, 并重新计算OOB误差, 变量的变化引起的误差增加越大, 精度减少越多, 则该变量越重要[12]。 本文构建CART个数(ntree)为2000, 分割节点数(mtry)为输入变量个数的均方根值。

1.4 光谱变量选择方法

本文采用混合特征选择法对高光谱变量进行筛选。 第一步, 依据RF特征变量重要性原理对所有光谱变量按重要程度由高到低排序, 将排好序的变量依次加入RF模型, 选择交叉验证精度趋于稳定时的变量组合为初始优化集。 第二步, 将GA和BPSO算法封装, 即在BPSO算法中嵌入GA算法的选择、 交叉和变异算子, 使自适应模型加快搜索速度, 提高全局寻优能力。 利用GABPSO封装算法对初始优化集进一步筛选, 得到最终优化结果。 在寻优过程中, 将RF模型预测值的变异与实测值的总变异的比值作为封装算法的适应度函数, 如式(3)

F=i=1n(y'i-y̅)2i=1n(yi-y̅)2 (3)

式(3)中yiy'i分别为实测值和预测值, y̅为样本均值, n为交叉验证集的样本数。 特征选择流程如图2, 图中maxgen为最大迭代数, popsize为粒子个数。 这两个参数的设置直接影响自适应搜索算法的性能及收敛性, 综合考虑特征选择模型的运算效率, 粒子的搜索性能以及种群遗传的多样性, 经多次试验, 将maxgen设为200, sizepop设为50。

图2 变量选择流程图Fig.2 Flowchart of spectral variables selection

1.5 精度评估指标

模型建立和预测的评价指标主要为决定系数(R2), 均方根误差(RMSE)和相对分析误差(RPD)。 在模型优化过程中, 采用5折交叉验证, 利用交叉验证决定系数( RCV2)和交叉验证均方根误差(RMSECV)进行评估。 均方根误差越小, 决定系数越接近1, 估测模型的性能越好。 RPD> 2模型的预测能力极好, 1.4< RPD< 2模型可对样本粗略估计, RPD< 1.4模型预测能力较差, 不能应用到样本预测中。

2 结果与讨论
2.1 光谱曲线特征分析

将所有土壤样本按照有机质含量(OM)分为OM< 4%, 4%≤ OM< 6%, OM≥ 6%三类, 计算每类样本的原始反射率和光谱变换的均值, 形成平均光谱曲线(图3)。 由图3(a), 不同含量的有机质光谱反射率曲线形态相似, 反射率随有机质含量增高而降低, 随波长增加而增大, 在2 200 nm后呈下降趋势。 1 400, 1 900和2 200 nm附近为波谷, 表现为水分吸收特征。 由图3(c), 波谱曲线反映土壤吸收光的能力随波长的变化情况, 原反射率曲线的波谷处变为明显的波峰。 由图3(b)和(d), 经微分处理后, 局部反射特征被显著放大, 出现多个明显的峰谷, 反射率受有机质含量的影响降低, 三类光谱曲线基本重合, 表明微分变换能够减少样品及测量带来的误差, 减弱背景噪声, 增强曲线特征。

图3 土壤反射率及其光谱变换曲线Fig.3 Curves of soil reflectance and transforms

2.2 全谱变量子区间划分

全谱变量维数较大, 波段间信息冗余程度较高, 对于GABPSO算法, 巨大的搜索空间会降低分析效率, 影响模拟精度。 因此需要选择适宜的光谱区间划分对模型的建立与预测起到重要作用。 将土壤样本平均光谱分别以5, 10, 20, 40和80 nm为间隔均匀划为若干个子区间, 采用光谱角匹配法判定划分前后的差异, 依据RF模型交叉验证精度评价不同划分间隔对估测结果的影响。 由表2, 间隔为5和10 nm时θ 变化较小, 模型精度变化甚微, 间隔大于20 nm后, θ 增幅变大, 模型精度下降显著。 为了能够在土壤光谱信息基本不损失的情况下, 减少变量数目, 本文选择10 nm作为划分土壤全谱区间的适宜大小。

表2 子区间划分分析 Table 2 Analysis of region size
2.3 最佳光谱形式选择

分别对黑土样本四种反射率形式按10 nm间隔重新计算各子区间光谱变量值, 并参与RF建模, 通过评价各光谱变量对模型精度的影响, 选择最佳波谱形式建立有机质含量估测模型。 由表3, 利用经过一阶微分处理的光谱变量R'和[lg(1/R)]'得到的模型交叉验证精度显著高于R和lg(1/R)变量, 其中, 光谱变量[lg(1/R)]'的模型精度最高, 故选择[lg(1/R)]'光谱变换形式进行黑土有机质含量的估算研究。

表3 不同光谱变量RF模型精度对比 Table 3 Comparison of RF model precision using different spectral variables
2.4 RF-GABPSO混合算法特征谱段选择

2.4.1 RF算法

将光谱变换[lg(1/R)]'的205个波谱区间作为输入变量参与RF建模, 依据随机森林特征变量重要性原理, 按重要程度由高到低排序, 重要性越大, 表明在RF回归建模中起到的作用越大。 将排好序的变量逐一加入RF模型, 选择交叉验证精度趋于稳定时的变量组合为初始优化集。 由图4(a), 随着光谱变量的逐一加入, 从第1加到第32个时, RF模型交叉验证精度显著提高, 当加到第42个后, 变量的增加使RF模型精度变化虽有波动, 但整体趋于稳定, 故将前42个波谱区间作为RF选择的初始优化集, 其代表的波长重要性排序如图4(b)。

图4 RF算法特征谱区选择Fig.4 Characteristic spectral regions selected using RF method

2.4.2 GABPSO封装算法

表4, 利用GABPSO封装算法对RF模型初始优化集中的42个光谱变量再次筛选, 最终优化的特征谱区为17个, GABPSO算法的进一步优化使变量维度大幅度降低, 所确定的黑土有机质的特征谱段为480~489, 500~519, 560~579, 1 150~1 169, 1 210~1 219, 1 240~1 279, 1 380~1 389, 1 910~1 919, 2 180~2 189, 2 250~2 259和2 310~2 319。

表4 GABPSO封装算法特征谱区选择 Table 4 Characteristic spectral regions selected using GABPSO method

2.4.3 RF-GABPSO混合算法提取结果检验

将RF-GABPSO混合算法筛选出的波长与土壤有机质含量进行相关分析。 如图5(a), 相关系数绝对值基本均大于0.5, 在1 150~1 169, 1 210~1 219和1 240~1 278 nm处相关系数大于0.7, 表现出很强的相关性。 由图5(b), 选择的波长多位于光谱曲线特征明显的峰谷位置。 由此验证了RF-GABPSO方法对光谱变量提取的有效性, 筛选的波长能够较好地反映特征信息。

图5 特征谱区验证Fig.5 Validation of characteristic spectral regions

2.5 模型精度比较

结合多种变量筛选方法, 构建有机质含量RF估测模型, 通过精度对比评价各建模方案的估测能力, 进而验证RF-GABPSO混合特征选择方法的有效性。 如表5, 变量筛选方法分为两类: 自适应搜索法(FS_GA, FS_BPSO, FS_GABPSO)和随机森林-自适应搜索混合法(FS_RF-GA, FS_RF-BPSO, FS_RF-GABPSO)。 两类筛选方法均能有效降低光谱维度, 提高模型精度。 但单独使用自适应搜索算法时, 由于从全部变量集中寻优, 搜索范围较大, 目标不够精确, 优化变量个数偏多。 混合使用随机森林和自适应搜索法时, 变量个数显著减少, 模型精度较高, 说明先利用RF算法提取重要程度高的变量, 在此基础上再自适应筛选, 不仅能够缩小搜索范围, 提高优化速度, 且选择的变量均有利于RF回归建模。 自适应搜索算法中, GABPSO封装算法的优化能力最强。 经比较, 利用RF-GABPSO方法选择的光谱变量参与RF建模, 模型复杂度最低, 精度最高, 预测集的R2, RMSE和RPD分别为0.838, 0.54%, 2.534。 由实测值与预测值拟合图(图6), 该方案的整体样本集均匀地分布于1:1直线两侧, 说明其预测能力较好, 能够有效估测有机质含量。

表5 模型精度对比 Table 5 Comparison of different predicted models

图6 RF-GABPSO方法实测值与预测值散点图Fig.6 Scatter diagram of predicted values and measured values based on RF-GABPSO

3 结 论

以估测黑土有机质含量为目标, 在可见-近红外波谱范围内, 通过考察土壤光谱的采样间隔和光谱变换形式对估测结果的影响, 选择出最佳光谱数据, 利用RF-GABPSO混合特征选择方法筛选波谱变量, 构建土壤有机质含量RF模型, 并与多种建模方案进行比较。 主要结论如下:

(1)按10 nm间隔均匀划分土壤全谱, 能够保留原始光谱特征的同时降低变量维度。 以光谱反射率倒数的对数的一阶微分[lg(1/R)]'为基础数据, 获得的模型精度最高, 可作为最佳光谱数据参与有机质估测研究。

(2)RF-GABPSO混合算法最终优化的特征谱区为17个, 选择的特征波长为480~489, 500~519, 560~579, 1 150~1 169, 1 210~1 219, 1 240~1 279, 1 380~1 389, 1 910~1 919, 2 180~2 189, 2 250~2 259和2 310~2 319。

(3)通过比较RF算法结合原始变量集, 自适应搜索优化变量集和随机森林-自适应搜索优化变量集三种建模方案, 利用RF-GABPSO算法选择的特征变量构建RF模型, 预测决定系数R2, 均方根误差RMSE和相对分析误差RPD分别0.838, 0.54%, 2.534, 该方案应用最少的变量个数获得最高预测精度, 能够较高效地对黑土有机质含量进行估测。

以上结论为黑土有机质含量估测提供了有效的预测方案与理论依据, 但对于其他类型土壤的有机质含量估测仍需进一步探索。 今后将利用该方法对其他土壤类型加以尝试。

The authors have declared that no competing interests exist.

参考文献
[1] Ahmed Z, Iqbal J. European Journal of Remote Sensing, 2014, 47(1): 557. [本文引用:1]
[2] Ma Fei, Du Changwen, Zhou Jianmin. Soil Science Society of America Journal, 2016, 80(1): 238. [本文引用:1]
[3] JI Wen-jun, SHI Zhou, ZHOU Qing, et al(纪文君, 史舟, 周清). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2012, 31(3): 277. [本文引用:1]
[4] Wang Junjie, Gui Lijuan, Gao Wenxiu, et al. Geoderma, 2014, 216(4): 1. [本文引用:1]
[5] Fassnacht F E, Neumann C, Forster M, et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2547. [本文引用:1]
[6] Viscarra Rossel R A, Behrens T. Geoderma, 2010, 158(1-2): 46. [本文引用:1]
[7] Jin Xiuliang, Du Jia, Liu Huanjun, et al. Agricultural and Forest Meteorology, 2016, 218-219: 250. [本文引用:1]
[8] Mouazen A M, Kuang B, De Baerdemaeker J, et al. Geoderma, 2010, 158(1-2): 23 [本文引用:1]
[9] YANG Ai-xia, DING Jian-li, LI Yan-hong, et al(杨爱霞, 丁建丽, 李艳红, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(3): 691. [本文引用:1]
[10] XIAO Yan, JIANG Qi-gang, WANG Bin, et al(肖艳, 姜琦刚, 王斌, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(4): 211. [本文引用:1]
[11] Rodriguez-Galiano V F, Chica-Olmo M, Abarca-Hernand ez F, et al. Remote Sensing of Environment, 2012, 121(138): 93. [本文引用:1]
[12] Beijma S V, Comber A, Lamb A. Remote Sensing of Environment, 2014, 149: 118. [本文引用:1]