BA-Adaboost模型的黑土区土壤养分含量高光谱估测
林楠1,2, 刘海琪3, 杨佳佳4, 吴梦红1, 刘翰霖1
1.吉林建筑大学测绘与勘查工程学院, 吉林 长春 130118
2.吉林大学地球科学学院, 吉林 长春 130026
3.东北大学资源与土木工程学院, 辽宁 沈阳 110819
4.中国地质调查局沈阳地质调查中心, 辽宁 沈阳 110034

作者简介: 林 楠, 1984年生, 吉林建筑大学测绘与勘查工程学院副教授 e-mail: linnanzc@126.com

摘要

黑土中的有机质、 磷和钾等养分元素在作物生长过程中起着至关重要的作用, 研究黑土养分元素的分布特征, 开展元素含量的定量计算, 对黑土地的科学管理和环境保护具有重要意义。 基于黑龙江省讷河市80份黑土样品和高光谱实测数据, 分析了光谱反射率、 反射率一阶微分、 反射率倒数对数、 反射率倒数对数一阶微分与土壤有机质、 磷元素和钾元素含量的相关性, 并利用相关系数法提取敏感波段。 针对机器学习模型中参数值优化选择问题, 引入蝙蝠算法(BA)并与Adaboost模型相结合, 利用BA对Adaboost模型中的最大迭代次数 n和弱学习器权重缩减系数 v两个核心参数进行寻优计算, 选择CART决策树为模型的弱回归学习器, 决定系数作为参数优化的目标函数值, 构建BA-Adaboost土壤养分含量高光谱预测模型, 定量估测土壤有机质、 磷元素和钾元素含量, 结果表明: BA-Adaboost组合模型可以快速搜索全局最优参数, 经BA优化后的Adaboost模型精度和可靠性显著提高, 3种元素中, 土壤有机质估测精度最高, 决定系数和均方根误差分别为0.864和0.152 g·kg-1, 对比优化前模型预测精度提高了14.2%和25.4%, 说明构建的BA-Adaboost模型在土壤元素含量高光谱估测中具有一定的应用前景, 是一种高效的估测方法。

关键词: 黑土区; 土壤养分含量; 高光谱估测; 蝙蝠算法; Adaboost模型
中图分类号:TP79 文献标志码:A
Hyperspectral Estimation of Soil Nutrient Content in the Black Soil Region Based on BA-Adaboost
LIN Nan1,2, LIU Hai-qi3, YANG Jia-jia4, WU Meng-hong1, LIU Han-lin1
1. College of Surveying and Prospecting Engineering, Jilin Jianzhu University, Changchun 130118, China
2. College of Earth Science, Jilin University, Changchun 130026, China
3. College of Resources and Civil Engineering, Northeastern University, Shenyang 110819, China
4. Shenyang Geological Survey Center, China Geological Survey, Shenyang 110034, China
Abstract

Organic matter (OM), phosphorus (P) and potassium (K) in black soil play a crucial role during crop growth. Studying the distribution of nutrient elements in black soil and carrying out quantitative calculation of element content is of great significance to the scientific management of black soil and environmental protection. Based on 80 black soil samples collected from Nehe city, Heilongjiang province and hyperspectral measured data, the correlation between 4 forms of spectral reflectance including original, first differential, absorbance transformation, and first differential of absorbance and soil OM, P, K contents were calculated, and the correlation coefficient method was used to extract the sensitive bands. For the optimization of parameter values in the machine learning model, the bat algorithm (BA) was introduced and combined with Adaboost model. Using BA to optimize the two important parameters of Adaboost, namely, maximum iterations n and weak learner weight reduction factor v, selecting CART decision tree and determination coefficient as the weak regression learner of the model and objective function value of the parameter optimization respectively, the BA-Adaboost model was constructed for estimating soil OM, P, K contents. The results showed that the BA-Adaboost model could quickly search the optimal global parameters, and the accuracy and reliability of the Adaboost were improved significantly after BA optimization, where the prediction accuracy of OM was the highest among the three nutrient elements. And determination coefficient and root mean square error were 0.864 and 0.152 g·kg-1 respectively, which were improved by 14.2% and 25.4% compared with before optimization. Therefore, the constructed BA-Adaboost model has potential in the hyperspectral estimation of soil element content and is an efficient estimation method.

Keyword: Black soil region; Soil nutrient content; Hyperspectral estimation; Bat algorithm; Adaboost model
引言

土壤养分含量快速估测对作物生长监测和黑土科学管理具有重要的意义。 高光谱数据可以通过数千个紧密排列的波长记录土壤信息。 众多研究表明, 土壤高光谱数据与土壤含水率[1]、 养分含量[2, 3]、 重金属含量[4]等土壤指标存在密切关系, 利用高光谱技术进行土壤元素含量估测已取得了丰硕的研究成果。

目前, 利用机器学习算法建立土壤高光谱特征和元素含量之间的反演模型是土壤元素含量估测的主要方法, 其中支持向量机[5]、 极限学习机[6]、 随机森林[7]等模型都得到了广泛的应用。 机器学习算法通常需要预先设定一些模型参数值, 由于预定义的参数值很可能不包含全局最优的参数值, 导致机器学习模型达不到最佳效果。 为了克服机器学习模型在寻找最佳模型参数时所存在的问题, 遗传算法、 粒子群算法等经典优化算法被用来优化机器学习模型的内部参数。 然而粒子群等经典优化算法对初始参数设置比较敏感, 寻优过程中容易陷入局部最优解, 导致算法后期的收敛速度变慢。 蝙蝠算法是一种新兴的群体智能方法, 在寻优过程中, 蝙蝠算法模仿蝙蝠声波脉冲响度、 频率的自适应调节过程, 实现全局寻优和局部寻优过程的自由切换, 从而使算法的全局搜索能力和局部搜索能力得到平衡, 在模型参数寻优计算方面表现优异[8]。 本工作对黑土土壤有机质、 磷元素和钾元素的光谱特征进行详细分析, 选择元素最佳光谱变换形式及相关性较高的敏感波段, 将蝙蝠算法和Adaboost机器学习模型组合构建土壤养分含量估测模型, 利用蝙蝠算法求解Adaboost模型建模中的关键参数, 并比较模型参数优化前后的估测精度, 为黑土养分含量高光谱估测提供一种高效的新方法。

1 实验部分
1.1 土壤样品采集

土壤样品采集区位于黑龙江省讷河市, 该区地处松辽平原的北端, 大小兴安岭南缘, 是黑土分布的典型区域。 区内耕地面积广阔, 农产品种类丰富, 是甜菜和马铃薯的盛产地。 2019年4月在该区内挑选典型黑土地块, 设置5公里大小的网格作为采样单元, 采样点设计结合第二次全国土地调查成果合理分布, 所布设的采样点要能够代表采样单元的土壤性质, 试验区内共采集土壤样本80个(图1), 采集样品过程中确保采样距离公路至少150 m, 以每个采样点位置为中心, 在其周围5 m× 5 m范围内进行样品采集, 每个采样点位置共采集5份黑土样本, 取样深度为表层土的15 cm以内, 将样本充分混合后装入采样袋。

图1 研究区和样品采集点地理位置Fig.1 Location of study area and sampling collection points

1.2 元素含量测量及样本划分

将样品中的秸秆、 砂砾等杂物剔除, 风干后研磨过筛, 使得土壤的粒径小于0.25 mm; 将样品分成两份, 一份用于测定土壤元素含量, 另一份用于室内高光谱测量。 结合多目标样品分析质量要求等技术规范, 参照《土壤农业化学分析方法》, 选用重铬酸钾容量法测定土壤有机质含量, 选用X射线荧光光谱法进行土壤磷元素和钾元素含量测量[9]。 对元素含量的测量结果进行统计分析(表1), 将80份土壤样品按元素含量由低到高分为20组, 每组随机抽取1个样品放入验证集, 共20个样品作为验证集, 其余60个样品为训练集。

表1 土壤样本养分元素含量基本信息 Table 1 Statistics of nutrient contents in soil samples
1.3 光谱采集及预处理

在暗室中进行土壤光谱测量, 测量仪选用ASD FiledSpec4地物波谱仪, 为提高光谱测量数据的精度, 取5次光谱测量的均值作为土壤样品的反射光谱数据。 由于光谱数据在350~399 nm以及2 451~2 500 nm范围的噪声较大, 信噪比低, 对土壤元素与反射率关系的分析会造成干扰, 所以将400 nm前及2 450 nm后的数据剔除。 光谱仪采样间隔为1 nm, 即在400~2 450 nm范围内得到2 051个波段, 由于光谱分辨率较高, 波段数较多, 相邻波段之间可能存在信息重叠, 更容易受到噪声的影响, 因此, 将光谱数据进行重采样处理, 设置采样间隔为10 nm。 在去噪和重采样处理的基础上, 将原始光谱反射率进行一阶微分、 倒数对数等特征变换, 不同的变换形式可以帮助准确、 快速地找到峰谷, 并通过峰谷确定相应的波长, 从而确定敏感波段。

1.4 模型概述

蝙蝠算法(Bat algorithm, BA)是一种启发式搜索算法, 它模拟蝙蝠使用声纳探测猎物和躲避障碍物, 通过模拟蝙蝠飞行寻找猎物的过程来模拟优化搜索过程, 在计算过程中利用求解问题的适应度值来选取蝙蝠的位置, 利用优胜劣汰的进化过程来模拟较优可行解代替较差可行解的迭代搜索过程[10]。 基于BA的基本原理, 在算法各项参数被初始化后, 从d维搜索空间中的一个随机位置zl开始启发式搜索。 以固定的频率、 不同的波长和音强搜索猎物, 搜索过程中, 蝙蝠根据接近猎物的距离自动调整波长的大小。 经全局搜索后更新每只蝙蝠的飞行速度和空间位置, 并计算目标函数的适应度值, 速度和空间位置更新公式如式(1)[11]

ft=fmin+(fmax-fmin)βvit+1=vit+(zit-z* )fizit+1=zit+vit+1(1)

其中, vitvit+1分别表示蝙蝠个体itt+1时刻的飞行速度; zitzit+1分别表示蝙蝠个体itt+1时刻的位置; z* 代表全局最优位置。 频率fi为蝙蝠个体i在搜索时的脉冲频率, 其中, β 为介于[0, 1]间的随机数, (fmin, fmax)为脉冲频率范围。 每次迭代过后, 音强和频度会根据脉冲响度衰减系数和脉冲频度增加系数进行更新计算。

Adaboost算法基本思想是针对同一训练集训练能力一般的弱回归器, 通过叠加方法构建一个训练能力很强的强回归器。 其算法本身是通过改变样本分布权重来实现的, 根据每次训练集中每个样本的预测精度以及上次的总体预测精度来计算每个弱回归器的权重, 同时更新每个样本的分布权重, 最后将每次训练得到的回归器结果加权求和, 作为强回归器最后的输出结果[12]。 建模过程中, 弱学习器的最大迭代次数n和弱学习器的权重缩减系数v是两个重要的参数, 迭代次数n设置过小会导致模型拟合不充分, n设置太大则会导致模型拟合过度, 而较小的权重缩减系数v意味着需要更多的弱学习器的选代次数, 所以通常这两个参数要一起进行优化调整[13]

1.5 模型精度检验

为了评价模型预测能力及模型的稳定性, 选择决定系数(R2)和均方根误差(RMSE)对模型的建模效果进行评价

R2=1-i=1n(yi-Yi)2i=1n(yi-y¯)2,  RMSE=1ni=1n(yi-Yi)2(2)

其中n为样本量, yi为实测值, Yi为预测值, y¯为实测值的平均值。 预测模型计算的RMSE越低, R2越接近1, 预测模型的准确性和稳定性越高。

2 结果与讨论
2.1 光谱特征变换

经处理后的室内土壤样品光谱曲线如图2(a)所示, 从图中可以看出, 采集的黑土样品原始反射率在0~0.9之间, 各样品光谱曲线波动形状相似, 在可见光波段, 随着波长的增加, 反射率逐渐增加, 直到1 200 nm处反射率趋于稳定。 近红外区土壤光谱反射率总体高于可见光区, 两个明显的波谷分布在1 400和1 900 nm附近, 主要是土壤中残留的水分和空气中水蒸气的吸收造成的, 而在2 200 nm处有轻微的凹陷, 是受土壤中存在的粘土矿物的影响。 图2(b)— (d)分别为原始反射率经一阶微分(R')、 倒数对数(lg1/R)、 倒数对数一阶微分[(lg1/R)']变换后的光谱曲线, 从变化结果可以看出, 一阶微分变换可以对原始光谱变化起到放大作用, 经变换后反射率在1 400, 1 900和2 200 nm处的波动更大。

图2 反射率及其变换的土壤光谱曲线Fig.2 Soil spectral reflectance curves and its transformations

2.2 相关性分析及特征波段选择

分别计算了土壤有机质、 磷、 钾含量与土壤反射率的相关系数, 并绘制相关系数曲线图(图3)。 从图3(a)原始光谱的相关系数可以看出, 土壤有机质和磷元素含量与光谱反射率呈负相关, 而钾元素含量则相反。 与原始光谱反射率相比, 变换后的光谱数据与土壤有机质、 磷、 钾含量的相关性更高, 其中, 一阶微分变换形式与土壤有机质、 磷、 钾含量的相关系数表现为正、 负交叉, 波峰和波谷较多, 而且经一阶微分变换后, 各元素的最高相关系数显著提高。

图3 土壤元素含量与光谱相关系数曲线Fig.3 Correlation coefficient curves of soil element content and spectral reflectance

选取相关系数大于0.4的敏感波段作为预测模型的样本输入数据(表2)。 由统计结果可以看出, 经过不同的光谱特征变换, 土壤元素含量与光谱反射率的相关系数有所提高, 其中, 土壤有机质对应的最佳变换形式为一阶微分, 与光谱反射率数据的相关系数最高为0.796, 波长范围在1 370 mm附近; 土壤磷元素对应的最佳变换形式为倒数对数的一阶微分, 相关系数最高为-0.688, 波长范围在690 mm附近; 土壤钾元素对应的最佳变换形式为倒数对数一阶微分, 相关系数最高为0.553, 波长范围在980 mm附近。

表2 最大相关系数和敏感波段 Table 2 Maximum correlation coefficients and sensitive bands
2.3 基于BA-AdaBoost模型的预测

将选取60个训练样本最佳光谱变换形式的敏感波段和对应元素含量值作为Adaboost模型的建模数据, 3种元素的建模波段数分别为85个、 82个和51个, 选择CART决策树为Adaboost模型的弱回归学习器, 采用蝙蝠搜索算法对Adaboost模型的最大迭代次数n和弱学习器权重缩减系数v进行寻优。

基于BA的基本原理, 首先需对模型各项参数进行初始化, BA初始化参数较多, 但除了迭代次数外其他参数敏感性不强, 可选择默认缺省参数进行初始化。 BA算法的搜索空间是由最大迭代次数n和弱学习器权重缩减系数v为坐标轴组成的二维空间, 迭代搜索过程从搜索空间内的L个随机位置开始, 在每次迭代过程中, 利用每只蝙蝠在空间中位置的二维坐标(n, v)作为Adaboost模型的初始化参数, 然后基于Adaboost模型对样本数据训练建模, 并计算预测结果。 根据计算结果选取R2值最大时对应的位置作为蝙蝠当前最优位置, 利用式(1)更新每只蝙蝠的空间位置。 设置种群大小L=20, 脉冲频率范围fmin=0、 fmax=1、 脉冲音强范围Amin=0, Amax=1, 脉冲响度衰减系数α =0.9, 脉冲频度增加系数γ =0.9, 作为缺省参数, 并计算了不同迭代次数对应的R2值(图4)。 从图中可以看出, 随着迭代次数T的增加, R2值逐渐增大, 3种元素中, 钾元素收敛速度最快, 当迭代数达到10次的时候, R2值达到了最大, 有机质和磷元素分别是当迭代数达到12次和16次达到最大。 建模估测时, 选取R2最大时对应的nv的值作为Adaboost模型的建模参数。

图4 BA-Adaboost模型R2变化曲线Fig.4 R2 variation curves of BA-Adaboost

2.4 模型精度分析

为了分析BA-Adaboost模型的预测精度, 分别计算了BA优化前后模型训练集和验证集的R2和RMSE(表3)。 从表中可以看出无论是训练集还是验证集有机质的高光谱预测精度均高于磷元素和钾元素, 经过BA寻优后, Adaboost模型的精度有了较大的提升, 从验证集结果来看, 磷元素的 Rp2变化最为显著, 由0.695提高至0.808; 有机质的RMSEP变化最大, 由0.204 g· kg-1下降至0.152 g· kg-1

表3 模型预测精度对比分析 Table 3 Comparison of estimation accuracies

利用模型的预测值和实测值绘制预测结果拟合图, 进一步对比分析3种元素模型拟合效果(图5)。 从图中可以看出, 与Adaboost相比, 优化后的BA-Adaboost模型的预测值更紧密地分布在1:1左右, 数据拟合能力和稳定性优于Adaboost模型。 同时可以看出训练集的拟合效果比验证集更优异, 验证集样本点分布相对分散, 说明机器学习模型对训练样本数据的可靠性要求较高。

图5 元素含量实测值和预测值
(a): OM含量Adaboost模型; (b): OM含量BA-Adaboost模型; (c): P含量Adaboost模型; (d): P含量BA-Adaboost模型; (e): K含量Adaboost模型; (f): K含量BA-Adaboost模型
Fig.5 Measured and predicted values of element content
(a): Adaboost of OM content; (b): BA-Adaboost of OM content; (c): Adaboost of P content; (d): BA-Adaboost of P content; (e): Adaboost of K content; (f): BA-Adaboost of K content

3 结论

以黑龙江省讷河市80个黑土样品为研究对象, 对黑土土壤有机质、 磷元素和钾元素的光谱特征进行分析, 构建BA-Adaboost模型对元素含量进行估测, 主要结论如下:

(1)光谱数据的特征变换处理可以增强光谱特征, 一阶微分变化有效地突出了光谱曲线的波峰和波谷, 提高了光谱反射率与元素含量的相关系数, 有机质、 磷元素、 钾元素分别在1 370, 690和980 mm处相关系数达到最大值。

(2)蝙蝠算法在参数寻优过程中能够动态控制全局寻优和局部寻优过程之间的自由切换, 利用蝙蝠算法对Adaboost模型参数进行优化计算, 避免了估测模型陷入局部极小值, 与传统参数寻优方法相比, 该方法可更快更准确地找到全局最优参数。

(3)将BA与Adaboost模型相结合, 构建BA-Adaboost土壤含量估测模型, 该组合模型只需设置搜索空间, 然后自动搜索模型最优参数值; 对比BA算法优化前后的估测精度可以看出, 优化后BA-Adaboost模型R2增大、 RMSE变小, 估测精度明显提高, 说明BA-Adaboost模型在土壤元素含量高光谱估测中具有一定的适用性, 扩展了机器学习模型在土壤成分估测研究中的应用。

参考文献
[1] WU Long-guo, WANG Song-lei, HE Jian-guo(吴龙国, 王松磊, 何建国). Spectroscopy and Spectral Analysis(光谱学光谱分析), 2018, 38(8): 2563. [本文引用:1]
[2] LIU Xiu-ying, SHI Zhao-yong, CHANG Qing-rui, et al(刘秀英, 石兆勇, 常庆瑞, ). Acta Pedologica Sinica(土壤学报), 2018, 55(2): 325. [本文引用:1]
[3] NIE Zhe, LI Xiu-fen, Jia-xin, et al(聂哲, 李秀芬, 吕家欣, ). Chinese Journal of Soil Science(土壤通报), 2019, 303(6): 1285. [本文引用:1]
[4] Kemper T, Sommer S. Environmental Science & Technology, 2002, 36(12): 2742. [本文引用:1]
[5] TAN Kun, ZHANG Qian-qian, CAO Qian, et al(谭琨, 张倩倩, 曹茜, ). Earth Science-Journal of China University of Geosciences(地球科学—中国地质大学学报), 2015, 40(8): 1339. [本文引用:1]
[6] ZHOU Peng, YANG Wei, LI Min-zan, et al(周鹏, 杨玮, 李民赞, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2017, 48(S1): 271. [本文引用:1]
[7] Tan K, Ma W, Wu F, et al. Environmental Monitoring and Assessment, 2019, 191(7): 1. [本文引用:1]
[8] Chen Y, Wu W, Zhao Q. Minerals, 2019, 9(5): 317. [本文引用:1]
[9] LU Ru-kun(鲁如坤). Methods of Soil Agricultral Chemical Analysis(土壤农业化学分析方法). Beijing: China Agriculture and Science Press(北京: 中国农业科技出版社), 2000. 638. [本文引用:1]
[10] WU Chen-wen, LIU Xiao-guang, WEI Li-xin(吴辰文, 刘小光, 魏立鑫). Journal of Northwest University·Natural Science Edition(西北大学学报·自然科学版), 2019, 49(4): 597. [本文引用:1]
[11] MENG Kai-lu, YUE Ke-qiang, SHANG Jun-na(孟凯露, 岳克强, 尚俊娜). Computer Engineering(计算机工程), 2019, 45(4): 189. [本文引用:1]
[12] XU Ting, ZHANG Xiang, ZHANG Ya-kun, et al(徐婷, 张香, 张亚坤, ). Journal of Safety and Environment(安全与环境学报), 2019, 19(4): 1273. [本文引用:1]
[13] YANG Xiao, WANG Zhi-zhang, ZHOU Zi-yong, et al(杨笑, 王志章, 周子勇, ). Acta Petrolei Sinica(石油学报), 2019, 40(4): 457. [本文引用:1]