基于TASI热红外数据的黑土土壤发射率光谱与土壤全钾含量关系研究
李明, 秦凯*, 赵宁博, 田丰, 赵英俊
核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室, 北京 100029
*通讯联系人 e-mail: h_rs_qk@163.com

作者简介: 李 明, 1993年生, 核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室工程师 e-mail: lm930507@sina.cn

摘要

土壤钾元素含量是评价土壤营养程度重要的指标之一。 利用热红外发射率(TASI)数据对钾元素的反演研究较少且模型精度较低。 利用在黑龙江海伦地区采集的热红外航空成像光谱仪TASI数据, 经过预处理和温度与发射率分离后, 探究黑土土壤热红外发射率与钾元素含量关系。 在对比了常规的多元逐步回归与偏最小二乘建模方法后, 使用了一种新的逐步回归方法-全二次多元逐步回归建立模型, 相对于常规多元逐步回归, 引入了更多的参数进行模型的建立, 有效提高反演精度。 研究发现, 土壤发射率数据对于选用有效特性波段建立的模型对钾元素具有较高的反演精度, 所选特征波段均为负相关, 波段分别为6(8.602 μm), 11(9.150 μm), 15(9.588 μm), 23(10.464 μm), 相关系数依次为-0.658, -0.673, -0.645和-0.627。 钾元素通过多元逐步回归建模与预测的均方根误差RMSE: 0.027和0.032, 判定系数 R2: 0.667和0.82, 相比于常规多元逐步回归建模与预测的均方根误差RMSE: 0.031和0.031, 判定系数 R2: 0.569和0.78与偏最小二乘法建模与预测的均方根误差RMSE: 0.033和0.037, 判定系数 R2: 0.45和0.51评价指标精度均有所提高, 说明该方法有效提高了利用发射率数据对钾元素的反演精度。 在利用学生化残差对模型进行去除异常值的改进后发现, 建模精度有了明显提高但是测试精度却有所降低, 过度拟合训练集数据导致模型泛化性下降, 因此不建议对模型过度拟合。

关键词: 黑土土壤; 热红外航空成像光谱仪发射率; 全钾含量; 全二次多元逐步回归
中图分类号:TP722.5 文献标志码:A
Study on the Relationship Between Black Soil Emissivity Spectrum and Total Potassium Content Based on TASI Thermal Infrared Data
LI Ming, QIN Kai*, ZHAO Ning-bo, TIAN Feng, ZHAO Ying-jun
National Key Laboratory of Remote Sensing Information and Image Analysis, Beijing Research Institute of Uranium Geology, Beijing 100029, China
*Corresponding author
Abstract

Potassium content in soil is one of the important indicators for evaluating soil nutrient levels. There are few studies using thermal infrared emissivity data to invert potassium, and the model accuracy is low. In this paper, the Thermal Airborne Hyperspectral Imager (TASI) data collected in the Hailun region of Northeast China is used to investigate the relationship between soil emissivity and potassium content in black soil after pretreatment and separation of temperature and emissivity. Compared with the constant multiple stepwise regression and partial least-square regression model, a new stepwise regression method- quadratic multiple stepwise regression is innovatively used to enhance the model. Compared with the constant multiple stepwise regression, more parameters are introduced to establish the model, which can effectively improve the inversion accuracy. It is found that the model which uses effective special selected bands has a higher inversion accuracy to the potassium element and the selected bands are negatively correlated. The bands are 6 (8.602 μm), 11 (9.150 μm), 15 (9.588 μm), and 23 (10.464 μm)and the correlation coefficients are -0.658, -0.673, -0.645, -0.627, respectively. The quadratic multiple stepwise regression model's RMSE of the training and testing data are 0.027 and 0.032, the decision coefficient R2 are 0.667 and 0.82. Compared to the constant multiple stepwise regression model's RMSE of the training and testing data: 0.031 and 0.031, the decision coefficient R2: 0.569 and 0.78 and the least squares model's RMSE: 0.033, 0.037, the judgment coefficient R2: 0.45, 0.51, the precisions of evalution indexes have been improved, it is indicated that this method effectively improved the inversion accuracy of the potassium element using the emissivity data. After using the studentized residuals to improve the model to remove the outliers, it is found that the training accuracy is significantly improved but the test accuracy is reduced. Over-fitting the training set data leads to the decline of the model generalization. Therefore, the model is not recommended to improve.

Keyword: Black soil; Emissivity of the thermal airborne hyperspectral imager; Total potassium content; Quadratic multiple stepwise regression
引言

土壤是植被生存的基础, 即是人类赖以生存的基础。 土壤中含有大量的养分, 这些养分能直接或经转化后被植物根系吸收的矿质营养成分, 一般包括氮、 磷、 钾、 钙、 镁、 硫、 铁、 硼、 钼、 锌、 锰、 铜和氯等元素[1], 与传统的土壤元素化学测定方法相比, 航空及航天高光谱能够高效地对大面积地区进行检测, 其通过定量研究不同波段光谱与元素含量的关系进行建模反演, 能够获取大面积研究区某元素的含量分布图。 国内外学者在可见-近红外波段对土壤的水分[2, 3]、 有机质[4, 5]、 含盐量[6, 7, 8]、 养分元素[9, 10, 11]等的定量反演做了大量研究工作, 这一波段范围已经无法满足诸多学者的研究热情, 因此中红外波段成为了新的土壤理化参数定量反演研究热点。 阿尔达克·克里木等[12]利用4种变换后的热红外发射率光谱特征通过多元回归的方法建立其与土壤含盐量的模型; 夏军等[13]通过分析125个土壤样本热红外波段与土壤含盐量的相关性以及通过偏最小二乘与逐步回归建模, 得到土壤热红外发射率估算盐分含量的模型, 并得出偏最小二乘法定量反演土壤含盐量效果比逐步回归好这一结论, 模型预测的R2达到0.958, RMSE为1.911%; 杨永民等[14]基于热红外数据, 对土壤含水量四种估算方法进行对比分析, 使用ASTER数据估算了黑河流域中游地区的土壤水分状况。 由此可见, 发射率数据与土壤众多理化指标有较为紧密的关系。 而发射率数据对于土壤K元素含量的反演研究较少且模型精度较差, 本文旨在探究提高模型精度的新方法。

1 实验部分
1.1 数据采集与处理

热红外航空成像光谱仪(thermal airborne hyperspectral imager, TASI)是加拿大研制的先进的机载热红外高光谱设备。 该设备在8~11.5 μm范围内有32波段, 波段间隔为0.109 5 μm, 半高宽为0.054 8 μm, 总视场角为40°(表1)。 本文利用核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室的TASI航空高光谱成像系统, 在东北黑龙江省海伦地区附近获取了高空间分辨率的高光谱热红外遥感数据, 在经过大气校正等数据预处理后, 采用杨杭等[15]改进的TES(temperature-emissivity separation)分离方法进行温度与发射率的分离, 获取研究区发射率数据。

表1 TASI各通道中心波长 Table 1 TASI channel center wavelength

土壤样品采集地点为东北黑龙江省海伦地区, 该地区土壤类型主要为黑土, 土壤腐殖质层较厚, 约30~60 cm, 有机质含量在2.5%~4.5%之间, 粘粒含量在40%~60%之间, 属于粘土, 西南部旱田土壤基本为中性, 中部及东北部旱田土壤为酸性。 在工作区不同位置共采集土壤样本40个(图1)。 测区表层为黑色腐殖质层, 当天同步飞行采集表层0~20 cm的土样, 剔除大的植物残茬、 石砺等杂物, 置于实验室风干研磨, 过0.15 mm筛选用于含量测定。 全钾含量采用X射线荧光光谱法测定(表2)。

图1 TASI数据采集区域及采样点分布图Fig.1 TASI data area and sampling point distribution map

表2 土壤样本钾(K)元素含量信息表 Table 2 The element content information table of soil samples
1.2 建模方法及实现

探究多个自变量与因变量之间关系的方法很多, 对于光谱数据, 常用的建模方法有最小二乘法、 多元逐步回归拟合、 BP神经网络、 支持向量机SVM等。 机器学习类方法虽然能较好地训练模型并进行预测, 但是存在较多的人为干预调参问题, 同时对于某一元素在研究区整体的提取具有较大难度。 本研究主要聚焦于偏最小二乘法与多元逐步回归拟合, 尤其利用多元逐步回归方法研究发射率与K元素含量关系时创新性地使用了全二次逐步回归进一步提高模型的精度。

相比常规的n元线性逐步回归仅有的常数项和线性项, 多元全二次逐步回归引入了交叉乘积项和平方项进行回归, 以对回归方程中常数项、 线性项和二次项进行的t检验的p值是否小于等于0.05为判定依据, 依次引进显著项剔除非显著项, 可以有效地解决自变量的多重共线性问题。 但参数不宜引入过多以免数据产生过拟合, 其中, 引入了4个参数进行全二次多元逐步回归方程如下所示, 由于增加了更多的系数, 因此能够更加精确地进行回归模型的建立。 本次研究所有建模方法均利用Matlab编程实现。 TASI影像数据预处理及温度与发射率分离利用ENVI5.3-IDL编程实现。

yi=b0+i=14bixi+i=13j=i+14bijxixj+i=14biixi2εi~N(0, δ2),  i=1, 2, , n

式中, yi为响应变量(预测值); b0, bi, bijbii分别为回归方程常数项、 线性项、 交叉乘积项、 平方项的系数; xi为预测变量(输入值), 本文中为输入的四个相关性强波段值; ε i~N表示数据服从期望值μ为0的正态分布。

2 结果与讨论
2.1 土壤热红外发射率光谱曲线特征

物体的发射率除了取决于其材质, 更取决于其所存在的环境。 对于土壤, 其热红外发射率光谱曲线形态主要取决于土壤中所含的矿物种类以及含量、 水分、 有机质含量和温度等因素。 研究所采集的40个土壤样本的发射率光谱曲线在8~9.6 μm变化趋势基本一致(图2), 9.6~11.45 μm后形态有所变化但基本变化趋于平缓, 发射率值在8.38, 8.6以及9.26 μm处出现了三处非常明显的波谷, 其中8.38与9.3 μm的两处波谷出现了类似石英的波谱特征。 夏军等研究发现, 土壤中硅酸盐矿物导致发射率光谱曲线呈现明显的Reststrahlen吸收特征, 即不对称双吸收谷, 两个吸收谷分别位于8.23和9.27 μm波长附近, 且后一个吸收谷较深, 宽度较大[13]。 9.6 μm后光谱曲线出现不同波动是由于土壤中所含不同矿物的基团内部振动产生的谱带不同所致, 但总体幅度变化较小。

图2 40个土壤样本的热红外发射率光谱曲线Fig.2 Thermal infrared emissivity spectral curves of 40 soil samples

2.2 土壤元素含量与发射率相关性分析

通过40个土壤样本K元素含量与发射率各波段做皮尔森相关性分析可以看出, K元素与32个波段发射率呈负相关关系, 其中相关系数大于0.6呈强相关的波段有5个, 分别是6, 11, 15, 22和23波段; 相关系数介于0.4~0.6中等相关的波段有17个(图3), 整体具有较强的相关性。

图3 钾元素含量与发射率相关性Fig.3 Correlation coefficient curve of potassium content and its thermal infrared emissivity

由于多元全二次逐步回归引入的参数数量直接决定了模型建立引入系数的多少和复杂程度, 因此, 为了避免建模时系数过多导致过拟合增大无谓的计算量, 初步选取与K元素含量相关系数最高的4个波段用于模型的建立。 土壤中钾元素有多种赋存形态, 大部分以原生或次生的结晶硅酸盐状态存在于土壤中, 其中云母族矿物参考(白云母、 黑云母)及富钾长石(正长石)中含钾元素最多, 白云母、 黑云母以及正长石特征吸收位置选择6, 11, 15和23波段作为特征波段(表3)。

表3 土壤元素含量与发射率显著相关所对应的TASI波段 Table 3 The TASI band corresponding to the significant correlation between soil element content and emissivity
2.3 光谱定量预测

将40个土壤样本随机分为两组, 其中32个样本用于含量预测模型的建立, 8个样本用来测试模型的精度。 验证K元素含量数据符合正态分布后, 以所选4个特征波段发射率数据作为自变量, K元素含量为因变量, 以对回归方程中常数项、 线性项和二次项进行的t检验的p值是否小于等于显著性水平0.05为判定依据, 依次引进显著项剔除非显著项, 同时对模型总体进行F检验的p值是否小于等于显著性水平0.05来验证样本观测值与总体假设值是否存在显著性差异从而建立模型[图4(a, b)]。

图4 逐步回归模型预测值与真实值拟合效果图
(a): 常规多元逐步回归; (b): 全二次多元逐步回归
Fig.4 Stepwise regression model prediction value and true value fitting effect plot
(a): Constant multiple stepwise regression; (b): Quadratic multiple stepwise regression

常规逐步回归建立的回归拟合模型均方根误差RMSE为0.031, 调整后的判定系数R2为0.569, 测试集的均方根误差RMSE为0.031, 调整后的判定系数R2为0.78[见图5(a)]; 全二次多元逐步回归建立的回归拟合模型均方根误差RMSE为0.027, 调整后的判定系数R2为0.667, 测试集的均方根误差RMSE为0.032, 调整后的判定系数R2为0.82[见图5(b)], 所有指标均通过p值小于0.05的显著性验证(表4)。 通过模型拟合结果及评价指标来看, 全二次多元逐步回归比常规多元逐步回归建模精度以及验证精度均有所提高。

图5 钾元素含量实测值与预测值散点图
(a): 常规多元逐步回归; (b): 全二次多元逐步回归
Fig.5 Scatter plot of measured value and predicted value of potassium content
(a): Constant multiple stepwise regression; (b): Quadratic multiple stepwise regression

表4 逐步回归模型建模结果 Table 4 Stepwise regression model modeling results

为进一步提高建模精度, 利用Matlab回归诊断的学生化残差来进行模型改进。 通过|Sei|> 2来查找远离数据集中心观测点即异常点, 剔除异常点来进一步提高模型精度。 同时, 以32个波段发射率数据为自变量, K元素含量为因变量进行偏最小二乘法建模, 进一步对比三种模型的优劣。

Sei=ei/MSE(1-hii)(2)

式(2)中, Sei即学生化残差; ei=yi- y^i为第i个观测对应的残差; MSE=SSE/(n-1-p)为均方残差; hii为帽子矩阵H=X(XTX)-1XT对角线上的第i个元素。

偏最小二乘法建立的回归拟合模型入选主成分数为2, 均方根误差RMSE为0.033, 判定系数R2为0.45, 测试集的均方根误差RMSE为0.037, 判定系数R2为0.51(图6)。

图6 钾元素含量实测值与预测值散点图Fig.6 Scatter plot of measured value and predicted value of potassium content

通过评价指标分析改进后的多元逐步回归模型发现, 虽然建模精度有所提高, 但测试集的精度却均有所下降。 与改进前模型相比, 常规多元逐步回归建模样本的均方根误差RMSE降低了0.7%, 判定系数R2提高了0.163; 测试集的均方根误差RMSE提高了0.2%, 判定系数R2降低了0.015; 全二次多元逐步回归均方根误差RMSE降低了0.71%, 判定系数R2提高了0.135; 测试集的均方根误差RMSE提高了0.2%, 判定系数R2降低了0.1, 同时由于剔除了某些不显著的变量, 模型再次引入了新的变量, 参数从7个增加到了10个(表5)。 改进后的模型训练集精度上升而测试集精度下降的原因应该是训练集数据发生了过拟合, 从实验结果分析, 改进前的模型泛化能力更强, 更适用于研究区K元素的反演。 同时对比偏最小二乘法建模, 全二次多元逐步回归各项评价指标均优于其余两种方法。 由于混合像元影响以及样本的选择有所差异, 模型整体拟合精度不是很高, 但本研究提出新的逐步回归方法有效地提高了模型的精度。

表5 建模结果对比 Table 5 Comparison of different models

相比常规多元逐步回归仅考虑常数项和线性项, 全二次多元逐步回归能够引入更多的变量参与到回归模型的建立中, 从而提高模型的反演精度。 说明利用TASI数据的相关波段通过全二次多元逐步回归方法反演元素含量是可行的, 比起传统的化学填图, 遥感反演的方法在损失部分精度的条件下能够高效大面积地反演某个地区元素含量。

3 结论

针对土壤中K元素含量反演, 利用热红外航空成像光谱仪TASI数据的发射率数据, 创新性地使用了一种新的逐步回归方法-“ 全二次多元逐步回归” 建立模型, 相对于常规多元逐步回归, 引入了更多的参数进行模型的建立, 能够有效提高反演精度。 通过研究发现, 土壤发射率数据对于选用有效特征波段对K元素具有较高的反演精度。 K元素通过多元逐步回归建模与预测的均方根误差RMSE: 0.027和0.032, 判定系数R2: 0.667和0.82, 相比于常规多元逐步回归建模与预测的均方根误差RMSE: 0.031和0.031, 判定系数R2: 0.569和0.78与偏最小二乘法建模与预测的均方根误差RMSE: 0.033和0.037, 判定系数R2: 0.45和0.51评价指标精度均有所提高, 说明本方法有效提高了利用发射率数据对K元素的反演精度。

参考文献
[1] ZHANG Dong-hui, ZHAO Ying-jun, QIN Kai, et al(张东辉, 赵英俊, 秦凯, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(20): 141. [本文引用:1]
[2] LIU Huan-jun, WANG Xiang, ZHANG Xiao-kang, et al(刘焕军, 王翔, 张小康, ). Chinese Journal of Soil Science(土壤通报), 2018, 49(1): 38. [本文引用:1]
[3] Zhou D K, Larar A M, Liu X. Journal of Applied Remote Sensing, 2018, 12(1): 1. [本文引用:1]
[4] SHI Yang, WANG Ru-jing, WANG Yu-bing(史杨, 王儒敬, 汪玉冰). Chinese Journal of Luminescence(发光学报), 2018, 39(10): 1458. [本文引用:1]
[5] XIE Wen, ZHAO Xiao-min, GUO Xi, et al(谢文, 赵小敏, 郭熙, ). Scientia Silvae Sinicae(林业科学), 2018, 54(6): 16. [本文引用:1]
[6] CAO Wen-tao, WU Quan-yuan, WANG Fei, et al(曹文涛, 吴泉源, 王菲, ). Chinese Journal of Soil Science(土壤通报), 2016, 47(2): 265. [本文引用:1]
[7] Wu W, Al-Shafie W M, Mhaimeed A S, et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(11): 4442. [本文引用:1]
[8] Rocha Neto, Odílio, Teixeira A, et al. Remote Sensing, 2017, 9(42): 1. [本文引用:1]
[9] LI Yan, WANG Rang-hui, GUAN Yan-long, et al(李焱, 王让会, 管延龙, ). Remote Sensing Technology and Application(遥感技术与应用), 2017, 32(1): 173. [本文引用:1]
[10] WANG Xiang-feng, MENG Ji-hua(王祥峰, 蒙继华). Remote Sensing Technology and Application(遥感技术与应用), 2015, 30(6): 1033. [本文引用:1]
[11] CHEN Yuan-peng, ZHANG Shi-wen, LUO Ming, et al(陈元鹏, 张世文, 罗明, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2019, 50(1): 170. [本文引用:1]
[12] ARDAK·Kelimu, TASHPOLAT·Tiyip, ZHANG Fei, et al(阿尔达克·克里木, 塔西甫拉提·特依拜, 张飞, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(17): 115. [本文引用:1]
[13] XIA Jun, ZHANG Fei(夏军, 张飞). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(4): 1063. [本文引用:2]
[14] YANG Yong-min, QIU Jian-xiu, SU Hong-bo, et al(杨永民, 邱建秀, 苏红波, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2018, 37(4): 459. [本文引用:1]
[15] YANG Hang, ZHANG Li-fu, ZHANG Xue-wen, et al(杨杭, 张立福, 张学文, ). Journal of Remote Sensing(遥感学报), 2011, 15(6): 1242. [本文引用:1]