一种间接从高光谱数据中提取黑土硒含量的新方法
张东辉, 赵英俊, 赵宁博, 秦凯, 裴承凯, 杨越超
核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室, 北京 100029

作者简介: 张东辉, 1985年生, 核工业北京地质研究院遥感信息与图像分析技术国家级重点实验室高级工程师 e-mail: donghui222@163.com

摘要

我国东北黑土富含养分, 随着土壤数字制图、 精确农业和土壤资源调查等研究的深入, 引入航空高光谱数据并提供科学的预测结果成为研究热点。 硒元素相对于黑土土壤的主要成分属于微量元素, 但其对作物的正常生长的作用与大量元素是同等重要的, 亦是人体健康所必要的营养元素。 针对硒含量反演, 建立了一个基于主要成分的间接提取模型, 该模型能够显著提升硒含量回归系数, 降低实测值与预测值的误差。 数据源自CASI-1500航空高光谱成像系统, 光谱范围380~1 050 nm, 空间分辨率1.5 m。 在黑龙江建三江地区采集60个土壤样本, 化验获得硒、 有机质、 全铁、 pH和氧化钙含量数据, 选择BP神经网络, 建立光谱与含量的反演模型。 分析不同含量的黑土成分在可见-近红波段范围内光谱变换规律, 掌握了硒元素随着含量升高, 光谱反射率会逐步升高的规律。 但当硒含量较低时, 在其他成分的干扰下, 这一规律会逐渐减弱, 直至不显著。 有机质的光谱特征与硒元素相反, 总体上随着含量的增高, 反射率整体下降, 这与有机质的光谱特性紧密相关。 全铁光谱呈现出与有机质光谱类似的规律, 说明二者具有较高的相关性。 不同pH值和氧化钙含量的光谱特征与检测值没有呈现出明显的特征规律, 反射规律不明显。 对60个采样点不同养分含量进行逐波段求反射率对养分的相关系数。 结果表明, pH值各个波段相关系数最高, 均值达到0.63; 其次是全铁的相关系数, 为0.54; 有机质和氧化钙的相关系数接近, 分别为0.42和0.47; 而硒元素含量与逐波段的平均相关系数最低, 为0.38。 选取相关系数较高的前5个波段, 作为建模波段。 硒特征波段为447, 437, 456, 466和475 nm; 有机质特征波段为447, 456, 466, 437和475 nm; 全铁特征波段为752, 695, 800, 762和733 nm; pH特征波段为905, 752, 800, 943和695 nm; 氧化钙特征波段为752, 695, 800, 523和762 nm。 通过计算样本点硒含量与其他成分的相关系数, 硒与有机质呈正相关, 相关系数为0.79; 与全铁、 pH、 氧化钙呈负相关, 相关系数分别为-0.80, -0.94和-0.69。 针对有机质、 全铁、 pH和氧化钙反演精度较高, 而硒元素含量较低, 直接反演精度不足的问题, 设计了一种先提取4种成分含量, 再根据其提取结果建立硒元素函数关系, 间接反演硒元素含量的方法。 首先将五种成分与特征光谱进行神经网络分析, 计算每种成分的回归系数 R2和RMSE。 显示全铁和pH具有较高的反演精度, 有机质和氧化钙归系数虽低于0.8, 但也显著高于硒元素的反演精度。 建立硒元素与其他4种成分含量的回归模型, 得出Se=0.522 9+0.041 8Som-0.016 6Fe2O3-0.035 6pH-0.005CaO, 进行硒元素间接提取, 回归系数从0.516增长到0.724, 均方根误差从0.182降低到0.136, 显著改进了反演硒含量的精度, 为硒元素大范围精确制图提供了一种新技术。

关键词: 硒含量; 东北黑土地; 航空高光谱; 神经网络; 可见光-近红外
中图分类号:O433.4 文献标志码:A
A New Indirect Extraction Method for Selenium Content in Black Soil from Hyperspectral Data
ZHANG Dong-hui, ZHAO Ying-jun, ZHAO Ning-bo, QIN Kai, PEI Cheng-kai, YANG Yue-chao
National Key Laboratory of Remote Sensing Information and Imagery Analyzing Technology, Beijing Research Institute of Uranium Geology, Beijing 100029, China
Abstract

In the field of soil digital mapping, precision agriculture and soil resource investigation, the study of aerial hyperspectral data to provide scientific prediction results by aerial hyperspectral have become the focus of research, especially in the case of black soil rich in nutrients in Northeast China. Compared with the main components of soil in the black soil, selenium is a trace element, whose effect on the normal growth of crops is as important as a large number of elements, and it is also a necessary nutrient element for human. In this paper, an indirect extraction model based on the main component is created for the retrieval of selenium content. This model can significantly increase the regression coefficient of selenium content and reduce the error between the measured value and the predicted value. The data source is CASI-1500 aerial hyperspectral imaging system with a spectral range of 380~1 050 nm, and a spatial resolution of 1.5 m. 60 soil samples were collected from the Jiansanjiang area of Heilongjiang. The data of selenium, organic matter, total iron, pH and calcium oxide content were obtained. The BP neural network was selected to establish the inversion model of spectrum and content. In addition, the law of spectral change in the visible and near infrared range of different content of black soil composition was analyzed, and the rule that the spectral reflectance would increase gradually as the content of selenium increased. However, when the selenium content was low, the law would gradually weaken until the other components are disturbed. The spectral characteristics of organic matter were opposite to that of selenium. In general, the reflectance decreases as the content increases, which is closely related to the spectral properties of organic matter. The spectra of the total iron showed similar laws with the organic matter spectrum, indicating that the two have high correlation. The spectral characteristics and detection values of different pH values and calcium oxide contents did not show obvious characteristics, and the law of reflection was not obvious. The correlation coefficients of nutrient contents in different nutrient contents of 60 sampling points were obtained by bands. The results show that the correlation coefficient of each band of pH is the highest, the mean value is 0.63, the second is the correlation coefficient of total iron, 0.54, the correlation coefficient of organic matter and calcium oxide is close to 0.42 and 0.47, while the average correlation coefficient of selenium element content and bands is the lowest, which is 0.38. The first 5 bands with higher correlation coefficients are selected as modeling bands. The characteristics of selenium are 447, 437, 456, 466 and 475 nm; the characteristic bands of organic matter are 447, 456, 466, 437 and 475 nm; the characteristic bands of the whole iron are 752, 695, 800, 762 and 733 nm, and the characteristics of pH are 905, 752 and 695 nm. By calculating the correlation coefficient of sample point selenium content and other components, selenium has a positive correlation with organic matter, and the correlation coefficient is 0.79. The correlation coefficient is negatively correlated with total iron, pH and calcium oxide, and the correlation coefficients are -0.80, -0.94 and -0.69, respectively. In view of the high precision of the inversion of organic matter, total iron, pH and calcium oxide, while the content of selenium is low and the accuracy of direct inversion is insufficient, a method of extracting the functional relationship of selenium elements by extracting the content of four components is designed, and the content of selenium elements is indirectly retrieved. First, the five components and characteristic spectra are analyzed by using neural network, and the regression coefficients R2 and RMSE of each component are calculated. It is concluded that total iron and pH have higher inversion accuracy, while organic matter and calcium oxide coefficient are lower than 0.8, but they are also significantly higher than those of selenium. A regression model for the content of selenium and other four components was obtained, and Se=0.522 9+0.041 8 Som-0.016 6 Fe2O3-0.035 6 pH-0.005 CaO. The selenium element was extracted indirectly, the regression coefficient increased from 0.516 to 0.724, the root mean square error was reduced from 0.182 to 0.136 based on this model, which improved the accuracy of the selenium content inversion, and provided a new technique for the precise mapping of selenium elements in a large scale.

Keyword: Selenium content; Northeast black soil; Aerial hyperspectral; Neural network; Visible-near infrared
引 言

广义上, 地壳中含量范围为百万分之几到十万分之几, 一般不超过千分之几的元素, 称为微量元素或痕量元素, 土壤中微量元素包括硒、 硼、 锌、 钼、 铁、 锰、 铜等营养元素[1]。 硒元素相对于黑土土壤的主要成分属于微量元素, 但其对作物的正常生长的作用与大量元素是同等重要的, 亦是人体健康所必要的营养元素。

近年来, 在对土地资源定量评估工作中, 高光谱遥感一直处于前沿领域, 且在提取有机质、 重金属、 盐分和水分等工作中已经发挥了良好的应用效果。 提取模式分为间接法和直接法[2]。 直接法是通过分析土壤成分与土壤可见光-近红外反射光谱之间的相关性, 直接建立回归方程提取成分含量[3]。 在硒元素这类微量元素提取中, 由于硒的光谱特征极其微弱, 直接建模的难度很大, 较多是基于光谱与土壤理化性质的回归关系实现间接提取。

利用土壤有机质含量与有效元素含量之间的相关性, 探讨间接估算土壤有效元素含量的可行性[4]。 对东北平原土壤硒分布特征及影响因素进行统计分析, 得出铁锰氧化物、 有机质、 土壤类型、 质地等理化性质对硒具有明显的富集作用, 后期人类活动也是影响硒富集的主要因素[5]。 土壤各赋存形态硒的含量受土壤理化性质直接和间接作用的影响。 经计算, 土壤有效铁、 锰及黏粒含量对总硒有较强的富集作用。 通过回归模型的建立, 相关系数最高达到了0.845[6]。 在室内测量了97个土壤样品, 选择PLSR方法建立了土壤含量与不同分辨率光谱的模型, 验证了方法的有效性[7]

在土壤成分高光谱反演中, 有机质、 全铁、 氧化钙等成分的光学机理明确, 特征波段能够较好确定。 黑土有机质含量在710 nm处相关系数达到-0.83[8]; 三价铁在870 nm附近有吸收峰, 通过建立相应的回归预测模型, 对土壤氧化铁含量提取精度达到了0.534[9]; 文献[10]报道了可见光和热红外反射率数据反演土壤钙含量的研究, 利用建立的一套自动计算软件, 试验了总共有2 880个模型的预测效果, 证明了数据挖掘方法及其处理方案的有效性。

本文提出了一种间接从高光谱数据中提取硒含量的新方法。 以东北建三江地区为研究区, 在获取航空高光谱和地面化验数据的基础上, 研究了不同含量下的黑土主要成分光谱特征, 掌握硒、 有机质、 全铁、 pH和氧化钙等5种成分在可见-近红波段范围内光谱变换规律。 逐波段计算成分含量相关系数后, 得出每种成分的特征波段。 建立了一个基于主要成分的间接提取模型, 该模型能够显著提升硒含量回归系数, 降低实测值与预测值的误差。

1 实验部分
1.1 研究区概况

研究区位于黑龙江省建三江地区, 测区经纬度范围为: 左上132° 44'34″E, 47° 16'33″N, 右下132° 51'55″E, 47° 13'39″N, 长9.27 km, 宽5.36 km, 面积约50 km2(图1)。 黑土资源丰富, 土地集中连片, 三江环绕, 地势平坦, 有“ 中国绿色米都” 之誉。 地形标高50~60 m, 由黄土状粉质粘土、 淤泥质粉质粘土构成。 腐殖质富集, 加之母质粘重, 水不能迅速下渗, 缓慢淋滤形成黑土层。 表层为黑色腐殖质层(A), 厚30~60 cm, 多具圆柱状或粒状结构; 其下为质地粘重的淀积层, 棕色铁锰结核一般较多, 再下为棕黄色粘性母质层。

图1 研究区及样点布置Fig.1 Location of study fields and sampling points map

1.2 数据采集

航空数据由CASI-1500航空高光谱成像系统(加拿大ITRES)获取。 光谱范围为380~1 050 nm, 空间分辨率为1.5 m, 连续光谱通道数55, 光谱带宽10 nm, 总视场角40° , 瞬时视场角0.028° , 每行像元数1 470, 绝对辐射精度小于< 2%, 飞行高度3 km, 获取时间为2017年4月14日正午12:10— 12:50。 地面铺设黑白布, 采用ASD Field Spec光谱仪获取定标光谱, 光谱范围为350~2 500 nm, 采集光谱分辨率为1 nm。

地面采样点60个, 样本1的坐标为132.747E, 47.232N, 样本60的坐标为132.857E, 47.272N, 按0.75 km间隔采集土样。 当天同步采集表层0~20 cm的土样, 剔除大的植物残茬、 石砺等杂物, 置于实验室风干研磨, 过0.15 mm筛选用于含量测定。 硒元素采用邻苯二胺法测定, 有机质采用重铬酸钾容量-外加热法测定, 全铁、 pH和氧化钙含量分别采用火焰原子吸收分光光度法、 玻璃电极法和原子吸收光谱法测定。 样本1~45用于训练集, 其余15个样本用于预测(表1)。

表1 不同样本点土壤成分含量统计 Table 1 Soil content at different sample points
1.3 高光谱数据预处理

航空高光谱数据获取时, 机上惯导系统和定位系统记录了每一个像元的位置参数(X, Y, Z)和姿态参数(Roll, Pitch, Heading), 通过每一帧图像的GPS时间, 将坐标赋值给该象元, 完成几何校正。

电磁波在传输过程中, 受大气的散射、 反射和吸收作用, 高光谱传感器所接收的地物目标电磁波谱与地物标准光谱存在失真。 采用FLAASH算法进行大气校正, 需要用到观测视场角、 太阳角度、 平均海拔高度, 以及假设的大气模型、 气溶胶类型和能见度范围。

1.4 神经网络算法

光谱与含量的建模采用BP神经网络法(back propagation neural networks)算法, 分为三层结构, 输入层、 隐藏层和输出层。 在神经元响应函数连续可微的条件下, 利用误差的反向传播建立模型。 建模方法为: 选取“ S” 型函数, 作为神经元的激活函数, 输出为y=f2(w2f1(w1x+b1)+b2), 式中, y为土壤成分预测值的输出层, x为光谱特征参数x'的输入层, f1f2为隐藏和输出层的传递函数, b1b2为隐藏和输出层的偏差, w1w2为隐藏和输出层的权重。

构建一个4层神经网络, 即18-5-3-1, 含有2个隐层。 神经元学习率为4, 采用最小均方根误差法设置训练误差函数, 隐藏层神经元激励函数为传递函数tansig, 输出层神经元激励函数为线性函数purelin, 训练权值更新方法为含有动量的自适应梯度下降法ADAPTgdwm。

1.5 精度验证

硒元素反演后, 采用相关系数(correlation coefficient, r)和均方根误差(root mean square error, RMSE)来评估所建模型的预测能力。 一般情况下, 预测能力强的模型具有较高的相关系数, 以及较低的均方根误差, 且建模集和预测集间的差异越小越好。

2 结果与讨论
2.1 不同含量的黑土成分光谱特征

将60个黑土样本按5种成分含量大小排序, 分析其在可见-近红波段范围内光谱变换规律(图2)。 总体上看, 硒元素含量越高, 光谱反射率越高, 但硒含量较低时, 土壤中其他成分的干扰下, 这一规律会逐渐减弱, 直至不显著。 有机质的光谱特征与硒元素相反, 总体上随着含量的增高, 反射率整体下降, 这与有机质的光谱特性紧密相关。 全铁光谱呈现出与有机质光谱类似的规律, 说明二者具有较高的相关性。 不同pH值和氧化钙含量的光谱特征与检测值没有呈现出明显的特征规律, 反射规律不明显。

图2 黑土不同成分含量的光谱特征
(a): 不同硒含量; (b): 不同有机质含量; (c): 不同全铁含量; (d): 不同pH值; (e): 不同氧化钙含量
Fig.2 Spectral characteristics of the different components contents in black soil
(a): Different selenium contents; (b): Different organic matter contents; (c): Different total Fe contents; (d): Different pH values; (e): Different CaO contents

2.2 逐波段成分含量相关关系

对60个采样点进行逐波段求反射率对养分的相关系数(图3)。 结果表明, pH值各个波段相关系数最高, 均值达到0.63; 其次是全铁的相关系数, 为0.54; 有机质和氧化钙的相关系数接近, 分别为0.42和0.47; 而硒元素含量与逐波段的平均相关系数最低, 为0.38。 选取相关系数较高的前5个波段, 作为建模波段。 硒的入选波段为447, 437, 456, 466和475 nm; 有机质入选波段为447, 456, 466, 437和475 nm; 全铁入选波段为752, 695, 800, 762和733 nm; pH入选波段为905, 752, 800, 943和695 nm; 氧化钙入选波段为752, 695, 800, 523和762 nm。

图3 逐波段对黑土成分含量的相关关系图Fig.3 Correlation diagrams of black soil content by bands

2.3 一种间接建模提取硒含量方法

2.3.1 硒含量与其他四种成分含量的相关系数

前人研究得出: 铁锰氧化物、 有机质等理化性指标对土壤硒具有较强的影响作用, 是硒表生富集的主要因素之一, 而pH和CaO等对硒具有贫化作用[7]。 通过计算样本点硒含量与其他成分的相关系数, 硒与有机质呈正相关, 相关系数为0.79; 与全铁、 pH、 氧化钙呈负相关, 相关系数分别为-0.80, -0.94和-0.69, 与文献的结论一致。

2.3.2 通过四种成分间接反演硒含量

鉴于其他四种成分与硒元素含量关系明确, 相关系数均较高, 设计了一种先提取四种成分含量, 再根据其提取结果建立硒元素函数关系, 间接反演硒元素含量。 首先将五种成分与特征光谱进行神经网络分析, 计算每种成分的回归系数R2和RMSE。 得出全铁和pH具有较高的反演精度, 有机质和氧化钙归系数虽低于0.8, 但也显著高于硒元素的反演精度。 建立硒元素与其他四种成分含量的回归模型, 得出Se=0.522 9+0.041 8Som-0.016 6Fe2O3-0.035 6pH-0.005CaO, 进行硒元素间接提取, 回归系数从0.516增长到0.724, 均方根误差也从0.182降低到0.136, 间接法显著改进了反演硒含量的精度(表2)。

表2 直接法和间接提取成分含量精度对比 Table 2 Comparison of accuracy between direct and indirect extraction methods

2.3.3 制图与精度评价

将光谱特征法预测值与实测值进行对比, 回归系数为0.617 6, 而本间接法预测硒元素含量与实测值对比, 回归系数达到了0.731 7, 预测结果更精确, 显示了本方法对黑土硒反演的有效性(图4)。 分别对有机质、 全铁、 pH和氧化钙进行光谱特征提取, 作空间制图。 将这四个图层作为自变量, 输入本硒含量间接反演模型种, 得出硒元素空间分布图(图5)。

图4 硒含量预测和实测对比图
(a): 直接法; (b): 间接法
Fig.4 Prediction and measurement of selenium content
(a): Direct method; (b): Indirect method

图5 间接法硒元素提取空间分布图Fig.5 Spatial distribution map of extraction of selenium elements by indirect method

3 结 论

随着我国民众对生态农业和绿色食品需求的提升, 高效快速地进行土壤硒含量评价成为研究热点。 高光谱遥感独特的技术优势, 能够同步获取大量波段数据。 在研究区开展这一工作中, 发现有机质、 全铁、 pH和氧化钙反演精度较高, 而硒元素含量较低, 直接反演精度不足。 针对这一问题, 提出了一种间接法提取硒含量的新方法, 该方法显著提升了硒成分的预测精度, 为硒元素大范围精确制图提供了一种新技术。

参考文献
[1] Mezned N, Mechergui M, Alayet F, et. al. Geoscience & Remote Sensing Symposium, 2016, 4541. [本文引用:1]
[2] ZHANG Dong-hui, ZHAO Ying-jun, LU Dong-hua, et al(张东辉, 赵英俊, 陆冬华, ). Chinese Journal of Soil Science(土壤通报), 2018, 49(1): 17. [本文引用:1]
[3] Daniel Žížala, Tereza Zádorová, Jiří Kapička. Remote Sens. , 2017, 9(1): 28. [本文引用:1]
[4] SONG Di-si, SHENG Hao, ZHOU Qing, et al(宋迪思, 盛浩, 周清, ). Chinese Journal of Soil Science(土壤通报), 2016, 47(1): 1. [本文引用:1]
[5] DAI Hui-min, GONG Chuan-dong, DONG Bei, et al(戴慧敏, 宫传东, 董北, ). Acta Pedologica Sinica(土壤学报), 2015, 52(6): 153. [本文引用:1]
[6] XU Qiang, CHI Feng-qin, KUANG En-jun, et al(徐强, 迟凤琴, 匡恩俊, ). Soils(土壤), 2016, 48(5): 992. [本文引用:1]
[7] ZHENG Guang-hui, JIAO Cai-xia, SHANG Gang, et al(郑光辉, 焦彩霞, 赏刚, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(10): 3222. [本文引用:2]
[8] Sarah Malec, Derek Rogge, Uta Heiden, et al. Remote Sens. , 2015, 7(9): 11776. [本文引用:1]
[9] XUE Li-hong, ZHOU Ding-hao, LI Ying, et al(薛利红, 周鼎浩, 李颖, ). Acta Pedologica Sinica(土壤学报), 2014, 51(5): 993. [本文引用:1]
[10] Veronika Kopačková, Eyal Ben-Dor, Nimrod Carmon, et al. Remote Sens. , 2017, 9(2): 134. [本文引用:1]