矿区土壤Cu含量高光谱反演建模
涂宇龙, 邹滨*, 姜晓璐, 陶超, 汤玉奇, 冯徽徽
中南大学有色金属成矿预测与地质环境监测教育部重点实验室, 地球科学与信息物理学院, 湖南 长沙 410083
*通讯联系人 e-mail: 210010@csu.edu.cn

作者简介: 涂宇龙, 1994年生, 中南大学地球科学与信息物理学院硕士研究生 e-mail: 165011045@csu.edu.cn

摘要

为探究高光谱遥感手段反演土壤Cu含量方法的可行性, 以湖南省某矿区为例, 利用ASD地物光谱仪和实验室电感耦合等离子发射光谱法测定83个土壤样品350~2 500 nm光谱信号和Cu含量。 在光谱重采样、 一阶/二阶微分、 标准正态变换预处理对比分析基础上, 分别采用主成分分析与相关分析对潜在建模变量进行初步筛选, 运用逐步回归方法确定最终模型变量, 建立土壤Cu含量反演模型, 基于最优模型识别Cu含量光谱指示特征波段。 结果表明, 相对于传统主成分分析方法, 标准正态变换后的光谱全要素主成分分析逐步回归建模方法因保留土壤样品弱光谱信号能有效提升土壤Cu含量估算能力, R2达0.86, 模型对于预测样本的估计效果较好, 建模样本和预测样本的残差分别为0.76和1.29, 且通过F检验; 360~400, 922~1 009, 1 833~1 890与2 200~2 500 nm波段对研究区土壤Cu含量有较好指示性。 研究结果将丰富南方矿区土壤Cu含量估算典型案例, 同时为发展基于高光谱遥感的土壤环境监测手段提供理论支撑。

关键词: 重金属; 土壤; 高光谱遥感; 主成分分析; 逐步回归
中图分类号:TP79 文献标志码:A
Hyperspectral Remote Sensing Based Modeling of Cu Content in Mining Soil
TU Yu-long, ZOU Bin*, JIANG Xiao-lu, TAO Chao, TANG Yu-qi, FENG Hui-hui
The Key Laboratory of Metallogenic Prediction of Nonferrous Metals and Geological Environment Monitoring (Center South University), Ministry of Education, School of Geoscience and Info-Physics, Changsha 410083, China
Abstract

To explore the feasibility of evaluating soil Cu content with Hyperspectral Remote Sensing method, 83 soil samples were collection from a certain diggings in Hunan Province. Using ASD field spectrometer and Induced Coupled Plasma Atomic Emission Spectrometry collecting the reflectance spectra and Cu content. The reflectance spectra were processing with several method: resampling, first/second derivative, standard normal variate. Based on the transformational spectra, potential modeling variables were selected by using principal component analysis and correlation analysis. Final model with stepwise regression were established. Important wavelengths were recognized that respond to Cu content based on the optimal model. The result showedthat, compared to traditional principal component analysis method, because of retaining the weak spectrum signal, principal component stepwise regression with standard normal variate spectra can improve the accuracy of Cu content estimation ( R2=0.86), and the estimation of predicting samples is effective. The residual error of modeling samples and predicting samples is 0.76 and 1.29, and it passed the F test. In study area, the reflectance on 360~400, 922~1 009, 1 833~1 890 and 2 200~2 500 nm was indicative to Cu content. The study result will enrich a typical case of diggings in South of China, and provide theoretical support for developing method of soil environment monitor based on Hyperspectral Remote Sensing.

Keyword: Heavy metal; Soil; Hyperspectral remote sensing; Principal component analysis; Stepwise regression

引 言

矿产资源开采过程中产生的废渣废液会污染当地土壤和水源, 使得附近农作物土壤重金属含量超标。 Cu是人体必不可少的微量元素, 但一旦土壤Cu含量超标, 过量的Cu通过食物链进入人体、 也会引发疾病。 测定土壤中Cu的含量及空间分布, 有效预防土壤Cu污染对健康的损害是十分必要的。 目前, 基于传统野外取样的实验室化学溶解和原子吸收等铜含量测定方法虽然精度高, 但因成本、 效率问题往往取样稀疏, 难以满足连续调查区域土壤重金属Cu含量空间分布的需求、 同时也不利于开展周期性重复监测[1, 2]

高光谱遥感快速、 动态获取地物连续光谱信号的特点, 为发展基于遥感的土壤重金属含量监测提供了新的思路。 研究表明, 通过提取土壤高光谱指示特征波段, 与土壤有机质、 黏土矿物等组分含量建立关系, 能有效预测有机质、 粘土矿物的含量[3, 4]。 而与此同时, 对重金属与土壤中黏土矿物以及有机质间存在一定吸附作用的揭示[5, 6], 也有力论证了遥感手段定量监测土壤重金属含量的可行性。 至今, 国内外研究人员以河漫滩平原[5]、 矿区[7]、 农田[8, 9, 10]为例, 先后探究了土壤光谱与Cd, Zn, Cu, As和Pb等重金属含量间的响应关系; 成功建立了光谱吸收谷面积、 不对称度等光谱特征参量与重金属含量间的经验统计模型; 在对光谱进行平滑、 微分、 吸收度变换等预处理的基础上, 将不同波段反射率比值、 差值与重金属含量进行了曲线拟合[7], 开展了强相关性波段与重金属含量的多元回归建模[2, 8], 基于光谱主成分的多元回归建模, 以及偏最小二乘回归建模[11]

然而, 尽管上述土壤重金属含量高光谱反演建模中, 主成分分析具有解决光谱多重共线性问题的优势, 但不可忽略的是, 以往研究建立的光谱主成分回归模型出于数据降维目的考虑, 仅选取少数解释方差大的光谱主成分作为变量, 将其余主成分视为噪声剔除。 这一建模过程很容易直接剔除作为弱信号的重金属含量特征在土壤光谱信号中的表现, 使得主成分回归建模在基于光谱的土壤重金属含量反演建模中失效。 因此, 充分利用现有主成分建模研究中被剔除的“ 无效” 光谱信号, 理论上能重拾土壤光谱中的重金属弱信息, 提升基于高光谱的土壤重金属含量反演能力。

1 实验部分
1.1 研究区与土壤取样

选取湖南省某矿区为例, 矿区位于湖南境内资江水系上游, 属东江湖库区六大采矿区之一。 地形以山地和丘陵为主, 海拔335~451 m; 植被覆盖率高, 土壤以黄色粘土和红壤为主。 矿区内矿物资源丰富, 工矿企业密集, 数十年矿产开采产生的矿渣以及废液渗入当地土壤, 导致大量重金属累积, 严重污染当地土壤与农作物, 威胁人体健康、 湘江和下游洞庭湖的生态安全。

图1 研究区采样点分布Fig.1 The distribution of sampling site in study area

依据矿尾、 矿井、 炼矿厂位置布设采样点, 在每个采样点10m2范围内采用五点采样法采集表层20 cm土壤, 混合均匀后取约500 g样本装入密封专用塑料袋取回。 共收集土壤样品83个。 取样过程中, 使用GPS记录WGS84框架下样点位置经纬度坐标及其高程数据, 并为采样点编号。

1.2 土壤Cu含量与光谱测定

土壤样本采集后, 首先在阴凉通风室内风干, 去除土壤中石块、 植物碎片等杂质; 然后采用陶瓷用具研磨、 过100目尼龙筛, 按样本编号分别封装; 最后对封装土壤样本进行盐酸、 硝酸、 高氯酸消解, 使用电感耦合等离子发射光谱法(USEPA 6010C: 2007)测定土壤Cu含量。

采用PSR-3500便携式地物光谱仪测量室内土壤样本光谱曲线, 测试光源为1 000 W卤素灯, 5° 视场角, 光源照射方向与垂直方向夹角15° ; 光源距离设置为30 cm, 探头距离5 cm; 探头保持与土壤样本平面成45° 角。 测试前进行白板定标, 获取绝对反射率; 每个土样重复测定350~2 500 nm光谱波段范围10条反射光谱曲线, 取算术平均值作为该土样的实际反射光谱数据。 光谱分辨率: 350~1 000 nm为1.5 nm, 1 000~1 900 nm为3.8 nm, 1 900~2 500 nm为2.5 nm。

1.3 光谱数据预处理

针对土壤光谱测定中存在随机误差、 且重金属光谱响应信号微弱、 原始光谱数据难以直接反映其特征波段的特点, 采用光谱重采样、 光谱微分以及标准正态变换方法对光谱数据进行预处理, 增强光谱响应特征波段。

1.3.1 光谱重采样

高光谱数据相邻波段往往高度相关, 存在信息冗余。 重采样能降低波段之间的相关性, 提高数据处理效率、 方便模型建立。 对PSR-3500野外便携式地物光谱仪采集的350~2 500 nm间的1 024个波段进行间隔为10 nm的重采样, 算术平均值计算后的重采样波段数为216个。

1.3.2 光谱微分

微分在信号提取中可以消除部分共有系统误差。 二阶微分除具有一阶微分消去基线漂移的作用之外, 还可以消去线性趋势。 但顾及微分信号提取中对噪声的放大, 用差分近似对离散光谱数据进行微分, 方法如下

R'i=Ri-Ri-1wi-wi-1(2)Ri=R'i-R'i-1wi-wi-1(3)

式中, Ri表示第i个波段光谱的反射率, wi表示第i个波段的波长。

1.3.3 标准正态变换

光谱测量的过程中, 由于探头与样本的距离难以精确控制, 因此光谱容易产生乘性噪声, 标准正态变换可去除光谱乘性噪声, 计算方法为

Ri* =Ri-R̅σR(4)

式(4)中, Ri表示第i个波段光谱的反射率, R̅表示一个样本光谱反射率均值, σ R表示一个样本光谱反射率的标准差。

1.4 变量筛选与模型建立

合理地选择光谱特征自变量是基于遥感高光谱手段建立土壤重金属含量模型的基础, 因此在对样本光谱做重采样、 一阶/二阶微分、 标准正态变换等预处理基础上合理提取其主成分分析结果和强相关性分析波段并分别建立逐步回归模型, 是优选最终模型的关键步骤。

1.4.1 主成分分析

主成分分析是消除高光谱各波段间多重共线性的一种有效手段。 通过主成分变换, 将预处理后的光谱转变为线性无关主成分变量, 计算公式为

Cj=v1jX1+v2jX2++vmjXm(5)

式(5)中, 第i个波段反射率用Xi表示; 变换后成分用Cj表示, 其系数是m个变量相关系数矩阵第j个特征值对应的特征向量。 为避免有效弱信号在回归建模过程中的误舍弃, 将提取的光谱全部主成分Cj均保留为模型自变量, 运用逐步回归建模方法筛选能够对含量因变量起解释作用的主成分。

1.4.2 相关性分析

相关性分析可以反映两个变量间线性关系的强弱, 本研究中波段光谱反射率与样本重金属含量间Pearson相关系数可用于表征指示土壤重金属含量差异的强相关波段, 计算公式为

r=E[(Xi-X̅i)(Y-Y̅)]σXiσY(6)

式(6)中, Xi代表光谱第i个波段反射率, Y代表样本重金属含量, σ 代表标准差, 相关系数t检验过程中0.05水平显著的波段为强相关波段。

1.4.3 逐步回归建模

逐步回归具有在建模过程中依次引入自变量、 规避哑变量的特点。 逐步回归建模结果的优劣是最终检验基于高光谱的土壤Cu含量反演可靠性的最好方式。 为对比证实全要素主成分逐步回归建模方法的可靠性, 本研究最终对比建立了强相关性波段逐步回归模型与全要素主成分逐步回归模型, 并与传统主成分回归模型进行了比较。 模型结果选择判定系数R2、 建模样本均方根误差RMSE和验证样本均方根误差RMSEp评价, 建模样本和验证样本残差的F检验作为评判模型预测能力的标准。

2 结果与讨论
2.1 土壤Cu含量描述性统计分析

土壤Cu含量描述性统计分析结果如表1所示。 可以发现, 研究区土壤Cu含量总体较低, 样本均值低于国家土壤环境质量标准(GB 15618— 1995)一级污染标准(35 mg· kg-1)。 但在83个采样点中, 6个点的样本Cu含量超过二级污染标准(50 mg· kg-1), 点位超标率为7.2%, 最高值达120.52 mg· kg-1, 属严重超标。 土壤Cu含量统计值标准差较大, 说明研究区污染差异较大。 χ 2检验(值28.82> χ0.12=4.61)表明整体呈现偏态分布的83个土壤样本Cu含量数据在0.1的显著水平下不服从正态分布。 在剔除特异值的基础上通过Box-Cox法对初始数据进行正态变换, 最终保留有效样本70个, 并按10%比例均匀提取7个检验样本。

表1 研究区土壤Cu含量描述性统计结果 Table 1 Statistic of soil Cu content in study area
2.2 强相关性波段逐步回归模型

图2是土壤样本原始光谱曲线。 如图2所示, 1 000 nm之前样本光谱反射率随着波长增长迅速上升, 且在630, 720和850 nm处存在微小吸收谷, 在1 000 nm附近存在微小反射峰。 相对而言, 1 000~1 850 nm波段光谱反射率变化较为平稳, 仅在1 400 nm处有一个吸收谷; 1 850 nm之后波段, 样本光谱反射率曲线起伏较大, 在1 920与2 200 nm处有两个较大的吸收谷。 计算土壤Cu含量与不同预处理后光谱间的Pearson相关系数, 结果如图3所示。 结果表明, 标准正态变换和微分处理光谱与土壤Cu含量间的相关系数曲线均有明显峰值。 其中, 标准正态变换后光谱与土壤Cu含量显著相关波段主要集中于400, 900和2 000 nm波段附近; 而微分处理后光谱与土壤Cu含量显著相关波段较多但分散。 重采样和平滑后光谱所有波段相关性均处于同一水平。 表2展示了不同预处理下光谱强相关性波段逐步回归模型。 其中以微分、 二阶微分光谱波段为输入建立的模型R2较高, 但差异显著的验证样本残差与建模样本残差揭示模型预测能力较不理想。 相对而言, 尽管基于原始光谱强相关性波段建立的模型通过了验证样本残差检验, 但因模型本身R2太低、 无统计意义。 可见, 借助相关性分析手段筛选强相关波段的方法并不能很好地建立光谱特征波段与土壤Cu含量间的定量关联。

图2 70个土壤样本的原始光谱反射率曲线Fig.2 Original reflectance spectra of 70 soil samples

图3 不同光谱预处理模式下土壤Cu含量与波段相关性分析结果
“ +” 标记波段显著
Fig.3 Correlation analysis between Cu content and wavelength with different preprocessing methods
The waveband marked with “ +” is significant

表2 土壤Cu含量强相关波段逐步回归建模结果 Table 2 Result of soil Cu content stepwise regression modeling based on significant correlation bands
2.3 全要素主成分逐步回归模型

表3显示了传统主成分回归和全要素主成分逐步回归后的建模结果。 结果表明, 全要素主成分逐步回归模型精度总体高于传统主成分回归方法。 全要素主成分逐步回归方法最优模型R2为0.86, 建模、 预测样本残差分别为0.76和1.29, 传统主成分回归最优模型R2为0.51, 建模、 预测样本残差1.40和2.04。 这一结果证实主成分中的光谱中弱信号参与建模可以有效提升基于遥感光谱的土壤重金属铜含量反演模型的精度。 具体而言, 全要素主成分逐步回归对基于原始光谱建立的模型效果改善最显著, R2从0.09提升到0.42, 这说明逐步回归能够有效避免将原始光谱中以系统噪声为主的主成分选入。 与此同时, 基于重采样光谱的主成分回归模型建模失败, 而全要素主成分逐步回归预测样本残差为4.83, 建模样本残差为0.64, F检验值远大于临界值F0.95(63, 7)=3.3, 说明模型出现了过拟合现象, 预测效果较差。

表3 土壤Cu含量全要素主成分逐步回归建模与传统主成分回归建模预测精度对比 Table 3 Comparison of soil Cu content estimate precision between total factor principal component stepwise regression and traditional principal component regression

图4表示了全要素主成分逐步回归与传统主成分回归方法最优模型的实测值、 预测值关系。 如图4所示, 基于标准正态变换光谱建立全要素主成分逐步回归模型为最优模型, 样本散点集中在1∶ 1的线附近, 预测样本散点基本落入95%的置信区间内, 能够较好地预测未知样本。 相对而言, 利用原始光谱和微分光谱建立的全要素主成分逐步回归模型得到的置信区间较大, 预测可靠性低。 此外, 将2.1中剔除的样本光谱代入本模型的检验表明, 在所建立的模型中, 模型对高浓度样本的估计值相比实际值均偏低, 并且随着样本浓度值的增大, 估计值偏离程度越大。 由此证明因本研究高浓度样本较少, 且数据分布情况不够理想, 所建立的模型多适用于低浓度土壤Cu含量估计。

图4 全要素主成分逐步回归与传统主成分回归模型散点图比较
(a), (c), (e), (g): 全要素主成分逐步回归建模散点图; (b), (d), (f), (h): 主成分回归建模散点图
Fig.4 Plots of measured Cu against the value predicted by total factors principal component stepwise regression and traditional principal component regression
(a), (c), (e), (g): Total factor principal component stepwise regression; (b), (d), (f), (h): Principal component regression

2.4 特征波段识别

相对于相关分析直接基于相关系数判定特征波段而言, 基于主成分回归建模方法需要将主成分回归系数做如式(5)的逆变换, 得到每个波段对模型的贡献, 从而识别特征波段。 图5表明, 全要素主成分逐步回归模型回归系数在360~400, 922~1 009, 1 833~1 890以及2 200~2 500 nm附近存在较为明显的峰值, 与标准正态变换光谱相关性分析识别的特征波段相近, 证实了这三处波段光谱的统计意义。 图5(a)和(c)表明, 当主成分回归模型对原始光谱特征以及标准正态光谱波段识别不敏感时, 全要素主成分逐步回归系数揭示1 680~1 753 nm对预测土壤Cu含量有贡献。 相对而言, 图5(b)中基于微分光谱建立的主成分回归模型与全要素主成分逐步回归模型两者识别的特征波段总体上相近, 但主成分回归模型无法识别1 900 nm附近这个可由全要素主成分逐步回归方法有效提取的波段, 结果实际上也再次肯定了光谱弱信号与土壤Cu含量反演间的重要联系。

图5 主成分回归与全要素主成分逐步回归系数结果对比
(a): 标准正态变换; (b): 一阶微分; (c): 原始光谱; (d): 二阶微分
Fig.5 Coefficient of with principal component regression and total factor principal component stepwise regression
(a): Standard normal variate; (b): First derivative; (c): Original spectrum; (d): Second derivative

对比前人研究, 本研究中识别的遥感反演土壤重金属Cu的特征波段有一定相似性也有一定的差异。 相似之处在于, 相对于本研究识别的922~1 009以及2 200~2 500 nm特征波段, 王维发现农用地土壤重金属Cu的特征波段为830, 1 000和2 250 nm[8], 解宪丽认为江西铜冶炼厂附近土壤964与969 nm波段的光谱反射率差值与Cu含量有良好的相关性[12], Choe等认为运用矿区河流沉积物610与500 nm光谱反射率比值、 2 200 nm波段的吸收面积能预测其中的Cu含量[7]。 分析原因, 1 000和2 200 nm附近分别是铁氧化物和有机质的特征波段, 研究区土壤以红土、 黄色黏土为主, 铁氧化物、 有机质等含量较高, 容易吸附重金属Cu。 与以往研究不同的是, 因不同土壤类型重金属富集机理差异, 发现了对铜含量估算起显著作用的360~400, 1 680~1 753以及1 833~1 890 nm特征波段。 由此也证实, 在未来的高光谱土壤重金属反演的研究中, 针对不同土壤类型地区开展重金属含量反演模型特征波段对比以及模型普适性检验的工作是非常有必要的。 对于实现涵盖多种土壤类型的大范围光谱土壤重金属反演, 这是需要探究并攻克的问题。

3 结 论

以湖南某矿区为例, 本研究建立了不同预处理方法下土壤高光谱数据与Cu含量的全要素主成分逐步回归模型, 并通过与传统主成分回归模型和相关性逐步回归模型对比验证各模型的预测能力。 结果表明: (1)相对原始光谱、 微分和二阶微分等光谱预处理方法, 基于标准正态变换光谱建立的全要素主成分逐步回归模型精度最高; (2)运用相关性分析选择潜在特征波段建立土壤重金属含量反演模型的效果不佳, 识别的特征波段往往不能包含具有典型弱信号信息的土壤重金属光谱特征; (3)相比传统主成分回归, 全要素主成分逐步回归模型预测土壤Cu含量精度有改善, 证实光谱中的弱信号对土壤中的Cu含量有指示作用, 不应将其视为噪声剔除; (4)研究区土攘中Cu含量指示特征波段主要为360~400, 1 680~1 753以及1 833~1 890 nm, 中其部分特征波段与铁氧化物以及有机质响应波段一致。

The authors have declared that no competing interests exist.

参考文献
[1] Zou B, Jiang X L, Duan X L, et al. Scientific Reports, 2017, 7(1): 341. [本文引用:1]
[2] XU Ming-xing, WU Shao-hua, ZHOU Sheng-lu, et al(徐明星, 吴绍华, 周生路, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2011, 30(2): 109. [本文引用:2]
[3] XU Ming-xing, ZHOU Sheng-lu, DING-Wei, et al(徐明星, 周生路, 丁卫, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2011, 27(2): 219. [本文引用:1]
[4] YAO Yan-min, WEI Na, TANG Peng-qin, et al(姚艳敏, 魏娜, 唐鹏钦, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2011, 27(8): 95. [本文引用:1]
[5] Liu Y L, Chen Y Y. Soil and Sediment Contamination: An International Journal, 2012, 21(8): 951. [本文引用:2]
[6] Wang J, Cui L, Gao W, et al. Geoderma, 2014, 216(4): 1. [本文引用:1]
[7] Choe E, Meer F V D, Ruitenbeek F V, et al. Remote Sensing of Environment, 2008, 112(7): 3222. [本文引用:3]
[8] WANG Wei, SHEN Run-ping, JI Cao-xiang(王维, 沈润平, 吉曹翔). Remote Sensing Technology and Application(遥感技术与应用), 2011, 26(3): 348. [本文引用:3]
[9] Shi T Z, Chen Y Y, Liu Y L, et al. Journal of Hazardous Materials, 2014, 265: 166. [本文引用:1]
[10] Soriano-Disla J M, Janik L, Mclaughlin M J, et al. Applied Geochemistry, 2013, 39(8): 33. [本文引用:1]
[11] HUANG Chang-ping, LIU Bo, ZHANG Xia, et al(黄长平, 刘波, 张霞, ). Remote Sensing Technology and Application(遥感技术与应用), 2010, 25(3): 353. [本文引用:1]
[12] XIE Xian-li, SUN Bo, HAO Jiang-tao(解宪丽, 孙波, 郝江涛). Acta Peologica Sinica(土壤学报), 2007, 44(6): 982. [本文引用:1]