土壤重金属铅、 锌高光谱反演模型可迁移能力分析研究
陶超1,*, 王亚晋1, 邹滨1,2, 涂宇龙1, 姜晓璐1
1. 中南大学有色金属成矿预测与地质环境监测教育部重点实验室, 地球科学与信息物理学院, 湖南 长沙 410083
2. 国家重金属污染防治工程技术研究中心, 湖南 长沙 410083

作者简介: 王亚晋, 女, 1993年生, 中南大学地球科学与信息物理学院硕士研究生 e-mail: wyj165011042@163.com

摘要

现有基于高光谱遥感技术的土壤重金属含量反演模型, 大多是采用同一试验区且有限的样本点进行定量反演建模。 但考虑到实际应用需求, 该类模型在不同试验区是否具有较好的迁移推广能力是目前迫切需要回答的问题。 如不可行, 是否存在其他可行手段用于土壤重金属污染评估? 为回答上述问题, 选取湖南省郴州市和衡阳市两铅锌矿区作为实验研究区, 并首先利用郴州地区采样点分别对Pb和Zn两种重金属进行定量回归建模和定性分类建模, 然后比较两种模型在衡阳实验区的可迁移能力。 实验结果表明: (1)基于偏最小二乘回归(PLSR)的定量回归模型可迁移能力较差。 分别采用四种光谱预处理方式建模, 发现回归模型对异地采样的预测精度很低, 难以正确反演衡阳试验区重金属Pb和Zn的含量。 (2)基于支持向量机(SVM)分类的定性反演模型具有一定的可迁移能力, 以郴州地区采样数据训练得到的SVM分类模型能有效判定衡阳试验区Pb、 Zn的污染状况, 分类精度分别达到84.78%和86.96%。 结果表明, 在快速检测土壤重金属污染状况的问题上, 定性分类是一种更加切实可行的方式。

关键词: 重金属污染; 高光谱; 可迁移分析; SVM分类; 偏最小二乘回归
中图分类号:O657.3 文献标志码:A
Assessment and Analysis of Migrations of Heavy Metal Lead and Zinc in Soil with Hyperspectral Inversion Model
TAO Chao1,*, WANG Ya-jin1, ZOU Bin1,2, TU Yu-long1, JIANG Xiao-lu1
1. The Key Laboratory of Metallogenic Prediction of Nonferrous Metals and Geological Environment Monitoring (Center South University), Ministry of Education, School of Geoscience and Info-physics, Changsha 410083, China
2. Chinese National Engineering Research Center for Control & Treatment of Heavy Metal Pollution, Changsha 410083, China;
Abstract

The existing model of soil heavy metal content reversal model by hyperspectral remote sensing technology is mostly based on the limited sample points of the same study area. However, considering the practical application requirements, whether the model has a good migrate ability is an urgent question. If it is not feasible, is there any other feasible means for soil heavy metal pollution assessment? In order to answer the above-mentioned questions, this paper selects two lead-zinc mines in Chenzhou City and Hengyang City as research areas. The quantitative inversion and qualitative classification of heavy metals Pb and Zn were carried out using the sampling sites in Chenzhou area to compare the two models in Hengyang City of the migrate ability. Experiments show that: (1) Quantitative inversion model based on Partial least squares regression (PLSR) has poor migration ability. The regression model was established by four spectral preprocessing methods. It was found that the prediction accuracy of the model was very low, and it was difficult to correctly invert the contents of Pb and Zn in Hengyang research area. (2) Support vector machine (SVM) classification of qualitative inversion model has a certain ability to migrate. Based on Chenzhou area sampling data, training SVM classification model can effectively predict the Hengyang research area Pb and Zn pollution situation, the prediction accuracies are 84.78% and 86.96%, respectively. The results show that qualitative classification is a more practical way to detect soil heavy metal pollution rapidly.

Keyword: Heavy metal pollution; Hyperspectral; Migration analysis; SVM classification; Partial least squares regression
引 言

人类活动导致的土壤重金属污染目前已引起全球的广泛关注[1], 据调查, 我国有超过10%的耕地受到重金属污染。 由于重金属在土壤中难以被微生物降解, 由此产生的累积效应将严重影响农作物的生长[2], 进而造成食品安全和人体健康风险。 因此如何有效快速地检测土壤重金属污染状况并进行防治已成为目前亟待解决的关键问题。

高光谱具有光谱分辨率高, 波段连续性强, 获得光谱信息精细的优势[3], 能有效替代传统的利用稀疏采样点进行空间插值的方式。 近10年来, 利用高光谱遥感技术反演土壤重金属含量已逐渐成为研究热点[4]: 如Kemper[5]采用多元逐步回归和人工神经网络, 估算出西班牙某矿区As, Pb, Cd等六种重金属含量; Eunyoung Choe[6]等基于多元逐步回归绘制出河流沉积物中重金属Pb, Zn等的浓度分布图; 吴昀昭[7]使用单因变量法和偏最小二乘回归模型预测出南京城郊农业土壤Cu, Cd, Pb等8种重金属含量; 黄长平[8]在不同入选波段数和光谱采样间隔下, 基于偏最小二乘回归(partial least squares regression, PLSR)回归分析方法得到预测重金属Cu含量的最佳模型。 谭琨等对比分析多元线性回归, 偏最小二乘回归, 最小二乘支持向量机三种模型反演重金属含量的效果, 指出最小二乘支持向量机的准确性和稳定性最佳。

尽管国内外学者提出了很多反演重金属含量的方法, 但大多是基于样本点数据进行定量分析, 通过回归模型预测重金属含量, 很少讨论模型在其他研究区的适用情况。 针对这一问题, 本文在现有研究基础上, 首次进行了定量反演模型和定性分类模型在不同地域的可迁移能力对比分析实验。 实验中定量分析采用偏最小二乘回归模型, 分别经过四种光谱预处理方式后建立郴州试验区重金属含量回归模型, 选择精度最高的两个模型反演衡阳试验区的重金属含量。 定性分析采用支持向量机模型, 将郴州地区采样点作为训练样本得到的支持向量机(support vector machines, SVM)模型用以判别衡阳地区的重金属污染情况。 实验结果表明SVM分类模型较与PLSR回归模型更能有效地对异地重金属污染状况做出正确判定, 具有一定的可迁移能力。

1 实验部分
1.1 研究区

研究区1位于湖南省郴州市的某铅锌矿区, 当地多种植茶树, 土壤呈酸性, 以红壤为主。 取样点沿道路布设, 共采集83个土壤样本。 研究区2位于湖南省衡阳市的某铅锌矿区, 当地种植水稻等农作物, 土壤呈弱酸性, 以红壤为主, 取样点沿主干道布设, 共采集46个土壤样本。 采样时利用手持GPS Magellan explorist 610测量出采样点的经纬度坐标, 并按序进行样本标号, 将其导入谷歌地图中, 得到两个研究区采样点的空间分布, 如图1所示。

图1 研究区谷歌影像图
(a): 郴州试验区; (b): 衡阳试验区
Fig.1 Google images of the study area
(a): Chenzhou research area; (b): Hengyang research area

1.2 研究方法

1.2.1 土壤采样和光谱测量

采样时在10 m2范围内采用五点采样法采集表层20 cm深度范围内的土壤, 然后混合提取约500 g样本装入密封的专用塑料袋中。 土壤样本采集后, 均在阴凉通风的室内风干, 取出石块, 植物碎片等杂质, 研磨后将样本过100目土壤筛, 分为两部分, 存储在专用的容器中。 一部分用于测定重金属浓度, Pb, Zn的含量通过等离子体发射光谱仪(ICP-8300)电感耦合等离子发射光谱法测定(USEPA-6010C: 2007); 另一部分在实验室内进行光谱测量, 采用PSR-3500野外便携式地物光谱仪, 采样波段范围为350~2 500 nm, 光谱带宽: 350~1 000 nm为1.5 nm, 1 000~1900 nm为3.8 nm, 1 900~2 500 nm为2.5 nm; 光谱分辨率: 350~1 000 nm为3.5 nm, 1 000~1 900 nm为10 nm, 1 900~2 500 nm为7 nm, 一共1 024个波段。

1.2.2 光谱数据预处理及建模方式

为提高计算效率, 首先将1 024个波段每隔10 nm重采样[9], 得到208个波段, 再分别进行一阶微分变换(first derivative)、 标准正态变换(standard normal variate), 基线校正后多元散射校正(baseline correction after multiplicative scatter correction)和包络线去除(continuum removed)四种预处理操作, 如图2所示。 由于测量时易受到环境、 仪器的影响, 光谱预处理可以增强土壤原始光谱曲线的阶跃、 峰、 谷等细节特征, 有利于地物识别和重金属信息的提取[10], 提高信噪比, 增强反演模型的鲁棒性。 其中, 一阶微分变换(以FD表示)对噪声影响的敏感性较低, 可以有效去除光谱信号中的噪声, 消除基线和其他背景的干扰; 标准正态变量变换(以SNV表示)主要用于消除固体颗粒大小、 表面散射以及光程变化对光谱的影响; 基线校正后多元散射校正(以BC-MSC表示)是对土壤光谱进行了双重校正, 可以有效消除样本间散射导致的基线偏移效应[10]; 包络线去除(以CR表示)将反射率数据归一到一个一致的光谱背景上, 能有效突出光谱曲线的吸收和反射特征[3]

图2 不同光谱预处理图像
(a): SNV; (b): BC-MSC; (c): DF; (d): CR
Fig.2 Reflectance spectra with different pretreatments
(a): SNV; (b): BC-MSC; (c): DF; (d): CR

鉴于高光谱数据具有波段数量多, 波段间相关性强的特点, 选用偏最小二乘回归分析方法用于定量分析建模。 偏最小二乘回归通过对系统中的数据信息进行分解和筛选的方式, 可以有效克服变量多重相关性在系统建模中的不良作用, 使分析结果更加可靠, 增强模型的稳健性[11], 建模基于软件Unscrambler 9.7, 提取的成分个数通过交叉验证选择。

实验的定性分析采用支持向量机分类模型。 支持向量机是由Vapnik等提出的一种基于小样本的统计理论[3], SVM分类方法具有适用高维特征空间, 小样本学习, 抗噪声能力强等特点[12]。 针对研究区采样点数量有限, 土壤高光谱波段多的情况, SVM分类能表现出极大的适用性。 实验中, SVM分类基于台湾大学林智仁教授开发的Libsvm软件包在MATLAB 2014a平台上实现, 核函数选择高斯径向基, 参数通过网格搜索法选择最优值。

2 结果与讨论
2.1 研究区土壤污染分析

将两个研究区的样本重金属含量数据导入SPSS 17.0中进行描述分析, 结果如表1所示。 根据土壤环境质量标准(GB15618— 1995)[13], 两个研究区内重金属污染严重, 其中, 郴州地区重金属Pb, Zn的平均含量超过国家二级标准三倍以上, 衡阳地区则超过十倍以上, 即两个研究区的重金属含量都远超出农业生产和人类健康水平的限制值。 通过变异系数分析研究区内重金属的浓度分布, 得出两种重金属在各研究区内变异系数较大, 属于强变异, 原因在于, 有些采样点重金属污染严重, 而有些采样点则不受到污染的影响, 造成样本点的重金属含量空间分布离散化程度大, 不服从正态分布。

表1 重金属含量描述统计分析(mg· kg-1) Table 1 Descriptive statistics for heavy metal concentrations in soil samples (mg· kg-1)
2.2 PLSR定量反演的可迁移性分析实验

将郴州地区83个样本全部用于回归建模, 衡阳地区46个样本用于预测分析。 首先, 利用SPSS进行显著性F检验选取波段数, 选入和剔除值分别设为0.05和0.1。 其次, 将筛选后的波段用于偏最小二乘回归建模, 最终以可决系数R2, 均方根误差RMSE, 相对分析误差RPD衡量模型精度。 模型的精度评价根据Willianms和Saeys提出的理论[14], 当R2> 0.90, RPD> 3.0时, 模型具有极好的预测能力, 当0.82< R2< 0.90, 2.5< RPD< 3.0时, 模型具有很好的预测能力, 当0.66< R2< 0.81, 2.0< RPD< 2.5时, 模型具有较好的预测能力, 当0.50< R2< 0.65, 1.5< RPD< 2.0时, 模型具有适当精度的预测能力, 当R2< 0.50, RPD< 1.5时, 建模失败。 建模结果如表2所示。

表2 PLSR建模结果 Table 2 PLSR modle result

建模结果显示, 经过一阶微分, 标准正态变换, 基线校正后多元散射校正, 包络线去除四种光谱预处理后, 所建立的偏最小二乘回归模型精度各不相同。 可以看到, 对于定量反演模型来说, 并没有特定的最佳光谱预处理方式, 依重金属浓度和类别而异。 实验表明, 光谱分别经过基线校正后多元散射校正和标准正态变换后所建立的偏最小二乘回归模型对同一区域内重金属Pb和Zn的反演精度最高。

为检验模型的可迁移能力, 分别将上述两个反演精度最高的模型应用于预测衡阳地区的重金属Pb和Zn的含量, 实验结果如图3所示。

图3 重金属Pb, Zn的预测结果Fig.3 Predictive model results of heavy metals Pb and Zn
(a): Pb; (b): Zn

分析图中数据, 发现两个模型的预测结果都出现可决系数R2为负的情况, 违背了0≤ R2≤ 1的取值范围, 这是因为基于PLSR模型预测的重金属含量出现大量负值, 造成异常, 使计算的残差平方和(SSE)大于重金属含量实测值的总变异平方和(SST), 且两个模型预测得出的均方根误差RMSE都很大, 分别达到了5 175.9和6 010.0, 表明预测值与实测值的偏离较大, 回归模型的精确性和可靠性较差。 以上实验证明, 在郴州试验区建立的重金属回归模型, 难以预测衡阳试验区的重金属含量, 定量反演模型的推广迁移能力较差。

2.3 SVM定性分类的可迁移性分析实验

实验首先根据重金属浓度, 按照Muller地质积累指数(Igeo)进行污染分级。

Igeo=log2(Cn/1.5Bn)(1)

式中, Cn表示重金属元素的实测含量, Bn表示该元素的背景值。

Igeo的大小分为7个等级, 当Igeo< 0, 污染等级为0, 表示无污染; 当0≤ Igeo< 1, 污染等级为1, 表示轻度污染; 当1≤ Igeo< 2, 污染等级为2, 表示中度污染; 当2≤ Igeo< 3, 污染等级为3, 表示中度污染到重污染; 当3≤ Igeo< 4, 污染等级为4, 表示重污染; 当4≤ Igeo< 5, 污染等级为5, 表示重污染到极重污染; 当Igeo≥ 5, 污染等级为6, 表示极重污染。 由于两个研究区重金属污染严重, 因此将污染等级0级和1级的光谱数据划分为不受污染的一组, 将2级及以上的光谱数据划分为受污染的一组, 统计重金属Pb, Zn的污染分组情况, 如图4所示。

图4 基于Muller地质积累指数的重金属污染分组情况Fig.4 Heavy metal pollution grouping based on muller geological accumulation

为选择最优特征, 分别验证一阶微分(FD), 标准正态变换(SNV), 基线校正后多元散射校正(BC-MSC), 包络线去除(CR)四种光谱预处理方式下的SVM分类精度。 由于SVM分类方法适用于高维特征空间, 因此分类时不进行波段筛选, 输入特征为全波段光谱信息。 实验以高斯径向基作为SVM分类器的核函数, 通过网格搜索法选取最优参数。 将郴州试验区全部样本作为训练集, 随机选取80%的样本作为训练样本, 剩下的20%的样本作为验证样本, 选择分类精度最高时对应的参数值, 建立最终的SVM分类模型, 并统计四种光谱预处理方式下的分类精度, 如表3所示。

表3 不同光谱预处理下的分类精度 Table 3 Classification accuracy under different spectral pretreatment

比较四种不同光谱预处理方式下的重金属分类精度, 发现光谱经过一阶微分预处理后分类精度最高, 这与国内外的相关研究结论保持一致, 说明微分处理技术是一种较好的反演土壤重金属含量的方式。 重金属在土壤组分中含量偏低, 且无明显吸收峰, 对光谱进行微分变换后, 容易找到相关性高的波段[11], 因此得到的分类精度较高。 通过一阶微分进行光谱特征增强后, 重金属Pb和Zn的最高分类精度分别达到了87.50%和100.00%; 说明SVM能充分利用高光谱波段数量多, 波谱信息精细的优势, 有效提取土壤重金属光谱特征, 从而分类出受重金属污染和不受重金属污染的土壤样本; 进一步证明受重金属污染的样本和不受重金属污染的样本存在较大的光谱差异, 并能够利用差异性进行有效分类。

为验证SVM分类器的推广迁移能力, 将郴州地区的83个样本作为训练集, 衡阳地区的46个样本作为测试集, 统计结果如表4所示。

表4 模型预测精度统计 Table 4 Model prediction accuracy statistics

上述两个实验结果表明: (1)SVM分类模型的预测能力出色, 对衡阳试验区的采样数据分类精度分别达到84.78%和86.96%, 即基于郴州试验区的采样点所构建的分类模型能有效判定衡阳地区重金属Pb, Zn的污染情况。 (2)相比之下, 定量反演模型的预测值偏离重金属含量的真实值较大, 根据图3的预测结果, 重金属含量的预测值大部分为负, 严重偏离了土壤重金属含量的取值范围, 难以正确预测异地样本重金属含量。 分析原因, 在于土壤中的重金属元素主要被土壤中的有机质、 矿物所吸附, 形成配合物的形式存在, 对于不同地域, 土壤中的矿物和有机质成分必定会存在差异, 这些差异可能会极大地干扰到重金属含量的反演和特征波段的识别, 偏最小二乘回归模型主要是依据特征波段而建立的, SVM分类模型则避免了波段筛选, 充分利用了高光谱波段数量多的优势, 让光谱中的弱信号参与建模。 且SVM分类模型具有良好的泛化能力, 不过分依赖训练样本数据, 从而使得基于郴州试验区的采样点数据所构建的分类模型能有效判定衡阳地区重金属Pb, Zn的污染情况。 综上, 结果表明, SVM分类模型对异地样品的预测效果较好, 相较于定量反演模型具有明显优势, 为大面积的土壤重金属含量监测, 提供了一种更快速有效的方式。

3 结 论

以湖南省郴州市和衡阳市两地区的铅锌矿区为研究区, 针对土壤重金属高光谱反演模型能否在不同地域具有可迁移能力的问题, 进行定量回归建模和定性分类的对比实验, 实验结论如下:

(1)基于PLSR的定量反演模型可迁移能力较差。 定量反演能够建立具有较高统计精度的回归模型, 但将模型应用于预测衡阳试验区重金属Pb, Zn含量时, 出现重金属含量为负值的异常情况。 且分别经过四种光谱预处理方式构建的模型, 预测的可决系数R2, 均方根误差RMSE精度较低, 难以正确反演异地试验区的重金属含量。

(2)基于SVM分类的定性反演模型具有一定的可迁移能力。 基于郴州试验区的训练样本建立的SVM分类模型能有效判定衡阳试验区重金属Pb和Zn的污染状况, 分类精度分别达到84.78%和86.96%, 对异地样品的预测能力表现良好。 说明分类模型能够充分利用土壤高光谱受重金属污染带来的差异性, 有效判别土壤是否受到重金属污染的影响, 并能够将模型应用于不同的试验区。

(3)定性分类的模型构建过程比定量回归更简单。 定性分类能简化光谱预处理的方式, 避免了筛选波段的过程, 更加充分利用高光谱波段数量多, 波谱信息精细的优势, 并能从整体上判断研究区的重金属污染状况, 为大面积快速检测土壤状况提供一种更加切实可行的方式。

The authors have declared that no competing interests exist.

参考文献
[1] Guo K, Liu Y F, Zeng C, et al. Acta Agriculturae Scand inavica, Section B—Soil & Plant Science, 2014, 64(5): 377. [本文引用:1]
[2] GONG Shao-qi, WANG Xin, SHEN Run-ping, et al(龚绍琦, 王鑫, 沈润平, ). Remote Sensing Technology and Application(遥感技术与应用), 2010, (2): 169. [本文引用:1]
[3] YU Xu-chun, FENG Wu-fa, YANG Guo-peng, et al(余旭初, 冯伍法, 杨国鹏, ). Hyperspectral Image Analysis and Application(高光谱影像分析与应用). Beijing: Science Press(北京: 科学出版社), 2013. [本文引用:3]
[4] Shi T, Chen Y, Liu Y, et al. Journal of Hazardous Materials, 2014, 265: 166. [本文引用:1]
[5] Kemper T, Sommer S. Environmental Science & Technology, 2002, 36(12): 2742. [本文引用:1]
[6] Choe E, van der Meer F, van Ruitenbeek F, et al. Remote Sensing of Environment, 2008, 112(7): 3222. [本文引用:1]
[7] DONG Lu-rui, HU Wen-you, HUANG Biao, et al(董禄睿, 胡文友, 黄标, ). China Environmental Science(中国环境科学), 2015, 35(7): 2103. [本文引用:1]
[8] HUANG Chang-ping, LIU Bo, ZHANG Xia, et al(黄长平, 刘波, 张霞, ). Remote Sensing Technology and Application(遥感技术与应用), 2010, 25(3): 353. [本文引用:1]
[9] FU Xin, ZHAO Yan-ling, LI Jian-hua, et al(付馨, 赵艳玲, 李建华, ). China Mining(中国矿业), 2013, (1): 65. [本文引用:1]
[10] SHI Zhou(史舟). Soil Ground Hyperspectral Remote Sensing Principles and Methods(土壤地面高光谱遥感原理与方法). Beijing: Science Press(北京: 科学出版社), 2014. [本文引用:2]
[11] WANG Hui-wen(王惠文). Partial Least-Squares Regression-Method and Applications(偏最小二乘回归方法及应用). Beijing: National Defense Industry Press(北京: 国防工业出版社), 1999. [本文引用:2]
[12] WANG Xiao-ling, DU Pei-jun, TAN Kun(王晓玲, 杜培军, 谭琨). Science of Surveying and Mapping(测绘科学), 2011, (3): 127. [本文引用:1]
[13] GB 15618—1995 Environmental Quality Stand ary for Soils(土壤环境质量标准), 1995. [本文引用:1]
[14] Wang J, Cui L, Gao W, et al. Geoderma, 2014, 216: 1. [本文引用:1]