优化CARS结合PSO-SVM算法农田土壤重金属砷含量高光谱反演分析
袁自然, 魏立飞*, 张杨熙, 余铭, 闫芯茹
湖北大学资源与环境学院, 湖北 武汉 430002
*通讯联系人 e-mail: weilifei2508@163.com

作者简介: 袁自然, 1995年生, 湖北大学资源与环境学院硕士研究生 e-mail: yuanziran11@163.com

摘要

土壤重金属污染是由于人类活动导致重金属物质大量残留在土壤中, 超过土壤环境承载力, 这种现象将造成土壤质量退化、 生态环境恶化。 高光谱遥感可以实现图谱合一, 能有效地识别出土壤中不同元素的异常情况。 为实现农田土壤重金属高效、 准确监测, 提出了一种特征提高型竞争性自适应重加权算法(CARS)选取特征波段的粒子群算法(PSO)优化支持向量机(SVM)农田土壤重金属砷(As)含量高光谱估测分析方法。 利用CARS对暗室实测光谱值进行粗选; 利用一阶导数(FD)、 高斯滤波(GF)、 归一化(N)进行特征提高; 在特征精选阶段利用皮尔逊相关系数(PCC)求取预处理后的光谱指标与土壤重金属As之间的相关系数, 获取相关性大于0.6的波段作为特征波段; 最后利用PSO对SVM所选择的核函数 σ和正则化参数 γ进行优化, 以均方根误差(RMSE)作为适应度函数, 通过迭代最优适应度得到SVM最优参数值。 选择江汉平原典型区域洪湖市燕窝镇的土壤为研究对象, 预测结果表明基于PSO-SVM算法其验证集的决定系数 R2为0.982 3, 均方根误差RMSE为0.521 6, 平均绝对误差MAE为0.416 4。 主要结论如下: PSO算法优化SVM参数, 通过迭代更新个体极值和群体极值, 可以迅速获取全局最优解, 与支持向量机回归(SVMR)和随机森林回归(RFR)相比, 在预测精度有了较大的提高; 特征提高型CARS算法可以有效剔除无关信息, 提高相关性, 且选取波段少, 模型简单, 大大提高了效率; 可以实现土壤污染预警、 满足精准农业需求、 为后期重金属污染土地生态修复提供数据基础。

关键词: 高光谱遥感; 土壤重金属; 粒子群算法; 特征波段; 竞争性自适应重加权算法
中图分类号:TP79 文献标志码:A
Hyperspectral Inversion and Analysis of Heavy Metal Arsenic Content in Farmland Soil Based on Optimizing CARS Combined with PSO-SVM Algorithm
YUAN Zi-ran, WEI Li-fei*, ZHANG Yang-xi, YU Ming, YAN Xin-ru
Faculty of Resources and Environmental Science, Hubei University, Wuhan 430002, China
*Corresponding author
Abstract

Heavy metal pollution in soil is caused by human activity factors that bring heavy metals into the soil, resulting in deterioration of soil quality and ecological environment. Heavy metals in the soil tend to accumulate, are difficult to be degraded, are highly concealed for long periods of time, and can be enriched by atmospheric circulation and food chains, ultimately threatening human life and health. Hyperspectral remote sensing technology presents a combination of image and spectrum, and can effectively identify the abnormal conditions of different elements in the soil. At present, traditional soil monitoring techniques mainly rely on laboratory-based chemical detection methods such as photometry, chemical analysis, and atomic fluorescence spectroscopy. This kind of method can test the heavy metal content of farmland soil, but the precision depends on a large amount of manpower, material resources and equipment, and its detection efficiency and promotion are lacking. In order to achieve efficient and accurate monitoring of heavy metals in farmland soils. A method of hyperspectral estimation of heavy metal arsenic (As) content in farmland soils based on particle swarm optimization (PSO) and support vector machine (SVM), which use characteristic-enhanced competitive adaptive reweighted sampling (CARS) was proposed. In the characteristic rough selection stage, the measured spectral values from the darkroom are roughly selected by CARS. In the characteristic improvement stage, First Derivative (FD), Gaussian Filtering (GF), Normalization (N) are used to improve features. In the carefully chosen stage, Pearson Correlation Coefficient (PCC) is used to obtain the correlation coefficient between different pre-treated spectral indices and soil heavy metal As. The band whose correlation coefficient has an absolute value greater than 0.6 is selected as a feature band. Finally, PSO is used to optimize the kernel parameter sigma and the normalization parameter gamma used by the SVM. The root mean square error (RMSE) is used as the fitness function, and the optimal parameters of SVM are obtained by iterating the optimal fitness. The soil of Yanwo Town in Honghu City, a typical area of Jianghan plain, was selected as the research object in this paper. The prediction results showed that the decision coefficient ( R2) of the verification sets based on PSO-SVM algorithm is 0.982 3, the root mean square error (RMSE) is 0.521 6, and the mean absolute error (MAE) is 0.416 4. The main conclusions are as follows: the PSO algorithm is used to optimize the SVM parameters, and the global optimal solution can be obtained quickly by iteratively updating the individual extremum and the group extremum. Compared with the support vector machine regression (SVMR) and random forests regression (RFR), the prediction accuracy has been greatly improved; The characteristic enhanced CARS algorithm can effectively eliminate irrelevant information and improve correlation. And it selects fewer bands, simplifies the model so that efficiency is greatly improved; It can realize early warning of soil pollution, meet the needs of precision agriculture and provide data basis for ecological restoration of heavy metal contaminated land in the later period.

Keyword: Hyperspectral remote sensing; Soil heavy metal; Particle swarm optimization; Characteristic bands; Competitive adaptive reweighted sampling
引言

重金属污染已经严重危害到人类的生活, 其难降解、 易积累、 毒性大等特征对农作物生长、 产量和品质都有重大影响。 农田土壤重金属污染会抑制土壤环境的优势细菌群落, 抑制微生物的生长, 尤其是它可以通过农作物作为媒介通过食物链, 最终威胁人类身体健康[1]。 传统的土壤重金属检测方法有光度法、 化学分析法、 原子荧光光谱法、 电感耦合等离子体发射光谱法、 表面增强拉曼光谱法等[2], 这类方法虽精度高, 但是仪器设备成本过大, 耗费大量的人力、 物力, 且不具有推广性。 高光谱分析利用连续的高分辨率光谱波段预测土壤中的重金属含量[3]。 它可以实现大面积的快速测定, 避免了复杂的采样步骤, 而且结合采样对比, 高光谱对重金属的测定结果也有很高的可信度。

国内外学者对土壤重金属高光谱反演已经有了很多研究, Gholizadeh等[4]提出了一种基于支持向量机回归(SVMR)交叉验证的多变量校准方法, 建立了可见-近红外(Vis-NIR)区域反射光谱与土壤中锰(Mn)、 铜(Cu)、 镉(Cd)、 锌(Zn)和铅(Pb)之间的关系。 Angelopoulou等[5]通过偏最小二乘法建模发现不同化学监测方法对于土壤重金属Cd, Cr, Cu和Pb反演结果影响不同, 表明土壤反射率完全可以预测土壤中重金属含量。

谭琨等[6]选择中国北方金属矿区和煤矿区的两个研究区域, 利用竞争自适应重加权算法结合偏最小二乘法(CARS-PLSR)选取特征波段, 结果表明与其他线性模型相比, 非线性模型CARS-PLS-SVM通过适当的光谱特征提取, 在实验中表现出较高的精度。 但是目前反演精度受到原始光谱相关性低的限制, 导致反演精度普遍不高, 且现有特征选取方式和反演方法都有待提高。

本文以洪湖市燕窝镇土壤为研究对象, 首先利用CARS智能选取特征波段, 再利用一阶导数、 高斯滤波、 归一化进行特征提高, 获取皮尔逊相关系数大于0.6的波段作为特征波段, 采用3种回归方式PSO-SVM, SVMR和RFR作为对比, 提高建模精度, 找出该区域反演土壤重金属As的最优方法。

1 研究区概况

洪湖市(113° 07'— 114° 05'E, 29° 39'— 30° 12'N)隶属于湖北省荆州市, 该区域土壤具有弱富铝化、 粘化、 酸性的特点, 土壤性质兼有黄壤和棕壤的某些特征。 燕窝镇为洪湖市辖镇, 为传统粮棉油种植大镇, 位于洪湖东北部, 优良的气候条件和充足的水资源, 使得该区域的农业和养殖业得到了快速发展, 但是大量的农田改造和过量施用农药化肥等致使该地区污染逐渐严重, 洪湖水质条件遭到严重破坏, 很多耕地受到As, Cd, Pb, Cd等重金属污染的威胁, 生态环境受到严峻挑战。

2 研究方法
2.1 竞争性自适应加权算法

竞争性自适应重加权算法(competitive adaptive reweighted sampling)[7]是种用于光谱特征筛选的新型算法, 将每个光谱波段的集合作为单独个体, 采用自适应重加权采样(adaptive reweighted sampling, ARS), 利用线性模型偏最小二乘法(PLS)作为适应度函数, 和交叉验证不断优化计算, 最终选择出最优子集, 即回归模型精度最高子集, 淘汰误差较大的变量, 经过多次循环采样, 选择出特征波段。

图1 研究区区位图Fig.1 The location of study area

2.2 基于PSO的SVM参数优化

支持向量机(support vector machine, SVM)是种常用非线性负荷预测模型[8], 粒子群优化(panicle swarm optimization, PSO)算法是一种基于迭代寻优的群计算技术[9]。 使用PSO算法对SVM的参数进行参数寻优, 利用粒子群算法特征, 不断更新粒子适应度, 直到找到全局最优解, 本文采用PSO优化SVM的参数[10], 其步骤流程如图2所示。

图2 PSO优化SVM参数流程图Fig.2 Flow chart of optimizing the parameters of SVM based on PSO

(1)初始化PSO和SVM参数: 设定群体规模n=30、 最大迭代次数N=300、 学习因子C1=1.8和C2=1.2, 粒子的初始位置和速度等。

(2)分别利用每个粒子对所对应的实验样本的光谱和重金属含量进行预测, 得到各粒子当前均方根误差(RMSE), 将目前最优适应度与粒子本身最优适应度对比, 如果目前最优适应度优于粒子本身最优适应度, 则更新粒子速度和位置, 从而更新个体极值。

(3)检查是否满足极值条件, 即最大迭代次数和精度要求, 如果满足则将最优核函数σ 和正则化参数γ , 代入SVM计算, 否则执行步骤2, 继续搜索。

2.3 模型验证

选取了决定系数(determination coefficients, R2)、 均方根误差(root mean squared error, RMSE)、 平均绝对误差(mean absolute error, MAE)等3个参数衡量评估模型精度[11]R2越接近1, 模型的拟合程度越高, RMSE和MAE越小, 模型的预测能力越高, 模型鲁棒性越高。

3 实验部分
3.1 土壤采集制备和理化分析

在洪湖市燕窝镇内进行土壤采样, 该区域土壤为黄棕壤, 定点采集耕层表层土壤土样29份, 深度在0~20 cm, 将土样用聚乙烯袋密封干燥保存。 然后将土样利用搪瓷盘摊开盛放, 放于通风处自然风干, 将风干土壤剔除石块、 植物残体等异物, 用木棍研磨土壤样品, 首先使用2 mm孔径筛筛选土壤, 取出四分之一继续磨细使通过0.15 mm孔径筛作为最终土壤样品, 研磨后的土壤样本分为两份, 分别用于光谱采集和理化分析测试。 理化分析的土样经硝酸, 盐酸, 高氯酸消煮后, 采用硼氢化钾-硝酸银分光光度法进行实验测定, 每份土样测量3次, 从测量结果的算术平均值得出土壤中的重金属As含量。

3.2 土壤光谱测定

采用SVC HR-1024型地物光谱仪对土壤样品进行暗室光谱的测定, 波长范围为350~2 500 nm, 光谱分辨率为: 350~1 000 nm为1.5 nm, 1 000~1 900 nm为3.8 nm, 1 900~2 500 nm为2.5 nm, 总波段数为990。 室内光谱测量具有易控制、 数据结果质量较高等特点。 将土壤放于通体漆黑的培养皿中, 并利用钢尺刮平表层土壤。 在暗室中, 用1 000 W的卤素灯作为光源, 照射方向与垂直方向呈45° 夹角, 光源距离土样表面约为30 cm, 光谱仪探头垂直于土壤表层上方, 探头距离土样约为10 cm。 每次测量光谱之前, 需对光谱仪进行白板校正。 为消除测量数据误差和其不稳定性, 每个土样旋转三次, 每次转动90° , 以获得四个方向的反射率, 有4条光谱曲线, 其平均值作为各土壤样本的原始反射率光谱值, 如图3所示。

图3 原始光谱Fig.3 Original spectra

3.3 数据处理和分析

3.3.1 光谱预处理

由于仪器自身的原因和光谱采集过程中不可避免的受到测试环境、 样品背景、 观测角度、 样品粗糙度、 杂散光等因素的影响, 光谱曲线边缘波段噪声比较大。 为降低外界噪声对实际建模的干扰, 每份土样都去除噪声较大的边缘波段350~399和2 400~2 500 nm, 保留400~2 399 nm波段用于建模分析, 如图4所示。

图4 去除边缘噪声Fig.4 Edge noise removal

3.3.2 土壤As含量分析

对29个样点土壤重金属砷含量进行了统计分析, 结果如表1所示。 参考《土壤环境质量标准GB15618— 1995》, 洪湖燕窝镇采集的土壤重金属元素As含量的平均值超过三级质量标准(为保障农业生产和植物生长的土壤污染临界值), 表明该地区土壤的砷污染达到中度和重度污染。 砷对于农作物的生长危害十分严重, 可以通过植物根茎部分, 利用植物生长吸收作用转移到植物各部位, 初期表现为叶片枯萎, 中期为根系停止发育, 最后整株植物枯萎死亡。 砷对于人体而言同样危害巨大, 可以通过食物链累积, 迅速达到临界值, 它可以使红血球溶解, 破坏正常细胞, 并且具有遗传性、 致癌性和致畸性等, 所以对于重金属砷的监测具有重要意义[12]

表1 各数据集As值的描述性统计 Table 1 Statistical characteristics of As value

在进行建模之前, 需要将样本分组, 一组用于模型的构建, 即校准集; 另一组用于验证模型的预测能力, 即验证集; 如表1所示。 采用浓度梯度法, 最终选择21个校准样本, 8个验证样本, 校准集和验证集的均值, 标准差和变异系数均较为接近。 因此, 这样划分比较合理, 可以用于后续建模。 对于建立一个满意的预测模型, 校准采样算法和校准集的大小对整组数据集的代表性有着深刻的影响[13]

4 结果与讨论
4.1 特征提高型CARS特征波段选取

特征波段选取流程如图5所示, 首先在特征粗选阶段利用CARS对暗室实测光谱进行粗选, 设定蒙特卡罗采样为100次, 从图6可以看出经过交叉检验(CV)所得到的RMSECV的变化趋势图, RMSECV的变化曲线先由大到小至最小后再逐渐变大的变化, 当采样循环次数为60时, RMSECV值达到最小值, 表明此时模型精度最高, 而随着采样次数变大, RMSECV上升, 模型效果变差。 因此, 当采样次数为60, RMSECV值达到最小值时, 所选择波段子集为最优。 但在CARS算法过程中, 采用偏最小二乘法为适应度函数, 这种线性模型面对高维数据, 会出现精度不高等问题, 且CARS算法未改变原始数据, 面对相关性较低数据, 往往无法使用, 所以有必要提高特征。 在特征提高阶段, 从图7可以看出CARS筛选出来的原始数据与重金属As之间的相关性较低, 而经过高斯滤波、 一阶导数, 再次高斯滤波后相关性大大提高。

在特征精选阶段, 利用皮尔逊相关系数(pearson correlation coefficient, PCC)求取预处理后的光谱指标与土壤重金属As之间的相关系数, 获取绝对值相关性大于0.6的波段作为特征波段。

图5 CARS特征波段选择流程图Fig.5 Characteristic band selection flow chart of CARS

图6 CARS关键变量选择Fig.6 Key variables selection results of CARS

图7 不同预处理情况下相关系数变化Fig.7 Change of correlation coefficient under different pretreatment conditions

4.2 回归预测

特征提高型CARS特征波段选取选择了7个特征波段用于建模, SVM模型的预测效果与核函数σ 和正则化参数γ 有密切的关系, 极大程度影响着预测精度, 如何通过优化获取最优参数是非常重要的步骤。 因此选取了基于PSO优化SVM算法来选取最优参数获得最佳模型, 在PSO优化模型中, 粒子群的种群数N=30, 最大的迭代次数Gmax=300, 学习因子C1C2为1.8和1.2, 核函数形状参数σ 取值范围为[0.1~1 000], 正则化参数γ 取值范围为[0.01~100]。 分别利用每个粒子对所对应的实验样本的光谱和重金属含量进行预测, 得到各粒子当前均方根误差(RMSE), 将目前最优适应度与粒子本身最优适应度进行对比, 如果目前最优适应度优于粒子本身最优适应度, 则更新速度和位置, 最终获得核函数为径向基核函数(RBF), 核函数形状参数σ 为100, 正则化参数γ 为0.357 3。 将最优核函数和正则化参数代入到SVM模型中, 用于土壤重金属As含量高光谱预测。 从图8中可以看出, 适应度值逐渐向最优值接近, 一旦达到最优值后就趋于稳定, 利用PSO-SVM模型可以有效预测土壤重金属As含量, 其中R2, RMSE, MAE达到0.982 3, 0.521 6和0.416 4, 再利用SVMR和RFR回归作为对比, 从图9可以看出验证集基本上呈现线性均匀分布, 表现出较好的预测水平和稳定性, 满足了实际预测要求。 其中SVMR表现最差, 偏离较大, 而PSO-SVM离1:1线偏离最小, 拟合程度最高。

图8 适应度曲线变化Fig.8 Fitness curve

图9 实测值与预测值关系Fig.9 Relationship between measured and predicted values

对比传统化学分析法, 利用土壤反射率高光谱反演土壤重金属As含量的方法, 有效率高、 易操作、 环境友好型等优点, 对于前期生态环境监测和后续生态修复提供数据支持具有重要意义。

研究中分别利用三种方法建立了高光谱重金属As含量预测模型, 从表2可以看出SVMR预测效果较差, 而PSO-SVM验证集的反演精度表现最优。 PSO优化SVM的回归模型精度上有了极大地提高, 利用优化得到的核函数σ 可以保证模型反演精度, 正则化参数γ 可以使模型具有较好的泛化能力, 为预测其他重金属元素提供了参考依据。

表2 算法精度对比 Table 2 Accuracy comparison of algorithms
5 结 论

以江汉平原典型区域洪湖市燕窝镇污染土壤为研究对象, 采集总计29个土壤样本, 21为校准集, 8个为验证集, 基于三种不同模型构建方法, 重点讨论了利用土壤反射率光谱可以较好的反演土壤重金属As含量, 主要结论如下:

(1) 特征提高型CARS算法, 可以有效剔除无关冗余信息, 极大地提高了光谱与重金属As含量之间相关性, 且选取波段少, 模型简单, 大大提高了效率。

(2) 对比支持向量机回归(SVMR)、 随机森林回归(RFR)等建模方式, 采用PSO-SVM通过迭代更新个体极值和群体极值, 获得最佳参数, 具有较高的精度。 PSO-SVM的验证集的R2为0.982 3、 RMSE为0.521 6、 MAE为0.416 4。 说明模型具有较高的稳定性和预测精度, 可以满足实际预测需求, 为今后大规模反演洪湖地区土壤重金属含量提供依据。 此外, 区域构建高光谱模型也可为无人机、 航空、 航天遥感提供参考。

参考文献
[1] Huang Y, Chen G, Xiong L, et al. Asian Agricultural Research, 2016, 8(1): 22. [本文引用:1]
[2] Hu B, Chen S, Hu J, et al. Plos One, 2017, 12(2): e0172438. [本文引用:1]
[3] YUAN Zhong-qiang, CAO Chun-xiang, BAO Da-ming, et al(袁中强, 曹春香, 鲍达明, ). Wetland Science(湿地科学), 2016, 14(1): 113. [本文引用:1]
[4] Gholizadeh A, Luboš Bor$\dot{u}$vka, Saberioon M M, et al. Soil and Water Research, 2016, 10(4): 218. [本文引用:1]
[5] Angelopoulou T, Dimitrakos A, Terzopoulou E, et al. Water Air & Soil Pollution, 2017, 228(11): 436. [本文引用:1]
[6] Tan K, Wang H, Zhang Q, et al. Journal of Soils and Sediments, 2018, 18(5): 2008. [本文引用:1]
[7] ZHANG Dong, TASHPOLA·Tiyip, ZHANG Fei, et al(张东, 塔西甫拉提·特依拜, 张飞, ). Acta Optica Sinica(光学学报), 2016, 36(3): 282. [本文引用:1]
[8] WANG Wen-jun, LI Zhi-wei, WANG Can, et al(王文俊, 李志伟, 王璨, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(5): 1579. [本文引用:1]
[9] Angelopoulou T, Tziolas N, Balafoutis A, et al. Remote Sens. , 2019, 11: 676. [本文引用:1]
[10] Chen T, Chang Q, Clevers J G, et al. Environmental Pollution, 2015, 206: 217. [本文引用:1]
[11] Wei L, Yuan Z, Zhong Y, et al. Appl. Sci. , 2019, 9: 1943. [本文引用:1]
[12] CHEN Yi-xian, JIANG Xiao-san, WANG Yong, et al(陈怡先, 姜小三, 王勇, ). Acta Scientiae Circumstantiae(环境科学学报), 2018, 38(4): 1642. [本文引用:1]
[13] Sun W, Zhang X, Sun X, et al. Geoderma, 2018, 327: 25. [本文引用:1]