一种面向土壤重金属含量检测的X射线荧光光谱预处理方法研究
任东1,2, 沈俊1,2, 任顺1,2,*, 王纪华1,2,3, 陆安祥3
1. 三峡大学计算机与信息学院, 湖北 宜昌 443002
2. 湖北省农田环境监测工程技术研究中心, 三峡大学, 湖北 宜昌 443002
3. 北京农业质量标准与检测技术研究中心, 北京 100097
*通讯联系人 e-mail: renshun_ctgu@qq.com

作者简介: 任 东, 1976年生, 三峡大学计算机与信息学院教授 e-mail: rendong5227@163.com

摘要

土壤重金属的污染影响着农作物的产量和质量。 传统的土壤重金属检测方法步骤繁琐、 检测费用高且速度慢。 利用X射线荧光光谱(XRF)分析技术检测土壤中重金属含量, 具有处理简单、 现场、 快速、 无损等优点。 由于土壤背景复杂, 包含大量噪声和无关信息, 建立XRF校正模型前, 对光谱的预处理能有效的去除不相干信息, 保留有用信息, 对XRF预测模型的精度有重要影响。 主要研究光谱预处理方法对重金属含量预测模型精度的影响。 首先, 采用向前间隔偏最小二乘(FiPLS)作为校正模型, 对比了无预处理、 去趋势处理(DT)、 标准正态变量变换(SNV)、 多元散射校正(MSC)、 小波去噪(WT)、 SNV+DT、 卷积平滑(SG)+一阶导数、 卷积平滑(SG)+二阶导数等7种不同预处理条件下的土壤重金属模型的检测精度。 初步结果表明, 多元散射校正预处理方法效果较好, 与原始光谱相比, 相关系数 r从原始的0.988提高到0.990, 预测均方根误差RMSEP、 相对误差平均从原来的20.809和0.166分别降低到19.051和0.121。 其次, 在多元散射校正预处理方法的基础上, 针对多元散射校正方法以线性表达式描述非线性关系的局限性, 提出了局部加权线性回归多元散射校正(LWLRMSC)和偏最小二乘多元散射校正(PLSMSC), 并比较了它们的建模效果。 LWLRMSC是基于加权思想, 在预测一个点的值时, 选择适当的核函数和权重分配策略进行预测点的线性回归, 来解决简单线性回归的欠拟合状况; PLSMSC是基于PLS建模思想, 考虑了自变量和因变量的最大相关性, 来减少拟合误差及失真问题。 结果表明, PLSMSC具有最佳的预处理效果, 五种重金属Cu, Zn, As, Pb, Cr预测值和实际值的R分别为0.989, 0.973, 0.991, 0.989和0.986, RMSEP分别为8.805, 58.360, 7.671, 12.549和20.851, 相比于传统的MSC方法不仅在精度方面有大幅度的提升, 且具有更好的泛化性能, 能消除光谱噪声, 提升有效信息贡献度, 为土壤重金属含量预测模型选取合适的预处理方法提供了理论支撑。

关键词: XRF; 预处理; 土壤重金属; 偏最小二乘回归; 向前间隔偏最小二乘
中图分类号:O657.3 文献标识码:A
An X-Ray Fluorescence Spectroscopy Pretreatment Method for Detection of Heavy Metal Content in Soil
REN Dong1,2, SHEN Jun1,2, REN Shun1,2,*, WANG Ji-hua1,2,3, LU An-xiang3
1. College of Computer and Information Technology, China Three Gorges University, Yichang 443002, China
2. Hubei Engineering Technology Research Center for Farmland Environmental Monitoring, China Three Gorges University, Yichang 443002, China
3. Beijing Research Center for Agricultural Standards and Testing, Beijing 100097, China
Abstract

Heavy metal pollution in the soil affects the yield and quality of crops. The traditional detection method has complicated procedures, high detection costs, and slow detection speed. The X-ray fluorescence (XRF) analysis technology to detect heavy metal content in soil has the advantages of being simple in processing, on-site, rapid and non-destructive. Due to the complex soil background including much noise and irrelevant information, before the establishment of the XRF correction model, the pre-processing of the spectrum can effectively remove irrelevant information and maintain useful information, which has an important influence on the accuracy of the XRF prediction model.This article focuses on the effects of spectral pre-processing method on the accuracy of heavy metal content prediction model. Firstly, forward interval partial least squares (FiPLS) was taken as a correction model to compare the detection accuracy of the heavy metal model in eight different conditions, namely non-pre-processing, detrending processing (DT), standard normal variable transformation (SNV), multiple scatter correction (MSC), wavelet denoising (WT), SNV+DT, convolution smoothing (SG) + first derivative and convolution smoothing (SG) + second derivative. The preliminary results showed that the multiple scatter correction pre-treatment method had desirable effects. Compared with the original spectrum, the determination coefficient R rised from the original 0.988 to 0.990, and the prediction of root mean square error (RMSEP) and the relative error respectively declined from the original 20.809 and 0.166 to 19.051 and 0.121. Secondly, on the basis of the multi-dimensional scattering correction pre-processing method, the localized weighted linear regression multiple scatter correction (LWLRMSC) and partial least squares multivariate scatter correction (PLSMSC) were proposed in terms of the restriction of describing non-linear relationships with linear representations, and the modeling effects of LWLRMSC and PLSMSC were compared. LWLRMSC was based on the weighted idea. In the prediction of the value of a point, the proper kernel function and weight distribution strategy were selected to perform linear regression of the prediction point, and the under-fitting condition of the simple linear regression was resolved. PLSMSC, based on the PLS modeling idea and taking into account the maximum correlation between the independent variable and the dependent variable, reduced the fitting error and distortion. The results showed that PLSMSC has the best pre-treatment effects. The R values of the predicted and actual values of the five heavy metals (Cu, Zn, As, Pb and Cr) were 0.989, 0.973, 0.991, 0.989 and 0.986, with the RMSEP respectively being 8.805, 58.360, 7.671, 12.549 and 20.851. Compared with the traditional MSC method, PLSMSC not only has a significant improvement in accuracy but also has better generalization performance. It can eliminate spectral noise and improve the contribution of effective information, thus providing theoretical support for the soil heavy metal content model to select the suitable pre-treatment method.

Key words: XRF; Pretreatment; Soil heavy metal; Least square regression; Transform forward interval partial least squares
引 言

随着现代化工业的发展和人类的活动, 重金属对于生态环境, 尤其是土壤环境的污染日益加剧, 严重威胁着农田生态环境安全及农产品品质。 现阶段常用的重金属检测方法主要有基于物理和化学反应的电化学方法、 生物学检测方法和光学检测方法。 电化学方法、 生物学方法检测精度高, 但步骤繁琐且检测费用高[1]。 基于原子激发的X射线荧光光谱检测技术具有分析速度快、 处理简单并且可以现场无损快速检测等优点[2]

光谱中除了有用的化学信息外, 还包含了大量的背景噪声和无关信息等干扰信息, 因此, 在建立校正模型前对光谱的预处理工作能去除不相关因素对目标光谱的影响, 保留有效信息, 从而提高模型的稳健性和预测精度。 目前, 国内外研究学者对光谱类数据的预处理多集中于传统效果的比较, 而对X射线荧光光谱数据的预处理研究更是少之又少[3, 4, 5, 6, 7], 针对X射线荧光光谱数据的预处理有必要进行深入的研究。

本论文以土壤重金属光谱为研究对象, 针对消除土壤重金属光谱的噪声、 散射比较了多种光谱预处理方法对向前间隔偏最小二乘建模的效果, 在此基础上, 提出了两种改进的光谱预处理方法, 以期找到适合于X射线荧光光谱定量分析土壤重金属含量的预处理方法。

1 实验部分
1.1 方法与材料

1.1.1 光谱采集和处理

为了提高仪器对重金属的检测性能, 87个样品采自周边1 000 m没有污染源的农田, 为防止用具对样本浓度的影响和干扰, 从样本制作的混合、 粉碎、 研磨以及装袋都采用陶瓷用具。 为了形成梯度浓度的重金属污染土壤, 将土壤烘干研磨过0.45 mm筛后, 参照国标[8]向样品中分别按一定的浓度梯度逐滴加入不同体积的Cu, Pb, Zn, Cr和As的标准溶液, 并进行充分搅拌使其混合均匀。 加入标准溶液的样品经再次烘干研磨后放入样品杯中, 压紧使其表面平整并覆盖一层迈拉膜, 然后将样品杯放入仪器检测台上进行测试, 每个样品扫描三次, 取三次扫描结果的平均光谱作为该样品的光谱, 87个样本平均光谱图见图1。

图1 87个样本的平均光谱图Fig.1 The average spectrogram of 87 samples

校正集和预测集的划分采用浓度梯度法, 该方法以样本集被测指标的理化参照值作为划分标准将样本按照2∶ 1划分成2组, 其中校正集58个, 验证集29个, 样本分布如图2。

1.1.2 预测模型及参数选择

(1)预测模型

本文采用Fipls建模, 采用相关系数r、 均方根误差RMSEP、 相对误差作为模型的评价指标。

(2)模型参数

本研究中采用的是滑动窗口选择法, 原理是将整个光谱划分为若干个等宽的光谱子区间, 在每个光谱子区间上进行偏最小二乘算法回归计算, 得到若干个局部回归模型, 以每个区间模型的交叉验证均方根(RMSECV)作为局部模型的衡量标准, 从中找出RMSECV值最小的光谱区间, 以该光谱区间作为基区间, 向某个方向(或双向)扩充波长区域, 从而筛选出用于Fipls建模的波长区域。

图2 校正集(a)和预测集(b)样本分布图Fig.2 The distribution figure of calibration set (a) and prediction set (b)

1.1.3 传统的光谱预处理方法

对光谱数据进行预处理可以消除由样品状态、 测量条件等因素引起的基线漂移、 旋转等噪声, 提高光谱数据的信噪比、 保留有效信息, 减少背景干扰, 预处理方法不同, 其去噪原理也不同, 对所建模型的影响也不同。

标准正态变量变换(standard normal variate transformation, SNV)主要用来消除样品颗粒大小、 表面散射光及光程变化对光谱的影响; 去趋势处理(detrending, DT)用于消除光谱的基线漂移[9]; 一阶导数(first derivative)、 二阶导数(second derivative)可以有效地消除基线和其他背景的干扰[10]; 卷积平滑(savitzky-golay, SG)用于消除光谱中的随机噪声[11]; 小波去噪(wavelet transform, WT)通过分解原始信号获取高频小波系数的噪声, 设置适当的门限阈值将低于门限的小波系数置为0, 之后重构信号以实现消噪[12]; 多元散射校正(multiplicative scatter correction, MSC)采用所有光谱的平均光谱作为“ 理想光谱” , 并将每个样品的光谱与它进行一元线性回归运算, 利用回归方程的斜率和截距对原始光谱进行校正[13]

1.1.4 光谱预处理方法

为解决光谱中存在的非线性关系而产生的欠拟合, 基于加权思想, 本文提出了局部加权回归替代线性回归改进的多元散射校正方法, 在预测一个点的值时, 选择适当的核函数, 只关注预测点附近的点做线性回归, 离所要预测的点越近给予权重越大, 越远其权重越小, 能有效的解决简单线性回归因考虑通盘所有数据而导致的欠拟合。

1) 局部加权线性回归改进的多元散射校正(LWLRMSC)算法步骤如下, 建模流程见图3。

图3 LWLRMSC预处理后结合Fipls建模流程图Fig.3 Flowchart of the LWLRMSC combined with Fipls

(1) 计算校正集样本的平均光谱(即“ 理想光谱” );

x̅j=i=1nxi, jn(1)

(2) 将每个样品光谱与它进行局部加权回归:

损失函数

min(jwj(x̅j-θTxij)2)(2)

权重函数

wij=exp-(xij-x̅j)22k2(3)

通过最小二乘法算出回归系数

θi=(xTiwixi)-1xTiwix̅j(4)

(3) 散射校正

xi, msc=xiθi(5)

式中 x̅j表示理想光谱, n为样本数, i为第i个样本, j为第j个波数, xij为第i个样本第j个波数, wij为第i个样本第j个波数的权重, θ i为第i个样本的回归系数, xi, msc是校正后的光谱。 exp -(xj-x̅j)22k2函数称为指数衰减函数, 其中k为波长参数, 它控制了权值随距离下降的速率, 该函数形式上类似高斯分布, 但并没有任何高斯分布的意义。

实际光谱与“ 理想光谱” 分布通常是个非线性问题, 采用线性模型来回归, 会存在较大的拟合误差以及盲目追随“ 理想光谱” 而带来的失真问题, 考虑到自变量和因变量的最大相关性, 本文用非线性回归替代线性回归又提出了基于偏最小二乘回归改进的多元散射校正方法。

2) 偏最小二乘改进的多元散射校正(PLSMSC)算法步骤如下所示:

(1) 计算校正集样本的平均光谱(即“ 理想光谱” );

x̅j=i=1nxi, jn(6)

(2)将每个样品光谱与它进行偏最小二乘回归, 这里采用Matlab自带的plsregress函数实现;

bi=plsregress(xi, x̅j, ncomp=1)(7)

(3)散射校正

xi, msc=xibi(8)

式中 x̅j为理想光谱, n为样本数, p为最大波点数, xi, j为第i个土壤样本的第j个波长的吸光度, xi是1× p维矩阵, 是第i个土壤样本的光谱信息, xi, msc是校正后的第i个土壤样本的吸光度。 bi为各样品重金属光谱xi与理想光谱 x̅j进行偏最小二乘回归后得到的回归系数。

算法流程图如图4所示。

图4 PLSMSC预处理后结合Fipls建模流程图Fig.4 Flowchart of the PLSMSC combined with Fipls

2 结果与讨论
2.1 光谱预处理比较

九种光谱数据预处理方法优化后的结果见表1。 由表1可以看出: 不同光谱预处理方法对Fipls模型精度的影响差异较大。 九种光谱预处理方法中: 相关系数最大的为0.990, 最小的为0.692; RMSEP最大的为90.18, 最小的为19.09; 且主成分数集中在6和7, 波段数在11~14波段之间。 图5和图6分别表示选定最佳主成分后的9种预处理方法RMSEP, r随波段变化的结果, 图中表明经预处理后的RMSEP, r得到有效的提高, 且趋于稳定, RMSEP稳定在20左右, r稳定在0.98, 由此表明除去趋势处理、 标准正态变量变换结合去趋势处理以及卷积平滑结合二阶导数三种预处理方法有可能在噪声消除不完全的情况下, 损失了部分光谱的有效信息, 从而对模型的精度没有得到改善外, 其他的预处理方法在光谱噪声消除方面有一定的效果。 结合表1以及图5、 图6并从多个指标综合考虑, 可以得出改进的多元散射校正预处理方法对Fipls模型精度影响效果最好, 且PLSMSC, LWLRMSC的r和RMSEP分别为0.986, 19.051以及0.987, 19.09, 相对误差平均以及方差相对于MSC得到较大的提高。

表1 光谱预处理后的结果 Table 1 Results of spectral pretreament

图5 RMSEP结果Fig.5 RMSEP results

图6 相关系数结果Fig.6 Correlation coefficient results

2.2 建模精度分析

采用LWLRMSC, PLSMSC分别结合Fipls建模后的五种重金属的29个预测值和实际值的拟合结果见图7。 由图7可以看出经PLSMSC预处理后建模五种重金属整体拟合效果最好, 其中Cu和Pb, Cr的预测精度最高, 解决了MSC欠拟合问题, 相对于LWLRMSC大大缩短了预处理时间, 提高了模型的精度。

图7 不同预处理方法结合Fipls的五种重金属预测结果
(a): LWLRMSC; (b): PLSMSC
Fig.7 Comparison predicted results of five heavy metal from Fipls combined with different pretreatment
(a): LWLRMSC; (b): PLSMSC

采用MSC, PLSMSC和LWLRMSC对土壤重金属光谱优化后进行Fipls建模, 校正集和预测集的分布见图2, 五种重金属的预测值和实际值的r和RMSEP见表2。 通过对比分析r和RMSEP, 可以得出PLSMSC是具有最佳的预处理效果, Cu, Zn, As, Pb和Cr的r分别为0.989, 0.973, 0.991, 0.989和0.986, RMSEP分别为8.805, 58.360, 7.671, 12.549和20.851, 相比传统的MSC不仅在精度方面有大幅度的提升, 比MSC, LWLRMSC在时间性能方面也有所提高, 高效且具有更好的泛化性能和预处理效果。

表2 五种重金属的预测值和实际值的拟合结果 Table 2 Fitting results of predicted and actual values of five heavy metals

经PLSMSC预处理后结合Fipls建模的预测值与真实值的偏差如表3所示, 从表3可知, Cu, Zn, As, Pb和Cr预测值和真实值的平均偏差值分别为0.14, 0.33, 0.22, 0.18和0.14, 由于Zn的样本浓度梯度划分差异较大, 导致偏差相对较大外, 其他四种元素偏差相对均匀, 可见采用PLSMSC预处理后, 建立的Fipls模型对五种重金属元素具有较好的预测效果。

表3 预测集中预测值和实际值的相对偏差 Table 3 Relative deviation between predicted value and actual value in prediction set
3 结 论

采用XRF仪获取土壤重金属光谱, 并对比分析了土壤重金属光谱的多元散射校正、 标准正态变量变换、 卷积平滑、 去趋势处理以及两种改进的多元散射校正等9种预处理方法对Fipls建模效果的影响。 结果表明, PLSMSC预处理后所建模型的预测精度最高, 当主成分为8, 波段数为12时, Cu, Zn, As, Pb和Cr预测值和实际值的相关系数分别达到0.989, 0.973, 0.991, 0.989和0.986, 相对偏差分别达到0.14, 0.33, 0.22, 0.18和0.14, 说明土壤重金属光谱图和重金属含量之间有较好的相关性, 由此可以得出, 偏最小二乘回归改进的多元散射校正是土壤重金属含量预测的有效光谱预处理方法。

本文选取的87个样本, 采用Fipls进行建模得到了比较好的效果, 如果进一步扩大样本, 对样本的重金属含量浓度划分得更细致一些或者选择其他的建模方法能使效果达到更优。

The authors have declared that no competing interests exist.

参考文献
[1] WANG Shi-fang, HAN Ping, LU An-xiang, et al(王世芳, 韩平, 陆安祥, ). Journal of Food Safety and Quality(食品安全质量检测学报), 2016, 7(11): 4394. [本文引用:1]
[2] Weindorf D C, Bakr N, Zhu Y D. Advances in Agronomy, 2014, 128: 1. [本文引用:1]
[3] Qu F, Ren D. Sensors, 2016, 16(1): 89. [本文引用:1]
[4] Wang C, Pan X. Soil Science Society of America Journal, 2016, 80(5): 1393. [本文引用:1]
[5] Zheng Kaiyi, Zhang Xuan, Tong Peijin, et al. Chinese Chemical Letters, 2015, 26(3): 293. [本文引用:1]
[6] Chen Tianbing, Liu Muhua, Huang Lin, et al. Chinese Journal of Analytical Chemistry, 2016, 44(7): 1029. [本文引用:1]
[7] QU Fang-fang, REN Dong(瞿芳芳, 任东). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(2): 593. [本文引用:1]
[8] Ministry of Environmental Protecting of the People’s Republic of China(中华人民共和国环境保护部), GB 15618—1995, Environmental Quality Stand ard for Soil(国家标准 15618—1995: 土壤环境质量标准) 1995: 土壤环境质量标准). Beijing: Stand ards Press of China北京: 中国标准出版社, 1995. 1. [本文引用:1]
[9] Dhanoa M S, Barnes R J, Lister S J. Applied Spectroscopy, 1989, 43(5): 772. [本文引用:1]
[10] Losada P P, Lozano J S, Rodríguez V G, et al. Vibrational Spectroscopy, 1993, 5(2): 245. [本文引用:1]
[11] Savitzky A, Golay M J E. Analytical Chemistry, 1964, 36(8): 1627. [本文引用:1]
[12] Park K S, Ko Y H, Lee H, et al. Chemom. Intell. Lab. Syst. , 2001, 55(1-2): 53. [本文引用:1]
[13] Isaksson T, Næs T. Applied Spectroscopy, 1988, 42(7): 1273. [本文引用:1]