不同核函数支持向量机和可见-近红外光谱的多种植被叶片生化组分估算

引用本文

陈方圆, 周鑫, 陈奕云, 王奕涵, 刘会增, 王俊杰, 邬国锋. 不同核函数支持向量机和可见-近红外光谱的多种植被叶片生化组分估算[J]. 光谱学与光谱分析, 2019,39(2): 428-434.
CHEN Fang-yuan, ZHOU Xin, CHEN Yi-yun, WANG Yi-han, LIU Hui-zeng, WANG Jun-jie, WU Guo-feng. Estimating Biochemical Component Contents of Diverse Plant Leaves with Different Kernel Based Support Vector Regression Models and VNIR Spectroscopy[J]. Spectroscopy and Spectral Analysis, 2019,39(2): 428-434.
Doi:10.3964/j.issn.1000-0593(2019)02-0428-07 复制到剪切板

Permissions

《光谱学与光谱分析》期刊社所有

不同核函数支持向量机和可见-近红外光谱的多种植被叶片生化组分估算

陈方圆^1,², 周鑫^1,², 陈奕云^1,², 王奕涵³, 刘会增^4,⁵, 王俊杰^5,⁶, 邬国锋^1,^5,^6,^*

1. 武汉大学资源与环境科学学院, 湖北武汉 430079

2. 武汉大学教育部地理信息系统重点实验室, 湖北武汉 430079

3. 湖北省测绘工程院, 湖北武汉 430074

4. 香港浸会大学地理系, 中国香港

5. 深圳大学国家测绘地理信息局海岸带地理环境监测重点实验室及深圳市空间信息智能感知与服务重点实验室, 广东深圳 518060

6. 深圳大学生命与海洋科学学院, 广东深圳 518060

*通讯联系人 E-mail: guofeng.wu@szu.edu.cn

作者简介: 陈方圆, 1988年生, 武汉大学资源与环境科学学院博士研究生 E-mail: fangyuanchen@whu.edu.cn

收稿日期: 2018-05-23 接受日期: 2018-09-30

基金: 2017年国家重点研发计划(2017YFC0506206), 深圳市科技创新委员会基础研究学科布局项目(JCYJ20151117105543692)资助

摘要

氮、磷、钾元素是植物有机质的重要生化组分, 准确估算其含量对监测管理植被的新陈代谢和健康状况具有重要意义。可见-近红外光谱结合多种建模方法已被用于植被生化参数的监测, 其中支持向量机回归方法被证明能够较好拟合反射光谱和植被生化参数之间的非线性关系, 而选取适当的核函数是其成功的关键。以宜兴地区水稻、玉米、芝麻、大豆、茶叶、草地、乔木和灌木等八种植被叶片样本为研究对象, 分析比较基于径向基核函数、多项式核函数和S形核函数的支持向量回归模型估算叶片氮、磷、钾元素含量的能力。利用一阶微分变换、标准正态变量变换和反对数变换对叶片可见-近红外光谱进行预处理, 运用bootstrapping法生成1 000组校正集和验证集, 分别建立基于三种核函数的支持向量回归估算模型, 以决定系数( R²)和相对分析误差(RPD)的均值作为评价指标。结果显示, 结合一阶微分和反对数变换光谱, 采用径向基核函数模型对氮、钾元素估算精度最高(氮: 平均 R²=0.64, 平均RPD=1.67; 钾: 平均 R²=0.56, 平均RPD=1.48), 结合一阶微分变换光谱, 采用径向基核函数模型对磷元素估算精度最高(磷: 平均 R²=0.68, 平均RPD=1.73)。研究表明, 结合不同预处理的可见-近红外光谱, 基于径向基核函数的支持向量回归模型具有较好的估算多种植被叶片生化组分含量的潜力。

关键词: 核函数; 支持向量机; 可见-近红外光谱; 生化组分

中图分类号:S127 文献标志码:A

Estimating Biochemical Component Contents of Diverse Plant Leaves with Different Kernel Based Support Vector Regression Models and VNIR Spectroscopy

CHEN Fang-yuan^1,², ZHOU Xin^1,², CHEN Yi-yun^1,², WANG Yi-han³, LIU Hui-zeng^4,⁵, WANG Jun-jie^5,⁶, WU Guo-feng^1,^5,^6,^*

1. School of Resource and Environmental Sciences, Wuhan University, Wuhan 430079, China

2. Key Laboratory of Geographic Information System of the Ministry of Education, Wuhan University, Wuhan 430079, China

3. Surveying and Mapping Engineering Institute of Hubei Province, Wuhan 430074, China

4. Department of Geography, Hong Kong Baptist University, Hong Kong, China

5. Key Laboratory for Geo-Environmental Monitoring of Coastal Zone of the National Administration of Surveying, Mapping and GeoInformation & Shenzhen Key Laboratory of Spatial Smart Sensing and Services, Shenzhen University, Shenzhen 518060, China;

6. College of Life Sciences and Oceanography, Shenzhen University, Shenzhen 518060, China

Abstract

Nitrogen (N),phosphorus (P) and potassium (K) are important biochemical components of plant organic matters,and estimating their contents are useful for monitoring plant metabolism processes and health. Visible and near-infrared (VNIR) spectroscopy has been applied to monitor plant biochemical parameters with many modeling methods,in which support vector machine (SVM) has been proved to be a potential approach for modeling the nonlinear relationships between the reflectance spectra and biochemical parameters of plant organic matters, and the successful application of SVM relies on the proper selection of kernels. This study aimed to compare the performances of radial basis function (RBF), polynomial and sigmoid kernels based support vector machine regression (SVR) models in estimating the contents of nitrogen ( c_N), phosphorus ( c_P) and potassium ( c_K) of diverse plant leaves using laboratory-based VNIR spectroscopy. The c_N, c_P, c_K and VNIR reflectance of leaf samples in eight plant species(rice,corn,sesame,soybean, tea, grass, shrub and arbor) were measured in laboratory. Three transformation methods, namely the first derivative(FD), standard normal variate (SNV) and logrithmic reciprocal transformation (Log(1/ R)) were used for spectral transformation. The SVR models using three aforementioned kernels were calibrated and validated with 1 000 bootstrap sample datasets. The average determination coefficients ( R²) as well as ratio of performance to standard deviate (RPD) were calculated to compare the performances of three different kernels. The results showed that, the RBF kernel based SVR model with FD and absorbance transformation obtained the best accuracy for c_N and c_K estimations ( c_N: mean R²=0.64, mean RPD=1.67; c_K: mean R²=0.56, mean RPD=1.48), and the RBF kernel based SVR model with FD transformation obtained the best accuracy for c_P estimations ( c_P: mean R²=0.68, mean RPD=1.73). The study indicated that RBF kernel based SVR model has great potential in estimating biochemical component contents of diverse plant leaves with VNIR spectroscopy.

Keyword: Kernel function; Support vector machine; VNIR spectroscopy; Biochemical content

文章图片

引言

植被有机质控制着植被的新陈代谢过程和健康状况, 例如营养循环、光合作用、植物生产力和凋落物分解速率等。氮(N), 磷(P)和钾(K)元素是植被有机质的三种重要生化组分, 快速掌握这三种元素的含量(c_N, c_P和c_K), 对于监测植被生长过程中的新陈代谢过程和健康状况至关重要^[1]。

传统化学分析手段测定植被氮、磷、钾元素含量, 具有较高的准确性, 但是过程复杂费时, 且对植株本身具有破坏性, 同时, 传统方法手段也无法提供这些元素含量的时空特征信息。而遥感技术具有精细尺度下数种植被生化参数的估算潜力^[1], 植被可见光和近红外(visible and near-infrared, VNIR)波段的反射率光谱包含了纤维素、蛋白质、木质素以及其他参数的综合光谱信息, 可被考虑用于估算氮、磷、钾元素的含量。许多研究发现植被氮元素含量与叶片尺度的VNIR光谱相关性密切^{[2, 3]}, 也有研究表明VNIR光谱与植被磷、钾元素含量之间存在相关关系^[4], 因此, 在精细时空尺度下, 植被的VNIR反射率光谱具备相对快速、低成本量化分析植被营养水平的潜力。

植被的光谱反射率与生化组分含量之间存在非线性关系, 尤其在近红外波段区间, 因而需要探究非线性模型来解决问题。支持向量机(support vector machine, SVM)是一种新的基于统计学习理论的机器学习方法, 其利用结构风险最小化原则避免过拟合问题, 在最小化经验风险下所得结果优于传统的神经网络算法, 而且SVM在小样本、高维度数据情况下具有优异的建模能力^[5]。若干研究已证明了支持向量机回归(support vector machine regression, SVR)在估算植被生化参数方面的潜力, 例如Wang等^[6]运用SVR模型和VNIR光谱对小麦叶片中的氮元素进行量化研究, Yao等^[7]利用包括SVR模型在内的多种算法进行小麦氮元素含量的估算, Zhai等^[8]基于VNIR光谱, 结合SVR模型和偏最小二乘回归(partial least squares regression, PLSR)方法估算植被叶片的氮、磷、钾元素含量, 结果表明结合室内VNIR光谱测量的SVR方法具备估测植被生化组分含量的可行性。

SVR模型中的核函数可将目标空间映射到更高维的特征空间, 将目标空间内自变量和因变量之间的非线性关系转化为特征空间中的线性关系进行处理, 常用的核函数包括线性(linear)核函数, 径向基(radial basis function, RBF)核函数, 多项式(polynomial)核函数和S形(sigmoid)核函数等^[5]。核函数的选择是构建SVR模型的关键, 决定了模型的复杂度和表现。若干研究对比分析了选用不同核函数建模的效果; 刘文杰等^[9]利用四种核函数对玉米种子的高光谱数据进行分析, 结果表明径向基核函数表现最优, S形核函数表现最差; Yang等^[10]通过对比分析径向基核函数、多项式核函数和ANOVA核函数估算水稻叶面积指数的能力, 发现多项式核函数预测结果最优。可见, 对于不同的样本种类、不同的生化参量, 核函数的估算能力不尽相同。当前关注不同核函数估测多种植被生化参数表现的研究还不多, 而对比不同核函数的估测表现, 对于提高植被生化参数估算精度颇具意义。

以江苏省宜兴地区的多种植被为研究对象, 基于室内VNIR光谱, 比较采用径向基核函数、多项式核函数和S形核函数的SVR模型在估算多种植被叶片氮、磷、钾元素含量方面的有效性和稳健性, 加深我们对利用VNIR光谱和SVR模型进行植被生化参数反演的理解。

1 实验部分

1.1 研究区域及样本采集

宜兴市地处江苏省南部(31° 07'— 31° 37'N, 119° 31'— 120° 03'E), 属亚热带季风区, 四季分明, 年平均气温16 ℃, 年平均降水量1 498.8 mm。该市南部为低山丘陵, 北部为平原低洼, 土地肥沃, 主要植被种类包括北部的水稻、小麦、茶叶等农作物和南部的毛竹等林木。

2010年8月11日— 14日采集了包括水稻(14个)、玉米(13个)、芝麻(12个)、大豆(11个)、茶叶(11个)、草地(13个)、乔木(10个)和灌木(11个)在内的八种植被共计95个叶片样本, 每类植被中的样本点均随机选取(图1), 采样时记录下每个样本点的地理坐标, 并将剪下的新鲜植被叶片用塑料袋保存好, 当天送回实验室进行室内分析。

	Figure Option View Download New Window
	图1 研究区域(a)和采样点(+)分布图(b)Fig.1 Maps showing the Yixing region in China (dashed area) (a) and the distribution of sampling sites (+) (b)

1.2 室内光谱测量与分析

采用ASD FieldSpec3地物光谱仪测量植被叶片反射光谱。光谱范围为350~2 500 nm, 其中350~1 000 nm之间采样间隔为1.4 nm, 1 000~2 500 nm之间为2 nm。光谱测量在暗室进行, 将当天采集的新鲜叶片样本均匀铺盖在无反射的黑色托盘内, 采用50 W卤素灯作唯一光源, 光源距离样本中心30 cm, 入射角为15° , 光谱仪探头位于样本垂直上方15 cm, 其视场角为25° 。测试前先对仪器进行标准白板校正, 测试过程中每测六个样本便重新校正一次, 确保测量稳定。每个样本采集10条光谱曲线, 进行算术平均, 得到样本点的光谱反射率数据。

植被叶片样本经过光谱测量后, 分别进行叶片氮、磷、钾元素含量的化学分析。其中叶片中氮元素的含量采用凯氏定氮法测定, 磷元素的含量采用钼锑抗比色法测定, 钾元素的含量采用火焰光度计法测定^[8]。

1.3 数据预处理

对分析得到的氮、磷、钾元素含量数据分别进行异常点检测, 当某一样本落在样本集学生化残差± 2.5范围之外且大于两倍平均杠杆值时, 将其视作异常点予以剔除, 以此确保模型的准确度。经计算, 氮元素样本集中剔除了两个异常点, 磷元素样本集中剔除了两个异常点, 钾元素样本集中剔除了两个异常点。

去除叶片反射光谱中噪声较大的350~399和2 401~2 500 nm边缘波段, 选取400~2 400 nm波段以10 nm为间隔进行重采样, 得到401~2 391 nm波段原始反射光谱。在结合前人研究的基础之上, 采用三种光谱预处理方法消减背景噪声, 首先对原始反射光谱进行一阶微分变换(first derivative, FD), 随后对一阶微分变换光谱分别采用标准正态变量变换(standard normal variate, SNV)和倒数的对数变换(logrithmic reciprocal transformation, Log(1/R))。以上光谱预处理运用Parles V3.0软件完成。

1.4 方法

1.4.1 支持向量回归及核函数

支持向量模型可表述为

$f (x) = \overset{n}{\sum_{i = 1}} a_{i} y_{i} K (x_{i}, x) - b, 0 \leq a_{i} \leq C (1)$

式中K(x_i, x)为核函数, x_i为输入向量(本研究中为光谱反射率数据), x是用于计算更高维特征空间的数据项, y_i为输出向量(本研究中为生化组分含量), a_i为拉格朗日因子矩阵, n为样本数量, b为残差, C为正则化参数, 用以控制超出误差的样本的惩罚程度。核函数可将非线性关系映射到高维空间中, 构建线性回归进行处理, 本研究分别采用了多项式核函数[式(2)], 径向基核函数[式(3)]和S形核函数[式(4)]

$\begin{array}{l} K (x_{i}, x) = (k < x_{i} {, x > + c)}^{d} (2) \\ K (x_{i}, x) = \exp (\frac{- ‖ x_{i}, x ‖^{2}}{2 σ^{2}}) (3) \\ K (x_{i}, x) = \tanh (k' < x_{i}, x > + ϑ) (4) \end{array}$

其中c, d, k, σ , ϑ 和k'等核函数中的参数由优化算法确定^[11]。

1.4.2 模型建立与验证

从样本集中随机选取70%(65个)样本作为校正集, 针对每一种核函数, 在Matlab2010b环境下利用LIBSVM工具箱进行支持向量回归模型的校正^[12]。三种核函数中的参数采用网格参数寻优法和五折交叉验证确定, 取交叉验证过程中均方根误差(root mean square error, RMSE)最小时所对应的各参数为最优值^[8]。剩余30%(28个)样本作为验证集, 以检验校正所得SVR模型的表现, 模型精度评价指标采用决定系数(determination coefficient, R²)和相对分析误差(ratio of performance to standard deviate, RPD)。上述评价指标中, R²越大, 模型预测效果越好, 此外, 当RPD在1.4~2时, 表示模型有一定的预测能力, 在2~2.5时表示模型预测能力良好, 大于2.5时则表明模型有很好的预测能力。

为减少随机抽样建模所导致的误差, 采用bootstrapping方法, 对原始93个样本进行有放回的抽样, 获得1000组校正集和验证集, 将上述模型校正和验证流程重复1 000次, 并计算出1 000次模型校正和验证的R²均值与RPD均值, 用以评价基于不同核函数的模型表现。

2 结果与讨论

2.1 叶片生化组分含量与反射光谱

植被叶片样本生化组分含量统计如表1所示, 不同种类植被叶片的氮、磷、钾元素含量差异较大, 可达10倍以上。八种植被叶片的平均反射光谱曲线总体形态比较一致, 反射率高低存在差异, 如图2所示。其中在550 nm附近因叶绿素的弱吸收而形成反射峰, 700至750 nm区间内出现反射率增长最快的“ 红边” (red edge), 780~1 300 nm近红外波段区间反射率较高, 主要是叶片细胞组织反射造成, 1 450和1 950 nm附近的反射谷则主要是由水分的吸收引起。

表1 植被叶片样本氮、磷、钾元素含量统计 Table 1 Descriptive statistics of the contents of nitrogen (c_N), phosphorus (c_P) and potassium (c_K) of plant leaf samples

	Figure Option View Download New Window
	图2 八种植被叶片平均反射光谱曲线Fig.2 The average original reflectance spectra of leaf samples from eight kinds of plants

2.2 光谱预处理

对植被叶片氮、磷、钾元素含量与预处理光谱及原始光谱的相关关系进行分析, 其结果如图3所示。叶片原始光谱与各生化组分含量之间的相关系数都比较小(c_N: -0.22~0.20, c_P: -0.21~0.19, c_K: -0.37~0.12), 经预处理后的光谱与三种含量之间的相关系数都有显著增大, 某些波段达到0.05显著性水平。而三种预处理方法对相关关系的提升作用相当, 与一阶微分变换相比(最大相关系数分别为c_N: 0.54, c_P: 0.63和c_K: -0.66), 进一步采用SNV变换或Log(1/R)变换仅略微提高相关关系(< 0.03)。

Figure Option
View Download New Window

图3 植被叶片c_N, c_P, c_K与预处理光谱的相关性
注: 虚线代表生化组分含量与原始光谱的相关性(a): 一阶微分变换与c_N; (b): 一阶微分和SNV变换与c_N; (c): 一阶微分和Log(1/R)变换与c_N; (d): 一阶微分变换与c_P; (e): 一阶微分和SNV变换与c_P; (f): 一阶微分和Log(1/R)变换与c_P; (g): 一阶微分变换与c_K; (h): 一阶微分和SNV变换与c_K; (i): 一阶微分和Log(1/R)变换与c_KFig.3 Correlations of the contents of nitrogen (c_N), phosphorus (c_P) and potassium (c_K) against the original reflectance (dash line) and their derived values with different pre-processing methods
Note: the dashed lines refer to the correlations between the biochemical components and original reflectance spectra (a): First derivative; (b): first derivative plus standard normal variate (SNV); (c): First derivative plus absorbance transformation (Log(1/R)) for c_N; (d): First derivative; (e): First derivative plus SNV; (f): First derivative plus Log(1/R) for c_P; (g): First derivative; (h): First derivative plus SNV; (i): First derivative plus Log(1/R) for c_K

2.3 基于不同核函数的模型结果比较

利用三种不同预处理方法和三种核函数, 建立支持向量机回归模型估算植被叶片氮、磷、钾元素含量, 其结果如表2所示。总体上看, 基于RBF核函数模型的精度最佳, 多项式核函数模型结果次之, 而S形核函数模型效果最差。模型校正结果显示, 基于一阶微分变换的RBF核函数模型对三种组分含量的反演结果最优; 模型验证结果表明, 基于一阶微分和Log(1/R)变换的RBF核函数模型对氮、钾元素含量的反演精度最佳(c_N: 平均R²=0.64, 平均RPD=1.67; c_K: 平均R²=0.56, 平均RPD=1.48), 而基于一阶微分变换的RBF核函数模型则是磷元素的最佳估算模型(平均R²=0.68, 平均RPD=1.73)。分别选出验证过程中R²最高的模型, 其对生化组分含量的预测值与实测值在0.05显著性水平下均存在强相关性(c_N: R²=0.85, RPD=2.63; c_P: R²=0.87, RPD=2.80; c_K: R²=0.83, RPD=2.30), 如图4所示。

表2 基于径向基核函数、 S形核函数和多项式核函数的植被叶片c_N, c_P, c_K估算SVR模型结果 Table 2 Performances of support vector regression models with radial basis function kernel, sigmoid kernel and polynomial kernel for estimating the contents of nitrogen (c_N), phosphorus (c_P) and potassium (c_K) of plant leaves

	FD			FD+SNV			FD+Log(1/R)
	RBF^a	Sig^b	Poly^c	RBF	Sig	Poly	RBF	Sig	Poly
c_N
R^2*	0.93	0.84	0.88	0.92	0.80	0.89	0.91	0.80	0.89
RPD^*	7.80	2.97	3.62	5.78	2.78	4.23	4.19	2.66	3.40
$R_{V}^{2 * *}$	0.58	0.56	0.58	0.60	0.58	0.61	0.64	0.59	0.60
RP $D_{V}^{* *}$	1.51	1.47	1.51	1.55	1.50	1.56	1.67	1.52	1.59
c_P
R²	0.99	0.83	0.83	0.89	0.72	0.75	0.94	0.78	0.85
RPD	32.97	3.04	4.30	6.17	2.05	2.18	15.95	2.59	3.54
$R_{V}^{2}$	0.68	0.53	0.50	0.54	0.51	0.52	0.57	0.54	0.56
RPD_V	1.73	1.40	1.34	1.44	1.34	1.39	1.47	1.40	1.44
c_K
R²	0.94	0.75	0.78	0.89	0.73	0.75	0.87	0.69	0.76
RPD	11.04	2.11	2.43	6.17	2.05	2.18	4.35	1.97	2.26
$R_{V}^{2}$	0.55	0.50	0.52	0.54	0.51	0.52	0.56	0.48	0.52
RPD_V	1.46	1.37	1.39	1.44	1.38	1.39	1.48	1.34	1.39

^a RBF: 径向基核函数; ^b Sig: S形核函数; ^c Poly: 多项式核函数; ^*R²: 校正集平均决定系数; ^* RPD: 校正集平均相对分析误差; ^{* *} $R_{V}^{2}$ : 验证集平均决定系数; ^{* *} RPD_V: 验证集平均相对分析误差

	Figure Option View Download New Window
	图4 验证过程中R²最高模型的预测表现 (a): c_N; (b): c_P; (c): c_KFig.4 Performance of the best models for estimating the contents of nitrogen (c_N) (a), phosphorus (c_P) (b) and potassium (c_K) (c) with the validation dataset

基于RBF核函数的SVR模型对植被叶片氮、磷、钾元素含量的预测优于S形核函数和多项式核函数模型。植被叶片生化组分含量与其VNIR光谱之间的关系通常是非线性的, 且会受到叶片生化组分特征及实验条件的影响。 RBF核函数(也称高斯核函数)能够实现高维空间的非线性映射, 即使在样本分布未知情况下, 其旋转对称性可确保不造成大的偏差^[5], 而S形核函数在某些参数条件下不满足核函数半正定性要求, 其应用会受到限制^[13]。此外, 与多项式核函数和S形核函数相比, RBF核函数的待优化参数较少, 模型复杂度更低, 稳健性更好。综合他人研究^[6]和本实验结果, 基于VNIR光谱和支持向量机进行植被叶片生化组分含量估算时, 可优先考虑RBF核函数。

传统的估算植被生化参数方法包括多元线性回归(MLR)和偏最小二乘回归(PLSR)。多元线性回归法一般选择若干个波段参与运算, 但波段选择没有考虑植被的吸收特征, 容易忽略与目标参数密切相关的光谱信息; 偏最小二乘回归是多元线性回归与主成分分析(PCA)的组合, 克服了波段选择和多元共线性的不足, 但与多元线性回归同属线性方法, 对非线性关系的处理能力有限^[6]。本工作所用的支持向量机回归方法, 通过合适的核函数将非线性关系映射到高维空间, 可有效处理变量间非线性关系; 若干研究对比了PLSR和SVR对非线性关系数据的建模预测能力, 发现SVR表现更佳^{[6, 14]}。人工神经网络(ANN)法在处理非线性问题时同样有较好的效果^[15], 但其存在模型物理意义不明、模型过拟合等不足^[7]。因此, 在利用植被叶片光谱进行生化组分参数估算时, 基于RBF核函数的支持向量机回归模型具有很大潜力。

基于RBF核函数的支持向量机回归模型, 针对八种不同植被叶片的光谱数据, 估算氮、磷、钾等三种元素含量的平均精度为0.64, 0.68和0.56, 最佳精度可达0.85, 0.87和0.83。 Yao等^[7]利用支持向量机方法估算小麦叶片氮含量的精度可达0.78, Axelsson等^[14]结合各种支持向量机方法基于景观尺度的红树林高光谱数据反演其叶片的氮、磷、钾、钙等化学元素的含量, 发现只有氮元素的反演结果令人满意(R²=0.67)。与这些研究相比, 本工作所得模型精度适中, 稳健性较好, 表明建立一个针对混合植被类型的多生化参数估算模型是可以实现的。然而本研究采用的是基于植被叶片尺度的室内光谱测量, 对模型在不同季节, 不同尺度, 不同光谱数据时的适用性, 还需进一步验证; 同时, 对于其他潜在的光谱预处理方法和核函数模型, 也有待进一步探究比较。

3 结论

利用八种植被叶片的可见-近红外光谱数据, 结合不同光谱预处理方法, 构建了基于径向基核函数、多项式核函数和S形核函数的支持向量回归模型, 并比较这三种不同核函数的模型估算叶片氮、磷、钾元素含量的表现。得到结论如下: (1)利用一阶微分变换、标准正态变量变换及倒数的对数变换等方法对植被叶片的可见-近红外光谱进行预处理, 可有效降低光谱噪声, 显著提高模型的估算精度。 (2)基于径向基核函数的支持向量回归模型估算精度最好, 基于多项式核函数所得结果次之, 基于S形核函数建立模型估算精度最差。利用径向基核函数建立的模型估算氮、磷、钾元素含量的决定系数和相对分析误差分别为0.64, 0.68, 0.56和1.67, 1.73, 1.48。 (3)针对多种类别混合组成的植被叶片样本, 基于径向基核函数的支持向量回归模型预测精度尚可, 表明其具有一定的适用性和稳健性, 后续工作将进一步利用不同季节、不同尺度下的数据对模型进行验证。

The authors have declared that no competing interests exist.

参考文献

文献列表

[1]	Mahajan G, Sahoo R, Pand ey R, et al. Precision Agriculture, 2014, 15(5): 499. [本文引用:2]
[2]	Tang R, Chen X, Li C. Applied Spectroscopy, 2018, 72(5): 740. [本文引用:1]
[3]	Cui L, Fei T, Qi Q, et al. International Journal of Remote Sensing, 2013, 34(5): 1866. [本文引用:1]
[4]	Sanches I, Tuohy M, Hedley M, et al. International Journal of Remote Sensing, 2013, 34(1): 276. [本文引用:1]
[5]	Vapnik V N. The Nature of Statistics Learning Theory. 2nd ed. Springer-Verlag New York Inc. , 2000. [本文引用:3]
[6]	Wang L, Zhou X, Zhu X, et al. Computers and Electronics in Agriculture, 2017, 140: 327. [本文引用:4]
[7]	Yao X, Huang Y, Shang G, et al. Remote Sensing, 2015, 7(11): 14939. [本文引用:3]
[8]	Zhai Y, Cui L, Zhou X, et al. International Journal of Remote Sensing, 2013, 34(7): 2502. [本文引用:3]
[9]	LIU Wen-jie, LI Wei-jun, LI Hao-guang, et al(刘文杰, 李卫军, 李浩光, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(7): 2024. [本文引用:1]
[10]	Yang X, Huang J, Wu Y, et al. Science China Life Sciences, 2011, 54(3): 272. [本文引用:1]
[11]	Smola A, Schölkopf B. Statistics and Computing, 2004, 14(3): 199. [本文引用:1]
[12]	Chang C C, Lin C J. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): Article 27 (doi: DOI:10.1145/1961189.1961199). [本文引用:1]
[13]	Zhou X, Ma Y. Communications in Statistics-Simulation and Computation, 2013, 42(10): 2175. [本文引用:1]
[14]	Axelsson C, Skidmore A, Schlerf M, et al. International Journal of Remote Sensing, 2013, 34(5): 1724. [本文引用:2]
[15]	Xu S, Zhao Y, Wang M, et al. Geoderma, 2018, 310: 29. [本文引用:1]

2014

0.0

... 氮(N), 磷(P)和钾(K)元素是植被有机质的三种重要生化组分, 快速掌握这三种元素的含量(c_N, c_P和c_K), 对于监测植被生长过程中的新陈代谢过程和健康状况至关重要^[1] ...

... 而遥感技术具有精细尺度下数种植被生化参数的估算潜力^[1], 植被可见光和近红外(visible and near-infrared, VNIR)波段的反射率光谱包含了纤维素、蛋白质、木质素以及其他参数的综合光谱信息, 可被考虑用于估算氮、磷、钾元素的含量 ...

2018

0.0

... 许多研究发现植被氮元素含量与叶片尺度的VNIR光谱相关性密切^[2,3], 也有研究表明VNIR光谱与植被磷、钾元素含量之间存在相关关系^[4], 因此, 在精细时空尺度下, 植被的VNIR反射率光谱具备相对快速、低成本量化分析植被营养水平的潜力 ...

2013

0.0

2013

0.0

2000

0.0

... 支持向量机(support vector machine, SVM)是一种新的基于统计学习理论的机器学习方法, 其利用结构风险最小化原则避免过拟合问题, 在最小化经验风险下所得结果优于传统的神经网络算法, 而且SVM在小样本、高维度数据情况下具有优异的建模能力^[5] ...

... SVR模型中的核函数可将目标空间映射到更高维的特征空间, 将目标空间内自变量和因变量之间的非线性关系转化为特征空间中的线性关系进行处理, 常用的核函数包括线性(linear)核函数, 径向基(radial basis function, RBF)核函数, 多项式(polynomial)核函数和S形(sigmoid)核函数等^[5] ...

... RBF核函数(也称高斯核函数)能够实现高维空间的非线性映射, 即使在样本分布未知情况下, 其旋转对称性可确保不造成大的偏差^[5], 而S形核函数在某些参数条件下不满足核函数半正定性要求, 其应用会受到限制^[13] ...

2017

0.0

... 若干研究已证明了支持向量机回归(support vector machine regression, SVR)在估算植被生化参数方面的潜力, 例如Wang等^[6]运用SVR模型和VNIR光谱对小麦叶片中的氮元素进行量化研究, Yao等^[7]利用包括SVR模型在内的多种算法进行小麦氮元素含量的估算, Zhai等^[8]基于VNIR光谱, 结合SVR模型和偏最小二乘回归(partial least squares regression, PLSR)方法估算植被叶片的氮、磷、钾元素含量, 结果表明结合室内VNIR光谱测量的SVR方法具备估测植被生化组分含量的可行性 ...

... 综合他人研究^[6]和本实验结果, 基于VNIR光谱和支持向量机进行植被叶片生化组分含量估算时, 可优先考虑RBF核函数 ...

... 偏最小二乘回归是多元线性回归与主成分分析(PCA)的组合, 克服了波段选择和多元共线性的不足, 但与多元线性回归同属线性方法, 对非线性关系的处理能力有限^[6] ...

... 若干研究对比了PLSR和SVR对非线性关系数据的建模预测能力, 发现SVR表现更佳^{[6, 14]} ...

2015

0.0

... 人工神经网络(ANN)法在处理非线性问题时同样有较好的效果^[15], 但其存在模型物理意义不明、模型过拟合等不足^[7] ...

... Yao等^[7]利用支持向量机方法估算小麦叶片氮含量的精度可达0 ...

2013

0.0

... 其中叶片中氮元素的含量采用凯氏定氮法测定, 磷元素的含量采用钼锑抗比色法测定, 钾元素的含量采用火焰光度计法测定^[8] ...

... 三种核函数中的参数采用网格参数寻优法和五折交叉验证确定, 取交叉验证过程中均方根误差(root mean square error, RMSE)最小时所对应的各参数为最优值^[8] ...

2017

0.0

... 刘文杰等^[9]利用四种核函数对玉米种子的高光谱数据进行分析, 结果表明径向基核函数表现最优, S形核函数表现最差 ...

2011

0.0

... Yang等^[10]通过对比分析径向基核函数、多项式核函数和ANOVA核函数估算水稻叶面积指数的能力, 发现多项式核函数预测结果最优 ...

2004

0.0

... 和k'等核函数中的参数由优化算法确定^[11] ...

2011

0.0

... 从样本集中随机选取70%(65个)样本作为校正集, 针对每一种核函数, 在Matlab2010b环境下利用LIBSVM工具箱进行支持向量回归模型的校正^[12] ...

2013

0.0

2013

0.0

... 若干研究对比了PLSR和SVR对非线性关系数据的建模预测能力, 发现SVR表现更佳^{[6, 14]} ...

... 78, Axelsson等^[14]结合各种支持向量机方法基于景观尺度的红树林高光谱数据反演其叶片的氮、磷、钾、钙等化学元素的含量, 发现只有氮元素的反演结果令人满意(R²=0 ...

2018

0.0

... 人工神经网络(ANN)法在处理非线性问题时同样有较好的效果^[15], 但其存在模型物理意义不明、模型过拟合等不足^[7] ...