多分类器融合提取土壤养分特征波长
李雪莹1,2,3, 范萍萍1,2,3, 刘岩1,2,3,*, 王茜1,2,3, 吕美蓉1,2,3,*
1. 齐鲁工业大学(山东省科学院), 山东省科学院海洋仪器仪表研究所, 山东 青岛 266061
2. 山东省海洋环境监测技术重点实验室, 山东 青岛 266061
3. 国家海洋监测设备工程技术研究中心, 山东 青岛 266061
*通讯联系人 e-mail: 444868063@qq.com; sdqdliuyan@126.com

作者简介: 李雪莹, 女, 1990年生, 山东省科学院海洋仪器仪表研究所助理研究员 e-mail: ponneylxy@163.com

摘要

光谱已经应用于土壤养分速测的分析, 但是如何寻找土壤光谱特征波段, 尽最大可能避免无用信息干扰、 保留有用信息, 建立准确度高、 预测效果好的模型仍是一个亟需解决的问题。 以青岛三个不同地区土壤样品为例, 测定土壤样品的紫外-可见-近红外光谱及其总碳(TC)、 总氮(TN)、 总磷(TP)含量; 分别采用连续投影算法(SPA)、 无信息变量消除法(UVE)、 遗传算法(GA)、 相关系数法(CC)四种算法(四种单分类器)对土壤光谱提取特征波长; 再引入投票法和加权投票法的多分类器融合方法将四种算法融合得到特征波长; 以偏最小二乘回归(PLSR)建立各土壤养分含量的模型, 通过对模型效果的评价标准(建模集绝对系数Rc2、 校正均方根误差RMSEC、 检验集绝对系数Rp2、 预测均方根误差RMSEP和相对分析误差RPD值)来判别各单分类器算法和多分类器融合算法对土壤养分含量特征波长的提取效果。 分别对四种算法、 筛选其中三种算法、 最优二种算法进行融合, 分析融合后模型效果和特征波长个数, 结果表明: 将四种单分类器经投票法融合后, 其模型效果大部分不如单分类器, 且相对好的模型特征波长个数较多; 相较于投票法多分类器融合, 四种单分类器经加权投票法融合模型效果有了一定的提高, TC和TN都能够在较少的波长中获得较好的预测效果, 但仅TN经融合后, 模型效果优于每个单分类器; TC, TN, TP分别在取SPA+UVE+GA, SPA+UVE+GA(或SPA+GA+CC)、 SPA+UVE+GA三种单分类器进行加权投票法融合后, 均能获得最优模型效果, 且明显优于每个单分类器, 模型效果有了显著提高; 各土壤养分含量经两个最优单分类器加权投票法融合后, 仍能得到好于最优单分类器的建模效果, TC和TP建模效果略差于三个单分类器融合结果, TN建模效果与三个单分类器融合结果相同。 因此, 在筛选三种算法融合, 且其中包含最优两种算法的情况下, 能够以较少的特征波长个数获得明显高于单分类器的建模效果。 该方法为寻找土壤养分以及其他复杂物质成分的光谱特征波段提供了新方法, 也为多种算法的综合运用提供了新思路。

关键词: 多分类器融合; 土壤养分; 光谱技术; 特征波长提取
中图分类号:O657.3 文献标志码:A
Extracting Characteristic Wavelength of Soil Nutrients Based on Multi-Classifier Fusion
LI Xue-ying1,2,3, FAN Ping-ping1,2,3, LIU Yan1,2,3,*, WANG Qian1,2,3, LÜ Mei-rong1,2,3,*
1. Institute of Oceanographic Instrumentation, Qilu University of Technology (Shandong Academy of Sciences), Qingdao 266061, China
2. Shandong Provincial Key Laboratory of Ocean Environmental Monitoring Technology, Qingdao 266061, China
3. National Engineering and Technological Research Center of Marine Monitoring Equipment, Qingdao 266061, China
*Corresponding authors
Abstract

Although spectral technology has been applied to the rapid detection of soil nutrient, how to find the spectral characteristic bands of soil, to avoid useless information and to keep useful information, and to establish a model with high accuracy and good predictive effect is still an urgent problem to be solved. Taking soil samples from three different regions in Qingdao as an example, the ultraviolet-visible-near-infrared spectra and total carbon (TC), total nitrogen (TN) and total phosphorus (TP) content of soil samples were determined. Successive Projections Algorithm (SPA), Uninformative Variable Elimination (UVE), Genetic Algorithm (GA) and Correlation Coefficient Method (CC) four kinds of algorithms (four single classifiers) were used to extract the characteristic wavelength of the soil spectra. The multi-classifier fusion of the voting method and the weighted voting method were used to obtain the characteristic wavelength. The soil nutrient content models were established by the partial least squares regression (PLSR). Through theresult of these models (the determination coefficient of calibration setRc2, the corrected root mean square error RMSEC, the determination coefficient of test setRp2, the predicted root mean square error RMSEP and residual predictive deviation RPD), we evaluated the effect of extracting the characteristic wavelength of soil nutrient content among each single classifier algorithm and multiple-classifier fusion algorithm. In this paper, the multi-classifier fusion of four algorithms, three algorithms and optimal two algorithms were analyzed. The results showed that, after merging four kinds of single classifier by voting method, the model effect was mostly inferior to each single classifier, and there were many characteristic wavelengths in the relative good model. The model effect of four single classifier by weighted voting method had been improved compared with that by voting method. TC and TN could achieve better prediction effect in less wavelength, but only after TN fusion, the model effect was better than each single classifier. TC, TN and TP were fused by weighted voting method with SPA+UVE+GA, SPA+UVE+GA (or SPA+GA+CC) and SPA+UVE+GA three kinds of single classifier, and the optimal model effect was obtained, which was superior to each single classifier. The soil nutrient content was fused by weighted voting method with two optimal single classifier, the modeling effect was better than that of the optimal single classifier, the results of TC and TP modeling were slightly worse than those of three single classifiers, and TN modeling effect was the same as that of three single classifiers. So TC, TN and TP could obtain higher results than single classifier in case of selecting three kinds of algorithms and including the optimal two algorithms. It provides a new method for finding spectral characteristic bands of soil nutrients and other complex substances, and also provides a new idea for the comprehensive application of various algorithms.

Keyword: Multi-classifier fusion; Soil nutrients; Spectral techniques; Characteristic wavelength extraction
引 言

光谱技术作为一种快速、 无损的测量方法已经应用于土壤养分含量分析中, 并取得了一定的成果[1, 2]。 但是土壤光谱速测技术没有广泛推广, 其原因之一是光谱含有许多噪声信息和与检测指标不相关的无用信息[3, 4]。 提取光谱特征波长能够有效地避免这些问题, 从而建立准确性更高的模型。 土壤含有大量的物质, 其成分非常复杂[5], 光谱敏感波段提取具有较大困难, 采用何种波长提取方法能够最大程度保留代表土壤养分的有效信息, 是一个非常值得研究的重要问题。

多融合分类器是将多个单分类器获取的结果以一定的规则, 最终得到一个融合结果。 多分类器融合方法已应用于光谱模型的定性分析, 一定程度上提高了判别模型的准确率[10, 11]。 目前特征波长提取方式主要是靠人工经验, 以及单一类别的特征波长提取算法等方法[6]。 单一类别的特征波长提取算法相当于一个单分类器, 将多分类器融合算法, 即多种特征波长提取方法以一定的规则融合, 应用于光谱特征波长的提取具有一定的研究意义。

以青岛三个不同地区土壤样品为例, 采集土壤样品的紫外-可见-近红外光谱及其总碳(TC)、 总氮(TN)、 总磷(TP)含量, 分别采用连续投影算法(SPA)、 无信息变量消除法(UVE)、 遗传算法(GA)、 相关系数法(CC)四种算法对土壤光谱提取特征波长, 再分别运用投票法和加权投票法的多分类器融合方法将四种算法融合得到特征波长, 以偏最小二乘回归(PLSR)建立各土壤养分含量的模型, 通过对模型的评价来判别各土壤养分含量特征波长的提取效果。

1 实验部分
1.1 材料

采集青岛浮山山麓(砂壤土)、 枣山耕地(砂壤土)、 李村河畔(粉壤土)三个不同地区的土壤样品, 共计178份。 将土壤样品经50 ℃干燥后, 过0.45 mm尼龙筛, 待用。 取5~10 g土壤样品, 采用元素分析仪分别测定TC和TN含量, 钼锑抗比色法测定TP含量, 含量统计结果见表1

表1 土壤TC, TN和TP含量统计表 Table 1 The statistical results of TC, TN, TP contents in soil samples
1.2 光谱数据采集

实验仪器为海洋光学QE65000光谱仪, 光谱采样间隔为1 nm, 谱区范围200~1 100 nm。 自制一个土壤样品盒, 其大小与探头支架一样, 将土壤样品置于样品盒中, 轻轻压平, 测量土壤样品光谱, 土壤样品光谱测量示意图见图1。 每个土壤样品测定5次光谱反射率, 取平均值, 去除前、 后段噪声影响较大的反射光谱, 保留226~975 nm的光谱数据, 见图2。

图1 土壤样品光谱测量示意图Fig.1 Schematic diagram of soil samples spectral measurement

图2 土壤样品反射光谱曲线图Fig.2 Reflectance spectra of soil samples

1.3 特征波长提取算法

采用连续投影算法(SPA)[7]、 无信息变量消除算法(UVE)[8]、 遗传算法(GA)[9]、 相关系数法(CC)[10], 其中相关系数法设置其阈值为≥ 0.5。 本文各单分类器算法均在matlabR2015b中实现。

1.4 多分类器融合

多分类器融合是以投票法和加权投票法对多种特征提取方法进行融合, 得到最终的决策结果。

1.4.1 投票法融合

投票法是对光谱的各波长进行统计, 每种单分类器(即一种特征波长算法)对全光谱波长的筛选都作为对该波长投一票, 统计各波长的投票个数。 设第m个波长点在第n个分类器的投票数为Bnm, 共有N个分类器, 第m个波长点的投票总数为Tm, 其中m=1, 2, …, M

Tm=n=1NBnm(1)

根据实际需求选取Tmk的全部波长点(k=1, 2, …, N)作为光谱特征波长, 即为融合结果。

1.4.2 加权投票法融合

加权投票法是在投票法基础之上, 根据每个单分类器输出结果的好坏来对其赋予不同的权值[10, 11]。 本文根据每种算法获取的特征波长建立模型的效果来进行评价, 按照各算法的评价结果对单分类器赋权值α i, i=1, 2, …, N

Tm=n=1NαiBnm(2)

根据实际需求选取Tmk的全部波长点(k=1, 2, …, 1+N2× N)作为光谱特征波长, 即为融合结果。 权值α i按由差到好采用首项为1、 公差为1的等差数列依次赋值为1, 2, …, N

1.5 模型建立与评价

为保证每次划分建模集和检验集均为一致, 采用顺序分类按2:1比例划分(即按顺序取两个土壤样品为建模集, 再取一个土壤样品为检验集, 依次类推), 以偏最小二乘回归(PLSR)分别建立土壤TC, TN, TP含量校正模型, 并预测检验集土壤各养分含量。 通过建模集绝对系数 Rc2、 校正均方根误差RMSEC、 检验集绝对系数 Rp2、 预测均方根误差RMSEP和相对分析误差RPD对模型进行评价, Rc2, Rp2, RPD越大, 且RMSEC和RMSEP越小, 则模型效果越好。

2 结果与讨论
2.1 4种单分类器提取特征波长及模型评价

分别对TC, TN, TP全波段, SPA, UVE, GA和CC提取波长后的光谱值进行PLSR建模, 模型评价结果见表2

表2 TC, TN, TP养分含量单分类器提取波长模型评价结果 Table 2 The model results of extracting characteristic wavelength by single classifiers

表2可知, TC含量模型中, SPA, UVE和GA提取特征波长后, 建模预测效果均高于全光谱; TN含量模型中, 4种算法相较于全光谱建模, 效果均有不同程度提高; TP含量模型中, 仅有SPA算法评价效果优于全光谱。

2.2 投票法多分类器融合结果

采用投票法对上述四种特征波长提取算法进行融合, 分别得到TC, TN和TP融合后的特征波长个数和模型评价结果, 见表3

表3 TC, TN, TP投票法多分类器融合提取波长模型评价结果 Table 3 The model results of extracting characteristic wavelength by the multi-classifier fusion of the voting method

表3可知, TC, TN和TP经过投票法融合后特征波长的模型, 取Tm≥ 1时, 得到最优的建模和验证效果。 结合表2, 投票法融合后的最优模型效果与全光谱的模型效果基本一致, 投票法融合只能够减少波长点, 不能对模型起到优化的作用。 投票法融合与每个单分类器相比, SPA算法的模型效果明显优于投票法融合, 且所取特征波长个数更少; UVE的模型效果在TC和TN中略好于投票法融合, 在TP中与投票法融合基本一致; GA和CC的模型效果在TN中好于投票法融合, 在TC和TP中不及投票法融合。 投票法多分类器融合获取特征波长个数在较少的情况下, 不能建立一个好的模型, 得到相对好的模型时, 特征波长个数较多, 不利于寻找其敏感波段, 且融合后结果大部分不如单分类器模型效果。

2.3 加权投票法多分类器融合结果

采用加权投票法对四种单分类器进行融合, 分别得到三种养分融合后的特征波长个数, 见表4; 由于加权投票法多分类器融合和模型评价结果较多, 为了方便与单分类器对比, 仅采用RPD值与各单分类器算法进行比较, 见图3。

表4 TC, TN和TP加权投票法多分类器融合提取波长个数 Table 4 The number of characteristic wavelength by the multi-classifier fusion of the weighted voting method

图3 TC, TN和TP加权投票法多分类器融合和各单分类器RPD值Fig.3 RPD values of the multi-classifier fusion of the weighted voting method and single classifiers

由图3、 表4, 在TC中, Tm≥ 5时, 特征波长个数为19, 采用加权投票法多分类器融合的RPD值最大, 与模型效果最好的SPA算法RPD值接近; 在TN中, Tm≥ 4时, 特征波长个数为44, 融合后比每个单分类器算法RPD值都高; 在TP中, Tm≥ 2时, 特征波长个数为473, RPD值仅次于最高的两个算法。 相较于投票法多分类器融合, 加权投票法多分类器融合模型效果有了一定的提高, TC和TN能够在较少波长中获得较好的预测效果, 仅TN经融合后, 模型效果优于每个单分类器。 以下采用在四个单分类器中依次筛选三个分类器进行加权投票法融合, 融合后最好模型评价结果见表5

表5 TC, TN, TP加权投票法多分类器(三个单分类器)融合提取波长模型评价结果 Table 5 The model results of extracting characteristic wavelength by the multi-classifier fusion of the weighted voting method (three single classifiers)

表5可知, TC, TN和TP分别在取SPA+UVE+GA, SPA+UVE+GA(或SPA+GA+CC), SPA+UVE+GA时, 获得最优模型效果, 且明显优于每个单分类器, 采用多分类器融合提取特征波长建立定量模型具有一定的可行性。 三个单分类器均由前两个模型效果最佳组成, 因此将前两个最优单分类器进行加权投票法多分类器融合, 融合后TC, TN和TP特征波长个数分别为26, 69和295, RPD值分别为2.885, 3.310和2.415。 TC和TP建模效果略差于三个单分类器融合结果, TN建模效果与三个单分类器融合结果相同。

根据以上分析可知, TC, TN和TP分别在取SPA+UVE+GA, SPA+UVE+GA(或SPA+GA+CC), SPA+UVE+GA时, 模型效果最佳, 特征波长个数分别为27, 69和13, 三种养分的特征波长图见图4。

图4 TC, TN和TP光谱特征波长图Fig.4 Spectral characteristic wavelength of TC, TN和TP

土壤TC, TN和TP投票法多分类器融合模型效果不如加权投票法, 且提取的特征波长个数较多, 分析原因投票法对每个单分类器设置的权重系数一致, 不能够体现单分类器之间的差异。 加权投票法多分类器融合能够有效地避免这些问题, 对较好的单分类器赋较高的权值, 对较差的单分类器赋较低的权值。 未来还将尝试以其他规则对各个单分类器赋值进行融合, 以及采用更多的单一特征波长提取算法, 对他们进行筛选融合。

3 结 论

以青岛3个不同地区土壤样品TC, TN和TP含量为例, 通过分析SPA, UVE, GA和CC四种算法提取光谱特征波长建模的模型效果, 并引入多分类器融合方法, 采用投票法和加权投票法对四种算法、 筛选其中3种算法、 最优两种算法进行融合, 分析融合后模型效果和特征波长个数。 在筛选3种算法, 且其中包含最优两种算法的情况下, 能够以较少的特征波长个数获得明显高于单分类器的建模效果。 该方法为寻找土壤养分以及其他复杂物质成分的光谱特征波段提供了新方法, 也为多种算法的综合运用提供了新思路。

参考文献
[1] Kodaira M, Shibusawa S. Geoderma, 2013, 199(4): 64. [本文引用:1]
[2] Iznaga A C, Orozco M R, Alcantara E A, et al. Biosystems Engineering, 2014, 125: 105. [本文引用:1]
[3] Brenchley J M, Hörchner U, Kalivas J H. Applied Spectroscopy, 2016, 51(5): 689. [本文引用:1]
[4] Liu D, Sun D W, Zeng X A. Food & Bioprocess Technology, 2014, 7(2): 307. [本文引用:1]
[5] Rossel R A V, Webster R. European Journal of Soil Science, 2012, 63(6): 848. [本文引用:1]
[6] Shen G, Han L, Fan X, et al. Journal of Near Infrared Spectroscopy, 2017, 25(1): 63. [本文引用:1]
[7] Sun Y, Gu X, Sun K, et al. LWT-Food Science and Technology, 2017, 75: 557. [本文引用:1]
[8] Li Z, Wang J, Xiong Y, et al. Vibrational Spectroscopy, 2016, 84: 24. [本文引用:1]
[9] Tang G, Wei B, Wu D, et al. Journal of Applied Spectroscopy, 2018, 85(1): 1. [本文引用:1]
[10] LI Kai, LI Xue-ying, LUAN Li-li, et al(李凯, 李雪莹, 栾丽丽, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(11): 3547. [本文引用:3]
[11] Luan L, Wang Y, Li X, et al. Journal of Near Infrared Spectroscopy, 2016, 24(4). [本文引用:2]