作者简介: 李雪莹, 女, 1990年生, 山东省科学院海洋仪器仪表研究所助理研究员 e-mail: ponneylxy@163.com
光谱已经应用于土壤养分速测的分析, 但是如何寻找土壤光谱特征波段, 尽最大可能避免无用信息干扰、 保留有用信息, 建立准确度高、 预测效果好的模型仍是一个亟需解决的问题。 以青岛三个不同地区土壤样品为例, 测定土壤样品的紫外-可见-近红外光谱及其总碳(TC)、 总氮(TN)、 总磷(TP)含量; 分别采用连续投影算法(SPA)、 无信息变量消除法(UVE)、 遗传算法(GA)、 相关系数法(CC)四种算法(四种单分类器)对土壤光谱提取特征波长; 再引入投票法和加权投票法的多分类器融合方法将四种算法融合得到特征波长; 以偏最小二乘回归(PLSR)建立各土壤养分含量的模型, 通过对模型效果的评价标准(建模集绝对系数
Although spectral technology has been applied to the rapid detection of soil nutrient, how to find the spectral characteristic bands of soil, to avoid useless information and to keep useful information, and to establish a model with high accuracy and good predictive effect is still an urgent problem to be solved. Taking soil samples from three different regions in Qingdao as an example, the ultraviolet-visible-near-infrared spectra and total carbon (TC), total nitrogen (TN) and total phosphorus (TP) content of soil samples were determined. Successive Projections Algorithm (SPA), Uninformative Variable Elimination (UVE), Genetic Algorithm (GA) and Correlation Coefficient Method (CC) four kinds of algorithms (four single classifiers) were used to extract the characteristic wavelength of the soil spectra. The multi-classifier fusion of the voting method and the weighted voting method were used to obtain the characteristic wavelength. The soil nutrient content models were established by the partial least squares regression (PLSR). Through theresult of these models (the determination coefficient of calibration set
光谱技术作为一种快速、 无损的测量方法已经应用于土壤养分含量分析中, 并取得了一定的成果[1, 2]。 但是土壤光谱速测技术没有广泛推广, 其原因之一是光谱含有许多噪声信息和与检测指标不相关的无用信息[3, 4]。 提取光谱特征波长能够有效地避免这些问题, 从而建立准确性更高的模型。 土壤含有大量的物质, 其成分非常复杂[5], 光谱敏感波段提取具有较大困难, 采用何种波长提取方法能够最大程度保留代表土壤养分的有效信息, 是一个非常值得研究的重要问题。
多融合分类器是将多个单分类器获取的结果以一定的规则, 最终得到一个融合结果。 多分类器融合方法已应用于光谱模型的定性分析, 一定程度上提高了判别模型的准确率[10, 11]。 目前特征波长提取方式主要是靠人工经验, 以及单一类别的特征波长提取算法等方法[6]。 单一类别的特征波长提取算法相当于一个单分类器, 将多分类器融合算法, 即多种特征波长提取方法以一定的规则融合, 应用于光谱特征波长的提取具有一定的研究意义。
以青岛三个不同地区土壤样品为例, 采集土壤样品的紫外-可见-近红外光谱及其总碳(TC)、 总氮(TN)、 总磷(TP)含量, 分别采用连续投影算法(SPA)、 无信息变量消除法(UVE)、 遗传算法(GA)、 相关系数法(CC)四种算法对土壤光谱提取特征波长, 再分别运用投票法和加权投票法的多分类器融合方法将四种算法融合得到特征波长, 以偏最小二乘回归(PLSR)建立各土壤养分含量的模型, 通过对模型的评价来判别各土壤养分含量特征波长的提取效果。
采集青岛浮山山麓(砂壤土)、 枣山耕地(砂壤土)、 李村河畔(粉壤土)三个不同地区的土壤样品, 共计178份。 将土壤样品经50 ℃干燥后, 过0.45 mm尼龙筛, 待用。 取5~10 g土壤样品, 采用元素分析仪分别测定TC和TN含量, 钼锑抗比色法测定TP含量, 含量统计结果见表1。
![]() | 表1 土壤TC, TN和TP含量统计表 Table 1 The statistical results of TC, TN, TP contents in soil samples |
实验仪器为海洋光学QE65000光谱仪, 光谱采样间隔为1 nm, 谱区范围200~1 100 nm。 自制一个土壤样品盒, 其大小与探头支架一样, 将土壤样品置于样品盒中, 轻轻压平, 测量土壤样品光谱, 土壤样品光谱测量示意图见图1。 每个土壤样品测定5次光谱反射率, 取平均值, 去除前、 后段噪声影响较大的反射光谱, 保留226~975 nm的光谱数据, 见图2。
采用连续投影算法(SPA)[7]、 无信息变量消除算法(UVE)[8]、 遗传算法(GA)[9]、 相关系数法(CC)[10], 其中相关系数法设置其阈值为≥ 0.5。 本文各单分类器算法均在matlabR2015b中实现。
多分类器融合是以投票法和加权投票法对多种特征提取方法进行融合, 得到最终的决策结果。
1.4.1 投票法融合
投票法是对光谱的各波长进行统计, 每种单分类器(即一种特征波长算法)对全光谱波长的筛选都作为对该波长投一票, 统计各波长的投票个数。 设第m个波长点在第n个分类器的投票数为Bnm, 共有N个分类器, 第m个波长点的投票总数为Tm, 其中m=1, 2, …, M。
根据实际需求选取Tm≥ k的全部波长点(k=1, 2, …, N)作为光谱特征波长, 即为融合结果。
1.4.2 加权投票法融合
加权投票法是在投票法基础之上, 根据每个单分类器输出结果的好坏来对其赋予不同的权值[10, 11]。 本文根据每种算法获取的特征波长建立模型的效果来进行评价, 按照各算法的评价结果对单分类器赋权值α i, i=1, 2, …, N。
根据实际需求选取Tm≥ k的全部波长点(k=1, 2, …,
为保证每次划分建模集和检验集均为一致, 采用顺序分类按2:1比例划分(即按顺序取两个土壤样品为建模集, 再取一个土壤样品为检验集, 依次类推), 以偏最小二乘回归(PLSR)分别建立土壤TC, TN, TP含量校正模型, 并预测检验集土壤各养分含量。 通过建模集绝对系数
分别对TC, TN, TP全波段, SPA, UVE, GA和CC提取波长后的光谱值进行PLSR建模, 模型评价结果见表2。
![]() | 表2 TC, TN, TP养分含量单分类器提取波长模型评价结果 Table 2 The model results of extracting characteristic wavelength by single classifiers |
由表2可知, TC含量模型中, SPA, UVE和GA提取特征波长后, 建模预测效果均高于全光谱; TN含量模型中, 4种算法相较于全光谱建模, 效果均有不同程度提高; TP含量模型中, 仅有SPA算法评价效果优于全光谱。
采用投票法对上述四种特征波长提取算法进行融合, 分别得到TC, TN和TP融合后的特征波长个数和模型评价结果, 见表3。
![]() | 表3 TC, TN, TP投票法多分类器融合提取波长模型评价结果 Table 3 The model results of extracting characteristic wavelength by the multi-classifier fusion of the voting method |
由表3可知, TC, TN和TP经过投票法融合后特征波长的模型, 取Tm≥ 1时, 得到最优的建模和验证效果。 结合表2, 投票法融合后的最优模型效果与全光谱的模型效果基本一致, 投票法融合只能够减少波长点, 不能对模型起到优化的作用。 投票法融合与每个单分类器相比, SPA算法的模型效果明显优于投票法融合, 且所取特征波长个数更少; UVE的模型效果在TC和TN中略好于投票法融合, 在TP中与投票法融合基本一致; GA和CC的模型效果在TN中好于投票法融合, 在TC和TP中不及投票法融合。 投票法多分类器融合获取特征波长个数在较少的情况下, 不能建立一个好的模型, 得到相对好的模型时, 特征波长个数较多, 不利于寻找其敏感波段, 且融合后结果大部分不如单分类器模型效果。
采用加权投票法对四种单分类器进行融合, 分别得到三种养分融合后的特征波长个数, 见表4; 由于加权投票法多分类器融合和模型评价结果较多, 为了方便与单分类器对比, 仅采用RPD值与各单分类器算法进行比较, 见图3。
![]() | 表4 TC, TN和TP加权投票法多分类器融合提取波长个数 Table 4 The number of characteristic wavelength by the multi-classifier fusion of the weighted voting method |
![]() | 图3 TC, TN和TP加权投票法多分类器融合和各单分类器RPD值Fig.3 RPD values of the multi-classifier fusion of the weighted voting method and single classifiers |
由图3、 表4, 在TC中, Tm≥ 5时, 特征波长个数为19, 采用加权投票法多分类器融合的RPD值最大, 与模型效果最好的SPA算法RPD值接近; 在TN中, Tm≥ 4时, 特征波长个数为44, 融合后比每个单分类器算法RPD值都高; 在TP中, Tm≥ 2时, 特征波长个数为473, RPD值仅次于最高的两个算法。 相较于投票法多分类器融合, 加权投票法多分类器融合模型效果有了一定的提高, TC和TN能够在较少波长中获得较好的预测效果, 仅TN经融合后, 模型效果优于每个单分类器。 以下采用在四个单分类器中依次筛选三个分类器进行加权投票法融合, 融合后最好模型评价结果见表5。
![]() | 表5 TC, TN, TP加权投票法多分类器(三个单分类器)融合提取波长模型评价结果 Table 5 The model results of extracting characteristic wavelength by the multi-classifier fusion of the weighted voting method (three single classifiers) |
由表5可知, TC, TN和TP分别在取SPA+UVE+GA, SPA+UVE+GA(或SPA+GA+CC), SPA+UVE+GA时, 获得最优模型效果, 且明显优于每个单分类器, 采用多分类器融合提取特征波长建立定量模型具有一定的可行性。 三个单分类器均由前两个模型效果最佳组成, 因此将前两个最优单分类器进行加权投票法多分类器融合, 融合后TC, TN和TP特征波长个数分别为26, 69和295, RPD值分别为2.885, 3.310和2.415。 TC和TP建模效果略差于三个单分类器融合结果, TN建模效果与三个单分类器融合结果相同。
根据以上分析可知, TC, TN和TP分别在取SPA+UVE+GA, SPA+UVE+GA(或SPA+GA+CC), SPA+UVE+GA时, 模型效果最佳, 特征波长个数分别为27, 69和13, 三种养分的特征波长图见图4。
土壤TC, TN和TP投票法多分类器融合模型效果不如加权投票法, 且提取的特征波长个数较多, 分析原因投票法对每个单分类器设置的权重系数一致, 不能够体现单分类器之间的差异。 加权投票法多分类器融合能够有效地避免这些问题, 对较好的单分类器赋较高的权值, 对较差的单分类器赋较低的权值。 未来还将尝试以其他规则对各个单分类器赋值进行融合, 以及采用更多的单一特征波长提取算法, 对他们进行筛选融合。
以青岛3个不同地区土壤样品TC, TN和TP含量为例, 通过分析SPA, UVE, GA和CC四种算法提取光谱特征波长建模的模型效果, 并引入多分类器融合方法, 采用投票法和加权投票法对四种算法、 筛选其中3种算法、 最优两种算法进行融合, 分析融合后模型效果和特征波长个数。 在筛选3种算法, 且其中包含最优两种算法的情况下, 能够以较少的特征波长个数获得明显高于单分类器的建模效果。 该方法为寻找土壤养分以及其他复杂物质成分的光谱特征波段提供了新方法, 也为多种算法的综合运用提供了新思路。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|