基于光谱和改进极限学习机的土壤含盐量分析
宋妮娜1, 肖冬1,*, 李森1, 高宇洁2
1.东北大学信息科学与工程学院, 辽宁 沈阳 110819
2.东北大学冶金学院, 辽宁 沈阳 110819
*通讯作者 e-mail: xiaodong@ise.neu.edu.cn

作者简介: 宋妮娜,女, 2002年生,东北大学信息科学与工程学院本科生 e-mail: winkkk248610@163.com

摘要

研究盐碱地的性质、 组成, 对于生态环境具有重要意义。 传统的含盐量测定方法大多基于化学分析, 因其成本高、 效率低的缺点使得应用于大面积土地的可行性很低。 极限学习机(ELM)作为一种基于前馈神经网络构建的机器学习系统, 在许多研究中作为一种光谱处理方法被成功运用。 为了改进传统的盐碱地含盐量检测方法, 采用光谱学结合改进的极限学习机(ELM)模型的方法对盐碱地进行研究。 根据镇赉县采集得到的62个土壤表层样本得到对应的光谱反射率和含盐量数据, 提出了基于随机值改进粒子群优化算法(RVIPSO-MELM)优化的多层极限学习机模型。 首先使用主成分分析提取光谱数据特征, 并使用ELM算法对光谱数据建立分类模型, 引入改进的粒子群优化算法以提高精度和速度。 该模型结合了具有随机值的多层ELM(RV-MELM)和改进PSO算法的多层ELM(IPSO-MELM)二者的优点, 在运用启发式算法搜索最优值的同时还具有随机性, 提高了模型优化速度, 同时以提高模型性能为目的对隐含层之间参数进行优化和选择。 并且该模型可以推广到多层, 对隐含层之间的参数的两种选择方法, 根据经验公式计算和使用改进的启发式算法搜索, 进行了提高模型性能和优化时间的讨论, 实践结果表明, 选择第一层参数使用改进粒子群优化算法, 确定随后的隐含层之间参数选择, 使用经验公式进行计算得到一种更具现实意义的方法模型。 模型在进行启发式搜索最优值之前, 利用蒙特卡罗方法确定一个较好的初值, 使得模型能保持较高准确率的条件下, 优化速度进一步提高。 相比于传统方法, 这种光谱分析结合ELM的模型节省时间和经济成本, 有一定推广意义。

关键词: 光谱; 极限学习机; 改进的粒子群优化算法; 随机值; 优化速度
中图分类号:O657.33 文献标志码:A
Analysis of Soil Salinity Based on Spectrum and RVIPSO-MELM
SONG Ni-na1, XIAO Dong1,*, LI Sen1, GAO Yu-jie2
1. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China
2. School of Metallurgy, Northeastern University, Shenyang 110819, China
*Corresponding author
Abstract

Studying, the nature and composition of saline soil, are significant to the ecological environment. Most traditional methods for determining salt content are based on chemical analysis. Due to their high cost and low efficiency, the feasibility of applying them to large areas of land is greatly reduced. An extreme learning machine (ELM), as a machine learning system based on a feedforward neural network, has been successfully used as a spectral processing method in many studies. In order to improve the traditional salt content detection methods of saline-alkali soils, this paper uses spectroscopy combined with an improved extreme learning machine (ELM) model to study saline-alkali soils, further expanding the application scenarios of spectroscopy analysis methods. We obtain the corresponding spectral reflectance and salt content data according to the 62 surface samples collected in Zhenlai County and then propose the multi-layer extreme learning machine model optimized by improved particle swarm optimization (PSO) algorithm with improved particle swarm optimization (PSO) algorithm with random values(RVIPSO-MELM) model. Firstly, we use the principal component analysis(PCA) to extract the characteristics of the spectral data and then adopt the ELM algorithm to establish a classification model for the spectral data. Finally, to improve the accuracy and speed, an improved particle swarm optimization algorithm is applied. This model combines the advantages of both multi-layer ELM with random values (RV-MELM) and the multi-layer ELM model optimized by an improved PSO algorithm (IPSO-MELM), using the heuristic algorithm to search for the optimal value and also having randomness, which improves the speed of model optimization. The parameters are optimized and selected to improve the performance of the model. Moreover, the model can be extended to multiple layers, and the two methods of selecting parameters between hidden layers, calculated by empirical formulas or improved heuristic algorithm, are discussed about the model's performance and optimize the time. The practical results show that it is a more realistic method to select the parameters of the first layer to use the improved particle swarm optimization algorithm and determine the parameters of the subsequent hidden layers by using the empirical formula calculate. Before the heuristic search for the optimal value, the Monte Carlo method is applied to determine a better initial value, enabling the model to maintain a high accuracy rate and further improving the optimization speed. Compared with traditional methods, this spectral analysis combined with the ELM model saves time and economic costs, giving it a certain promotion significance.

Keyword: Spectroscopy; Extreme learning machine; Improved particle swarm optimization algorithm; Random values; Optimization speed
引言

盐碱地形成的实质是土壤中不同方向的易溶性盐发生渍化沉积, 使得盐分逐渐积聚在盐密集区的地表, 通过这种方式形成的有盐渍土、 碱化土和各种盐碱土等。 农业生产受土壤盐渍化影响较大, 因此研究盐碱地的性质和组成对后续实施生态恢复、 土地利用和改良措施具有重要意义。

传统的含盐量测定方法大多基于化学分析, 其测量精度高的优点仍不能使人们忽视其成本高、 效率低的缺点, 将化学分析应用于大面积土地的可行性大大降低。 随着时代的发展, 光谱法在含量检测中的应用发展迅速。 将土壤指标与光谱指标相结合分析盐碱地土壤性质是一种高效率、 低损耗的流行方法[1], 考虑到硅、 硫、 铁等金属元素和一些复杂有机质对盐碱土样品原始光谱数据的影响较大, 使正常情况下直接得到的光谱数据中包含有大量无效信息, 且获得的样本数据相关性过大。 极限学习机(extreme learning machine, ELM)作为一种基于前馈神经网络构建的机器学习系统, 在许多研究中作为一种光谱处理方法被成功应用[2, 3]。 有研究将其结合卷积神经网络(convolutional neural network, CNN)应用到煤炭分类上。 在探索过程中, 利用ELM算法构建的光谱特征数据预测分析模型具有诸多优点, 自2006年以来迅速发展[4]。 例如有将粒子群算法(particle swarm optimization algorithm, PSO)加入ELM中进行参数优化[5]。 根据ELM初始参数的特点, Chen等[6]提出了一种集成ELM算法对近红外光谱进行标定。 Xiao等[7]利用主成分分析法对采集到的大量初始煤矿数据进行降维, 并采用多层极限学习机(M-ELM)建立煤种识别模型。 2019年Xiao[8]也提出了一种改进的PSO-ELM算法(IPSO-TELM), 其每个神经网络都有不同的隐含层, 其中每个隐含层的神经元个数不同, 能够通过改进算法找到最优的神经元数目。 ELM模型已经被许多人改进, 如I-ELM(增量ELM)[9]

在对光谱数据进行主成分分析法(PCA)预处理后, 提出了基于随机值改进粒子群优化算法(improved particle swarm optimization (PSO) algorithm with random values, RVIPSO-MELM)优化的多层极限学习机模型。 随着隐含层的增加, 极限学习机能够保证模型性能不断提升的同时, 提高模型的优化速度。 本研究对于隐含层之间参数的两种选择方法进行了模型性能与优化时间之间相关讨论。

1 模型的建立
1.1 数据收集

研究地区为吉林省镇赉县盐碱地, 位于松宁平原西北部。 中国的松宁平原属于碱性土地, 是中国重要的粮食产区, 也是中国最大的碱土盐碱地。 在该盐碱地上采集表层样本62个, 利用SVCHR-1024光谱仪测量了这些样品的光谱数据。

SVCHR-1024的光谱范围为350~2 500 nm, 波长数为1 024。 在测量光谱数据实验中, 为减少周围环境对光谱测试的干扰, 在一个封闭室内完成实验。 对每个样品进行了三次测试, 取平均值作为样品的最终反射率。

从图1的光谱曲线可以看出, 在400~600 nm的范围内, 光谱反射率较低。 每个样品的光谱彼此相似, 但在1 000~2 500 nm范围, 不同盐含量的光谱特征更为明显。

图1 样品的反射光谱曲线Fig.1 The reflectance spectrum curves of samples

1.2 基础算法

1.2.1 主成分分析法

实验得到的盐碱地原始光谱数据有973个波段, 如果将这些未经处理的数据用于建立的模型算法, 不仅计算困难, 而且样本数据相关性差且严重冗余[10]。 会降低模型的准确性。 主成分分析(principal component analysis, PCA)可对数据线性降维, 是最普遍的使用方法。

PCA作为一种常用的数据降维方法, 可以将高维数据转换为“ 信息” 损失较少的低维数据, 极大地促进了模型的建立, 可到节省训练时间的目的。

考虑到盐碱土的复杂性, 为了减少有效信息损失, 避免影响最终建模效果, 选取前10个主成分表征原始光谱数据信息, 贡献率由图2所示。

图2 前10个主成分的贡献率Fig.2 The contribution rate of the first 10 principal components

1.2.2 粒子群算法(PSO)

有研究提出了一种进化计算技术— — 粒子群优化算法(PSO), 即基于种群的元启发式OA算法, 源于对鸟类捕食行为的研究。 粒子群算法的基本思想是通过群体间的协作和信息交换来寻找最优解。

将整个群扩展到N维空间, 将每只鸟视为具有位置向量和速度向量的粒子, xi=(xi1, xi2, ··· , xiN), vi=(vi1, vi2, ··· , viN), i=1, 2, ··· , m。 在每次迭代中, 粒子将根据式(1)和式(2)改变其位置

Vii+1=ωVit+c1×rand()×(pbesti-xit)+c2×rand()×(gbesti-xit)(1)

xit+1=xit+vit(2)

其中c1c2是学习因子, ω 是惯性权重, rand()为(0, 1)上的随机数, pbest为第i个粒子最佳位置。

1.2.3 极限学习机(ELM)

ELM的结构如图3所示。

图3 ELM的结构图Fig.3 The structure of ELM

对于N个任意不同的样本(xi, ti), 其中x=[xi1, xi2, ···, xin]TRn, ti=[ti1, ti2, ···, tim]TRm, L个神经元的单个隐层前馈神经网络可以建模为

i=1Lβig(aixi+bi)=tj,  j=1, ···, Lbi,  βiR;  aiRn(3)

式(3)中, a=[ai1, ai2, ···, ain]TRn为输入层神经元与隐藏层第i个神经元之间的输入权重, β ibi为输入权重和偏置, ai· xj表示aixj的内积。

极限学习机的目标函数可以表示为式(4)— 式(6)

=T(4)

H(a1, ···, al,  b1, ···, bL,  x1, ···, xL)=g(a1x1+b1)···g(aLxL+bL)g(a1xN+b1)···g(aLxN+bL)(5)

β=βT1βLTL×m T=tT1tLT(6)

HT是神经网络隐藏层的输出矩阵和期望输出。 Feng等[11]提出了随机选择输入权重和隐藏层偏置值的算法。 训练这个网络结构就等于得到=T的最小二乘解β

Minimise:=T(7)

β=H+T(8)

式(7)和式(8)中H+为Moore-Penrose广义逆矩阵, 且最小二乘解的最小值是唯一的。

1.3 带随机值的改进粒子群优化算法(RVIPSO)

在基本粒子群算法中, ω 是一个固定值, 表示粒子本身的惯性权重。 随着迭代次数的增加, 问题的细节也会发生变化, 固定值在整体求解过程中存在诸多缺陷。 引入可变惯性权重可动态适应问题求解过程。

ωid=ωmin+(ωmax-ωmin)fmaxd-f(xid)fmaxd-fgaveragegdf(xid)faveragedωmax, f(xid)faveraged(9)

式(9)中, ω minω max 是预设的最小和最大惯性系数。 通常, ω min=0.4, ω max=0.9。 fdaveraged次迭代中所有粒子的平均适应度, fdmax=max{f( x1d), f( x2d), ···, f( xnd)}是d次迭代中所有粒子的最大适应度。 与基本粒子群算法相比, 当前的惯性权重与每个粒子的迭代次数和适应度有关, 更容易达到最优值。

学习因子c1c2反映粒子群之间的信息共享。 为了有效地控制粒子的速度, 使算法在全局搜索和局部搜索之间达到有效的平衡, CLERC构造了带收缩因子的PSO模型, 并引入了压缩因子。 这种调整方法确保了参数的适当选择。 PSO算法的收敛性取消了对速度的边界限制。 自学习因子c1和群学习因子c2均取2.05, C=c1+c2=4.01, 压缩因子ϕ 表示为式(10)

ϕ=2|(2-C-C2-4C)(10)

速度公式(1)可以更新为式(11)

Vit+1=ϕ×(ωVit+c1×rand()×pbesti-xit+c2×rand()×(gbesti)-xit)(11)

1.4 RVIPSO-MELM模型的建立

ELM算法的缺点是初始权值和偏差是随机产生的, 很难保证模型的准确性。 Xiao[7]提出了具有随机值的多层极限学习机(RV-MELM)算法来不断优化模型的性能, 然而这种方法需要随机生成和选择数据, 可能导致优化结果不能达到真正的最优问题。 本工作首先采用蒙特卡罗方法这一随机实验的思想, 随机产生一组足够的数据作为输入层和隐层之间的权重和偏差, 并根据测试集的结果选择最优的一组权值和偏差输出。 理论上分组数据会更接近最优解, 然后使用IPSO算法以此为初值进行搜索, 比直接优化更快收敛到最优解, 避免陷入局部最优解。

当扩展到多层时, 在RVIPSO和公式计算之间选择后续层的权重和偏移量有两种方法。

在为每一层选择RVIPSO时, 将第一层的输出矩阵H1作为第二层的输入矩阵, 将第二隐层视为第一隐层进行再次计算。 测试集的实际输出为式(12)

T1=H1β1(12)

PH2=[B2W2]第二隐藏层的输入和输出变量为式(13)和式(14)

X2=[1H1](13)

H2=g(PH2×X2)(14)

则第二隐藏层和输出层的初始输出权重为β 2, β 2= H2+T2。 该模型测试集的实际输出为式(15)

T2=H2β2(15)

即计算测试集计算模型的性能, 确定初值, 然后寻求最优解。 要求第二层的性能标准要优于第一层, 以保证模型性能的持续提升。 其结构如图4所示。

图4 MELM的结构图Fig.4 The structure of MELM

根据RVIPSO确定参数的模型流程图如图5所示。

图5 模型流程图Fig.5 The flow chart of the model

当只对第一个隐含层的权值和偏移量进行RVIPSO优化以获得最优值时, 再直接使用MELM中的计算方法, 得到的结果也会发生改变。 根据式(16)可以提供第二隐层的期望输出矩阵H2EO

H2EO=Tβ1+(16)

然后使 PH2=[B2W2], 其中B2W2是第二隐层的输入偏置和权重。 PH2可以通过式(17)获得

WH2=g-1(H2EO)M2+(17)

M2=[1H1](18)

通过式(18)辅助矩阵可以获得第二隐藏层的实际输出结果H2AO, 并且可以通过式(19)和式(20)获得第二隐藏层的输出权重β 2

H2AO=g(PH2M2)(19)

β=H2AO+T(20)

根据上述计算方法进行递归计算, 可以得到第i个隐藏层的期望矩阵HiEO、 实际矩阵HiAO和输出权重β i。 最后, 整个网络的结果可以表示为式(21)

f(x)=HKβK(21)

根据计算所建立的模型流程如图6所示。

图6 模型流程图Fig.6 The flow chart of the model

2 结果与讨论
2.1 数据预处理

采用五点采样法在镇赉县采集了62个盐碱土样本点, 并将其按照国家标准进行风干、 研磨、 过筛、 溶解, 最后使用干燥法测得的相应含盐量数据如图7所示。

图7 样本数据对应的含盐量情况Fig.7 The graph of salt content

每个光谱反射率数据对应一个土壤含盐量, 根据土壤的含盐量情况, 将其分为4组, 即[0, 5], [5, 10], [10, 15], [15, 30]。图8中的每条光谱曲线分别表示以上四组具有特定盐含量的区间, 即区段内所有相应光谱反射率数据的平均反射率。

图8 不同区段对应的平均反射率Fig.8 The different data of reflectance spectroscopy corresponds to the different salt content

2.2 模型的建立

对于盐碱地具体情况的直接分析研究中, 在该盐碱地不同的位置和深度上采集样本, 在经过降维处理之后选择了45个样本作为训练集和校正集, 17个样本作为测试集。 在上述算法的基础上建立了基于随机值改进粒子群优化算法(RVIPSO-MELM)优化的多层极限学习机模型, 并且借助MATLAB平台进行仿真实验, 在单层隐含层的条件下, 得到的模型准确率如图9所示。 根据仿真结果分析, 实际上, 由于样本数量不够丰富加上所使用的降维方法PCA具有一定的局限性, 无论使用的极限学习机具有几层隐含层, 从图10可以看出只要将模型训练好, 基本都能达到近95%的准确率。

图9 模型的迭代情况Fig.9 Iteration of the model

图10 蒙特卡罗时的模型准确率情况Fig.10 The accuracy in the case of random value

图10所显示的趋势, 模型的收敛速度很快, 能够在迭代次数不多的情况下就能够稳定在一个较好的准确率。 由于首先进行蒙特卡洛根据随机数确定初值, 随机生成2 000次, 随机生成的数据对应的模型准确率情况如图9所示, 可以看到模型的准确率可以最高达到0.7以上, 保留并且与其他数据比较之后, 输出该数据, 并以此作为初值再来进行IPSO优化。 因此模型能够在一开始就达到0.7以上的准确率, 在此基础上进行稳步提升。

考虑到粒子群算法用时长, 如果每一层都去套用RVIPSO算法进行优化权值和偏重, 可以保证在隐含层数足够并且训练效果好的条件下有更高的准确率, 但是可能会产生较多的时间损失, 经济效益不大, 因此选择初始权值和偏重使用RVIPSO选取最优值, 而后的计算选择经验函数进行计算, 在保证较高准确率的条件下能够提高模型的速度, 在实际应用方面经济效益更大, 两种模型在不同的隐含层数下的仿真运行时间对比如图11。

图11 两种方法运行时间对比图Fig.11 The operation time comparison chart

在两个隐藏层的情况下, 使用两个模型进行仿真, 得到的准确率如图12所示。

图12 两种方法下模型准确率对比图Fig.12 The comparison of accuracy with two hidden layers

3 结论

提出了一个RVIPSO-MELM模型, 该模型第一层的权值和偏重的选取使用了RVIPSO进行优化, 该模型能在提升模型性能的同时提高模型的优化速度。 相比于IPSO-ELM, 增加了随机值选优的一个步骤, 以此为初值进行启发式搜索最优值, 不仅在一定程度上保证了能达到全局最优值, 还提高了模型的优化速度, 不需要进行长时间搜索就能得到最优解。 而相比于RV-MELM, 所选取的启发式算法结合蒙特卡洛的方法, 提高了模型精度, 不需要太多隐含层就能训练得到一个较好的结果, 更具有现实意义。 对于所研究的盐碱地, 研究中建立的模型能够达到一个需要的准确率, 并且具有着优化速度快的优势, 在一定程度上节省时间成本和经济成本, 贴近实际, 推广性强。 进一步的研究包括提取数据特征的方法改进和优化算法并进一步提高模型准确率。

参考文献
[1] ZHU Wan-xue, SUN Zhi-gang, LI Bin-bin, et al(朱婉雪, 孙志刚, 李彬彬, ). Journal of Geoinformation Science(地球信息科学学报), 2021, 23(3): 536. [本文引用:1]
[2] Raghuwanshi B S, Shukla Singh. Knowledge-Based System, 2020, 187: 104814. [本文引用:1]
[3] Dai H, Cao J, Wang T, et al. Neural Networks, 2019, 115: 11. [本文引用:1]
[4] Huang G, Huang G B, Song S, et al. Neural Networks, 2015, 61: 32. [本文引用:1]
[5] Liang J, Yan C, Zhang Y, et al. Chemometrics Intelligent Laboratory Syst. , 2020, 197: 103930. [本文引用:1]
[6] Chen H, Tan C, Lin Z. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 229: 117982. [本文引用:1]
[7] Xiao Dong, Wan Lushan, Sun Xiaoyu. Optics & Laser Technology, 2019, 114: 10. [本文引用:2]
[8] Xiao Dong, Liu Chongmin, LE Ba Tuan. Infrared Phys. Technol. , 2019, 97: 341. [本文引用:1]
[9] Huang G B, Chen L, Siew C K. IEEE Trans Neural Network, 2016, 17(4): 879. [本文引用:1]
[10] Ba Tuan Le, Dong Xiao, et al. IEEE Transaction on Geoscience and Remote Sensing, 2019, 57: 7. [本文引用:1]
[11] Feng Guorui, Huang Guangbin, Lin Qingping, et al. IEEE Transactions on Neural Networks, 2009, 20(8): 1352. [本文引用:1]