基于波长注意力的多特征融合卷积神经网络的近红外光谱定量方法
朱御康1, 鲁昌华1, 张玉钧2, 蒋薇薇1,*
1.合肥工业大学计算机与信息学院, 安徽 合肥 230009
2.中国科学院合肥物质科学研究院, 安徽 合肥 230031
*通讯作者 e-mail: jiangww@hfut.edu.cn

作者简介: 朱御康, 2000年生,合肥工业大学计算机与信息学院硕士研究生 e-mail: zyk@mail.hfut.edu.cn

摘要

深度学习技术越来越多地应用在近红外光谱的定量分析中, 由于近红外光谱数据存在光谱数据量少、 数据质量不足等问题, 将传统卷积神经网络应用在光谱的定量分析中会出现过拟合, 为提升卷积神经网络提取光谱信息的能力, 增强网络的泛化性, 提出了基于波长注意力的多特征融合卷积神经网络模型(MWA-CNN), 对芒果近红外光谱进行干物质含量定量分析。 MWA-CNN在传统卷积神经网络的基础上加入了注意力机制以及多特征融合机制, 网络可以在训练过程中学习到不同光谱特征以及不同波段的权重信息, 从而提取到高质量的光谱信息, 缓解传统卷积神经网络中的过拟合问题, 提升回归分析的精度。 研究中采用11 691个芒果样本的近红外光谱数据, 采用随机法将80%的样本作为训练集, 20%的样本作为测试集, 通过测试集均方根误差(RMSEP)、 训练集均方根误差(RMSEC)、 决定系数( R2)、 平均绝对误差(MAE)进行模型评价。 先对光谱数据进行标准化预处理, 然后通过与偏最小二乘回归(PLS)、 极限学习机回归(ELM)、 支持向量机回归(SVR)和传统的卷积神经网络(CNN)四种传统模型在原始光谱条件下的预测结果进行对比。 预测结果表明MWA-CNN网络在五种方法中表现最佳, MWA-CNN在测试集中的RMSE为0.669 9, 传统的CNN效果仅次于MWA-CNN, RMSE为0.740 8, 且MWA-CNN的过拟合程度相较传统CNN下降明显, MWA-CNN中测试集相较于训练集的RMSE增加了15.69%, 而CNN中测试集相较于训练集的RMSE增加了151.45%。 通过对光谱加入不同信噪比的噪声, 再对加噪之后的光谱分别用五种模型进行预测, 实验结果表明, 在多种信噪比条件下, MWA-CNN模型均能取得五种模型中最优的效果, 从实验结果表明, MWA-CNN在近红外光谱定量回归中具有较高的预测精度和泛化能力, 同时具有一定的抗噪能力。

关键词: 近红外光谱; 注意力机制; 多特征融合; 定量回归
中图分类号:TP181 文献标志码:A
Quantitative Method to Near-Infrared Spectroscopy With Multi-Feature Fusion Convolutional Neural Network Based on Wavelength Attention
ZHU Yu-kang1, LU Chang-hua1, ZHANG Yu-jun2, JIANG Wei-wei1,*
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230009, China
2. Hefei Institute of Physical Science, Anhui Institute of Optics Fine Mechanics, Chinese Academy of Sciences, Hefei 230031, China
*Corresponding author
Abstract

In recent years, deep learning technology has been applied more and more in the quantitative analysis of near-infrared spectroscopy. However, the traditional convolutional neural network is applied to the spectral analysis due to the problems of a small amount of spectral data and insufficient data quality in near-infrared spectral data. Overfitting problems will occur in quantitative analysis. To improve the ability of convolutional neural networks to extract spectral information and enhance the ge-neralization of the network, this paper proposes a multi-feature fusion convolutional neural network model (MWA-CNN) based on wavelength attention to quantitative analyze the dry matter content in mango by near-infrared spectroscopy. MWA-CNN adds an attention mechanism and a multi-feature fusion mechanism based on the traditional convolutional neural network. The network can learn different spectral feature maps and weight information of different wave bands during the training process, thereby extracting high-quality spectral information to alleviate the overfitting problem in traditional convolutional neural networks and improve the accuracy of regression analysis.In the study, the near-infrared spectrum data of 11 691 mango samples were used, 80% of the samples were used as the training set, 20% of the samples were used as the test set by random method, and the test set root mean square error (RMSEP) and the training set root mean square error were passed. (RMSEC), coefficient of determination ( R2), and mean absolute error (MAE) for model evaluation. In this paper, we first standardize the spectral data for pre-processing and then compare the prediction results with four traditional models of partial least squares regression (PLS), extreme learning machine regression (ELM), support vector machine regression (SVR), and traditional convolutional neural net-work (CNN) under the original spectral conditions.The prediction results show that the MWA-CNN network performs the best among the five methods, and the RMSE of MWA-CNN in the test set is 0.669 9. The traditional CNN effect is second only to MWA-CNN with an RMSE of 0.740 8, and the degree of over fitting of MWA-CNN decreases significantly compared to the traditional CNN. The RMSE of the test set in MWA-CNN compared to the training set increased by 15.69%, while the RMSE of the test set in the CNN compared to the training set increased by 151.45%. By adding noise with different signal-to-noise ratios to the spectra and then predicting the spectra with five models respectively after adding noise, the experimental results show that the MWA-CNN model can achieve the best results among the five models under various signal-to-noise conditions. It can be seen from the experimental results that the MWA-CNN has high prediction accuracy and generalization ability in NIR spectral quantile regression and a certain noise immunity capability.

Keyword: Near-infrared spectroscopy; Attention mechanism; Multi-Feature fusion; Quantitative regression
引言

各个物质由于有机物化合成分不同, 各个波段的吸光度也就不同, 通过分析物质的吸光度光谱, 可以迅速、 准确、 无损的分析出待测样品各物质的含量[1]。 传统对光谱进行多元回归定量分析的手段有偏最小二乘(partial least squares, PLS)[2]、 极限学习机(extreme learning machine, ELM)[3]、 支持向量机(support vector machine, SVM)等。 近年来, 深度学习算法在图像和自然语言处理领域发展迅速, 卷积神经网络是其中非常有效的算法[4], 许多学者已经将其应用在光谱数据处理的各项任务中, 陈国喜等对卷积神经网络进行了改进, 加入了注意力机制, 并用卷积神经网络对奶粉皮革水解蛋白掺假进行检测, 结果优于传统方法[5]。 光谱信息在测量过程中不可避免的会存在多种测量误差, 例如仪器误差, 空气或湿度等也会对测量结果造成影响[6]。 近红外光谱数据普遍存在着数据量少, 数据信息质量不足等问题, 因此对光谱中存储的信息进行充分特征抽取的同时避免模型出现严重的过拟合变得十分重要, 多特征融合和注意力机制被证明可以有效提高卷积神经网络抽取特征与提升网络的泛化能力[7, 8]

为解决传统方法对光谱信息提取能力不够、 泛化性不强的问题, 提出一种基于波长注意力的多特征融合卷积神经网络(multiple wavelength attention-convolutional neural networks, MWA-CNN)用于对光谱信息进行定量分析, 利用卷积神经网络多卷积核输出多个特征通道的特性, 保留多种线型光谱的特征, 利用多特征融合对多种线型光谱特征进行拟合, 可以有效的抑制光谱普遍存在的基线漂移、 散射干扰等影响。 光谱信息在各波段存在分布不均匀, 波长注意力机制可以很好的解决这个问题, 波长注意力机制给各个波段的波长分配对应的权值, 让网络可以学习到相应的权重参数, 使得网络的计算资源分配给更重要的光谱信息。 本研究首先对MWA-CNN进行层数的优化, 确定最优网络层数, 再对网络进行消融实验, 验证多特征融合以及注意力机制的效果, 最后应用MWA-CNN对芒果的干物质含量进行光谱定量分析, 通过与传统的偏最小二乘回归方法, 机器学习中常用的极限学习机, 支持向量机以及卷积神经网络在不同环境下进行比较来验证所提出网络具有良好的光谱定量分析能力。

1 实验部分
1.1 数据

采用开源芒果数据集, 数据集中包含了芒果果皮的近红外吸光度光谱, 由于芒果果皮的主要成分包含了天然色素, 抗氧化物质以及有机酸, 这些成分在波长范围309~1 149 nm范围内可表现出强烈的吸收峰, 容易进行特征提取从而确定芒果干物质的含量, 从而选择波长分为309~1 149 nm, 间隔3 nm的光谱数据作为实验数据, 共11 691个样本。 采用随机分配样本的方式将数据集的80%作为训练集, 20%作为测试集。 实验使用的CNN方法均在Pytorch上进行, PLS模型采用sklearn机器学习库实现。 芒果光谱数据的部分光谱吸光度光谱如图1所示。

图1 芒果数据集原始吸光度光谱Fig.1 Mango dataset raw absorbance spectrum

1.2 光谱预处理和模型评价

光谱数据标准化可以去除光谱中部分基线漂移、 散射干扰, 因此先对光谱数据进行标准正态变换, 即减去均值除以方差。 模型评价指标采用训练集均方根误差(RMSEC)、 测试集均方根误差(RMSEP)、 测定系数(cofficient of determination, R2)以及平均绝对误差(MAE)衡量各个模型的拟合性能。 R2表明了模型的拟合性能, 数值越接近于1表明模型的拟合性能越好; RMSE反映了模型的预测误差, 对异常值相对敏感, 数值越低表明模型的预测精度越高; MAE同样反映了模型的预测误差, 但不容易受异常值影响, 数值越低表明模型的预测精度越高。

1.3 MWA-CNN网络结构

卷积神经网络被许多学者在光谱的特征抽取中应用, 本研究对卷积神经网络进行了一定的改进, 加入了波长注意力机制和多特征融合机制, 该网络可以很好的利用卷积神经网络多输出通道的特性, 对光谱的多通道特征和波长特征进行加权, 从而使重要波段得到更大的权值, 以提升模型的拟合能力。 MWA-CNN网络总体结构如图2所示。

图2 基于波长注意力的多特征融合卷积神经网络结构Fig.2 Multiple wavelength attention convolutional neural network architecture

特征信息的提取主要依靠基本块结构和由多个基本块组成的骨干网络, 总体网络结构中总共设计三层骨干网络(将在1.3.2节中详细介绍), 由于光谱在形成时由于粒子间不同的撞击时的状态不同会使光谱主要呈现出三种线型, 即Gauss线型、 Lorenz线型和Voigt线型, 每层骨干网络将被训练成能识别单一线型的光谱。 将三层骨干网络的信息通过叠加层(concatenate layer)进行叠加, 再通过多特征波长注意力块结构对叠加过后的信息进行多特征融合, 由此得到更优质的光谱特征信息。 由于经过深层卷积, 光谱的原始特征会有所丢失, 所以采用残差连接的方式将原始光谱与抽取特征后的光谱相加。 全连接层中为防止网络过拟合, 采用了随即失活(Dropout)的设计, 即在网络训练过中将部分神经元屏蔽, 本工作采用随机屏蔽一半的神经元, 在测试时则使用所有的神经元进行预测。

1.3.1 多特征波长注意力块结构

卷积神经网络在光谱的定性分析中已经有了很多应用, 而大多数卷积神经网络没有考虑到各波段光谱的信息含量不同。 近红外光谱数据中存在谱信息的冗余和共线性, 为解决这一问题, 研究学者提出了很多波长选择算法, 如连续投影算法(successive projections algorithm, SPA)[9], 主成分分析(principal component analysis, PCA), 非信息变量剔除(uninformative variables elimination, UVE)算法[10]等。 波长选择算法通常是直接选择部分重要波长信息进行回归分析, 多特征波长注意力机制则是选择将各个波段和各个特征图的信息进行加权处理, 从而获取更加全面的光谱特征信息用于回归分析。 多特征波长注意力块的结构如图3所示。

图3 多特征波长注意力块结构Fig.3 Multiple feature wave attention block architecture

多特征波长注意力块有两方面的功能, 一是对于卷积所形成的多个光谱特征图进行多特征融合, 这需要对各个光谱特征图分配权重。 注意力块结构通过全局池化和1× 1卷积获取对应特征图的权重信息, 最后通过sigmoid激活函数将各个特征图的权重限制在0到1之间。 Wc为最后的特征图融合权值。 特征抽取过程如式(1)所示。

AP(Xc)=1Li=1LXc(i)

Wc=Sig(E(Relu(E(AP(Xc)))))(1)

第二部分对各个波段分配权重, 同样通过两次卷积操作和激活函数获取对应波段的权值。 Wl为最后的波段权值。 总体特征抽取过程如式(2)所示

Wl=Sig(E(Relu(E(WcXc))))

Xout=Wl(WcXc)(2)

1.3.2 骨干网络及基本块结构

骨干网络结构由多个基本块组成, 骨干网络结构图4(a)所示, 基本块结构如图4(b)所示。 基本块结构中加入了残差连接, 使得网络可以跳过一些不重要的波段信息, 从而在波长注意块中关注重要波段信息。 骨干网络由多个基本块结构组成, 由于加入了残差连接, 多个基本块结构的深层次卷积抽取特征会增加网络的信息抽取能力, 而不会使网络退化。

图4 骨干网络(a)及基本块结构(b)Fig.4 Backbone network (a) and Basic block architecture (b)

1.4 对比方法

偏最小二乘回归: 回归所采用的主成分数经过测试集验证优化, 优化范围为10~50; ELM回归: 在实验中, 对ELM神经元的个数进行优化, 优化范围为1 000~5 000; 支持向量回归: 在本文实验中, 对SVR的多种核函数进行实验, 选取最优的核函数结果与所提出的网络进行对比。 卷积神经网络: 本实验采用的卷积神经网络框架为经典的AlexNet[11], 本实验对AlexNet的卷积层个数进行优化处理, 并加入全连接层回归得出预测值。

2 结果与讨论
2.1 模型的建立与优化

实验中将所提出模型中的基本块结构层数对MWA-CNN网络定量分析性能的影响, 不改变其余网络结构, 即总体网络结构中除骨干网络中的基本块层数变化, 其他包括多特征融合模块、 波长注意力模块、 卷积层、 全连接层参数都不改变。 实验验证范围为0到20, 间隔层数为2进行实验, 共进行11组实验。 实验采用的训练轮次为100, 学习率为0.000 1, 给定的批次大小为16。 由表1可知, 网络在基础块层数为0时, 测试集中的各项指标都明显好于训练集, 这表明网络此时还处于欠拟合状态, 需要加强网络对于光谱特征信息的提取能力; 随着骨干网络中基本块层数的增加, 训练集中误差逐渐减小, 在基本块层数为6时, 训练集中的误差小于测试集中的误差, 随着网络中层数的继续加深, 训练集中误差还在不断减小, 但训练集误差在基本块层数达到12以后减小缓慢, 甚至波动上升。 这表明了网络对于训练集中光谱的特征提取能力在逐渐提升, 而由于光谱信息中存在一定的噪声, 导致网络在深层学习中会出现过拟合现象, 为了让网络有更好的泛化性以及计算效率, 采用基本块层数为12的网络结构进行之后的实验。

表1 基本块层数与RMSE, R2, MAE参数变化关系 Table 1 The relationship between the number of basic block layers and the change of RMSE, R2, and MAE parameters

在一定范围内将对比算法PLS、 ELM和多尺度卷积神经网络进行参数优化, 结果为PLS最佳因子数为42, ELM最佳神经元个数为2 000, SVM采用的核函数为线性核函数, 卷积神经网络采用五层卷积层。

2.2 消融实验对比

在优化后的模型参数中, 研究多特征融合模块和波长注意力模块对于MWA-CNN网络性能的影响, 具体研究方式为在总体网络结构不变的情况下, 固定基本块层数为12, 屏蔽基本块中的波长注意力模块与多特征融合模块分别对网络进行训练。

图5(a— f)、 表2表明, 实验中完整网络在测试集中取得最好的RMSE、 R2、 MAE指标性能, 完整网络在测试集中的RMSE为0.669 9, R2为0.909 2, MAE为0.528 2; 去除了波长注意力机制的网络在训练集中的效果很好, RMSE达到了0.360 4, R2达到了0.973 5, MAE达到了0.291 7, 但是在测试集中效果却不好, 明显发生了过拟合现象, 这证明了注意力机制有一定的正则化效果, 可以防止网络出现过拟合现象。 缺少了多特征融合的网络同样也出现了相较于完整网络更严重的过拟合现象, 各项指标参数完整网络效果均优于缺少了注意力机制的网络与缺少了多特征融合的网络, 从实验结果可以看出多特征融合与注意力机制提升了网络的回归性能。

图5 完整网络与去除多特征融合及去除波长注意力后网络芒果干物质含量预测结果对比
(a): 完整网络测试集; (b): 完整网络训练集; (c): 去除多特征融合网络测试集; (d): 去除多特征融合网络训练集; (e): 去除注意力机制测试集; (f): 去除注意力机制训练集
Fig.5 Comparison of prediction results of mango dry matter content between the complete network and the network after removing multi-feature fusion and removing wavelength attention
(a): Full Network(test set); (b): Full Network(train set); (c): Without Fusion(test set); (d): Without Fusion(train set); (e): Without Attention(test set); (f): Without Attention(train set)

表2 多特征融合与波长注意力消融实验对比 Table 2 The comparison of multi-feature fusion and wavelength attention ablation experiments
2.3 回归结果与方法对比

2.3.1 原始光谱

本次实验中将原始光谱数据直接输入到各个算法模型中进行回归分析, 如前文所述, 采用MWA-CNN的基本块层数为12的网络结构, PLS采用因子数为42, ELM采用的神经元个数为2000, SVR采用核函数为线性核函数, 卷积神经网络采用五层卷积层。

表3所示: 芒果干物质含量预测结果中, 测试集中, MWA-CNN各项参数均优于其他方法; 在训练集中, 传统卷积神经网络各项参数最优。 而传统卷积神经网络由于缺少波长注意力与多特征融合机制, 在训练集中出现了过拟合现象, 导致在测试集中效果与训练集中相差较大。

表3 不同方法回归结果对比 Table 3 Comparison of regression results of different methods

结果表明, MWA-CNN模型相较于传统光谱定量回归模型, 如PLS、 SVM等, 能够提升光谱的定量回归精度, 同时减轻提升卷积神经网络的过拟合现象。

2.3.2 高斯噪声光谱

为了测试各种方法的抗噪声能力, 实验通过加入不同强度的光谱噪声, 加入的光谱噪声服从高斯分布, 在光谱信噪比为50、 55、 60和65 dB情况下用MWA-CNN模型、 PLS模型、 ELM模型、 SVR模型及CNN模型进行定量分析, 以测试集中结果为准, 实验数据如图6(a, b, c)所示。

图6 不同光谱信噪比下各种模型预测结果
(a): RMSE; (b): R2; (c): MAE
Fig.6 Prediction results of various models with different spectral signal-to-noise ratios
(a): RMSE; (b): R2; (c): MAE

由图6(a, b, c)中的数据, MWA-CNN模型在光谱信噪比为50、 55、 60、 65 dB时各项参数性能均优于传统CNN、 PLS、 SVM、 ELM算法, 随着光谱信噪比的提高, MWA-CNN模型性能提升速度较传统方法更快, 说明MWA-CNN模型相对其他模型能够更好的注意到光谱中的有效信息, 从而得到更好的回归分析结果。 传统CNN在不加噪声的情况下回归效果仅次于MWA-CNN, 随着光谱信噪比的减小, CNN模型性能下降较为明显。

3 结论

提出了一种基于波长注意力机制的多特征融合近红外光谱数据定量分析网络MWA-CNN, 并在芒果干物质含量数据集上进行了验证。 在该网络框架中, 对传统的卷积神经网络进行改进, 加入了多特征融合和波长注意力机制, 提升了网络的特征提取能力, 减轻了传统卷积神经网络的过拟合现象。 回归建模结果表明, 与PLS、 SVR、 ELM和CNN等传统定量分析方法相比, MWA-CNN网络结构的定量分析能力更强, 在原始光谱数据的测试集中达到了RMSE=0.669 9, R2=0.909 2, MAE=0.528 2; 在光谱信噪比为50、 55、 60、 65情况下进行实验, 结果表明MWA-CNN模型在上述光谱信噪比条件下, 性能均优于传统方法, 具有一定的抗噪能力, 且在高信噪比条件下能取得更好的效果, 证明了多特征融合及注意力机制可以加强传统卷积神经网络对红外光谱定量分析的能力, 有进一步研究的价值。

参考文献
[1] WANG Wei-yan, FENG Wen-qiang, CHANG Nai-jie, et al(王韦燕, 冯文强, 常乃杰, ). Soil and Fertilizer Sciences(中国土壤与肥料), 2023, (3): 194. [本文引用:1]
[2] Hair J, Alamer A. Research Methods in Applied Linguistics, 2022, 1(3): 100027. [本文引用:1]
[3] Wang J, Lu S, Wang S H, et al. Multimedia Tools and Applications, 2022, 81(29): 41611. [本文引用:1]
[4] Fu P, Wen Y, Zhang Y, et al. Journal of Innovative Optical Health Sciences, 2022, 15(3): 2250021. [本文引用:1]
[5] CHEN Guo-xi, ZHOU Song-bin, CHEN Xin, et al(陈国喜, 周松斌, 陈欣, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(12): 3811. [本文引用:1]
[6] Guo T, Xu F, Ma J, et al. Journal of Spectroscopy, 2022, 2022: 6875022. [本文引用:1]
[7] Jiao Q, Guo X, Liu M, et al. Chemometrics and Intelligent Laboratory Systems, 2023, 235: 104779. [本文引用:1]
[8] Qin X, Wang Z, Bai Y, et al. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11908. [本文引用:1]
[9] Soares S F C, Gomes A A, Araujo M C U, et al. TrAC Trends in Analytical Chemistry, 2013, 42: 84. [本文引用:1]
[10] Jiang W, Lu C, Zhang Y, et al. Journal of Spectroscopy, 2020, 2020: 3590301. [本文引用:1]
[11] Krizhevsky A, Sutskever I, Hinton G E. Communications of the ACM, 2017, 60(6): 84. [本文引用:1]