基于注意力机制残差神经网络的近红外芒果种类定性建模方法
王书涛1, 万金丛1,*, 刘诗瑜2, 张金清1, 王玉田1
1.燕山大学电气工程学院仪器科学与工程系, 河北 秦皇岛 066004
2.河北大学质量技术监督学院, 河北 保定 071002
*通讯作者 e-mail: wjcym@outlook.com

作者简介: 王书涛, 1978年生, 燕山大学电气工程学院教授 e-mail: wangshutao@ysu.edu.cn

摘要

现代光谱检测技术的飞速发展与深度学习紧密相关, 作为一种端到端的模型, 深度神经网络可以从光谱中得到更多信息, 从而提升模型鲁棒性。 为探究近红外光谱结合深度学习对芒果种类定性预测的可行性, 提出一种基于卷积注意力机制(CBAM)的一维残差神经网络(1D-AD-ResNet-18)模型。 为降低光谱中冗余信息的干扰, 在传统一维残差神经网络(1D-ResNet-18)中嵌入CBAM卷积注意力模块, 该模块可重点关注光谱局部有用信息; 为避免梯度消失、 过拟合情况发生, 使用解决网络“退化”问题的ResNet-18。 对于186个芒果样本, 采用70%的样本进行训练, 30%的样本进行测试, 采用准确度(Accuracy)、 精确率(Precision)、 召回率(Recall)、 F1值(F1-score)、 宏观平均值(Macro-average)以及加权平均值(Weighted-average)作为模型评价指标。 建立传统1D-ResNet-18、 SNV-SVM和PCA-KNN三种对比模型, 与上述三种方法作对比, 所建立的1D-AD-ResNet-18模型取得最优预测结果, 四种定性分析模型的准确率分别为96.42%, 80.35%, 76.78%和67.85%。 结果表明, 1D-AD-ResNet-18模型实现了对芒果种类的准确识别与分类, 为近红外光谱定性分析芒果种类提供了新思路。

关键词: 芒果种类识别; CBAM注意力机制; 近红外光谱; 残差网络
中图分类号:O657.33 文献标志码:A
Qualitative Modeling Method of Mango Species in Near Infrared Based on Attention Mechanism Residual Neural Network
WANG Shu-tao1, WAN Jin-cong1,*, LIU Shi-yu2, ZHANG Jin-qing1, WANG Yu-tian1
1. Department of Instrument Science and Engineering, School of Electrical Engineering, Yanshan University, Qinhuangdao 066004, China
2. College of Quality and Technical Supervision, Hebei University, Baoding 071002, China
*Corresponding author
Abstract

In recent years, the rapid development of modern spectral detection technology is closely related to deep learning. As an end-to-end model, the deep neural network can get more information from the spectra, thus improving the robustness of the model. A one-dimensional residual neural network (1D-AD-ResNet-18) model based on a convolutional block attention module was proposed to explore the feasibility of qualitative prediction of mango species by near-infrared spectroscopy combined with deep learning. Firstly, to reduce the interference of redundant information in the spectra, the CBAM convolution attention module is added to the traditional one-dimensional residual neural network, which can focus on the local useful information of the spectra. Secondly, to avoid the disappearance of gradient and the occurrence of overfitting, ResNet-18 is used to solve the problem of network “degradation”. For 186 mango samples, 70% of the samples were trained, and 30% were tested. Accuracy, Precision, Recall, F1-score, Macro-average, and weighted average were used as evaluation indexes of the model. Three comparison models were established, including traditional one-dimensional ResNet-18, SNV-SVM, and PCA-KNN. Compared with the above three methods, the established 1D-AD-ResNet-18 model obtained the optimal prediction results, and the accuracy of the four qualitative analysis models was 96.42%, 80.35%, 76.78% and 67.85%. The experimental results show that the 1D-AD-ResNet-18 model can accurately identify and classify mango species, which provides a new idea for the qualitative analysis of mango species by NIR spectroscopy.

Keyword: Mango species identification; CBAM attention mechanism; Near-infrared spectroscopy; Residual network
引言

芒果是全球销量最多的热带水果之一, 富含多种维生素, 香气浓郁, 品种多样, 既可以作为新鲜水果售卖也可以加工成为果汁、 果干等副产品销售, 芒果的经济价值使其成为农业支撑产业。 芒果备受人们喜爱, 与人类健康息息相关。 不同种类的芒果保质期、 味道、 营养含量以及经济价值等有所不同, 同时也是影响人们购买的因素之一[1]。 研究一种更高效的种类识别算法, 对维护市场平衡以及保护人类身体健康具有重要的实用价值。

近红外(near infrared, NIR)光谱分析技术具有无污染、 无破坏性、 方便快捷、 可多组分同时检测等特点, 目前已广泛应用于农业、 食品、 化学和制药等领域中进行定性分析与定量分析[2]。 NIR可检测含氢基团吸收, 芒果作为含氢有机物, 适合使用NIR测量。 近年来深度学习已广泛应用于图像处理、 时间序列、 计算机视觉等领域并取得显著成果。 在光谱学应用中, 深度学习可以直接建立定性或定量模型的优点受到了专家学者的广泛研究[3]。 Rong等以桃子作为实验对象, 提出了一种一维卷积神经网络(1D-CNN)模型对五种桃子品种实现了多类鉴定[4]。 Yang等采用趋势校正(DT)对原始玉米品种光谱信息进行预处理, 采用竞争自适应加权抽样(CARS)优化特征波长, 建立了DT-CARS-LeNet-5一维卷积神经网络识别模型, 实现了5种玉米的种类识别[6]。 Guan等针对6种不同品种的菌丝通过连续投影算法(SPA)进行特征波长提取, 建立了八层卷积神经网络(E-CNN)实现了对食用菌菌丝品种的快速、 准确识别[6]。 Chen等以鳕鱼和鲑鱼为实验对象, 设计了适合混合鱼分类的一维卷积神经网络(1D-CNN-8)模型, 有效提高了分类精度[7]。 为了进一步优化网络模型, 添加注意力机制模块, 该模块可从大量光谱信息中准确获取重要信息。 Wang等提出了一种新的基于注意力机制的卷积网络模型, 对哨兵2号采集到的图像进行了准确的农作物分类[8]。 研究表明, 深度学习在NIR光谱定性分析中具有优越性能, 而在以往关于芒果定性定量分析检测的应用中, NIR光谱结合一维残差神经网络的研究不多见。

为提高深度学习在分类任务中的性能, 避免模型稳定性降低、 泛化能力差等情况, 本工作提出NIR光谱技术与基于注意力机制的一维残差神经网络(one-dimensional attention-residual neural networks, 1D-AD-ResNet-18)相结合的方法对芒果种类进行识别, 建立芒果样本定性分析模型。 研究中采用了标准正态变换结合支持向量机(SNV-SVM), 主成分分析结合K近邻法(PCA-KNN)和1D-ResNet-18三种分类方法进行比较。

1 实验部分

实验数据采用Mendeley数据库中公开的NIR芒果光谱数据集(https://data.mendeley.com/datasets/b9d6s7hr33/1)[9]。 数据集使用台式红外光谱仪(Thermo Nicolet Antaris Ⅱ TM)收集了波长范围为1 000~2 500 nm的186个完整芒果样品的NIR光谱数据, 芒果样品包含从未成熟到过成熟的不同成熟阶段, 四种芒果样品种类如下: Cengkir、 Kweni、 Kent以及Palmer。 每条光谱数据由1 557个波长变量组成, 平均连续采集32个光谱数据, 分辨率为0.2 nm。 台式红外光谱仪所测四种芒果原始光谱图, 如图1(a— d)所示。

图1 芒果光谱图
(a): Cengkir; (b): Kweni; (c): Kent; (d): Palmer
Fig.1 Spectra of mango samples
(a): Cengkir; (b): Kweni; (c): Kent; (d): Palmer

芒果样本随机划分为训练集和测试集, 其中148个样本作为训练集建立定性模型, 56个样本作为测试集验证模型, 同时对训练集和测试集进行归一化处理, 避免奇异样本使网络无法收敛的情况发生。

2 原理与方法

2.1 1D-ResNet-18网络结构

ResNet网络于2015年提出, 通过引入残差结构解决网络层数过多导致模型退化以及前馈残差网络陷入局部最优的问题, 已广泛应用于分类任务、 目标检测和图像分割等领域[10]。 ResNet网络有五种不同深度的网络结构, ResNet-18作为浅层网络由残差单元(BasicBlock)搭建而成。

BasicBlock输入特征为H(x), 当网络结构越来越深时, 残差网络的优化目标为F(x)=H(x)-x, F(x)为残差, 原始学习特征近似为F(x)+x。 在残差单元中, 理想情况下, F(x)等于0, 堆叠层做恒等映射, 深度网络退化为浅层网络, 模型性能不发生变化。 实际应用中残差不会为0, 堆叠层在原有输入特征基础上学习新特征, 提升模型性能。 如图2所示。

图2 残差单元Fig.2 Residual element

恒等映射对每个堆叠层都采用残差学习, 原理如式(1)所示。

y=F(x, {wi})+x(1)

其中, F(x, {wi})表示需要学习的残差映射。

残差单元含有两层卷积层, 原理如式(2)所示。

F=W2σ(W1x)(2)

式(2)中, σ 表示激活函数ReLu。

当输入特征矩阵与输出特征矩阵维度不一致时, x在通过快捷连接(shortcut)时, 对其进行线形投影Ws, 保证输入与输出维度一致, 原理如式(3)所示。

y=F(x, {wi})+Wsx(3)

2.2 卷积注意力机制模块

卷积模块的注意力机制模块(convolutional block attention module, CBAM)由通道和空间注意力模块构成(见图3), 重点关注重要特征, 提高网络分类准确率, 是一种轻量级通用模块, 可添加到任何卷积体系结构中进行端到端训练[11], CBAM结构如图3所示。

图3 CBAM结构示意图Fig.3 CBAM structure diagram

在通道注意力模块中, 对输入特征进行平均池化和最大池化操作得到空间信息, 将空间信息输入到隐藏层中的多层感知机中进行升维或降维处理, 逐元素求和以后经过Sigmoid激活函数处理, 得到通道注意力Mc(F)。

Mc(F)=δ(MLP[(Favgc)+(Fmaxc)](4)

空间注意力模块与通道注意力模块是互补关系。 空间注意力模块在通道维度进行平均池化和最大池化操作得到两个通道数为1的特征图, 将两个特征图连接后进行3× 3或者7× 7的卷积, 最后经过Sigmoid激活函数处理, 得到空间注意力Ms(F)。

Ms(F)=δ(fi×i[(Favgs); (Fmaxs)](5)

式(5)中, F为输入特征, δ 为Sigmoid激活函数, MLP为多层感知机, fi× i为卷积核为3、 7的卷积操作。

本工作提出了一种基于注意力机制的一维残差神经网络(1D-AD-ResNet-18)NIR光谱分析算法。 该算法由CBAM模块和1D-ResNet-18模块两部分组成, 为了不改变网络结构, 方便使用预训练模型, CBAM模块嵌入在网络最后一层卷积和第一层卷积处, 7* 7卷积层提取光谱数据特征, CBAM对于光谱特征分配注意力权重, 捕获更加重要的特征信息, 经过4个3* 3卷积的BasicBlock模块, 通道数与维度保持一致, 最后一层的CBAM整合信息, 一维平均池化曾获取不同种类的芒果特征信息, 通过Linear函数对芒果分类, 1D-AD-ResNet-18光谱定性分析模型如图4。

图4 1D-AD-ResNet-18光谱定性分析模型Fig.4 1D-AD-ResNet-18 Qualitative spectral analysis model of 1D-AD-ResNet-18

2.3 对比方法

采用SVM、 KNN和常规的1D-ResNet-18网络三种分类方法对不同种类的芒果光谱数据进行分类识别处理。

SVM属于监督学习算法, 主要用于解决小样本、 非线性数据分类问题[12]。 选用径向基函数(RBF)作为核函数, 使用网格搜索算法(GS)对选定范围内的惩罚参数c和RBF核参数g进行优化, 得到最优解。

KNN主要用于数据分类、 图像处理和目标检测等领域[13]。 在建立KNN模型之前, 采用PCA对数据进行处理提取光谱特征信息, 达到降维的效果[14]

将常规的1D-ResNet-18用于模型比较, 为了对比实验的公平合理, 1D-ResNet-18的网络结构、 网络参数以及使用的激活函数均与所提出的算法保持一致。

2.4 评价标准

分类效果性能评价采用准确度(Accuracy)、 精确率(Precision)、 召回率(Recall)、 F1值(F1-score)作为评估指标。 对于多分类模型采用宏观平均值(Macro-average)方法, 即对不同类别的精确率、 召回率和F1值分别相加求平均值, 可以平等直观看待每个类别。 考虑到类别不平衡情况, 采用Weighted-average方法进行评价, Accuracy表示正例与负例中预测正确数量占总数量的比例Precision为预测类别与预测为正例的样本中预测正确的比例。 Recall为预测正确的正例占总实际正例样本的比例, F1-score同时权衡recall和precision两个指标各表达式, 分别见式(6)— 式(9)。

准确度表示正例和负例中预测正确数量占总数量的比例。

$\text{Accuracy}=\frac{TP+TN}{\ \ \ \ \ TP+FP+FN+TN\ \ \ \ \ \ }$(6)

精确率表示预测类别与预测为正例的样本中预测正确的比例。

$\text{Precision}=\frac{TP}{\ \ \ \ TP+FP\ \ \ \ \ }$(7)

召回率表示预测正确的正例占总实际正例样本的比例。

$\text{Recall}=\frac{TP}{\ \ \ \ \ TP+FN\ \ \ \ \ \ }$ (8)

F1值同时权衡recall和precision两个指标。

$\text{F}1-\text{score}=\frac{2\times \text{Precision}\times \text{Recall}}{\ \ \ \ \ \ \ \ \text{Precision}+\text{Recall}\ \ \ \ \ \ \ \ }$(9)

其中, TP表示正样本预测为正; TN表示负样本预测为负; FP表示负样本被预测为正; FN表示正样本被预测为负。

3 结果与讨论

由图1中可以看出不同的芒果样本之间光谱相似性高, 重叠严重, 难以区分。 因此对芒果原始光谱图运用归一化(Normalization)和SNV预处理, 用以消除光谱信号中的噪声和信号偏移等现象, 为后续定性分析做基础, 结果如图5(a、 b)所示。

图5 芒果光谱预处理图
(a): Normalization光谱图; (b): SNV光谱图
Fig.5 Spectra pretreatment of mango samples
(a): Spectra after Normalization; (b): Spectra after SNV

CBAM与1D-ResNet-18模型在Pytorch进行实现, PCA-KNN与SNV-SVM算法采用Scikit-learn进行搭建, 所有算法运行环境均为Nvidia GeForce GTX1050 Ti。

1D-AD-ResNet-18网络训练参数: 批量大小设置为16; 迭代次数为1 200; 初始学习率为0.02, 学习率根据迭代次数进行动态调整; 优化器选用Adam优化器; 损失函数选择分类算法中常用的交叉熵损失函数。 输入特征为185× 1× 1 556的NIR信号, 网络在指定的迭代次数后停止训练, 得到网络训练的识别精度和损失曲线, 如图6(a, b)所示。 图6可以看出, 随着迭代次数的增加, 经过Normalization和SNV处理后的1D-AD-ResNet-18网络训练的Loss都快速衰减, 然后稳定在最小值附近。 相应训练准确率快速上升, 直至稳定在1附近。 具体地分析, 基于Normalization训练的网络分类Loss更小, 准确率更高, 性能更佳。 将基于Normalization训练的网络用于后续的测试。

图6 1D-AD-ResNet-18训练集准确度(a)与损失值收敛(b)曲线Fig.6 Convergence curve of 1D-AD-ResNet-18 training set accuracy (a) and loss value (b)

用训练好的1D-AD-ResNet-18模型对芒果测试集进行分类, 分类混淆矩阵如图7所示。 在监督学习中, 混淆矩阵作为一种可视化工具, 可以准确衡量模型分类的性能。 可以看出模型对于四种芒果的分类效果都很好, 整体准确率为96.42%, 其中Cengkir和Kent的分类效果最好, Cengkir和Kent的样本数分别为5和9, 全部被正确分类。 Kweni有26个样本, 一个样本被错误分为Palmer。 Palmer有16个样本, 其中有15个被正确分类, 一个样本被错误分类为Kweni。 少数样本被错误分类, 主要原因可能是光谱特征峰相似, 1D-AD-ResNet-18模型需要更多的样本进行训练提高分类能力。

图7 1D-AD-ResNet-18预测得到的分类结果图Fig.7 Classification results predicted by 1D-AD-ResNet-18

表1为基于1D-AD-ResNet-18模型对芒果测试集分类结果的评价指标。 看出各类芒果识别的精确率、 召回率、 F1值、 Macro-average和Weighted-average均在93%以上, 所提出的1D-AD-ResNet-18模型分类结果稳定性强。 模型未出现网络“ 退化” 、 局部最优解等问题, 体现了网络的优越性能。

表1 1D-AD-ResNet-18网络评价指标 Table 1 1D-AD-ResNet-18 network evaluation indicators

将改进的1D-AD-ResNet-18模型与1D-ResNet-18, PCA-KNN和SNV-SVM三种模型进行比较。 1D-ResNet-18, PCA-KNN和SNV-SVM模型预测结果如图8(a, b, c)所示。 在四种样品分类中, 1D-ResNet18准确率为80.35%, 存在4个错误分类; PCA-KNN准确率为67.85%, 未能正确识别Cengkir, 存在6个错误分类; SNV-SVM准确率为76.78%, 存在5个错误分类。 三种比较模型在芒果样品分类任务中稳定性较低, 模型鲁棒性较差。

图8 1D-ResNet-18 (a)、 PCA-KNN (b)和SVM (c)预测结果图Fig.8 Classification results predicted by 1D-ResNet-18 (a), PCA-KNN (b) and SVM (c)

表2为1D-ResNet-18、 PCA-KNN、 SNV-SVM和1D-AD-ResNet-18四种分类模型预测结果。 相比于1D-ResNet-18、 PCA-KNN和SNV-SVM方法, 1D-AD-ResNet-18在准确度、 精确率、 召回率和F1值指标上均取得最优结果, 尤其对比常规1D-ResNet-18有较大的提升。 分析认为1D-AD-ResNet-18分类算法通过CBAM模块提取了不同芒果之间的差异, 提高了模型分类性能。 1D-AD-ResNet-18分类算法是更加高效的芒果样本定性识别算法。 进一步研究可以将该方法用于带有损伤的芒果定性分析乃至其他物质, 并对算法进行改进, 提高模型的泛化能力, 便于更加高效、 快捷地进行分类预测。

表2 采用1D-AD-ResNet-18方法和对比方法得到的网络评价指标 Table 2 Network evaluation indexes of 1D-AD-ResNet-18 method and comparison method
4 结论

提出了一种基于注意力机制的NIR光谱定性分析方法1D-AD-ResNet-18, 实现对芒果数据集的NIR光谱分类预测。 该算法采用CBAM模块提取光谱中的重要特征信息, 采用1D-ResNet-18算法进行分类。 预测结果表明, 1D-AD-ResNet-18与传统分类算法PCA-KNN和SNV-SVM, 以及深度学习算法1D-ResNet-18等方法相比, 对于芒果数据集, 1D-AD-ResNet-18预测准确度高, 具有更好的分类能力。 所提出的1D-AD-ResNet-18算法为后续NIR光谱的食品定性检测研究提供了一个新思路。

参考文献
[1] Yahia E M, Ornelas-Paz J D J, Brecht J K, et al. Arabian Journal of Chemistry, 2023, 16(7): 104860. [本文引用:1]
[2] CHU Xiao-li, CHEN Pu, LI Jing-yan, et al(褚小立, 陈瀑, 李敬岩, ). Journal of Instrumental Analysis(分析测试学报), 2020, 39(10): 1181. [本文引用:1]
[3] NI Chao, LI Zhen-ye, ZHANG Xiong, et al(倪超, 李振业, 张雄, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2019, 50(12): 170. [本文引用:1]
[4] Rong D, Wang H Y, Ying Y B, et al. Computers and Electronics in Agriculture, 2020, 175: 9. [本文引用:1]
[5] Yang J, Ma X D, Guan H O, et al. Infrared Physics & Technology, 2023, 128: 10. [本文引用:1]
[6] Guan H O, Yu M, Ma X D, et al. Infrared Physics & Technology, 2022, 127: 14. [本文引用:2]
[7] Chen X H, Cheng G Y, Liu S H, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2022, 279: 9. [本文引用:1]
[8] Wang Y, Zhang Z, Feng L, et al. Computers and Electronics in Agriculture, 2021, 184: 106090. [本文引用:1]
[9] Munawar A A, Kusumiya T I, Wahyun I D. Data Brief, 2019, 27: 104789. [本文引用:1]
[10] Yu H Z, Li Z Z, Guo W B, et al. Industrial Crops and Products, 2023, 196: 116455. [本文引用:1]
[11] Chen L J, Yao H D, Fu J Y, et al. Engineering Structures, 2023, 275: 16. [本文引用:1]
[12] SUN Pan, SHI Xiu-dong, HE Ying-jie(孙攀, 石秀东, 何英杰). Manufacturing Automation(制造业自动化), 2023, 45(4): 34. [本文引用:1]
[13] ZENG Jing-xiang, ZHANG Jin-xi, CAO Dan-dan, et al(曾靖翔, 张金喜, 曹丹丹, ). Journal of South China University of Technology(Natural Science Edition)[华南理工大学学报(自然科学版)], 2022, 50(3): 50. [本文引用:1]
[14] CHEN Jia-yue, LI Fei(陈嘉跃, 李飞). Electronic Measurement Technology(电子测量技术), 2022, 45(1): 104. [本文引用:1]