基于双重注意力机制的RGB成像光谱重建方法研究
孙帮勇1, 喻梦莹1, 姚其2,*
1.西安理工大学印刷包装与数字媒体学院, 陕西 西安 710054
2.复旦大学工程与应用技术研究院, 上海 200433
*通讯作者 e-mail: yaoqi@fudan.edu.cn

作者简介: 孙帮勇, 1980年生, 西安理工大学印刷包装与数字媒体学院教授 e-mail: sunbangyong@xaut.edu.cn

摘要

光谱图像比RGB图像存储的信息量更大, 理论上具有更广泛的应用范围, 然而受限于光谱成像设备成本高、 数据处理复杂等问题, 目前主要应用在遥感、 军事及天文学等特定领域。 近年来, 学者们提出了利用RGB图像通过数学方法重建光谱图像的解决方案, 能够极大提高光谱图像的应用范围。 然而, 当前光谱重建方法普遍存在图像细节易丢失、 光谱精度不够高等问题, 因此, 提出一种基于双重注意力机制的RGB图像光谱重建方法, 从图像细节和光谱精度方面提高光谱图像重建质量。 所提出的光谱重建方法设计了一种稀疏信号深度重建网络, 重点针对RGB图像的稀疏特性, 从准确提取图像信息的多层次特征、 挖掘更多语义信息入手, 实现稀疏信号到完备信号重建。 在网络结构上, 所设计的光谱重建网络首先利用小参数卷积提取RGB图像的浅层特征信息; 然后引入有效多频率通道注意力机制, 计算特征层各通道之间的相关性, 通过层间加权实现特征响应的有效分配; 同时建立层特征加权融合注意力机制, 学习不同层特征之间的依赖关系, 通过不同层加权实现权重的优化, 以便提取有效的光谱深度特征; 最后基于所提取的深度特征通过卷积生成指定维度的光谱图像。 该实验利用python3.7编程语言, 以pytorch1.2作为深度学习模型框架, 综合光谱图像误差和RGB图像误差作为损失函数进行光谱重建网络的训练。 在NTIRE 2020和CAVE数据集上, 对所提方法与7种主流光谱重建方法进行对比验证, 从主观方面来看, 该方法恢复的光谱图像细节更清晰、 误差更小; 从客观指标方面分析, 该方法重建出的光谱图像与目前已有文献中重建性能较好的方法相比, 在 RRMSE RSAM RERGAS指标上分别降低了18.9%、 16.6%、 22.2%, 而 RPSNR指标提高了4.5%。 实验结果证明了该方法在RGB图像光谱重建的有效性。

关键词: 光谱重建; 高光谱成像; 注意力机制; 光谱超分辨率
中图分类号:O433 文献标志码:A
Research on Spectral Reconstruction Method From RGB Imaging Based on Dual Attention Mechanism
SUN Bang-yong1, YU Meng-ying1, YAO Qi2,*
1. Faculty of Printing, Packaging Engineering and Digital Media Technology, Xi'an University of Technology, Xi'an 710054, China
2. Academy for Engineering and Technology, Fudan University, Shanghai 200433, China
*Corresponding author
Abstract

Spectral images, which theoretically have a wider range of applications, store more information than RGB images. However, due to the high cost of spectral imaging equipment and complex data processing, spectral images are mainly applied in remote sensing, military and other fields. In recent years, scholars have proposed solutions to reconstruct spectral images by mathematical methods using RGB images, which can greatly improve the application range of spectral images. However, there are many problems in current spectral reconstruction models, such as the loss of image details and insufficient spectral accuracy. Therefore, this paper proposes a spectral reconstruction method from RGB images based on a dual attention mechanism to improve the quality of spectral image reconstruction from image detail and spectral accuracy. The proposed spectral reconstruction method designs a sparse signal depth reconstruction network, focusing on the sparse characteristics of RGB images, and achieves sparse to complete signals reconstruction by accurately extracting multi-level features of image information and mining more semantic information. Regarding network structure, the designed spectral reconstruction network first uses small parameter convolution to extract shallow feature information of RGB images. Then, the effective multi-frequency channel attention mechanism was used to calculate the correlation between each channel in the feature layer, and the effective distribution of feature response was realized by inter-layer weighting. At the same time, the layer feature weighted fusion attention mechanism is introduced to learn the dependence between features of different layers, and the weights are optimized through different layers' weighting to extract effective spectral depth features. Finally, based on the extracted depth features, the hyperspectral image is transformed into a specified dimension by convolution. The experiment uses the python 3.7 programming language, pytorch 1.2, as the deep learning model framework and combined spectral image error and RGB image error as loss functions for the training of the spectral reconstruction network. The proposed method and 7 mainstream spectral reconstruction methods are compared and verified on the NTIRE 2020 and CAVE datasets. From a subjective perspective, the spectral image details recovered by this method are clearer, and the error is smaller. From the perspective of objective indicators, the spectral images reconstructed by this method are reduced by 18.9%, 16.6%, and 22.2% in RRMSE, RSAM and RERGAS indicators, respectively, compared with the methods with better reconstruction performance in the existing literature. The RPSNR indicator improved by 4.5%. Therefore, the experimental results prove the effectiveness of the proposed method from RGB image spectral reconstruction.

Keyword: Spectral reconstruction; Hyperspectral imaging; Attention mechanism; Spectral super-resolution
引言

光谱图像以数据立方体形式表达特定场景的空间和光谱信息, 谱段数为几个到几百个之间, 因此与三通道RGB图像相比, 光谱图像蕴含更为丰富的光谱特征, 常被用于航空航天、 医疗诊断以及军事遥感等挑战性领域。 然而, 光谱成像设备结构复杂、 数据处理难度大, 导致其成本较高、 应用范围不广。 近年来, 在信息控制、 人工智能等理论快速发展背景下, 学者们提出了一系列RGB图像光谱重建方法, 即在彩色RGB图像基础上利用特定数学模型计算出每个像素的高维光谱信息, 并达到一定的光谱重建精度, 从而极大提升了光谱图像的应用领域。

理论上, 由三维RGB图像重建高维光谱数据是一个病态的数学逆问题, 特别是较高维度光谱重建(例如30谱段以上)的求解难度一直较大, 所以RGB图像光谱重建已成为光学、 数学、 计算机视觉等领域的挑战性研究热点之一。 为解决该任务, 一些学者通过稀疏编码[1, 2, 3]、 维纳估计[4]、 核偏最小二乘[5]、 相机响应值扩展[6, 7]、 非线性降维[8]、 加权线性回归[9]等方法恢复光谱数据立方体。 但是这些传统光谱重建方法多是针对单张RGB图像或单个RGB像素值建立三维到高维的映射关系, 忽略了单张图像各像素间的空间信息相关性或者没有考虑多张图像间的共性光谱特征问题, 导致光谱重建精度偏低、 模型泛化性能不高。

近年来, 随着深度学习理论的快速发展, 人们提出了一系列基于卷积神经网络(CNN)的光谱重建方法, 并获得了较高的重建精度。 例如Yan等[10]通过联合编码RGB图像局部和非局部相似性进一步提高了光谱重建精度; 李勇[11]等提出了基于改进残差密集网络的重建算法。 另外, Xiong等[12]针对光谱重建提出HSCNN的网络框架去生成高光谱图像; Nathan等[13]基于注意机制残差密集模型提出了一种轻量级网络; Zhao等[14]提出使用像素重排列来减少像素信息的丢失, 从而提高光谱图像的重建质量; 刘鹏飞等[15]通过端到端的对抗生成网络去恢复光谱图像; Li等[16]提出了一种新的自适应加权注意网络, 通过描述中间特征和上下文信息之间的相互依赖关系实现光谱重建。

研究发现, 以上基于深度学习的光谱重建方法在一定程度上弥补了传统重建方法的缺陷, 提高了光谱重建精度。 但是, 其深度网络模型在高稀疏性光谱重建任务中的学习能力仍不足, 特别是三维RGB重建30谱段以上高光谱任务。 因此, 针对高维度的RGB图像光谱重建任务, 从提升各通道信息的特征提取能力和不同特征层之间信息融合能力出发, 提出了一种基于双重注意力机制的光谱重建网络, 其在提高重建网络学习机制方面的工作和贡献如下: (1)在提取单层次特征时, 构建了有效多频率通道注意力块来计算多频率通道信息, 同时采用一维卷积生成无降维的通道权重值, 从而准确地获取各通道之间的相互关系; (2)在提取多层次特征时, 引入层特征加权融合注意力块学习不同深度特征层之间的关系, 优化提取各特征层的关键信息。

1 实验部分
1.1 数据集

实验采用IEEE光谱重建挑战赛NTIRE 2020和美国Columbia大学CAVE两个数据集进行训练或测试。 NTIRE 2020数据集是由Specim IQ高光谱相机采集, 包含450张训练图像、 10张验证图像、 20张测试图像, 每张图像的空间分辨率为482× 512, 光谱波段数为31, 光谱范围为400~700 nm。 CAVE数据集是由Apogee Alta U260光谱相机采集的32张室内图像组成, 空间分辨率为512× 512, 每张图像31个波段, 光谱范围为400~700 nm, 采样间隔为10 nm。 本工作采用NTIRE 2020数据集的450张训练图像作为训练集, 并将这些图像在训练前按照步长64裁剪成128× 128图像块以提高模型稳定性, 测试集则选用NTIRE 2020的官方验证图像集以及CAVE数据集的全部图像。

1.2 RGB光谱重建网络框架

本工作所提出的光谱重建网络结构如图1所示, 主要由浅层特征提取、 高光谱特征生成以及光谱重建三个模块组成。 首先, 浅层特征提取模块对输入RGB图像的浅层特征信息进行提取, 选择参数少、 特征提取效率高的3× 3卷积进行操作; 然后, 高光谱特征生成模块对前端浅层特征进行深度处理, 利用跳跃连接、 通道注意力和加权融合等机制生成信息丰富的高光谱特征; 最后, 重建模块将已生成的高光谱特征转换为指定维度的高光谱图像。

图1 所提算法的网络结构图Fig.1 Network architecture diagram of proposed algorithm

可以看出, 高光谱特征生成模块是所提重建网络的关键, 其在网络结构上主要由M个残差组(residual group, RG)堆叠而成, 这些RG通过跳跃机制进行连接, 并利用层特征加权融合注意力机制进行融合。 每一个RG内部包含多个残差频率通道注意块(residual frequency channel attention blocks, RFCAB), 为最大化提取各通道的有效信息, 并在RFCAB中引入了多频率通道注意力机制来计算通道的最优权重系数。 如图1, 所构建高光谱特征生成模块的关键是, 在特征提取和学习过程中引入有效多频率通道注意力机制(effective multi-frequency channel attention, EMFCA)和层特征加权融合注意力机制(layer feature weighted fusion attention, LFWFA), 这种双重注意力机制分别从优化计算多通道权重系数和多特征层之间的信息融合两方面提升了光谱重建网络的学习能力。 与常用的通过学习通道和空间权重系数去提高特征表达能力的通道-空间混合注意力机制相比, 本文所提双重注意力机制重点在改进传统通道注意力的基础上进行有效的各通道特征提取, 同时利用LFWFA机制加权融合网络学习的不同深度特征信息, 从而在特征提取和融合信息方面进行光谱重建精度的提高。 以下对该双重注意力机制在所提光谱重建网络中的特征提取机理和对光谱重建精度的影响进行阐述。

1.2.1 有效多频率通道注意力机制

各通道注意力机制通过学习特征图中不同通道的权重来优化新分配特征信息, 应用到光谱重建网络中能够一定程度提升光谱重建质量。 如图2(a), 传统通道注意力机制的基本原理是, 通过全局平均池化压缩空间信息再计算出一个标量代表通道的分配权重, 其运算简单但易造成关键细节信息的丢失。 另外, 传统通道注意力机制采用两个非线性全连接层以先降维再升维的方式来计算通道权重系数, 在降维中通道与权重系数不直接对应, 导致各通道的权重系数计算不够准确。

图2 (a)通道注意力; (b)有效多频率通道注意力Fig.2 (a)Channel attention ; (b)Effective multi-frequency channel attention

针对传统通道注意力机制的缺陷, 本工作在光谱重建网络中引入EMFCA以提高多通道特征提取精度。 EMFCA的学习过程如图2(b)所示, 对于给定尺寸为C× H× W的输入特征图, 首先将其沿通道方向平均分为S部分, 其中C1=C2=…=CS=C/S, S为可被C整除的整数。 这些S均分的特征图, 根据频率分量计算方法[17], 都对应特定的离散余弦变换(discrete cosine transform, DCT)频率分量。 然后经过DCT处理, S个DCT频率分量与分离出来的S个特征图对应元素相乘, 再使用一维卷积快速生成通道权重系数, 并将该权重系数与输入特征相乘, 最后经过残差跳跃连接与输入特征相加。 可以看出, 有效多频率通道注意力与传统通道注意力相比, 采用了DCT替代通道注意力中的全局平均池化压缩信息策略, 并利用多个频率分量来表示通道信息, 解决了使用全局平均池化压缩时造成的信息丢失问题, 因为此时全局平均池化压缩相当于DCT一个分量压缩的结果。 另外, 有效多频率通道注意力采用一维卷积去生成权重能够避免维度缩减问题, 获得了更为准确的通道权重系数, 同时也实现了通道间信息的有效交互。

1.2.2 层特征加权融合注意力机制

高光谱图像的每个谱段对应不同的成像波长, 所成像物体在每个成像波长的响应是不同的, 若将高光谱图像投影成三维RGB图像, 各谱段图像在形成R、 G、 B每个通道图像时的贡献会存在较大差异。 因此, 由RGB三通道图像重建高维光谱图像时, 所设计的高光谱特征生成模块在计算不同的光谱特征层时, 应该学习RGB图像和高光谱图像之间的依赖关系, 为各特征层本身以及不同层之间的相关性分配最优的权重系数。 考虑到LFWFA在计算不同层权重、 获取特征层关键信息方面的优势, 在光谱重建网络中引入LFWFA来融合不同层的特征信息, 获取它们之间的最优依赖关系, 从而进一步提高网络的表达能力。

层特征加权融合注意力机制(LFWFA)的结构如图3所示, 该模块的输入是M个残差组(RG)提取的中间特征层, 其维数为M× C× H× W, 利用层特征加权融合注意力机制计算各个残差组的权重, 可实现所有残差组特征信息的优化融合, 最终输出维数为MC× H× W。 在所提出的光谱重建网络中, 首先将残差组输入特征转换为M× CHW的矩阵, 通过对该矩阵及其转置进行矩阵相乘运算, 并使用softmax函数可计算出不同层之间的特征相关系数; 然后利用相关系数与M× CHW矩阵进行相乘, 同时将矩阵相乘运算结果的维数转换为M× C× H× W, 便于跳跃连接中与输入特征相加; 最后对输出特征进行维度变换为MC× H× W

图3 层特征加权融合注意力Fig.3 Layer feature weighted fusion attention

1.3 损失函数

为了进一步提高光谱重建质量, 本工作基于高光谱图像三维投影成RGB的先验知识, 在LMRAE(平均相对绝对误差)的基础上引入了RGB图像损失函数LRGB, 以此提高光谱精度并同时增加视觉感受质量。 由于NTIRE 2020数据集中的RGB图像是通过CIE 1964颜色匹配函数将高光谱图像转换所得, 所以在计算LRGB损失函数时, 首先利用该颜色匹配函数将重建的光谱图像转换成RGB图像, 然后与原始输入RGB图像进行对比来计算LRGB损失。 因此, 损失函数可表示为

L=LMRAE+λLRGB(1)

式(1)中, λ 是调制参数, 两个损失函数被分别定义为

LMRAE=1Nj=1N(|IGT(j)-IHSI(j)|/IGT(j))(2)LRGB=1Nj=1N(|ϕ(IHSI(j))-IRGB(j)|)(3)

其中IGT代表真实高光谱图像, IHSI是重建高光谱图像, IRGB表示输入的RGB图像, I(j)HSII(j)GT分别为重建高光谱图像和真实高光谱图像的第j个像素值, ϕ 是CIE 1964颜色匹配函数, N为像素总数。

1.4 实验参数设置

将python3.7作为编译环境, 使用pytorch1.2作为深度学习模型框架。 由表1可知, 训练中设置残差频率通道注意力块(RFCAB)个数P=5, 残差组(RG)个数M=4, LRGB损失调制参数λ =3。 训练模型的批数量设置为4, 优化器选择Adam(β 1=0.9、 β 2=0.999、 ε =10-8), 初始学习率设置为0.000 1, 并采用多项式函数设置为power=1.5的衰减策略, 迭代次数设置为100。

表1 训练中RFCAB的数量P, RG的数量Mλ 的数量对网络的影响 Table 1 The effect of the number P of RFCAB, the number M of RG and the number λ on the network during training
2 结果与讨论
2.1 评价指标

采用四种客观评价指标来测试所提光谱重建方法的有效性, 分别为均方根误差(RRMSE)、 峰值信噪比(RPSNR)、 光谱角映射器(RSAM)以及无量纲相对全局误差 (RERGAS)。 其RSAMRERGAS的计算方法分别为

$R_{\mathrm{SAM}}=\frac{1}{N} \cos ^{-1}\left(\sum_{j=1}^{N} \frac{\left(I_{G \mathrm{G}}^{(j)}\right)^{\mathrm{T}} I_{\mathrm{HSI}}^{(j)}}{I_{\mathrm{GT}}^{(j)}{ }_{2} \quad I_{\mathrm{HSI}}^{(j)}{ }_{2}}\right)$(4)

$R_{\mathrm{ERGAS}}=100 \frac{h}{l} \sqrt{\frac{1}{L} \sum_{i=1}^{L} \frac{R_{\mathrm{RMSE}}(i)}{\mu_{i}}}$(5)

其中 I(j)HSII(j)GT分别代表重建高光谱图像和真实高光谱图像的第j个像素值, N是像素总数。 ‖ ‖ 2表示向量的l2范数, hl是RGB图像和高光谱图像的像素大小之间的比率, L为高光谱图像的波段数, μ i为高光谱图像的i个波段的强度平均值。

四个评价指标中, RRMSE越小或RPSNR越大, 重建的高光谱图像与真实高光谱图像的误差就越小, 也就越接近于真实值; 而RSAMRERGAS越小, 光谱畸变即失真程度就越小, 对应光谱重建的质量就越高。

2.2 主观分析

为了验证所提光谱重建方法的有效性, 将其与现有的7种主流方法进行对比, 分别为Arad[2], A+[3], Galliani[18], Yan[10], Nathan[13], HRNet[14]和AWAN[16]等重建模型。 图4和图5分别为NTIRE 2020数据集和CAVE数据集所选代表性测试图像在5个波段上的重建误差图, 所选5个波段为470、 520、 570、 630和680 nm, 其对应的波段排列顺序是图中的第一行到第五行。 而误差热图是通过计算真实高光谱图像和重建高光谱图像之间像素绝对误差获得, 在该误差图中, 热图显示的颜色越蓝, 代表重建的误差越小, 即所重建的光谱质量越高。

图4 NTIRE 2020数据集中一个高光谱图像在5个波段上的重建误差图
(a): Arad; (b): A+; (c): Galliani; (d): Yan; (e): Nathan; (f): HRNet; (g): AWAN; (h): 所提算法
Fig.4 The reconstruction error map of an HSI on five bands from datasets of the NTIRE 2020
(a): Arad; (b): A+; (c): Galliani; (d): Yan; (e): Nathan; (f): HRNet; (g): AWAN; (h): Proposed algorithm

图5 CAVE数据集中一个高光谱图像在5个波段上的重建误差图
(a): Arad; (b): A+; (c): Galliani; (d): Yan; (e): Nathan; (f): HRNet; (g): AWAN; (h): 所提算法
Fig.5 The reconstruction error map of an HSI on five bands from datasets of the CAVE
(a): Arad; (b): A+; (c): Galliani; (d): Yan; (e): Nathan; (f): HRNet; (g): AWAN; (h): Proposed algorithm

如图4和图5所示, 与其他7种方法相比, 所提光谱重建方法在5个波段的误差都相对较小, 证明该方法更具有先进性。 具体分析, Arad是一种基于稀疏恢复的光谱重建方法, 其误差在所有波段都比较大, 特别是470和520 nm波段更为明显, 这主要是因为该方法依赖字典选取导致重建精度不高。 A+是在Arad的稀疏编码方法上进行改进的算法, 虽然在一定程度上提高了Arad的重建性能, 但其在470和520 nm波段的误差仍然较大, 这是由于该模型单独对RGB矢量进行处理, 没有充分考虑图像的空间上下文信息。 Galliani和Yan是基于CNN的早期光谱重建方法, 网络结构简单, 其在470、 520和680 nm的重建精度不高, 主要由于特征提取和学习能力不高所造成的。 Nathan是一个基于轻量级的残差密集注意力网络, 涉及参数的数量个数很少, 其重建能力在所有5个波段表现比较均衡, 但都存在一定的误差。 HRNet使用像素重排列和残差密集块去重构高光谱图像, 虽然能够保留原始像素信息, 但是不能够有效地去除伪影, 导致其重建效果不理想, 尤其是在680 nm波段处重建的图像, 对应较大的光谱误差。 AWAN利用自适应加权注意网络挑选出空间域和通道域的有用特征信息, 从而获得了高质量的高光谱图像, 其在5个波段的重建性能整体上优于前6种。 而本工作通过引入EMFCA和LFWFA学习机制, 优化了通道权重分配过程并提取到最优的特征信息, 在5个波段的重建误差最小, 从而证明其在以上所列出对比模型中的光谱重建性能是最优的。

2.3 客观分析

表2表3进一步对所有模型在NTIRE 2020和CAVE数据集上的表现进行定量分析。 可以看出, 在NTIRE 2020数据集上, 所提方法与目前已有文献中重建性能较好的AWAN方法相比, 在RRMSERSAMRERGAS指标上分别降低了18.9%、 16.6%、 22.2%, 而RPSNR指标提高了4.5%。 在CAVE数据集上, 与其他7种方法相比, 所提方法在RRMSERPSNR指标上表现最好, 而在RSAMRERGAS指标上虽然不是最高但依然排在前列。 所以, 通过综合分析两个测试集上的四种客观量化指标表现, 也证明所提方法优于其对比的7种同类方法。

表2 NTIRE 2020数据集的定量结果 Table 2 The quantitative results of NTIRE2020 dataset
表3 CAVE数据集的定量结果 Table 3 The quantitative results of CAVE dataset
2.4 消融实验

为验证EMFCA和LFWFA模块表现, 本文在NTIRE 2020数据集上进行消融实验, 结果如表4所示。 a代表大量普通卷积层堆叠而成的基准网络, b代表在a的基础上附加LFWFA模块, 以通过加权融合不同层的特征信息来获得网络不同深度特征信息的依赖性, 与a相比, b的结果使RRMSE指标降低了13.8%。 c代表在a的基础上, 仅引入EMFCA模块, 其在RRMSE指标上比a降低了22.7%, 主要原因是EMFCA模块有效地提取到了通道间相关联特征信息, 增强了网络的特征表达能力。 d为本文所提出方法, 其结合EMFCA和LFWFA模块进一步加强了网络的学习能力, 实验结果表明, 同时使用这两个模块获得了最优的性能。

表4 NTIRE 2020消融研究的对比结果 Table 4 The comparison results of ablation study on NTIRE 2020
3 结论

现有基于深度学习的RGB图像光谱重建方法仍存在一定缺陷, 特别是重建图像的结构细节丢失以及光谱精度不够高。 研究发现, 该缺陷主要源于图像重建网络中的特征提取和融合方法存在不足, 为此提出了一种基于双重注意力机制的RGB图像光谱重建方法。 所建立的光谱重建网络通过引入EMFCA和LFWFA, 实现了对有效通道特征的关注以及网络不同深度特征的加权融合, 从而提高了光谱重建模型的精度。 在NTIRE 2020和CAVE两个数据集上对所提算法和7种对比算法进行试验验证, 结果表明, 本工作设计的网络模型在主观和客观指标方面均获得了最优重建效果, 其为进一步扩大高光谱图像的应用范围提供了理论支持。 此外, EMFCA和LFWFA模块一致性较强, 可用于空间超分、 图像分类、 压缩光谱成像等其他领域。

参考文献
[1] Parmar M, Lansel S, Wand ell B A. IEEE International Conference on Image Processing, 2008: 473. [本文引用:1]
[2] Arad B, Ben-Shahar O. European Conference on Computer Vision. Amsterdam, Netherland s, 2016: 19. [本文引用:2]
[3] Aeschbacher J, Wu J, Timofte R. IEEE International Conference on Computer Vision, 2017: 471. [本文引用:2]
[4] LI Fu-hao, LI Chang-jun(李富豪, 李长军). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(10): 3281. [本文引用:1]
[5] Xiao G S, Wan X X, Wang L X, et al. Optics Express, 2019, 27(24): 34921. [本文引用:1]
[6] Liang J X, Wan X X. Optics Express, 2017, 25(23): 28273. [本文引用:1]
[7] LIANG Jin-xing, WAN Xiao-xia(梁金星, 万晓霞). Acta Optica Sinica(光学学报), 2017, 37(9): 0933001. [本文引用:1]
[8] Jia Y, Zheng Y Q, Gu L, et al. IEEE International Conference on Computer Vision, 2017: 4715. [本文引用:1]
[9] Liang J X, Xiao K D, Pointer M R. Optics Express, 2019, 27(4): 5165. [本文引用:1]
[10] Yan Y Q, Zhang L, Li J, et al. Pattern Recognition and Computer Vision. Guangzhou, China, 2018, 11257: 206. [本文引用:2]
[11] LI Yong, JIN Qiu-yu, ZHAO Huai-ci, et al(李勇, 金秋雨, 赵怀慈, ). Acta Optica Sinica(光学学报), 2021, 41(7): 0730001. [本文引用:1]
[12] Xiong Z W, Shi Z, Li H Q, et al. IEEE International Conference on Computer Vision Workshop, 2017: 518. [本文引用:1]
[13] Nathan D S, Uma K, Vinothini D S, et al. arXiv: 2020, 2004. 06930v2. [本文引用:2]
[14] Zhao Y Z, Po L M, Yan Q, et al. IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2020: 1695. [本文引用:2]
[15] LIU Peng-fei, ZHAO Huai-ci, LI Pei-xuan(刘鹏飞, 赵怀慈, 李培玄). Infrared and Laser Engineering(红外与激光工程), 2020, 49(S1): 20200093. [本文引用:1]
[16] Li J J, Wu C X, Song R, et al. IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2020: 1894. [本文引用:2]
[17] Qin Z Q, Zhang P Y, Wu F, et al. IEEE International Conference on Computer Vision, 2021: 763. [本文引用:1]
[18] Galliani S, Lanaras C, Marmanis D, et al. arXiv: 2017, 1703. 09470v1. [本文引用:1]