作者简介: 朱 榕,女, 1998年生,昆明理工大学理学院硕士研究生 e-mail: zhurongdyx@163.com
红外与可见光图像由于二者之间存在互补特性而成为图像融合研究领域重要的源图像。 目前红外与可见光图像融合方法存在的一个问题是图像中纹理信息的细节保存能力有限。 为解决此问题, 首先采用基于直方图均衡化(HE)的方法分别对配准后红外和可见光图像灰度值的范围进行动态扩展, 实现图像增强, 使得图像中的纹理信息更加突出, 同时图像的背景与纹理细节之间的对比度也得以提高。 其次, 采用 L0梯度最小化滤波器分别对增强后的图像进行平滑处理, 得到图像的背景层, 然后通过源图像与背景层进行差运算得到细节层, 实现红外和可见光图像的分解。 再次, 将卷积稀疏表示(CSR)与特征相似性分析结合应用于红外与可见光图像融合: 对两个包含丰富纹理信息的细节层采用基于卷积稀疏表示的融合策略进行融合, 该过程中为了降低卷积稀疏表示的误配敏感度, 采用基于窗口的平均策略对图像活动水平图进行处理, 使卷积稀疏表示对误配不敏感; 针对背景图像中存在大量冗余信息的问题, 对两个背景层进行特征相似性分析, 并以此作为确定二者在的融合过程中的重要程度的依据。 最后, 通过 L0梯度最小化图像分解的逆变换重构初步融合后的细节层和背景层, 得到红外与可见光图像的融合结果。 采用TNO数据集中21个场景的场景1(建筑)和场景2(树林)两组图像进行主观视觉分析, 观测结果表明基于HE-CSR的融合方法较现有CVT、 DTCWT、 FPDE、 GTF、 IFEVIP、 LP、 RP和CSR共8种图像融合典型方法, 在视觉上更好地保留了图像中的纹理细节; 同时, 进一步对TNO数据集所有场景图像融合效果进行客观指标评价, 结果显示基于HE-CSR的融合结果的SF、 SD、 SCD、 AG、 EN、 CC的6个评价指标值分别为7.316 6、 37.350 5、 1.704 1、 5.571 4、 6.756 3和0.744 6, 分别提高了19.54%、 21.87%、 13.11%、 31.31%、 2.17%和8.23%。 实验结果表明, 所提出的HE-CSR融合方法在主观视觉分析和客观指标评价上都优于其他典型方法, 为红外与可见光图像融合提供一种新的更有效的模型及方法。
Infrared and visible light images have become important source images in the field of image fusion research due to their complementary characteristics, and the current infrared and visible light image fusion methods have the problem of limited ability to preserve the details of texture information in the image. In this paper, firstly, the histogram equalization (HE) method is used to dynamically expand the range of gray values of infrared and visible images after alignment to achieve image enhancement, which makes the texture information in the image more prominent, and at the same time, the contrast between the background of the image and the details of the texture is also improved. Secondly, the gradient minimization filter is used to smooth the enhanced image to obtain the background layer of the image, and then the source image and the background layer are used to obtain the detail layer by difference operation to realize the decomposition of the infrared and visible light images. Again, the convolutional sparse representation (CSR) is combined with feature similarity analysis for infrared and visible image fusion: the two detail layers containing rich texture information are fused using the fusion strategy based on the convolutional sparse representation, and in this process to reduce the mismatch sensitivity of the convolutional sparse representation method, a window-based averaging strategy is adopted to process the activity level map of the image, to make the convolutional sparse representation insensitive to mismatches; For the problem of large amount of redundant information in the background image, the feature similarity analysis of the two background layers is carried out, and this is used as the basis for determining the degree of importance of the two in the fusion process. Finally, the preliminary fused detail and background layers are reconstructed by the inverse transform of gradient minimization image decomposition, and the fusion results of infrared and visible light images are finally obtained. Two sets of images, scenes 1 (buildings) and 2 (woods), from 21 scenes in the TNO dataset are used for subjective visual analysis. The observation results show that the HE-CSR-based fusion method visually retains the image's texture details better than the existing eight typical image fusion methods, including CVT, DTCWT, FPDE, GTF, IFEVIP, LP, RP, and CSR. At the same time, the objective index evaluation of the image fusion effect of all scenes in the TNO dataset is further conducted. The results show that the six evaluation index values of SF, SD, SCD, AG, EN, and CC for the HE-CSR-based fusion results are 7.316 6, 37.350 5, 1.704 1, 5.571 4, 6.756 3, and 0.744 6, which are respectively improved by 19.54%, 21.87%, 13.11%, 31.31%, 2.17%, and 8.23%. The experimental results show that the HE-CSR fusion method proposed in this paper outperforms other typical methods in subjective visual analysis and objective index evaluation and provides a new and more effective model and method for infrared and visible image fusion.
随着图像采集技术的不断发展, 多种图像采集方式被广泛使用, 在海量的图像数据中, 总是存在多种数据之间信息互补的情况, 为了获得包含更丰富的信息的图像数据, 就需要对这些数据进行融合解译。 通过对已有数据集的处理, 创造出新的图像以提供完备的场景表示。 图像融合技术广泛应用于模式识别[1]、 遥感[2]、 医学图像处理[3]等不同领域。 近十年来, 红外和可见光图像的融合方法研究取得了新的突破。 多种融合方法被提出, 如基于区域显著性融合规则的非降采样Contourlet变换[4]、 边缘注意机制[5]、 混合多尺度分解(hybrid-multi scale decomposition, Hybrid-MSD)[6]、 视觉显著性图(Visual Significance Maps, VSM)和加权最小二乘(weighted least square, WLS)优化[7]、 注意力生成对抗网络(attentional generation adversarial network, AttentionGAN)[8]、 多分类约束生成对抗网络(generative adversarial network with multi-classification constraints, GANMcC)[9]等。 这些方法在处理图像融合中的关键问题(如活动水平测量和权重分配等)方面具有优势, 可以提高红外和可见光图像融合的质量和效果。 近三年, 对于红外和可见光图像融合的研究热度并没有减退。 主流的几类研究方法主要以神经网络[10, 11, 12]、 深度学习[13]、 多尺度变换[14, 15, 16]、 自编码网络[15, 17]、 嵌入卷积的特定网络[11, 18, 19]为基础, 这些方法虽然在一定程度上提高了融合性能和鲁棒性, 为图像融合技术的发展提供了新的思路, 但在融合过程中, 依然存在削弱图像对比度、 引起图像目标边缘模糊、 产生伪影以及计算量大、 对设备性能要求高等问题。
此外, 常用红外和可见光图像融合方法还包括曲波变换(curvelet transform, CVT)[20]、 双树复小波变换(dual-tree complex wavelet transform, DTCWT)[21]、 四阶偏微分方程(fourth-order partial differential equation, FPDE)[22]图像融合方法、 梯度转移(gradient transfer fusion, GTF)[23]、 红外图像结构抽取和可见光图像信息保留(infrared feature extraction and visual information preservation, IFEVIP)[24]的图像融合方法、 拉普拉斯金字塔(laplace pyramid, LP)[25]、 比率低通金字塔(ratio of low-pass pyramid, RP)[26]及卷积稀疏表示(convolutional sparse representation, CSR)[27]。 其中, 基于CSR的图像融合已成为图像融合中一个有吸引力的研究方向。 许多有效的基于CSR的融合方法被提出。 相关研究表明, 基于CSR的方法能够克服基于稀疏表示(sparse representation, SR)的图像融合方法的局部建模所带来的语义信息缺失与对误匹配的低容忍度两大缺陷, 融合效果更好[10]。 但是, CSR存在的主要缺陷是细节保存能力有限, 这个问题在图像融合中是非常值得关注的。 因此, 针对上述问题, 有必要引入图像增强技术, 将CSR与特征相似性分析(feature similarity index, FSIM)结合成组合模型, 解决图像融合过程中细节保存能力有限的问题, 并通过实验验证其改进效果。
红外和可见光源图像中许多有效信息在被融合后可能会被忽略, 因此在进行图像的融合之前, 对红外和可见光源图像进行图像增强是很有必要的, 基于直方图均衡化化(histogram equalization, HE)的图像增强可以提高红外与可见光图像的对比度和视觉效果。 此外, 图像分解得到的背景层中可能会出现一些冗余信息, 为避免冗余信息干扰融合结果, 使用特征相似度分析(FSIM)对分解后得到的背景层进行刻画, 计算红外细节层和可见光细节层的特征相似度, 并以此确定两个背景层在融合时的重要程度系数。 之后又在CSR融合过程考虑该系数的影响, 最终实现基于直方图均衡化和卷积稀疏表示(histogram equalization and convolutional sparse representation, HE-CSR)的红外和可见光图像的融合。
结合获取的图像灰度值直方图以及图像自身的视觉效果可知, 当一幅图像的灰度值集中在左侧暗部区域时, 图像整体偏暗。 相反, 当灰度值集中在右侧亮部区域时, 图像整体偏亮。 如果一幅图像的灰度分散较为平均, 每个灰度级的像素值大体相近, 那么这副图像将会展现丰富的细节信息, 灰度值的动态范围也更大[28], 会给人更好的视觉感受。
定义r为需要增强的图像的灰度级且r是一个连续函数, 假设r被归一化到区间[0, 1]中, 规定r=1表示黑色, r=0表示白色。 然后考虑一个离散化公式并允许像素值在[0, L-1]内, 其中L为灰度级(一幅图像可能的灰度值取值范围为[0, 255], 则其灰度级为256)。 均衡后的图像灰度s, 存在变换T使得s=T(r), 其中T需要满足以下两个条件[29]:
(1)T(r)在区间[0, L-1]中为单值且是一个单调递增函数;
(2)r在区间[0, L-1]中, T(r)在区间[0, L-1]中。
条件(1)T(r)为单值是为了保证其反变换的存在, 以后可以把s恢复成源图像r; 单调条件保持输出图像从黑到白顺序增加, 变换函数不单调增加将导致至少有一部分亮度范围被颠倒, 从而在输出图像中产生一些反转灰度级。 条件(2)保证输出灰度和输入灰度有同样的范围。
假设在区间[0, 1]的归一化灰度级为连续量, 并令Pr(r)代表一幅图像中灰度级的概率密度函数, 其中下标用于区分输入图像和输出图像的概率密度函数。 假设对于输入的灰度级t进行下列变换, 得到处理后的灰度级s, 见式(1)
式(1)中, w是积分虚变量。 可以看出, 输出灰度级的概率密度函数是均匀的即
当灰度值为离散值时, 令Pr(rj), j=0, 1, 2, …, L-1表示一幅与给定图像的灰度级相关联的直方图, 对于离散的灰度级, 采用求和的方式, 其均衡变换为
式(3)中, k=0, 1, 2, …, L-1, sk是处理后图像的灰度值, 其对应图像的输入值为rk。
灰度级均衡处理的最终结果是一幅扩展了动态范围的图像, 它具有较高的对比度, 显示了更多的细节和纹理信息。
图像可以被分为包含整体特征和大边缘的背景层和富含大量纹理细节的细节层, 该分解方法可以有效保留源图像的边缘信息, 便于后续融合策略的制定及融合图像边缘的保持。 图像在每一点的梯度定义为相邻像素点分别在x和y方向的差值, 即∇Sq=(∂ xSq, ∂ ySq)T, L0梯度定义为[12]
式(4)中, #{}为满足|∂ xSq|+|∂ ySq|≠ 0的计数式子, 即像素点Sq梯度的L0范数, 图像平滑的目标函数为
式(5)中, S和I分别为输入图像和输出图像, Sq和Iq分别为图像中的一个像素点, λ 为平滑参数, 当式中λ =0时, 输出图像与输入图像相同。
利用L0梯度最小化的平滑滤波方法对已配准的图像S1和S2进行平滑处理, 处理后的图像序列B1和B2分别为G1和G2的背景层序列
式(6)中, L0, GMS(Si)表示对原图像进行L0梯度最小化图像分解。
然后得到的背景层序列, 构造细节层D1和D2
这种方法已被广泛运用于图像分解。
对于细节图像Di, 对应的卷积字典dk={d1, d2, …, dK}, k=1, 2, …, K, 以及一组向量λ k={λ 1, λ 2, …, λ K}, 应用卷积稀疏表示, 可以将任意图像表示为卷积字典滤波器以及与之对应的卷积稀疏响应图Xi, k={xi, 1, xi, 2, …, xi, K}, k=1, 2, …, K乘积的和。 细节图像Di的卷积稀疏表示的模型定义为[10]
设Xi, 1:K(x, y)表示图像中位置(x, y)处的卷积稀疏响应图, 根据基于稀疏表示(sparse representation, SR)的图像融合方法, 则Xi, 1:K(x, y)的L1范数可表示源图像的活动水平图Ai(x, y), 表示为
为了使该方法对误配不敏感, 对Ai(x, y)执行基于窗口的平均策略, 以获得最终的活动水平图
式(10)中, r决定了窗口大小。 该方法对较大r的误配具有较强的鲁棒性, 但同时可能会丢失一些微小的细节。 在多焦点图像融合中, 由于多个源图像中物体边缘的清晰度不同, 导致误配位置不完全相同, 因此r相对较大会更好。 在此, 将r分别固定为9和3, 用于红外与可见光图像融合。 然后, 采用“ choose-max” 策略实现融合系数映射
于是得到融合细节层Df
对两幅原始图像经过L0梯度最小化处理得到的背景层B1和B2进行特征相似性分析, 有效区分两个背景层之间互补与冗余特征, 确定图像在下一步融合时的重要程度系数。
图像的特征相似性通过两个主要的因素来衡量, 一个是相位一致性, 另一个是图像梯度能量。 相位一致性是图像的一种映射, 对于输入的图像帧B1和B2, 将其定义为
式(13)中, (x, y)表示位置。 使用二维log-Gabor滤波器与之进行卷积计算, 生成尺度为n, 方向为o的正交向量[en, o(xi, yi), on, o(xi, yi)], i=1, 2, 这个正交信号的局部振幅定义为
在位置(xi, yi, ti)的相位一致性定义为
式(15)中, ti为帧数, ε 是小的正常数, PC的取值在0~1之间, PC越接近1, 结构特征越显著。
图像梯度描述了图像的对比度特征, 采用卷积掩膜计算, 常用的梯度算子有Sobel算子、 Prewitt算子和Scharr算子。 通过比较, 采用八方向Sobel可以同时在水平、 竖直和对角线方向进行图像梯度能量(Ga, Gb, Gc, Gd, Ge, Gf, Gg, Gh)的刻画, 从而更好的表达图像的对比度特征。 八方向Sobel算子定义如下:
输入图像f(x, y)的梯度能量定义为
两个输入图像信号f1(x1, y1)和f2(x2, y2)的特征相似性指数用于反映两个图像之间的相似性程度, 其计算可分为两个阶段:
(1)进行相位相似度和图像梯度能量相似度的计算, 其计算步骤如下:
①定义相位相似度函数为
式(17)中, T1是一个正常数, 用于增加图像的结构相似性。
②定义图像能量相似度函数为
式(18)中, G1和G2表示两个图像的GM值, T2是一个正常数, 取决于GM的动态范围。
(2)进行图像特征相似度的计算, 其计算步骤如下:
①通过相位相似度和图像梯度能量相似度计算两图像相似度, 定义相似度函数为
α 和β 表示在特征性相似性的衡量中, 两个要素PC和GM的相对重要性参数, 不考虑其他复杂因素的影响, 默认α =β =1。
②定义特征相似度函数, 实现对图像特征相似度的度量
式(20)中, PCm(x, y)=max(PC1(x, y), PC2(x, y)), 用于加权SL(x, y)在总的相似性度量中的重要性, Ω 表示整个图像的范围。
FSIM指标有效的反映了两个背景图像之间的相似性, 能够用于区分冗余和互补区域。 在0~1之间定义阈值δ , 这里取δ =0.7, 满足FSIM≥ δ 的区域具有高度相似性, 在融合时重要程度系数ρ 1、 ρ 2取值分别为1和0, 以充分保留图像中的重要信息, 降低噪声和冗余信息。 反之, 则说明图像相似性不高, 存在大量互补信息, 在融合时的重要程度系数表示为
因此, 对于背景层的融合可表示为
图像细节层与背景层的融合, 实现图像重构。 根据式(23)
式中, L0, GMS(I)表示对图像进行L0梯度最小化图像分解, 通过其逆变换可实现图像重构。
应用经过配准的红外与可见光公开数据集TNO, 它是荷兰皇家国防研究院(The Royal College of Defense Studies)开发的一个用于研究红外与可见光图像融合和多模态图像处理的数据集, 这些数据包含不同场景下的近红外和长波红外以及热红外夜间图像与可见光图像, 具有多样化的光谱信息和特征, 适用于复杂场景下的图像融合模型测试分析[30, 31]。 在配置为Intel Core i7-7700H, CPU主频2.80GHz, 8GB RAM, Windows 10 系统下的计算机上运行, 实验环境平台为MATLAB R2018b。 融合后的结果与现有CVT、 DTCWT、 FPDE、 GTF、 IFEVIP、 LP、 RP和CSR共8种典型融合方法进行对比分析。
如图1、 图2所示, 对同一场景下不同方法的融合结果进行视觉比较, 选择数据集中两个场景进行主观视觉分析。 场景1中, 所有的融合方法都实现了人物和背景树木以及房屋的融合, 但是基于HE-CSR的融合方法的融合结果中人物左侧标记位置树木纹理更为清晰, 右侧标记位置为树木上附着生长的藤蔓也更加的容易识别; 场景2中, 所有的融合方法都实现了树林、 树林前面匍匐状的人物以及人物周围的烟雾的引入, 但是基于HE-CSR的融合方法所呈现的烟雾边缘更加清晰, 同时匍匐的人物与背景的对比度也更大, 更方便人眼对人物的识别。
如图4所示, 相较于基于CSR的融合方法, 基于HE-CSR的图像融合方法的融合结果中, 图像的细节信息更加丰富, 树木、 房屋和人物等图像要素的纹理也更加清晰。
2.3.1 融合效果评价指标
为了客观评价融合图像的效果, 选择以下6个评价指标[32]: 空间频域(spatial frequency, SF)、 标准差(standard deviation, SD)、 差异相关和(sum of correlation differences, SCD)、 平均梯度(average gradient, AG)、 信息熵(information entropy, EN)和相关系数(correlation coefficient, CC)。
SD、 SF和AG是基于图像特征的评价指标, EN是基于信息论的评价指标, SCD、 CC是基于相关性的评价指标。 空间频域(SF): 是通过测量融合图像的梯度分布揭示融合图像的细节和纹理信息的指标。 SF越高表示图像的边缘和纹理信息越丰富。 标准差(SD): 是反映融合图像的对比度及分布的指标。 SD值越大代表图对比度越高。 差异相关和(SCD): 是通过度量融合图像与源图像的差异来反映图像融合算法的优劣的指标。 平均梯度(AG): 是通过计算融合图像的梯度信息并以此表征融合图像的纹理细节的指标。 融合图像AG值越大表示其梯度信息更加丰富。 信息熵(EN)是基于信息论计算融合图像中包含的信息量, EN越高说明融合图像包含的信息越丰富。 相关系数(CC): 是用于衡量融合图像与源图像的线性相关程度的指标, CC值越大表示融合图像与源图像越相似。
2.3.2 融合效果分析
采用所提出的方法进行红外与可见光图像融合后, 对融合图像进行客观的评价。 如表1所示, 对于用于进行融合实验的TNO数据集, 基于HE-CSR的融合方法融合结果与8种常见的红外与可见光图像融合方法得到的结果进行融合质量评价, 可以看出, 基于HE-CSR的融合方法融合的图像的SF、 SCD、 AG、 CC四个评价指标均是最大值, 验证了基于HE-CSR的融合方法在红外和可见光图像融合过程中可以让融合结果细节和纹理信息更加丰富, 边缘轮廓更清晰, 更符合人眼对图像的感知。 但是, 本方法的其他融合评价指标表现不是很突出, SD和EN值并非最大值, 说明在图像增强和卷积稀疏表示过程中图像的对比度受到影响。 综上所述, 基于HE-CSR的融合方法能够更好的保留源图像中的边缘轮廓, 细节信息丰富, 更接近自然场景, 整体融合效果优于其他方法。
![]() | 表1 21个融合结果6种评价指标平均值 Table 1 Mean values of evaluation indicators in the 21 fusion outcomes 6 |
图5表示TNO数据集中21个场景融合结果各个质量评价指标结果, 其中基于HE-CSR的融合方法在SF、 SCD、 AG、 EN、 CC五个指标都有很大改进, 但是针对其中的几个图片, 基于HE-CSR的融合方法的四个评价指标却不是均为最大值, 原因是在这几个场景下的红外和可见光源图像本身对比度非常低, 在进行基于直方图均衡化的图像增强后, 图像的视觉效果、 对比度变化并不明显, 因此便会造成后续图像的融合效果不佳。
本研究结论如下:
(1)利用L0梯度最小化平滑滤波对已配准的红外和可见光图像进行处理, 得到图像序列的背景层, 然后得到的背景层序列构造细节层; 考虑到卷积稀疏表示的误配敏感度问题, 对图像活动水平图执行平均策略使CSR对误配不敏感。
(2)对由L0梯度最小化处理得到的两个背景层进行特征相似性分析, 有效区分两个背景层之间互补与冗余特征, 确定图像在融合时的重要程度系数, 然后采用L0梯度最小化逆变换实现图像重构。
(3)采用公开数据集TNO中场景1(建筑)和场景2(树林)两组图像, 将基于HE-CSR的融合方法与现有CVT、 DTCWT、 FPDE、 GTF、 IFEVIP、 LP、 RP和CSR共8种典型融合方法进行主观视觉分析, 从如图1、 图2中可以明显看出应用基于HE-CSR的融合方法融合得到的图像中的目标信息更加清晰, 主要纹理也更加明显, 与图像整体背景的区分度也更高。
(4)采用TNO数据集中21个场景作为测试集, 对提出的基于HE-CSR的红外与可见光图像改进融合方法进行客观指标评价, SF、 SD、 SCD、 AG、 EN、 CC的6个评价指标值分别为7.316 6、 37.350 5、 1.704 1、 5.571 4、 6.756 3和0.744 6, 分别提高了19.54%、 21.87%、 13.11%、 31.31%、 2.17%和8.23%。 基于HE-CSR的融合方法较7种典型方法(CVT、 DTCWT、 FPDE、 GTF、 IFEVIP、 LP、 RP)融合图像的平均梯度(AG)提高31%以上, 表示用基于HE-CSR的融合方法融合结果在图像背景和目标的对比度上有很大改善。 此外, 差异相关和(SCD)和相关系数(CC)也分别提高13%和8%以上, 表明融合图像与源图像的相关性更高, 融合结果包含源图像中更多的信息。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|