基于全卷积金字塔残差网络的能谱CT图像降噪研究
任学智1, 何鹏1,2,*, 龙邹荣1, 郭晓东1, 安康2, 吕小杰1, 魏彪1,2, 冯鹏1,2,*
1.重庆大学光电技术及系统教育部重点实验室, 重庆 400044
2.重庆大学工业CT无损检测教育部工程研究中心, 重庆 400044
*通讯作者 e-mail: penghe@cqu.edu.cn; coe-fp@cqu.edu.cn

作者简介: 任学智, 1995年生, 重庆大学光电技术及系统教育部重点实验室硕士研究生 e-mail: 809233433@qq.com

摘要

传统CT采用积分式探测器采集投影数据, 反映的是物体的平均衰减特性, 会在一定程度上造成信息损失, 无法对物体进行较好的定性定量测量。 基于光子计数探测器的能谱CT通过设定多个能量响应阈值能够探测不同能量范围内的X射线光子, 采集更多被测物体的物质组成信息, 有助于识别不同物理特性的材料, 基于此, 能谱CT被广泛的应用于小病灶、 低对比度结构以及微细结构的成像。 然而将整个能谱划分为多个能量段进行数据采集时, 范围较窄能量范围内的有效光子数比例相对降低, 导致图像中包含较多的噪声, 图像质量较差, 影响能谱CT的临床应用。 为了有效的抑制能谱CT不同能量段内重建图像中的噪声, 提出了一种基于深度学习的能谱CT图像降噪方法。 我们将全卷积网络和金字塔残差网络结合为全卷积金字塔残差网络(FCPRN), 实验中, 利用能谱CT在不同的能量范围扫描小鼠样本, 使用FDK算法和基于压缩感知的Split-Bregman算法进行重建并分别作为训练数据和标签数据训练全卷积金字塔残差网络。 为了验证网络的降噪性能, 选取了常见的降噪网络模型denoising convolutional neural networks(DNCN)以及residual encoder decoder convolutional neural network (REDCNN)进行对比, 训练三种网络的使用的数据和实验配置都是完全相同的, 实验结果表明训练模型可以有效抑制不同能量范围内重建图像的噪声, 且使用的全卷积金字塔残差网络的降噪性能优于其他网络模型。 模型训练好后, 可以对FDK算法重建出的图像进行降噪, 由此提高能谱CT图像降噪效率, 保证能谱CT重建图像的质量。

关键词: 能谱CT; 图像降噪; 深度学习; 光子计数探测器
中图分类号:TP391 文献标志码:A
Research on Spectral CT Image Denoising Via Fully Convolution Pyramid Residual Network
REN Xue-zhi1, HE Peng1,2,*, LONG Zou-rong1, GUO Xiao-dong1, AN Kang2, LÜ Xiao-jie1, WEI Biao1,2, FENG Peng1,2,*
1. Key Laboratory of Optoelectronics Technology & System (Chongqing University), Ministry of Education, Chongqing 400044, China
2. ICT-NDT Engineering Research Center (Chongqing University), Ministry of Education, Chongqing 400044, China
*Corresponding authors
Abstract

Traditional computed tomography(CT) uses an integral detector to collect projection, which reflects the average attenuation characteristics of the object and causes the loss of attenuation characteristics to some extent, so it cannot measure the object qualitatively and quantitatively. The spectral CT based on photon-counting detectors can collect the incident photons in different energy ranges by setting several energy thresholds to collect more material composition information of measured objects, which is helpful to identify materials with different physical characteristics, so the spectral CT is widely used in imaging of small lesions, low contrast structures and fine structures. However, dividing the whole energy spectrum into several energy segments for data acquisition will lead to the relatively reduced proportion of effective photons, resulting in more noise in the image and affecting the clinical application of energy spectrum CT. To effectively suppress the noise in different energy segments of spectral CT image, we propose an image denoising method basedondeeplearning. We combine the full convolution network and the residual pyramid network into the full convolution pyramid residual network (FCPRN). Our study, scanned a mouse specimen with spectral CT based on photon-counting detector and used the FDK algorithm and Split-Bregman algorithm for reconstruction to obtain training data and labeled data, respectively. Then we use the data set to train our network for image denoising. To verify our network's performance, we selected the common denoising networks, denoising convolutional neural networks(DNCNN)and residual encoder-decoder convolutional neural network(REDCNN)for comparison, and the training data and experimental configuration of the three networks are identical. Experimental results demonstrated that the proposed method could reduce the noise of spectral CT images in different energy ranges,and the performance of FCPRN is better than that of other neural networks discussed in this paper for denoising. When the model is trained, the image reconstructed by the FDK algorithm can be processed quickly via the model to improve the denoising efficiency and ensure the reconstructed image's quality of spectral CT.

Keyword: Spectral CT; Image Denoising; Deep learning; Photon-counting detector
引言

传统CT(computed tomography)通过能量积分式探测器将不同能量的X射线光子整合接收, 反映了X射线的平均衰减特性[1], 导致图像中密度相近物质的成像对比度差异小, 难以区分微小的组织结构[2]。 基于光子计数探测器的能谱CT(spectral CT)通过探测器设定能量选通阈值能够采集不同能量范围的X射线光子, 可以有效抑制射线束硬化伪影、 提高密度相近物质的成像对比度[3]。 而能谱CT在特定能量范围内探测的X射线光子数有限, 致使投影数据中含有较多的量子噪声, 重建的能谱CT图像信噪比较低。

在能谱CT图像降噪研究方面, 现多采用迭代重建算法对投影数据进行重建以抑制噪声。 例如Clark等[4]结合图像的稀疏特性和能谱CT图像相关性以构建重建目标函数, 提高了能谱CT图像重建效果。 Rigie和Riviere等[5]提出了一种基于矢量全变分(TV)的能谱CT重建算法。 上述图像重建降噪算法可以较好的抑制能谱CT重建图像中的噪声, 但算法复杂度较高、 计算时间较长。 近年来, 深度学习在CT图像降噪领域中得到了广泛应用[6, 7]。 神经网络可以直接提取图像中噪声的特征信息, 进而通过与标准图像作对比抑制训练图像中的噪声。 例如Chen等[8]研究一种CT图像去噪的浅层卷积神经网络模型, 基于该网络提出了残差编码器-解码器卷积神经网络, 并使用反卷积网络和快捷连接以增强网络降噪性能。

本文提出一种基于全卷积金字塔残差网络(fully convolutional pyramidal residual network, FCPRN)的能谱CT图像降噪方法。 利用能谱CT获取的图像数据训练全卷积金字塔残差网络, 训练后的网络模型可以有效的抑制能谱CT图像中的噪声。 与常用的CT图像降噪网络相比, 本文提出的全卷积金字塔残差网络具有更好的图像降噪效果。

1 基于深度学习的能谱CT图像降噪方法
1.1 方法原理

为开展基于深度学习的能谱CT图像降噪方法研究, 我们搭建了能谱CT系统并在多个能量范围扫描一个小鼠样本, 分别用Feldkamp(FDK)算法[9]和SplitBregman算法[10]重建不同能量范围的CT图像。 FDK算法重建效率高, 但重建效果差, 重建图像中含有较多的噪声。 Split Bregman重建算法相对复杂, 但重建效果好, 能够有效抑制重建图像中的噪声。 两种算法重建的图像对比, 其结构信息大致相同, 主要区别在于噪声水平不同。 将Split Bregman算法重建图像作为标签数据x, 不同类型的噪声的集合设为v, FDK算法重建图像作为训练数据y, 训练数据和标签数据相对应, 则有y=x+v。 在训练神经网络时, 我们设定残差学习公式训练残差映射R(y)≈ v, 最后通过x=y-R(y)得到抑制噪声后的图像。 期望残差图像与输入估计残差图像之间的均方误差为

l(Θ)=12Ni=1NR(yi; Θ)-(yi-xi)F2(1)

式(1)中, N为图像数量, xiyi代表图像中的像素值。 将均方误差作为损失函数, 使用数据集训练FCPRN。 训练模型能提取不同能量范围的CT图像噪声, 利用输入图像减去噪声得到输出图像, 即降噪后的图像。 在对FDK算法重建的能谱CT图像降噪时, 调用该网络模型可直接对图像进行校正, 能够有效的提高能谱CT图像的重建质量和重建效率。

1.2 全卷积金字塔残差网络

基于FCPRN实现降噪的, 该网络由全卷积网络(fully convolutional network)[11]和金字塔残差网络(pyramidal residual network)[12]组合而成, 网络结构示意图如图1所示, 主要分为上采样路径和下采样路径两部分。 在下采样路径中, 使用3× 3卷积(convolution: Conv)提取图像的特征信息, 后利用多个金字塔残差模块(pyramid residual blocks, PR-blocks)提取图像的特征信息, PR-blocks主要包括批量归一化(batch normalization, BN), 修正线性单元(rectified linear unit, ReLU), 3× 3 Conv和零填充(zero padding)等结构。 零填充可保证输出图像的尺寸与输入图像一致。 PR-blocks组输出的图像维度可以表示为

Dk=Din+j×nk=1Din+k×j×nk2(2)

式(2)中, DinDk分别代表第k层PR-blocks的输入图像维度和输出图像维度。 j代表PR-blocks组中残差模块的数量, FCPRN中每个金字塔残差模块组中包含4个金字塔残差模块。 PR-blocks组中特征图的维度是按照固定值n增长的, 有利于防止特征维度爆炸, 便于设计更加深层的网络结构。 下采样路径使用下采样模块(transition down, TD)降低特征图的分辨率, 下采样路径共包含四个金字塔残差模块组和4个下采样模块。 在下采样中, 使用了池化层提取图像的特征, 为了减少信息损失, 本文使用跳跃连接(skip connection)将下采样模块和上采样模块(transition up, TU)连接在一起, 将浅层网络的图像信息传送到深层网络中。 与此同时, 在上采样路径和下采样路径之间使用瓶颈结构[13](bottleneck)以避免维度爆炸和梯度消失问题。

图1 FCPRN结构图Fig.1 FCPRN structure

在上采样路径中, 使用转置卷积(transposition convolution)恢复图像特征图。 然后使用多个PR-blocks降低特征图的维度, 上采样路径共有四个金字塔残差组和四个上采样模块, 最后使用3× 3 Conv将图像的特征维度恢复到与输入图像相同。 在实验中, 输出图像即为预测的噪声图像, 使用输入图像减输出图像得到噪声抑制后的图像, 由此, 可以训练出提取图像噪声信息的神经网络模型, 我们设计的FCPRN结构参数如表1所示。

表1 FCPRN的结构参数表 Table 1 The structure and parameters of FCPRN

FCPRN使用跳跃连接将浅层网络中的图像信息传递到深层网络中, 能够有效的减少图像信息损失, 结合全卷积可以精确地识别图像中的每个像素, 有助于提取图像特征信息。 FCPRN依据残差学习的方法, 将图像中的特征信息— — 噪声作为学习对象, 可以提高神经网络的学习效率。

2 实验及结果讨论
2.1 数据采集与处理

实验数据是通过自主搭建的能谱CT获取的, 该系统实物图如图2所示。 探测器为DECTRIS公司生产的SANTIS 0804光子计数探测器, 有效探测面积为1 024× 256像素尺寸为150 μ m。 检测对象为一个小鼠样本, 体长约10 cm, 体重在150~180 g之间, 使用氨基甲酸乙酯麻醉后放置在塑料瓶中进行扫描。 数据采集系统的几何参数是根据小鼠的规格进行设置的, 源到探测器的距离为350 mm, 源到探测物体的距离为210 mm, 系统的管电压为90 kVp, 管电流为200 μ A, 实验共设置25~90, 30~90, 35~90, 40~90, 45~90和50~90 keV六个能量范围进行数据采集, 每个能量范围内360° 等角度扫描获取250组投影。

图2 能谱CT数据采集实物图Fig.2 Spectral CT system based on photon-counting detector

获取能谱CT投影数据后, 首先使用FDK算法对不同能量范围内的数据进行三维重建, 并将其作为训练数据, 共重建了六个能量段的小鼠图像, 某一切片的训练数据如图3。 然后使用Split-Bregman算法[14]进行三维重建, 并作为标签数据。 标签数据和训练数据层层对应, 同一切片标签数据和训练数据的主要区别在于图像噪声水平不同。 与训练数据对应的某一切片的在不同能量范围内的标签数据如图4所示。

图3 六个能量段某一切面的能谱CT图像训练数据图
(a)— (f)能量范围分别为25~90, 30~90, 35~90, 40~90, 45~90和50~90 keV; 不同能量段训练数据的噪声分布和强度各有不同
Fig.3 Reconstructed spectral CT images of the six energy ranges at one position
The energy ranges from (a) to (f) are 25~90, 30~90, 35~90, 40~90, 45~90 and 50~90 keV; The noise in reconstructed spectral CT images of different energy ranges are distinct

图4 六个能量段某一切面能谱CT图像标签数据图
(a)— (f)能量范围分别为25~90, 30~90, 35~90, 40~90, 45~90和50~90 keV
Fig.4 Reference images of the six energy ranges at one position
The energy ranges from (a) to (f) are 25~90, 30~90, 35~90, 40~90, 45~90 and 50~90 keV

在每个能量段重建256个切面图像, 因此六个能量段共有1 536个切面图像, 为了使FDK算法重建的图像与Split-Bregman算法重建的图像相匹配, 实验将三维数据等间隔划分为256个切片图像。 此外, 为了提高训练模型的泛化能力, 将这些能谱CT图像按照1:1:5的比例随机划分为验证集、 测试集和训练集。

2.2 实验结果

我们实验分析并对比了在低剂量CT降噪中表现较好的REDCNN[8]和广泛用于图像降噪的DNCNN[15]。 DNCNN主要包含三类网络层: 第一类即第一层包含3× 3× n Conv和ReLu; 第二类包括含3× 3 Conv、 BN以及ReLu, 此类作为中间层, 共有17层; 第三类即最后一层包含3× 3 Conv和ReLu。 其中每一层都包含zero padding, 使得每一层的输入、 输出尺寸保持一致。 REDCNN使用卷积层进行编码, 使用反卷积层进行解码, 并借助跳跃结构进行连接, 减少信息损耗。 在对三种网络进行训练时, 所使用的数据和训练条件完全相同, 其中DNCNN和FCPRN使用残差学习的方式进行训练, 网络学习图像中噪声的特征信息, 而REDCNN学习整个图像特征信息, 由此最大限度的发挥三种网络的性能。 网络训练的初始学习率为0.001, 每训练一次学习效率变为之前的95%, 损失函数为均方误差(mean squared error, MSE), 使用Adam (adaptive moment estimation)算法进行优化。 训练模型所使用的计算机软硬件配置如下: TITAN XP显卡, 显存为12G, Intel i7-8700KCPU, 16G计算机内存, Ubuntu16.04系统, 神经网络框架及版本为Pythorch 0.4.0。 训练结束后得到的网络模型可以对FDK重建算法得出的数据进行降噪。 我们选择了25~90, 35~90和45~90 keV三个能量段的某一切面进行对比, 如图5所示。 可以看出, 由DNCNN和REDCNN模型输出的能谱CT图像的噪声相对明显, FCPRN模型对图像中噪声的抑制效果较好, 由此可以推断本文提出的FCPRN有较好的降噪性能。 为了更好地展示降噪细节, 我们放大显示降噪后图像的部分区域, 如图6所示, 可以看出, FCPRN的降噪性能优于DNCNN和REDCNN, FCPRN输出图像中不同组织之间的对比度相对较好, 信噪比较高。

图5 三种网络对不同能量范围能谱CT图像降噪效果图
第一列为训练图像, 第二列至第四列为DNCNN、 REDCNN和FCPRN的降噪结果; 第一行至第三行为25~90, 35~90和45~90 keV三个能量范围的图像
Fig.5 Denoising results of DNCNN, REDCNN and FCPRN in three energy bins (25~90, 35~90 and 45~90 keV)

图6 三种网络对不同能量范围能谱CT图像降噪效果放大示意图
第一列为训练图像, 第二列为训练图像选定区域放大图, 第三列至第五列为DNCNN, REDCNN和FCPRN的降噪图像选定区域放大图; 第一行至第三行对应25~90, 35~90和45~90 keV三个能量范围的图像
Fig.6 Details of denoising based on DNCNN, REDCNN and FCPRN in the three energy bins (25~90, 35~90 and 45~90 keV)

为了量化不同网络的降噪性能, 此处计算测试集的输出图像与标签图像之间的相似性参数如均方根误差(root mean squared error, RMSE), 峰值信噪比 (peak signal to noise ratio, PSNR)和结构相似度(structural similarity, SSIM)进行对比。 训练模型的输出图像与标签图像的RMSE可以表示为

(RMSE(x, y))2=MSE(x, y)=1mni=1nj=1mx(i, j)-y(i, j)2(3)

式(3)中, xy代表两幅图像, mn代表图像的边界尺寸, MSE代表均方误差。

假设MAXI是图像中的最大像素值, 则网络模型的输出图像与标签图像之间的PSNR可以表示为

PSNR(x, y)=10log10MAXI2MSE(x, y)(4)

网络模型输出图像和标签图像的SSIM可以表示为

SSIM(x, y)=(2μxμy+c1)(2σxy+c2)(μ12+μ22+c1)(σ12+σ22+c2)(5)

式(5)中, μ , σ σ xy分别代表图像的均值, 方差以及协方差, c1=(k1L)2c2=(k2L)2是两个用于避免计算错误的常数, L是像素值的变化范围。 具体结果如表2所示, 表中所列参数值为测试集中不同能量段所有图像的相似性参数平均值, 可以较好的反映模型的降噪效果。 可知FCPRN输出图像与标签图像之间的PSNR值和SSIM值高于其他网络, RMSE值低于其他网络, 这表明FCPRN的降噪性能高于DNCNN和REDCNN。

表2 不同网络的去噪结果量化示意表 Table 2 Quantitative results of different networks
3 结论

为抑制能谱CT图像中的噪声, 本文提出了一种基于全卷积金字塔残差网络(FCPRN)的能谱CT图像降噪方法, 并实验验证了方法的可行性。 由文中表2可知, FCPRN能够有效的抑制能谱CT图像中的噪声, 但其在不同能量段内的降噪效果不同, 这与标签数据的制作水平以及窄能段内能谱CT图像中的噪声水平较高有关, 本文将基于Split-Bregman算法重建的图像作为标签数据, 但其中的噪声并没有被完全去除, 训练模型输出的图像只能尽可能的逼近标签而不可能超越标签, 我们会在后续的工作中使用含有加性高斯噪声的仿真图像和真实图像联合训练神经网络以提高模型的降噪能力。 此外, 因光子计数探测器探测单元一致性差等因素的影响, 致使不同能量段内的重建能谱CT图像出现了环形伪影。 在后续的研究工作中, 我们会对环形伪影去除做进一步研究, 验证能否使用神经网络同时抑制能谱CT图像中的噪声和伪影。

本文提出了一种基于深度学习的能谱CT降噪方法, 实验结果表明该方法可以有效的抑制不同能量段内能谱CT图像中的噪声, 使用的全卷积金字塔残差网络的降噪性能也优于文中提到的常用降噪网络DNCNN和REDCNN。

参考文献
[1] ZHANG Yun-gang, YI Ben-shun, WU Chen-yue, et al(章云港, 易本顺, 吴晨玥, ). Acta Optica Sinica(光学学报), 2018, 38(4): 0410003. [本文引用:1]
[2] Wu X, He P, Long Z, et al. Journal of X-Ray Science and Technology, 2019, 27(3): 461. [本文引用:1]
[3] Moghiseh M, Aamir R, Panta R K, et al. JSM Biomed Imaging Data Pap, 2016, 61: 1007. [本文引用:1]
[4] Clark D P, Badea C T. Physics in Medicine & Biology, 2014, 59(21): 6445. [本文引用:1]
[5] Rigie D S, La Rivière P J. Physics in Medicine & Biology, 2015, 60(5): 1741. [本文引用:1]
[6] Sun Y, Liu X, Cong P, et al. Journal of X-Ray Science and Technology, 2018, 26(4): 523. [本文引用:1]
[7] Yang Q, Yan P, Zhang Y, et al. IEEE Transactions on Medical Imaging, 2018, 37(6): 1348. [本文引用:1]
[8] Chen H, Zhang Y, Zhang W, et al. Biomedical Optics Express, 2017, 8(2): 679. [本文引用:2]
[9] Grass M, Köhler T, Proksa R. Physics in Medicine & Biology, 2000, 45(2): 329. [本文引用:1]
[10] Chen C, Xu G. Computers & Mathematics with Applications, 2016, 71(8): 1537. [本文引用:1]
[11] Ben-Cohen A, Klang E, Kerpel A, et al. Neurocomputing, 2018, 275: 1585. [本文引用:1]
[12] Han D, Kim J, Kim J. Deep Pyramidal Residual Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6307. [本文引用:1]
[13] He K, Zhang X, Ren S, et al. Identity Mappings in Deep Residual Networks. European Conference on Computer Vision. Springer, Cham, 2016. 630. [本文引用:1]
[14] YANG Liu, QI Hong-liang, XU Yuan, et al(杨柳, 齐宏亮, 徐圆, ). Journal of Southern Medical University(南方医科大学学报), 2014, 34(6): 783. [本文引用:1]
[15] Zhang K, Zuo W, Chen Y, et al. IEEE Transactions on Image Processing, 2017, 26(7): 3142. [本文引用:1]