一种改进的考虑近红外光谱一阶微分约束的WGAN-GP生成对抗模型
李振宇1, 赵鹏1,2,*
1.东北林业大学计算机与控制工程学院, 黑龙江 哈尔滨 150040
2.广西科技大学计算机科学与技术学院(软件学院), 广西 柳州 545006
*通讯作者 e-mail: bit_zhao@aliyun.com; 595388114@qq.com

作者简介: 李振宇, 1988年生,东北林业大学林业工程学科博士研究生 e-mail 271955032@qq.com

摘要

近年来, 生成对抗模型Generative Adversarial Networks (GAN)逐渐成为深度网络的一个热点。 主流的GAN模型具有很多改进版本, 主要应用在图像处理和计算机视觉领域中。 但是, 在光谱分析中应用相对偏少, 主要是使用这些GAN模型来生成合成的光谱曲线, 从而扩展分类器的训练集进行训练集数据增强, 提升分类器的分类泛化性能。 考虑到一维近红外光谱曲线的走势是重要的分类特征, 而这种走势特征可以用曲线微分来定量表示。 本工作改进了现有的单类别的Wasserstein GAN with Gradient Penalty (WGAN-GP)模型, 添加光谱一阶微分约束。 改进了该模型中的 L损失函数, 将原始近红外光谱向量和相应的光谱一阶微分向量进行串联, 使用串联后向量进行模型训练和光谱曲线生成。 最后在人工合成的光谱向量中, 只保留前半部分的光谱向量构成人工合成光谱曲线。 在以木材和苹果的近红外光谱曲线的分类实验中, 改进的微分约束的WGAN-GP模型在不同的分类器上例如Support Vector Machine (SVM), 1D-Convolutional Neural Network (1D-CNN), LeNet-5网络进行训练集扩充数据增强后, 这些分类器的测试集的分类识别精度有相应的提升, 优于原始的WGAN-GP模型。 此外, 改进的微分约束的WGAN-GP模型生成的近红外光谱曲线质量有较大提升, 体现在评价指标例如Inception Score(计算时使用1D-CNN替换原始的二维Inception Net-V3网络)、 原始光谱和生成光谱的相关系数、 以及它们向量差的 L1, L2范数; 优于原始的WGAN-GP模型。

关键词: 光谱分类; 生成模型; GAN; 光谱微分; 微分约束
中图分类号:O439 文献标志码:A
An Improved WGAN-GP Generative Adversarial Model in View of NIR Spectral 1st Derivative Constraint
LI Zhen-yu1, ZHAO Peng1,2,*
1. College of Computer and Control Engineering, Northeast Forestry University, Harbin 150040, China
2. School of Computer Science and Software Engineering, Guangxi University of Science and Technology, Liuzhou 545006, China
*Corresponding authors
Abstract

The Generative Adversarial Network (GAN) has recently become a hot branch in deep neural networks. The mainstream GAN model consists of many improved versions used in image processing and computer vision. These GAN versions are rarely used in spectral analysis. In spectral analysis, they are mainly used to generate synthetic spectral curves so as to extend the classifier's training set for its augmentation and improve its classification performance. Because of the trend of 1D near infrared (NIR) spectral curve, which is an important classification feature and can be quantitatively denoted by a curve derivation, we improve the current one-class Wasserstein GAN with Gradient Penalty (WGAN-GP) model by imposing a spectral 1st derivative constraint. Specifically, the original NIR spectral vector is connected with the corresponding spectral derivative vector in the revised model L loss function. The concatenated vector is used for model training and spectral curve production. Finally, only the first half is retained in the artificially produced spectral vector to generate the synthetic spectral curves. In our NIR classification experiments of wood species and apple classes, the classification accuracy in some classifiers such as Support Vector Machine (SVM), 1D-Convolutional Neural Network (1D-CNN) and LeNet-5 neural network is increased to some extents after the training set augmentation by use of our improved WGAN-GP model compared with that by use of original WGAN-GP model. Moreover, the NIR spectral curve quality produced by our improved WGAN-GP model has increased greatly, which is indicated by some evaluation measures such as Inception Score, which is computed by use of 1D-CNN instead of the original 2D Inception Net-V3 network, the correlation coefficient between original and synthetic spectral vectors, and these two vectors' difference L1 and L2 norms,compared with that by use of the original WGAN-GP model.

Keyword: Spectral classification; Generative model; GAN; Spectral derivative; Derivative constraint
引言

近些年, 深度学习网络发展迅速, 它已经在计算机视觉图像处理领域得到广泛的研究和应用。 在深度学习网络中, 生成模型是一个热点, 它可以生成高度逼真的自然景物图像。 生成模型的种类繁多, 典型的生成模型有Generative Adversarial Networks (GAN)[1]和Variational Auto-Encoder (VAE)[2]等主流模型。 在这些生成模型中, GAN最具有代表性, 它具有很多的升级版本, 例如Deep Convolutional GAN (DCGAN), Boundary Equilibrium GAN (BEGAN), Wasserstein GAN (WGAN) 等改进模型[3, 4, 5, 6]。 这些改进模型主要是解决GAN训练过程中收敛困难的问题, 这些问题包括陷入局部极小值、 梯度消失、 梯度爆炸等。

但是, 这些GAN模型在光谱分析领域的研究及应用还鲜有报道, 只是用来生成一些一维光谱曲线, 然后进行训练集扩展, 提升分类器的分类泛化性能。 未考虑一维光谱曲线的具体特点加以改进已有的GAN模型。 例如, 曾经使用过原始的WGAN模型来生成一些光谱曲线, 用来扩展训练集, 从而提升分类器的泛化分类能力及相应的分类识别精度[7, 8, 9]。 但是, 光谱曲线是一维信号, 它不同于二维图像, 很多的计算机视觉图像处理领域的GAN改进模型直接应用到光谱分析领域(例如一维光谱曲线分类识别)中, 一般不能取得理想的处理效果。 因此, 本工作结合一维光谱曲线的具体特点, 针对现有的GAN模型做进一步改进。

在一维近红外光谱曲线分类识别研究中, 光谱曲线的走势是重要的分类特征, 它包含有重要的可分性信息。 该走势特征在数学上主要体现为该曲线的一阶微分信息。 已有文献报道, 说明了光谱微分法可以有效提高有关森林树种的光谱曲线分类识别精度[10]。 因此, 如果将光谱一阶微分信息加入到某种GAN模型, 对模型的Generator和Discriminator施加了光谱微分约束限制, 就有可能生成更好质量更加逼真的人工合成近红外光谱曲线。 进一步, 再使用这些合成的近红外光谱曲线进行训练集扩展, 就可以更好地提升分类器的泛化分类能力及分类识别精度。

选择了WGAN-GP模型进行模型改进[11], 加入光谱一阶微分约束。 该WGAN-GP模型是WGAN模型的升级版本, 它继承了WGAN模型的优点, 即引入了Wasserstein距离, 它提供连续梯度有效避免梯度消失。 此外, 它的损失函数添加了Gradient Penalty项, 有效解决了WGAN模型的梯度裁剪问题, 避免了过拟合, 促使该模型稳定性收敛。 相比较而言, DCGAN也是一种主流的升级GAN版本, 它主要是对网络结构进行改进, 即几乎全部使用卷积层替换全连接层; 并且Generator和Discriminator结构对称。 总的看来, GAN是通过Generator和Discriminator竞争训练过程来生成高精度的样本; 而VAE主要包括概率模型、 编码器和解码器这3部分, 它通过最小化变分估计损失来做模型训练。

1 原始的WGAN-GP模型及改进的微分约束WGAN-GP模型

原始的WGAN-GP模型是WGAN模型的升级版本, 它的损失函数添加了Gradient Penalty项。 它的目标损失函数定义为[11]

L=Ex˜~Pg[D(x˜)]-Ex˜~Pr[D(x)]+τEx˜~Px̂[x̂D(x̂)2-1]2(1)

该损失函数需要进行最小化优化; Pg表示模型分布(Generator分布), Pr表示数据分布(真实分布); x̂~ Px̂表示随机采样, 公式中的第3项即为添加的Gradient Penalty项, 该项乘以系数τ 。 作者曾经指出, τ 一般取值为10[11]

考虑到一维光谱曲线的走势是重要的分类特征, 它包含有重要的可分性信息, 我们应该在WGAN-GP模型中考虑该光谱曲线走势特征; 而光谱曲线的走势特征主要体现为该曲线的一阶微分信息。 因此, 我们提出了一种考虑光谱一阶微分约束的改进型WGAN-GP模型, 改进了该模型中的L损失函数。 在该L损失函数公式中, x表示128维的原始光谱向量(此处以木材树种样本的近红外光谱曲线为例, 它们是128D向量)。 修改该L损失函数, 增加一个光谱一阶微分向量x', 它的每一个元素为dx/ds。 这里的x是原始的光谱反射率, s是相应的光谱波长。 然后把两个向量xx'联接, 生成一个256D的新的向量 x-=x~x'; 即向量 x-的前半部分是x, 后半部分是x'(“ ~” 表示串联操作)。 使用向量 x-进行WGAN-GP模型训练和光谱曲线生成, 最后在人工合成的256D光谱向量中, 只保留前半部分的128D光谱向量构成人工合成光谱曲线。

2 实验结果与讨论
2.1 光谱数据集

实验采用了两大类物种的近红外光谱数据集, 即木材树种样本数据集和苹果种类样本数据集。 木材树种样本的近红外光谱曲线采集, 是使用了实验室搭建的光谱采集平台装置进行的。 实验装置由计算机、 光谱仪、 卤光灯、 光纤、 支架等组成, 使用了美国Ocean Optics Flame-NIR微型光纤光谱仪。 待测样本放在光谱仪的支架上, 待测面为木材样本横切面, 光纤探头距待测物体表面约5 mm, 圆形视场角的直径为6.35 mm。 采用镜面反射方式, 光谱波段范围为950~1 650 nm, 采样间隔5.4 nm。 采集光谱前, 需进行光谱白板校正和暗校正。 木材树种类别数为20种, 总共采集了1 000条光谱曲线, 相应的近红外光谱向量为128D。 每个木材树种50条光谱曲线。 具体的木材树种信息参见表1, 相应的近红外光谱曲线参见图1。

表1 数据集使用的20个木材树种名称(拉丁名) Table 1 Latin names of 20 wood species used in wood dataset

图1 数据集的20个木材树种样本近红外光谱反射率曲线Fig.1 The near-infrared reflectance spectra of 20 wood species in our wood dataset

苹果种类样本的近红外光谱曲线, 采用了网络上开源的数据集。 该数据集是使用ASD的FieldSpe c全波段微型光纤光谱仪采集苹果叶片光谱, 原始的光谱波段范围是350~2 500 nm, 相应的全波段光谱向量为2 151D。 为了和木材树种光谱数据集保持一致性, 选取光谱波段950~1 650 nm, 采样间隔4 nm, 此时的近红外光谱向量为175D。 该数据集包括10个苹果类别, 总共包括1 000条光谱曲线。 每个苹果类别有100条光谱曲线。 具体的苹果类别信息参见表2, 相应的全波段光谱曲线参见图2。 这里说明一点, 表2中的苹果种类很多没有拉丁名, 因此表里只给出中文名称。

表2 数据集使用的10个苹果品种名称(中文名) Table 2 Chinese names of 10 apple species in apple dataset

图2 数据集的10个苹果品种样本全波段光谱反射率曲线Fig.2 The full-band reflectance spectra of 10 apple species in our apple dataset

在使用原始的模型以及添加光谱一阶微分约束的模型WGAN-GP时候, 每条原始的近红外光谱曲线将生成5条人工合成光谱曲线。 这样, 将分别生成5 000条木材树种和苹果类别的人工合成光谱曲线, 它们将放入到分类器的训练集中进行训练集扩充; 提升分类器的分类泛化性能。

2.2 WGAN-GP模型训练

训练该模型时候, 初始学习率设置为0.000 001, 使用Adam优化算法优化学习率, 批处理大小Batch Size 为8。 对于木材光谱数据集, 每个类别有35个训练样本, 迭代次数10 000次, 单类别训练时长约为15 min, 20个类别总训练时长大约为5 h。 对于苹果光谱数据集, 每个类别有70个训练样本, 迭代次数10 000次, 单类别训练时长约为32 min, 10个类别总训练时长约为5 h。 具体数据参见表3, 使用的计算机配置参见表4

表3 WGAN-GP模型训练参数比较 Table 3 Training parameter comparisons of WGAN-GP models
表4 使用的计算机配置 Table 4 The used computer configuration
2.3 人工合成光谱曲线质量评价

为了客观地定量地评价微分约束WGAN-GP模型生成的近红外光谱曲线的质量, 采用了4个量化指标; 具体的评价结果参见表5。 在表5中, 公式‖ y- y˙1表示两个向量差值的1范数, 其中向量y表示一条原始的木材或者苹果样本的近红外光谱, y˙是和y相对应的人工合成光谱。 注意一个y由模型生成了5个 y˙, 这样一个y最终可以计算出5个‖ y- y˙1。 由于原始的木材或者苹果数据集有1 000条光谱曲线, 而模型WGAN-GP将分别生成5 000条木材或者苹果人工合成光谱曲线; 因此公式‖ y- y˙1将计算出5 000个1范数值。 再把这些5 000个1范数值近似为正态分布, 求解相应的均值和标准差后, 列在表5中。 公式‖ y- y˙2表示两个向量差值的2范数, 也具有类似的定义和计算方法, 这里不再赘述。 此外, 表示两个向量的相似性还可以使用皮尔逊相关系数, 求解相应的均值和标准差, 列写在表5中。

表5 原始WGAN-GP和微分约束WGAN-GP模型生成的近红外光谱曲线质量评价指标对比 Table 5 The near infrared spectral curve quality evaluation comparisons for original WGAN-GP and improved WGAN-GP with differential restrictions

另外一个评价指标是Inception Score[12], 在关于GAN模型系列的文献中, 评价其生成图像质量的一个重要指标就是Inception Score, 它计算时候需要用到深度网络Inception Net-V3。 该网络是二维图像分类网络, 在ImageNet数据库中训练。 但是, 本研究关注的是改进的微分约束WGAN-GP模型生成的一维近红外光谱曲线的质量问题, 因此这里把二维的Inception Net-V3网络替换为一维的Convolutional Neural Network (1D-CNN), 具体的1D-CNN网络结构参见2.5节。 该指标是一个统计量, 没有均值和标准差。 在这4个评价指标中, 前两个指标取值越小越好, 而相关系数取值越大越好, 表明了人工合成光谱曲线和原始光谱曲线越接近。 第4个指标Inception Score取值越大越好, 它考虑两方面因素。 第一, 生成的光谱曲线是否清晰(具体含义就是一条清晰的光谱曲线, 它属于某类别的概率很大, 而属于其他类别的概率很小, 即各类别概率分布的熵很小); 第二, 生成的光谱曲线是否多样性(具体含义就是模型生成了足够多样的光谱曲线, 它在各类别中的分布应该是平均化的)。 因此, 综合考虑这4个评价指标, 可以看出在两个近红外光谱数据集中, 改进的微分约束WGAN-GP模型都优于原始的WGAN-GP模型。 说明本文提出的改进的微分约束WGAN-GP模型的确能够生成质量更好更加逼真的人工合成近红外光谱曲线。 另外, 图3还给出了一条原始近红外光谱曲线(红色曲线), 原始WGAN-GP模型以及微分约束WGAN-GP模型生成的近红外光谱曲线(绿色和蓝色曲线)在某一波段下的具体形状。 可以看出, 微分约束模型生成的蓝色曲线更加逼近原始的红色光谱曲线。

图3 原始近红外光谱曲线及WGAN-GP模型生成的光谱曲线Fig.3 The original spectral curve and the generated spectral curves by WGAN-GP models

2.4 SVM分类器分类实验

对于LibSVM分类器而言, 训练集为原始光谱数据集的70% (700条光谱曲线)加上生成光谱数据集的70% (3 500条光谱曲线); 测试集为原始数据集的剩余30%(300条光谱曲线)。 使用网格法搜索LibSVM的最优参数, 分类识别结果如表6所示。 可以看出, 微分约束WGAN-GP模型生成的近红外光谱曲线, 加入到训练集以后, 能够更好地提升分类器的泛化分类能力, 从而取得较高的分类精度。

表6 原始的及微分约束的WGAN-GP模型生成的光谱曲线做训练集扩充后导致的SVM分类器分类精度对比 Table 6 The SVM classification accuracy comparisons for training set before and after spectral augmentation with WGAN-GP and improved WGAN-GP with differential restrictions
2.5 1D-CNN分类器分类实验

对于1D-CNN分类器而言, 训练集为原始光谱数据集的70% (700条光谱曲线)加上生成数据集的70%(3 500条光谱曲线), 验证集为原始数据集的20%(200条光谱曲线)加上生成数据集的20%(1 000条光谱曲线), 测试集为原始数据集剩余的10%(100条光谱曲线)。 1D-CNN的模型结构为5卷积层及5池化层, 卷积核为2× 1, 数量分别为16、 32、 64、 32、 16; 步长1, 填充0。 池化选择最大池化, 尺寸为2× 1, 步长1, 填充0; 初始学习率0.005, 学习率下降因子0.2。 分类识别结果如表7所示, 从测试集分类精度可以看出, 微分约束WGAN-GP模型生成的近红外光谱曲线, 加入到训练集以后, 能够更好地提升分类器的泛化分类能力及分类精度。

表7 原始的及微分约束的WGAN-GP模型生成的光谱曲线做训练集扩充后导致的1D-CNN分类器分类精度对比 Table 7 The 1D-CNN classification accuracy comparisons for training set before and after spectral augmentation with WGAN-GP and improved WGAN-GP with differential restrictions
2.6 LeNet-5分类器分类实验

对于LeNet-5卷积网络图像分类器而言, 训练集为原始光谱数据集的70%(700条光谱曲线)加上生成数据集的70%(3 500条光谱曲线), 测试集为原始数据集剩余的30%(300条光谱曲线)。 木材数据集128D的近红外光谱向量转换为10× 10的灰度图像, 苹果数据集2 151D的全波段光谱向量转换为45× 45的灰度图像。 使用LeNet-5卷积神经网络, 网络结构为3卷积层及2池化层, 卷积核为5× 5, 数量分别为6、 16、 120; 池化选择最大池化, 尺寸为2× 2, 步长为2, 不填充0。 初始学习率0.01, 使用Adam自适应学习率调整方法, Batch Size为20, 分类识别结果如表8所示。 从表8可以看出, 原始木材近红外光谱的128D向量转换成10× 10的灰度图像以后, 相应的测试集分类精度都比较低, 基本保持在26%~28%左右; 微分约束的WGAN-GP模型的改进提升效果不明显。 分析其原因, 我们认为近红外光谱128D向量的维度过小, 转换成很小的灰度图像后, 导致提取的卷积特征不够全面和准确。 从而使得这3种情况下的测试集分类精度都比较低。 为了客观地评价LeNet-5卷积网络对于木材光谱的分类效果, 这里又补充了这20个木材树种的相应的可见光/近红外光谱数据集。 使用了美国Ocean Optics USB2000-VIS-NIR微型光纤光谱仪, 光谱波段范围376~1 026 nm, 光谱分辨率0.33 nm, 相应的光谱向量为1 950D。 删除两端的噪声波段后将其转换为40× 40的灰度图像。 相应的这3种情况下的测试集分类精度参见表8的中间3行。 可以看出, 此时的LeNet-5卷积网络分类精度都有较大幅度提升, 并且微分约束WGAN-GP模型的分类精度最高; 再次验证了本文提出的微分约束WGAN-GP模型先进性。

表8 原始的及微分约束的WGAN-GP模型生成的光谱曲线做训练集扩充后导致的LeNet-5分类器分类精度对比 Table 8 The LeNet-5 classification accuracy comparisons for training set before and after spectral augmentation with WGAN-GP and improved WGAN-GP with differential restrictions
3 结论

考虑到一维近红外光谱曲线的具体特点即曲线走势特征, 改进了原有的单类别的WGAN-GP模型, 提出了一种微分约束的WGAN-GP模型。 该改进模型的L损失函数, 考虑了原始光谱的一阶微分向量信息, 从而生成了更好质量更加逼真的人工合成光谱曲线。 实验结果表明, 微分约束WGAN-GP模型生成的近红外光谱曲线, 具有更好的质量定量评价指标。 该改进模型生成的光谱曲线加入到训练集进行训练集扩充后, 也可以使分类器(例如SVM, 1D-CNN, LeNet-5)的分类泛化性能及分类精度进一步有所提升。 值得一提的是, 虽然本工作只是针对原有的单类别的WGAN-GP模型做了相应改进, 添加了光谱一阶微分约束限制; 但是, 这种微分约束改进思路也应该可以类似地应用到其他的GAN模型版本(例如多类别的AC-GAN模型), 后期将在这方面做深入研究。

参考文献
[1] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Nets, Part of Advances in Neural Information Processing Systems 27 (NIPS 2014), 2014. [本文引用:1]
[2] Kingma D P, Welling M. Auto-Encoding Variational Bayes, 2013, arXiv: 1312. 6114. [本文引用:1]
[3] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN, 2017, arXiv: 1701. 07875v3. [本文引用:1]
[4] Berthelot D, Schumm T, Metz L. BEGAN: Boundary Equilibrium Generative Adversariul Networks, 2017, arXiv: 1703. 10717. [本文引用:1]
[5] Radford A, Metz L, Chintala S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, arXiv: 1511: 06434v2. [本文引用:1]
[6] Odena A, Olah C, Shlens J. Conditional Image Synthesis with Auxiliary Classifier GANs, 2017, arXiv, 161009585v4. [本文引用:1]
[7] Wu M, Wang S, Pan S, et al. Scientific Reports, 2021, 11: 23842. [本文引用:1]
[8] Mishra P, Herrmann I. Chemometrics and Intelligent Laboratory Systems, 2021, 215: 104362. [本文引用:1]
[9] McHardy R G, Antoniou G, Conn J J A, et al. Analyst, 2023, 148: 3860. [本文引用:1]
[10] WANG Zhi-hui, DING Li-xia(王志辉, 丁丽霞). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2010, 30(7): 1825. [本文引用:1]
[11] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved Training of Wasserstein GANs, Proceedings of 31st International Conference on Neural Information Processing Systems, 2017, 5769. [本文引用:3]
[12] Salimans T, Goodfellow I, Zaremba W, et al. Improved Techniques for Training GANs, 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016, 2226. [本文引用:1]