卷积神经网络用于近红外光谱古筝面板木材分级
孟诗语1, 黄英来1,*, 赵鹏1, 李超1, 刘镇波2, 刘一星2, 徐艳3
1. 东北林业大学信息与计算机工程学院, 黑龙江 哈尔滨 150040
2. 东北林业大学材料科学与工程学院, 黑龙江 哈尔滨 150040
3. 良匠古筝制作研究院有限公司, 江苏 扬州 225001
*通讯联系人 e-mail: nefuhyl@163.com

作者简介: 孟诗语, 女, 1995年生, 东北林业大学信息与计算机工程学院硕士研究生 e-mail: mengshiyu0109@163.com

摘要

目前, 我国乐器制作行业在古筝面板用木材等级的筛选上主要依赖于技师主观评判, 但此法缺少科学理论的依据, 效率低, 客观性及出材率的提高等方面受到限制, 无法满足乐器市场的大量需求。 实现古筝面板用木材快速、 智能化的分级工作是一个急需解决的课题。 近红外光谱非常适用于测量含氢的有机物质。 古筝面板木材主要化学成分的化学键均由含氢基团组成, 不同等级板材的化学成分存在差异, 这些差异反映在近红外光谱中, 为判断木材等级提供了可能。 同时卷积神经网络对非线性数据具有较强的特征提取能力, 所以提出一种应用卷积神经网络模型对光谱数据进行分析的方法, 进而判别木材的等级。 应用了Savitzky Golay一阶、 二阶微分两种预处理方法和核主成分分析、 连续投影算法两种数据压缩方法, 通过所设计的卷积神经网络模型以样本识别准确率和模型构建过程中的损失值作为判定指标选出最佳预处理和数据压缩方法。 为了提高模型提取分析光谱数据的能力和避免过拟合现象, 应用了多通道卷积核、 批量归一化和early stopping策略, 将通过两层卷积层提取的特征信息送入全连接层, 从而充分提取剩余信息, 通过Softmax函数获得板材的最终预测等级, 从而确定了最终模型。 最终Savitzky Golay一阶微分和核主成分分析为最佳数据处理方法, 同时得出用于区分不同等级的古筝面板用木材的主要关键谱带, 分别为1 163~1 243, 1 346~1 375和1 525~1 584 nm。 将该模型应用于测试集样本, 古筝面板用木材的等级识别准确率为95.5%。 实验结果表明所提出的方法可以高效地处理光谱数据, 有效识别区分不同等级的古筝面板用木材的关键特征, 从而为广阔的乐器市场提供一定的技术支持。

关键词: 卷积神经网络; 核主成分分析; 连续投影算法; 古筝面板
中图分类号:J632.32 文献标志码:A
Wood Quality of Chinese Zither Panels Based on Convolutional Neural Network and Near-Infrared Spectroscopy
MENG Shi-yu1, HUANG Ying-lai1,*, ZHAO Peng1, LI Chao1, LIU Zhen-bo2, LIU Yi-xing2, XU Yan3
1. College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China
2. College of Materials Science and Engineering, Northeast Forestry University, Harbin 150040, China
3. Yangzhou Liangjiang Ancient Zither Making Academe Co., Ltd., Yangzhou 225001, China
*Corresponding author
Abstract

Currently, the instrument production industry relies mainly on the subjective judgment of instrumental technicians when selecting the wood for Chinese zither panels. However, this method lacks a summary of scientific theories and is inefficient, which limits the objectivity of the selection and the improvement of the yield. Moreover, the current model for judging the wood grade cannot satisfy the large demand of the musical instrument market. Therefore, achieving rapid and intelligent grading of wood for Chinese zither panels is an urgent problem to be solved. Near-infrared spectroscopy contains information about the molecular structure of an object and is very suitable for measuring organic substances containing hydrogen. The chemical bonds of the main chemical components of wood used in Chinese zither panels are composed of hydrogen-containing groups, and the chemical compositions of the panels of different grades are different. These differences are reflected in near-infrared spectral data by light, which makes it possible to judge the wood grade. Simultaneously, convolutional neural network (CNN) has a strong feature extraction ability for nonlinear data. Therefore, this paper proposes a method to analyze the spectral data by using the CNN model to determine the wood grade. In the experiment, this paper applied two spectral preprocessing methods, like the Savitzky Golay first-derivative and second-derivative preprocessing methods, and two data compression methods, like kernel principal component analysis (KPCA) and successive projections algorithm. Through the CNN model designed in the paper, the optimal preprocessing and data compression methods were selected by using the classification accuracy rate of samples and the loss value in the model construction process as the judgment indicators. In order to improve the ability of the experimental model to extract and analyze spectral data and avoid overfitting, this experiment applied multi-channel convolution kernel, batch normalization and early stopping strategies. Finally, the feature information extracted by the two convolution layers was sent into the fully connected layers to extract other residual features, and the prediction grade of the panel was obtained using the softmax function. Thus, the final experimental model was determined. Finally, Savitzky Golay first-derivative and KPCA were the optimal data processing methods. At the same time, the main key bands for distinguishing different wood grades were obtained, which were 1 163~1 243 and 1 346~1 375 and 1 525~1 584 nm, respectively. Applying the proposed model to the test set samples, the grade classification accuracy of the wood for Chinese zither panels was 95.5%. Experimental results revealed that the proposed method can efficiently process spectral data and identify the key features of different grades of wood for Chinese zither panels. Therefore, it can provide specific technical support for the broad instrument market.

Keyword: Convolutional neural network; Kernel principal component analysis; Successive projections algorithm; Chinese zither panels
引 言

随着人类物质生活水平的改善, 人们越来越追求精神生活水平, 乐器作为一种高雅的娱乐器具, 越来越受人们的欢迎。 古筝是中国独特且重要的民族乐器之一, 具有极高的演奏价值。 随着人们对于古筝乐的喜爱程度越来越高, 人们对于古筝的声学质量要求也越来越高。 拨动琴弦, 以琴弦为初始振动发声体, 通过面板起到共振和传递能量的作用, 让我们听到优美的音乐。 在古筝结构中, 面板木材的好坏很大程度上决定了古筝的音色优美与否。 因泡桐木材具有良好的导音性能, 多用来制作古筝面板, 所以本实验以泡桐木材为研究对象。 现在对于判别木材优劣的方法多为由具有经验的乐器技师依靠肉眼观测, 根据QB/T 1207.3— 2011标准判定木材的颜色、 纹理等因素得出木材的等级。 然而人工判别的方法依靠口对口方式流传, 不利于古筝等级判别方法的传承, 并且低效且易受主观性影响, 判别结果具有不确定性, 因此提出一种可靠、 准确和快速的计算机判别木材等级的方法对乐器制作工厂具有重要的指导意义。

近红外光谱是指波长范围为700~2 500 nm的电磁波, 记录了分子基频振动的倍频和组合频信息[1]。 由于近红外光谱仪器具有分光方式多样、 测量附件种类多和操作过程简洁等优点, 近几年近红外光谱广泛应用于农业、 食品工业和医学等不同领域。 在木材工业方面, 近红外光谱也具有广泛的应用。 例如, Hwang等[2]使用近红外光谱和偏最小二乘方法对韩国的建筑常用树木松树进行了分类识别。 Inagaki等[3]使用近红外光谱成功对热降解木材进行了动力学分析。 吕斌等[4]使用近红外光谱和反向传播神经网络对尾叶桉、 马尾松等三种木材进行了识别。 然而由于偏最小二乘方法无法承担大数据量样本的计算代价, 反向传播神经网络易陷入局部极值, 传统机器学习方法判别时间较长。

卷积神经网络(convolutional neural network, CNN)具有从复杂多维数据中选择并提取有效特征的优点。 卷积神经网络现已广泛应用于图像识别[5]、 音频处理[6]、 生物信息处理[7]等领域, 均具有非常突出的表现。 卷积神经网络也已在木材图像领域展开了很多研究, 例如徐珊珊等使用卷积神经网络成功识别多种木材缺陷[8]

基于以上背景, 因卷积神经网络充分考虑输入数据的空间相关性, 与传统神经网络相比具有更少的计算参数, 同时近红外光谱可以充分表征古筝木材的化学成分信息, 所以本工作基于卷积神经网络模型对板材的光谱数据进行分析, 进而实现判别古筝面板用木材等级的研究。

1 实验部分
1.1 材料

泡桐木材由琼花古筝乐器厂提供, 由富有经验的乐器厂技师挑选出高级品、 中级品以及普及品三个等级的木材各600块, 即共1800块板材用于近红外光谱实验, 样品大小为1 cm× 1 cm× 1 cm。 样本分配情况如表1所示。

表1 数据集划分 Table 1 Data set division
1.2 光谱采集与设备

采集光谱数据的仪器为Ocean Optic NIR512, 该仪器光谱范围为900~1 700 nm, 分辨率为3.0 nm FWHM, 在保证测量环境温度, 湿度恒定的情况下重复测量三次, 取其平均值作为实验数据样本。 由于全光谱首末端数据大多为噪声, 故剔除后用于分析的波段为929.21~1 653.43 nm, 数据集中光谱基本信息统计情况如表2所示。 分析过程所使用的软件为Python 3.6, 通过Tensorboard观察模型准确率、 损失值等变化。

表2 数据集基本信息 Table 2 Basic information of the data set
1.3 方法及模型

1.3.1 光谱预处理

在实际应用中, 测量得到的光谱信号含有大量有用信息, 但同时还夹杂着噪声。 尽管噪声振幅较小, 但也会对光谱信号的真实形状和幅度产生影响, 不利于信号的进一步分析和处理。 因此, 需要降噪预处理。 近红外光谱信息去噪和提取的方法有很多种, 例如微分方法、 平滑方法和标准正态变量变换等。 其中平滑方法可以提高数据的信噪比, 微分方法具有高通滤波的功能, 消除光谱的漂移和散射影响, 可以将光谱峰窄化和尖化, 放大了样本的光谱特征, 并且求导后产生的曲线保留了原始信号的定量特点。 所以采用在Savitzky Golay(S-G)平滑基础上应用一阶和二阶微分方法, 从而寻求最适合的预处理方法。

1.3.2 核主成分分析

近红外光谱数据通常维度高, 如若将全部光谱数据参与实验计算, 计算量较大, 所以通常进行数据压缩。 核主成分分析是主成分分析方法的延伸, 可以挖掘出数据中的非线性信息。 核主成分分析引入核函数思维, 基本原理是通过非线性映射将输入空间变换到高维特征空间使其线性可分, 在高维特征空间下使用主成分分析完成特征提取工作[9]。 本实验数据压缩和提取的方法为核主成分分析, 经过多次试验最终选取径向基核函数为核函数, 参数gamma为10, 主成分个数为30。

1.3.3 特征波长提取

除了主成分分析和核主成分分析等方法可以减低数据样本的计算量, 波长选取方法同样也可以简化实验模型, 并且消除无关变量, 提高模型的表现。

本文使用连续投影算法(successive projections algorithm, SPA)进行波长选择。 SPA通过向量的投影分析, 在含有冗余信息的波长变量中选择出最佳的波长变量组, 根据均方根误差确定最佳的变量数, 从而使变量之间的共线性达到最小[10]。 连续投影算法采用的是向前循环选择方法, 将最大投影向量的波长变量引入波长组合, 因此可以较大程度上消除共线信息。

1.3.4 卷积神经网络

卷积神经网络是深度学习中最经典的模型之一, 它巧妙的减少了参数数量并且达到了全连接神经网络实现不了的效果, 同时相比于传统机器学习算法, 无需进行手工提取特征, 也无需使用特征提取算法, 在模型训练中自动完成特征的提取和抽象工作, 同时实现模式分类。 CNN的基本结构通常由卷积层、 池化层和全连接层三个部分组成, 细节又可以分为滤波器、 步长、 卷积操作和池化操作等。

本所使用的实验数据是古筝面板用木材的近红外光谱数据, 所以使用一维卷积神经网络作为特征提取算法, 一维卷积神经网络模型的卷积核提取信息过程如图1所示。

图1 卷积核提取信息过程Fig.1 Convolution kernel extraction information process

1.3.5 古筝面板木材等级识别模型

基于CNN模型提取木材特征和判别古筝面板用木材的等级的输入层数据分别为经过预处理后核主成分分析提取的30个主成分变量和经过连续投影算法选取的特征波长变量组。 模型中分别包括两层卷积层、 一层池化层和全连接层结构, 具体设置如下。

第一层卷积核尺寸为9, 为了更好地优化模型, 训练模型时在第一层卷积层中引入批量归一化策略。 在第二卷积层应用多通道卷积核策略, 即在本卷积层中使用两个不同尺寸的卷积核。 其中第一个卷积核尺寸为7, 第二个卷积核尺寸为5。 在第二卷积层后面加一个步长为2的池化层, 池化层滤波器尺寸为2, 为了防止过拟合, 在训练模型的时候采用Dropout机制, 将池化后所计算得到的结点的10%丢弃, 即keep_prob值为0.9。 最后将所提取的光谱特征通过函数进行拉平操作。

对全连接层结构的设计: 将通过两层卷积层提取的不同等级古筝面板用木材的特征送入全连接层。 通常, 在模型结构末端设置1~3层全连接层, 从而训练CNN结构的补充信息, 这使得所提出的模型能够充分学习不同等级的古筝面板用木材的特征。 经过多次试验, 第一全连接层神经元个数设置为256, 第二全连接层神经元的个数为3。 最后, 再把其输出变量经过Softmax函数获得预测等级的概率, 从而获得最终的等级判别结果, Softmax函数计算方法如式(1)所示, 其中S为原始向量, S=[S1, S2, …, SN], P为映射计算后的新向量, P=[P1, P2, …, PN]。

Pk=exp(Sk)k=1Nexp(Sk)(1)

模型中激活函数的主要作用是提供网络的非线性建模能力, 所以使用不同激活函数的网络模型具有的学习能力不同。 Sigmod函数、 Tanh函数和Relu函数为常用的激活函数。 相比Sigmoid和Tanh函数, Relu函数具非饱和的特点, 收敛速度更快, 并且提供了网络模型的稀疏表达能力, 所以本实验所涉及的激活函数均为Relu函数。

学习率的选取对于一个模型的自主学习能力至关重要, 本模型使用退化学习率机制进行学习, 学习率初始值设置为0.01, 衰减指数为0.9, 为了防止过拟合, 本模型采用了early stopping策略, 网络的初始迭代次数设置为50。

同时为了防止过拟合现象, 本模型选择交叉熵函数与模型权重系数L2正则化的结合作为模型的损失函数, 具体计算公式如式(2)所示, 其中W为模型权重, cross_entropy为交叉熵。

L=cross_entropy+λ2W2(2)

2 结果与分析
2.1 光谱分析

古筝面板用木材的原始光谱数据如图2所示。 在近红外光谱中, 因为单一的谱带可能是由几个基频的倍频和组合频组成, 所以近红外光谱的谱带重叠严重。 由图2可知, 不同等级的古筝面板用木材的近红外光谱大致相同, 肉眼难以区分。 在1 194, 1 468和1 584 nm处附近有明显的吸收峰, 在1 115, 1 298和1 643 nm处附近有肩峰。 其中1 468 nm吸收峰由O— H键的一级倍频所引起, 1 194 nm处由C— H基团伸缩振动的二级倍频所引起[11]

图2 原始光谱Fig.2 Raw spectral

分别经过Savitzky Golay一阶和二阶微分预处理后的光谱如图3和图4所示。 可以看出两种预处理方法均使光谱谱峰特征更加明显, 不同程度地放大了不同等级的古筝面板用木材的光谱差异, 这也为准确判别古筝面板用木材的等级提供了可能。

图3 S-G一阶微分预处理Fig.3 S-G first-derivative pretreatment

图4 S-G二阶微分预处理Fig.4 S-G second-derivative pretreatment

2.2 确定最佳预处理方法

为了确定最佳预处理方法, 分别将经过Savitzky Golay一阶和二阶微分预处理的面板用木材光谱经过核主成分分析后提取的特征变量送入CNN实验模型, 以实验模型构建过程中的损失值和对测试集样本的识别准确率作为评价指标, 确定最终的实验预处理方法。 表3为评价指标详情。

表3 预处理方法评价 Table 3 Evaluation of pretreatment methods

表3可以看出Savitzky Golay一阶微分预处理方法具有更佳的表现。 从而确定为最佳光谱预处理方法。

2.3 波长选取分析

通过连续投影算法对经过一阶微分方法预处理过的光谱数据进行波长选取。 通常均方根误差值最小时可以获得光谱波长变量数目的最优解。 经过迭代后, 可知预测集的均方根误差最小值为0.398, 光谱预处理后选取的波长变量具体如图5所示。

图5 最优解下的对应波长Fig.5 Selected wavelength under optimal solution

由图5可知, 选取的波长变量数目为18, 分别为1 163, 1 189, 1 205, 1 231, 1 243, 1 346, 1 362, 1 375, 1 445, 1 455, 1 525, 1 533, 1 544, 1 550, 1 584, 1 620, 1 647和1 651 nm。

将预处理后的面板光谱数据中所选择的特征波长变量组作为本文提出的CNN模型的输入, 观察模型构建过程中的损失值和样本识别准确率, 最终测试集准确率为88.3%, 损失值最低为0.233。 可以看出, 1 163~1 243, 1 346~1 375和1 525~1 584 nm为主要的特征波段, 其中1 163~1 243 nm对应于C— H基团伸缩振动二级倍频带, 1 346~1 375 nm对应于半纤维素中C— H基团伸缩振动和变形振动的混合带[12], 1 525~1 584 nm对应于O— H键伸缩振动的第一泛音带。 尽管连续投影算法具有较高的数据压缩率, 但是在测试集样本识别准确率上表现欠佳, 虽筛选出特征波长, 但无法包含全部的表征不同等级古筝面板用木材的关键特征信息。 因卷积神经网络模型具有非线性变换特点, 所以核主成分分析方法更能有效提取不同等级的古筝面板用木材光谱数据的信息特征并减少实验计算量。 至此确定了本实验的最佳数据压缩方法为核主成分分析。

2.4 模型评估

为了更加直接体现CNN模型的稳定性和合理性, 图6分别展示了CNN模型在应用一阶微分预处理和核主成分分析提取后的光谱数据集的构建及识别过程中准确率和损失值的变化。

图6 模型评估
(a): 准确率变化; (b): 损失值变化
Fig.6 Model evaluation
(a): Accuracy rate changes; (b): Loss value changes

从图6可以看出通过应用early stopping策略, 实验模型在第19次迭代停止训练, 模型收敛速度快, 模型泛化能力较强。

3 结 论

通过卷积神经网络模型对古筝面板用木材的近红外光谱数据进行分析, 从而实现判别板材的等级。 综合对比分析后, Savitzky Golay一阶微分方法和核主成分分析方法为最佳的光谱预处理和数据压缩方法, 同时确定了区分不同等级古筝面板用木材的关键谱带。 最终模型对预测集样本识别准确率为95.5%, 判别效率高。 表明所提出的CNN网络模型与近红外光谱相结合的实验方法可以有效提取出不同等级古筝面板用木材的关键特征, 并有效快速地判别木材的等级。

参考文献
[1] Beena G Sood, Kathleen McLaughlin, Josef Cortez. Seminars in Fetal and Neonatal Medicine, 2015, 20(3): 164. [本文引用:1]
[2] Hwang S W, Horikawa Y, Lee W H, et al. Journal of Wood Science, 2016, 62(2): 156. [本文引用:1]
[3] Inagaki Tetsuya, Matsuo Miyuki, Tsuchikawa Satoru. Applied Physics A, 2016, 122: 208. [本文引用:1]
[4] PANG Xiao-yu, YANG Zhong, Bin(庞晓宇, 杨忠, 吕斌, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(11): 3552. [本文引用:1]
[5] Lee Hyungtae, Kwon Heesung. IEEE Transactions on Image Processing, 2017, 26(10): 4843. [本文引用:1]
[6] Justin Salamon, Juan Pablo Bello. IEEE Signal Processing Letters, 2017, 24(3): 279. [本文引用:1]
[7] Bulat Ibragimov, Lei Xing. Medical Physics, 2017, 44(2): 547. [本文引用:1]
[8] XU Shan-shan, LIU Ying-an, XU Sheng(徐姗姗, 刘应安, 徐昇). Journal of Shand ong University·Engineering Science(山东大学学报·工学版), 2013, 43(2): 23. [本文引用:1]
[9] WEI Xian(魏弦). Journal of Electronic Measurement and Instrument(电子测量与仪器学报), 2017, 31(12): 2017. [本文引用:1]
[10] Diniz P H G D, Pistonesi M F, Alvarez M B. et al. Journal of Food Composition and Analysis, 2015, 39: 103. [本文引用:1]
[11] Manfred Schwanninger, José Carlos Rodrigues, Karin Fackler. Journal of Near Infrared Spectroscopy, 2011, 19(5): 287. [本文引用:1]
[12] ZHOU Zhu, YIN Jian-xin, ZHOU Su-yin, et al(周竹, 尹建新, 周素茵, ). Laser & Optoelectronics Progress(激光与光电子学进展), 2017, 54(2): 311. [本文引用:1]