SA-PBT-SVM的实木表面缺陷近红外光谱识别
于慧伶1, 门洪生2, 梁浩2, 张怡卓2,*
1. 东北林业大学信息与计算机工程学院, 黑龙江 哈尔滨 150040
2. 东北林业大学机电工程学院, 黑龙江 哈尔滨 150040

作者简介: 于慧伶, 1980年生, 东北林业大学信息与计算机工程学院副教授 e-mail: yhl@nefu.edu.cn

摘要

针对实木板材表面存在的活节、 死节、 裂纹与虫眼4类缺陷, 提出了基于近红外光谱分析的定性识别模型。 随机选取50个样本组成训练集, 30个样本组成测试集, 在室内温度20 ℃、 相对平均湿度50%环境下, 采用900~1 700 nm的近红外光谱仪采集样本表面光谱, 并利用SNV方法进行光谱数据预处理, 以消除固体颗粒大小、 表面散射及光程变化对漫反射光谱的影响; 然后, 采用偏二叉树双支持向量机(PBT-SVM)构建缺陷分类模型, 运用模拟退火算法(SA)对4类核函数、 参数及波长特征进行全局寻优; 寻优过程以97个波长吸收度为输入特征, 运用顺序前向法依次加入新特征, 当分类器准确率达到90%时, 得到核参数及波长特征; 最后, 通过确定的核函数、 参数与波长构建了缺陷分类模型, 并对测试样本集进行了分类验证。 实验结果表明, SNV预处理方法使相同缺陷的近红外光谱具有较好的一致性, 其中, 活节与死节光谱差异显著, 但死节、 裂纹与虫眼的光谱趋势相近; 当PBT-SVM分类器采用多项式核函数、 参数在 γ=28.63, coef=18.69, d=1, C=12.03时, 缺陷识别效果最好, 裂纹和活节的识别率达到了100%, 虫眼为93.33%, 死节为93.33%, 平均准确率达到了96.65%, 平均识别时间仅为0.002 s。 利用近红外光谱分析的方法能够快速、 有效地完成4类实木板材缺陷的识别。

关键词: 实木板材; 缺陷识别; 近红外光谱; 偏二叉树双支持向量机; 模拟退火
中图分类号:S781.5 文献标志码:A
Near Infrared Spectroscopy Identification Method of Wood Surface Defects Based on SA-PBT-SVM
YU Hui-ling1, MEN Hong-sheng2, LIANG Hao2, ZHANG Yi-zhuo2,*
1. Northeast Forestry University, Information and Computer Engineering College, Harbin 150040, China
2. Northeast Forestry University, College of Mechanical and Electrical Engineering, Harbin 150040, China
Abstract

In this paper, near infrared spectroscopy was applied to build an identification model to predict four types of defects on the surface of wood boards. A calibration set and a prediction set made of 50 and 30 samples were built randomly and respectively. In addition, a near infrared spectrometer, ranging from 900 to 1 700 nm was used to collect the spectra of the surface of the boards. The original spectra were pre-treated by SNV algorithm to eliminate the influence of solid particle size, surface scattering, and the change of optical path of diffused reflectance spectra. Afterwards, a training model was built by partial binary tree of support vector machine (PBT-SVM), and parameters were optimized by simulated annealing (SA) algorithm to find the optimal parameters and band characteristics. Then an identification model was built based on optimal parameters, band characteristics, and the identification of prediction set. The results showed that the performance of polynomial kernel function was obtained with the parameters setting as γ=28.63, coef=18.69, d=1 and, C=12.03. The recognition rate of crack and live knot was 100%, while the recognition rate of dead knot and wormhole was 93.33%. The mean accuracy of identification reached 96.65% with an average recognition time of 0.002 s. The approach was feasible to classify the four types of defects on the surface of solid wood effectively.

Keyword: Solid wood plate; Defect identification; Near infrared spectroscopy; Partial two tree double support vector machine; Simulated annealing
引 言

木材在生长与加工过程中受到环境与工艺影响会形成不同缺陷, 这些缺陷直接影响着实木产品的等级与品质, 因此快速、 准确地进行实木缺陷检测对木材加工有重要意义。 为了克服了人工识别耗时耗力的缺点, 基于计算机视觉的识别方法被广泛研究。 但该类方法受木材表面抛光程度的干扰, 易造成图像采集不清楚; 此外, 图像信息量大, 使得运算处理时间较长[1, 2, 3]

近红外(NIR)光谱主要反映C— H, O— H, N— H等含氢基团振动的倍频与合频吸收。 运用近红外光谱研究木材的物理和化学性质的报道很多。 Jaya Sundaram[4]通过近红外反射光谱结合一阶导数模型测量了木材的含水率。 David Jones[5]通过近红外无损检测技术准确测量了木材的木质素和单糖含量。 杨忠等[6]利用近红外光谱识别了马尾松木材的单板节子, 准确率较高。 虽然近红外光谱在木材物理和化学性质检测方面被广泛应用, 但在实木表面缺陷识别方面的研究却较少; 而且, 多数研究是采用PLS模型进行的定量分析。 SVM作为一种非线性分类器在较多工程领域已成功应用[7, 8, 9], 但仍存在训练速度慢、 分类计算复杂度高的问题。 我们针对实木板材存在的4类缺陷, 提出了基于近红外光谱的PBT-SVM模型, 并采用SA算法对模型参数及特征波长进行寻优以得到最佳参数的分类模型, 实现了缺陷的快速、 准确识别。

1 实验部分
1.1 材料与光谱采集

实木板材选择柞木(Xylosma racemosum), 样本经过干燥处理后, 在实验室内进行近红外采集, 环境温度控制在20 ℃, 平均相对湿度在50%。 近红外光谱仪采用Ocean公司的NIRQuest512光谱仪, 波长范围(900~1 700 nm), 光谱分辨率3 nm, 利用配套软件采集数据, 每个缺陷部位采集3点, 取平均值作为该缺陷的光谱, 利用Matlab 2014a建立4类缺陷的分类模型。 每类样本各80个, 随机选择50个作为训练样本, 30个作为测试样本。 图1为4类缺陷样本的示意图像。

图1 缺陷的四种类型Fig.1 The four types of defects
(a): Crack; (b): Live knot; (c): Dead knot; (d): Wormhole

1.2 SNV预处理方法

板材颗粒大小、 表面散射以及光程变化会对NIR漫反射光谱造成影响。 选用标准正态变量变换(SNV)对光谱进行预处理, SNV变换公式如式(1)

xSNV=x-x̅i=1n(xi-x̅)2(n-1) (1)

其中, x̅=i=1nxin, n为波长点数, i=1, 2, , n

1.3 偏二叉树双支持向量机(PBT-SVM)

偏二叉树双支持向量机是偏二叉树与双支持向量机的结合。 双支持向量机(TSVM)把经典SVM中的一个二次优化问题(QPP)转化为两个规模较小的QPP, 得到两个不平行的分类超平面[10]。 双支持向量机求解为如式(2)和式(3)两个二次优化问题

J(Y1)=min12K(A, XT)ω1+e1b12+C1e'2qs.t. -(K(B, XT)ω1+e2b1)+qe2q0(2)J(Y2)=min12K(B, XT)ω2+e2b22+C2e'1qs.t. -(K(A, XT)ω2+e1b2)+qe1q0(3)

其中, A为正类样本, B为负类样本, e1, e2为相应维数的单位向量, K为核函数, C1, C2为惩罚参数, X= AB, ω b分别为最优超平面的法向量和偏移量, q为松弛变量。 通过求解式(2)和式(3), 得到如式(4)和式(5)两个超平面

K(xT, CT)ω1+b1=0(4)K(xT, CT)ω2+b2=0(5)

偏二叉树支持向量机采用二叉树结构实现多分类。 对裂纹、 活节、 死节和虫眼进行分类的结构图如图2。

图2 TSVM分类结构图Fig.2 Structure of TSVM

1.4 基于SA的参数与波长寻优

构建实木缺陷的PBT-SVM分类器时, 核函数及参数、 近红外光谱波长, 会影响分类的准确率与速度。 在此选用具有全局优化能力的S算法进行寻优。 SA算法首先由产生函数从当前解产生一个新解; 然后计算新解所对应的目标函数, 通过Metropolis准则来判断是否接受该新解; 当新解被确定接受时, 用新解代替当前解。

运用SA优选波长及PBT-SVM模型参数时, 首先以每一个波长的吸收度为特征初值, 同时设定分类器识别的准确率; 当分类器识别准确率满足要求时, 即可找出波长特征及核参数, 否则, 运用顺序前向选择法依次加入新的波长特征, 直到分类器满足预设要求。 SA寻优过程如图3所示。

图3 SA寻优过程Fig.3 SA optimization process

2 结果与讨论
2.1 光谱预处理

近红外光谱仪扫描时以聚四氟乙烯白板进行校准, 采用900~1 700 nm波段, 4类缺陷的近红外光谱图经过SNV处理的结果如图4— 图7所示。

图4 裂纹光谱
(a): 处理前; (b): 处理后
Fig.4 Spectra of crack
(a): Original; (b): Processed

图5 虫眼光谱
(a): 处理前; (b): 处理后
Fig.5 Spectra of wormhole
(a): Original; (b): Processed

图6 活节光谱
(a): 处理前; (b): 处理后
Fig.6 Spectra of live knot
(a): Original; (b): Processed

图7 死节光谱
(a): 处理前; (b): 处理后
Fig.7 Spectra of dead knot
(a): Original; (b): Processed

从图中可以看出, SNV可以消除由于板材颗粒大小、 表面散射以及光程变化对NIR漫反射光谱的影响, 不同类型缺陷的近红外光谱具有较好的一致性, 其中, 活节、 死节的光谱信息差别较大, 表明他们化学成本明显不同; 而属于物理缺陷的裂纹与虫眼, 他们的光谱信息与死节相近。

2.2 缺陷分类

将预处理后的光谱输入分类模型中, 分别以97个波长中的每个波长吸收度为输入特征, 构建PBT-SVM分类器, 运用顺序前向选择法加入特征波长, 设定准确率为90%。 当输入波长为二维时, 多项式核函数、 线性核函数及RBF核函数对应优选参数的PBT-SVM分类精度都可以满足目标精度。 图8为不同核函数下的二维特征优选过程, 其中, 横轴为初始波长, 纵轴为相应特征辨识缺陷的准确率。

图8 不同核函数下的二维特征优选过程Fig.8 The optimization of 2-dimensional features by different kernel functions

实验过程中, 核函数为Sigmoid时, 二维特征下的模型辨识准确率仅为45%。 当多项式核函数在初始波长为1 325.9和1 350.6 nm时, 准确率为96.65%; RBF核函数在初始波长为1 095.5~1 111.9, 1 590.2和1 623.3 nm时, 准确率为96%; 线性核函数在初始波长为1 416.6和1 697.9 nm时, 准确率为94.4%。

选取辨识准确率最高的多项式函数作为PBT-SVM的核函数, 其表达式如式(6)

K(xi, xj)=(γ(xixj)+coef)d(6)

其中, d为多项式的阶, coef为偏置系数。

图9是多项式核函数下的特征波长优选过程。 当输入特征为一维时, 识别准确率最高为68%; 而输入二维波长光谱作用时, 准确率最高可以达到96%, 满足预设要求。

图9 一维光谱与二维光谱下的缺陷识别精度Fig.9 Accuracy of defect recognition in one-dimension and two-dimension spectra

对多项式核函数的参数优选迭代历程曲线如图10所示。 从曲线图可以看出, 经过数次寻优之后, 目标函数值不再变化停留在-96.65%。 最终确定的最优参数为γ =28.63, coef=18.69, d=1, 惩罚参数C=12.03。

图10 参数优选迭代历程曲线Fig.10 Curve of objective function vs. iteration for parameter optimization

按照上述参数, 分别运用优选波长和全波段特征进行建模, 并对4类缺陷的30个测试样本进行了识别实验。 表1全部波长数据作用下及优选波段后的分类对比结果。

表1 缺陷分类结果 Table 1 Results of defect classification

实验结果表明, 优选波长后裂纹和活节的识别率达到了100%, 虫眼为93.33%, 死结为93.33%, 平均准确率达到了96.65%, 训练样本并测试得出结果消耗时间为0.002 s; 选择全部波长数据时, 裂纹和死结的准确率为100%, 虫眼为86.67%, 活节为96.67%, 平均准确率为95.83%, 消耗时间为0.016s, 可见分类模型优选波长后大幅减少了数据量, 处理时间大大缩短, 约为全波长的1/8, 且平均准确率高于全波长下的分类结果。

3 结 论

为提高实木板材缺陷识别的准确率与速度, 提出了基于SA-PBT-SVM的近红外光谱分类模型。 实验结果表明, 经过SNV预处理后, 光谱更加清晰和一致; 通过模拟退火, 可以有效优化PBT-SVM的核参数及近红外光谱波长, 减少了模

型分类的复杂度; 采用多项式核函数, γ =28.63, coef=18.69, d=1, C=12.03平均识别精度最高, 速度最快; 利用近红外光谱分析的方法可以快速有效地实现4类缺陷识别, 方法可以用于实木板材缺陷的在线检测。

The authors have declared that no competing interests exist.

参考文献
[1] Zhang Yizhuo, Xu Chao, Li Chao. Journal of Forestry Research, 2015, 26(3): 745. [本文引用:1]
[2] Zhang Yizhuo, Liu Sijia, Cao Jun. Wood Sci. Technol. , 2016, 50(3): 297. [本文引用:1]
[3] Zhang Yizhuo, Liu Sijia, Tu Wenjun. Optical Engineering, 2015, 54(10): 103102(1). [本文引用:1]
[4] Sundaram J, Mani S, Kand ala C V K. American Journal of Analytical Chemistry, 2015, 6(12): 923. [本文引用:1]
[5] Jones P D, Schimleck L R, Peter G F, et al. Wood Sci. Technol. , 2006, 40(8): 709. [本文引用:1]
[6] YANG Zhong, CHEN Ling, FU Yue-jin(杨忠, 陈玲, 付跃进). Journal of Northeast Forestry University(东北林业大学学报), 2012, 40(8): 70. [本文引用:1]
[7] Mirand a Angela, Lavrador Rui, Julio Filipal, et al. Behavior Research Methods, 2016, 48(4): 1667. [本文引用:1]
[8] Cogill S, Wang L. Bioinformatics, 2016, 32(23): 3611. [本文引用:1]
[9] Xu Yitian, Chen Mei, Li Guohui. International Journal of Systems Science, 2016, 47(15): 3637. [本文引用:1]
[10] Zhai Shijun, Pan Juan, Luo Hongwei, et al. Measurement, 2016, 80: 58. [本文引用:1]