KF光谱优选的木材抗弯强度预测方法
于慧伶1, 潘屾2, 梁玉亮2, 张怡卓2,*
1. 东北林业大学信息与计算机工程学院, 黑龙江 哈尔滨 150040
2. 东北林业大学机电工程工程学院, 黑龙江 哈尔滨 150040
*通讯联系人 e-mail: Zhangyz@nefu.edu.cn

作者简介: 于慧伶, 1980年生, 东北林业大学信息与计算机工程学院副教授 e-mail: yhl2016@163.com

摘要

木材抗弯强度是评价木材力学性质的重要指标, 其快速准确预测具有工程应用价值和科学意义。 重点研究了使用近红外光谱分析光谱特征优选的卡尔曼滤波(KF)方法进行PLS建模, 完成木材抗弯强度的预测。 试验用126个蒙古栎无疵试样, 依据国家标准《木材物理力学性质试验方法》测量抗弯强度得到力学真值; 在900~1 700 nm波段进行近红外光谱采集, 一阶导数与S-G卷积结合进行光谱预处理; 然后, 将光谱及抗弯力学样本视为动态系统, 光谱冗余波长视为噪声信号, 通过KF迭代得到系数矩阵和标准方差, 并运用二者比值实现特征优选; 最后建立蒙古栎的偏最小二乘(PLS)抗弯强度近红外模型。 结果表明, 经过KF优选后, 光谱变量数由117减小到18个, 预测模型的相关系数 r=0.81、 预测误差均方根RMSEP=6.59; 为了进一步验证方法有效性, 与无信息变量消除法(UVE)、 连续投影方法(SPA)特征选择方法进行了对比, KF特征优选后的预测相关系数 r分别提高了0.05和0.16, 预测误差均方根RMSEP降低了2.33和7.66, 采用KF特征选择建立的模型预测结果最佳。 KF作为特征方法可有效选择近红外光谱特征波长, 降低模型维度, 提高模型的适用性与准确性。

关键词: 木材抗弯强度; 卡尔曼滤波; 特征选择; 近红外光谱; 偏最小二乘法
中图分类号:TP391.41 文献标识码:A
Prediction Method of Wood Bending Strength Based on KF Optimizing NIR
YU Hui-ling1, PAN Shen2, LIANG Yu-liang2, ZHANG Yi-zhuo2,*
1. College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China
2. College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China
Abstract

The bending strength is an important index to evaluate the mechanical properties of wood, and the rapid and accurate prediction of its nature is a scie.pngic problem with engineering application value. In this paper, the wood bending strength is predicted by near infrared spectroscopy (NIR), combined with Kalman filter (KF) and partial least squares method (PLS). A total of 126 samples of Mongolian oak ( Quercus mongolica) were used, and their bending strengths were measured according to the national standard “Wood physical and mechanical properties test method”. In addition, NIR spectra were collected in the wavelengths ranging from 900 to 1 700 nm, and a pretreatment for NIR was carried out by the first order derivative combined with S-G convolution. Then, the spectrum and bending strength samples were considered as a dynamical system, the redundancy spectrum wavelength points were considered as noise signals. Besides, coefficient matrix and standard deviation were acquired by means of KF iteration, and feature selection was achieved by the ratio of coefficient to standard deviation. Finally, the prediction model of wood bending strength was build based on PLS and the selected wavelength points. The result shows that the number of variables is reduced from 117 to 18 after the KF selection, and the correlation coefficient R of the prediction model is 0.81, the root mean square error of prediction (RMSEP) is 6.59. In order to validate the effectiveness of KF, UVE and SPA were used to make a comparison, the correlation coefficient r is improved by 0.05 and 0.16 and the RMSEP is reduced by 2.33 and 7.66 respectively, which can show that KF can be used to select effective spectrum points, reduce the model dimension, and improve the applicability and accuracy of the model.

Key words: Kalman filter; Bending strength; Feature selection; Near infrared spectroscopy; Partial least squares
引 言

抗弯强度(MOR)是结构用材最重要的力学指标之一, 也是研究木材的一个最有效的指标[1, 2]。 传统的木材抗弯强度测量方法是按照国家标准在万能力学试验机对标准无疵小试样进行抗弯强度的测试, 这种测量方法条件苛刻、 费时、 费力, 而且是破坏性实验, 所以不能满足木材加工的实际需求。

近红外光谱是一种快速、 简便、 无损的分析方法, 但具有“ 高维、 重叠、 非线性、 冗余” 的特征, 在进行建模时, 波段之间的相关性和冗余信息会降低建模的准确度[3]。 通常利用特征选择方法对光谱进行降维处理, 常用的近红外光谱特征方法有相关系数法、 遗传算法、 退火算法、 无信息变量消除法、 连续投影法。 其中相关系数法、 回归系数法主要依据主观进行阈值选择[4, 5], 而遗传算法和退火算法在问题规模较小和特征间关联小的情况下, 相比传统方法效果较差[6, 7]。 无信息变量消除法 (UVE), 是基于偏最小二乘回归系数建立的波长选择算法, 用于消除不提供信息的变量[8, 9]; 连续投影法(SPA)是一种新的变量提取方法, 它能够利用向量的投影分析, 寻找含有最低限度的冗余信息的变量组, 并使变量之间的共线性达到最小[10]

卡尔曼滤波(KF)是一种高效率的递归滤波器, 它能够从一系列的不完全及包含噪声的测量中, 估计动态系统的状态, 该方法在很多工程中都成功应用。 该方法首先估计先验概率密度, 然后通过观测值得到更接近真实值的后验概率密度, 实现目标值的估计。 本文把木材近红外光谱对应的抗弯力学强度视为动态目标系统, 光谱中的冗余波长视为噪声数据, 通过KF的连续迭代, 完成光谱波长的特征优选。

1 实验部分
1.1 材料与真值测量

蒙古栎(Quercus mongolica)盛产于黑龙江省大、 小兴安岭一带, 这种木材密度高、 质地坚硬、 纹理直, 具有良好的抗弯曲性能, 且切削面光滑、 耐磨损, 是一种很好的家具材料。

试验用的蒙古栎样本采自黑龙江带岭林业局林场。 在蒙古栎人工林内, 取3株样木, 树龄20 a以上, 在每株标准木的胸高(1.3 m)附近连续截取50 cm圆盘。 实验室内对每个圆盘去皮, 按照木材物理力学试验方法(GB/T 1928— 2009)制取300 mm× 20 mm× 20 mm的抗弯力学试样并标记横切面。 挑选出切面标准、 表面平整、 无缺陷试样126个, 编号后, 将试样放入恒温恒湿箱内调节含水率至12%, 进行近红外光谱扫描和力学性质测试。

按照《木材抗弯强度试验方法》(GB/T 1936— 2009)测定蒙古栎无疵试样抗弯强度, 将采集的126个样本数据按照2:1的比例随机分为校正集和验证集, 其中校正集共84个样品, 验证集共42个样品。 校正集用来建立校正模型, 预测集对模型进行验证。

1.2 近红外光谱采集与预处理

光谱仪采用INSION公司近红外光纤光谱仪对木材样本进行光谱扫描。 光谱仪采集波长范围在900~1 700 nm, 共117个波段, 数据采样间隔小于16 nm光谱分辨率。 实验环境温度20 ℃、 平均相对湿度50%、 光线均匀。 使用两分叉光纤探头采集试样表面的近红外光谱, 光源使用钨光源。

光纤探头垂直固定在金属支架上, 试样放置于支架底面, 非接触测量距离1 mm, 光斑直径5 mm。 软件设置为积分时间为20 ms, 30次均值滤波, 用聚四氟乙烯白板进行标定后, 对横切面进行光谱采集, 并记录保存。

由于光谱采集过程中的抖动、 光线散射等因素, 会产生基线漂移、 噪声干扰。 为提高模型性能, 需要对近红外光谱数据进行预数据处理后再进行建模分析。

采用一阶导数与S-G卷积平滑结合算法, 对数据进行预处理。 首先对光谱数据进行一阶导数处理, 以消除基线和其他背景干扰。 再用S-G多项式卷积对一阶导数光谱数据进行平滑去噪处理, 确保信号形状、 宽度不变, 保证数据不失真。

式(1)为对相邻光谱点相减的一阶导数处理

dxdλ=xi+1-xiΔλ(1)

式中: x为吸光度; λ 为波长。

S-G平滑把光谱区间的连续点作为一个窗口, 用多项式对窗口内的光谱数据做最小二乘拟合, 得到相应的多项式系数来计算该窗口中心波长点的导数平滑值。

S-G平滑多项式可以定义为

f(x)=k=0nbnkxk(2)

利用光谱数据拟合多项式系数bnk, 计算窗口中心点k阶导数光谱值ank, 如式(3)

dkfidiki=0=k!bnk=ank(3)

k为导数的阶数; n为多项式最高次数; bnk为多项式系数; ank为窗口中心点S-G平滑光谱值。

1.3 基于卡尔曼滤波的光谱特征选择

卡尔曼滤波通过状态预测结合观测来估计当前系统的状态, 通过上一时刻状态最优值来预测当前状态, 通过状态预测值和状态观测值来计算状态最优估计值。

在光谱特征选择中, 预测模型选用PLS, 在此, 以PLS模型系数矩阵作为系统状态, 抗弯强度作为观测值, 即可定义线性系统和量测方程, 系统在迭代中不断更新状态方程以预测系统状态, 即PLS模型系数。

首先定义光谱-抗弯强度模型系统方程:

状态方程: bk+1=bk+wk(4)

观测方程: yk=xkbk+vk(5)

式(4)和式(5)中, x为样本的光谱数据; b为系统模型系数矩阵; y为样本抗弯强度; 随机信号wkvk表示过程激励噪声和观测噪声, 且p(w)~N(0, Q), p(v)~N(0, R)。 代入离散卡尔曼滤波器方程

b˙k-=b˙k-1, Pk-=Pk-1+Q, Kk=Pk-XT(XPk-XT+R)-1, b˙k=b˙k-+Kk(yk-Xb˙k-), Pk=(I-KkX)Pk-(6)

其中 b˙k-表示先验状态估计, b˙k为后验状态估计, X为迭代光谱数据, Q为过程激励噪声协方差矩阵, R为观测噪声协方差矩阵, Kk为卡尔曼增益矩阵, Pk-为先验估计误差的协方差, Pk后验估计误差的协方差。

卡尔曼滤波器不断更新模型系数矩阵b和估计误差协方差矩阵P, 迭代完成后, 使用模型系数矩阵与后验估计误差标准差的比值Rkf表征波长对构建模型的重要性, Rkf定义如式(7)所示。

Rkf=b/P(7)

波长点相关程度越高时, 模型系数矩阵b对应权值越高, 反之越低; 后验估计误差标准差越小表示模型系数矩阵b对应权值越准确, 反之越高。 依据Rkf的大小对光谱波长进行排序, 选择Rkf较高光谱维度进行建模。

卡尔曼滤波的特征选择算法流程如图1所示。

图1 基于卡尔曼滤波的波长选择流程图Fig.1 Flow char of KF based feature selection

2 结果与讨论
2.1 光谱数据预处理结果

对126个蒙古栎试样进行光谱采集后, 进行光谱数据预处理, 使用一阶导数与S-G平滑预处理方法。 一阶导数采用差分法, S-G平滑的多项式阶数为5、 窗口宽度为9时, 吸收峰集中, 光谱平滑, 效果较好。 原光谱、 预处理结果分别如图2、 图3所示, 一阶导数与S-G平滑可以实现在滤除噪声的同时突出信号的主要特征。

图2 原始光谱Fig.2 Original spectra

图3 一阶导数和S-G平滑预处理光谱Fig.3 First order derivative and S-G smoothing preprocessing

2.2 基于卡尔曼滤波特征选择

近红外区谱带复杂、 重叠多、 数据量大, 其中含有大量与分类无关的冗余信息, 降低了分类器的分类性能。 变异系数为标准差与均值的比值, 可以通过计算光谱预处理后的变异系数观察光谱数据的冗余程度。 图4为光谱波长的变异系数, 可以看出光谱波段中存在大量冗余信息, 近红外光谱在1 400~1 500 nm波段、 1 600~1 700 nm变异系数值较高, 说明光谱在此波段有效信息多, 冗余信息较少。

图4 各波长变异系数Fig.4 The coefficient of variation for different wavelengths

以经预处理后116个波长点作为选择对象。 以校正集82个样本作为迭代样本, 状态方程初值均设为0, 卡尔曼过程激励噪声方差Q设为0.05, 观测噪声方差R设为0.01。 经校正集样本84次迭代后, 以Rkf进行评价。 图5为不同波长点对应的Rkf值。

图5 卡尔曼特征选择结果Fig.5 Based KF feature selection results

按照大小对Rkf进行排序, 得到光谱影响程度的排序表, 表1为光谱影响程度排序的前15组数据。

2.3 建模比较

对光谱进行KF处理后, 运用PLS对不同特征数量的近红外光谱波长进行偏最小二乘回归, 并选择预测误差均方根(RMSEP)作为参照对比。 图6为卡尔曼特征选择后进行的偏最小二乘回归, 由图可得, 随着建模的变量数增加, RMSEP在不断减小; 当选择变量数为18时, RMSEP最小; 之后, 随着变量数的增加, RMSEP逐渐增加。 故选择建模变量数为18, 其预测相关系数r=0.81, RMSEP=6.59。 图7中圆点为经特征选择的特征波长点位置。

表1 光谱影响程度排序 Table 1 List of spectral effects based on Rkf

图6 不同变量数的卡尔曼-偏最小二乘模型预测误差Fig.6 Predictive errors with different variable number based on KF-PLS

图7 特征波长选择变量位置Fig.7 The variable positions of the selected wavelength poiots

选择无信息变量消除法(UVE)和连续投影算法(SPA)与KF优选特征的结果进行比较。

UVE算法通过对PLS模型中添加一组与原始变量数量相同的白噪声变量, 然后基于PLS模型的交叉留一法得到每个变量的回归系数, 用模型系数的稳定值剔除无关变量。 图8为UVE法筛选波长示意图, 纵轴实线左侧为波长变量稳定性分布曲线, 右侧为噪声变量稳定性分布曲线, 2条虚线外的波长变量部分被认为是有效信息, 即在2条虚线外的波长变量被保留。 经UVE选择后, 得到42个特征波长点, 进行PLS建模验证, RMSEP=6.92, 相关系数r=0.76。

SPA(连续投影算法)是从光谱变量中找出冗余信息最少的变量组, 该变量组内的变量之间的共线性达到最小。 图9为SPA方法进行光谱选择后, 不同变量数的PLS模型RMSEP曲线, 当变量数达到14时, RMSEP趋于不变, 故选择建模变量数为14, 其RMSEP=14.25, 相关系数r=0.65。

图8 UVE筛选波长示意图Fig.8 UVE Screening wavelength diagram

图9 基于SPA的不同变量数PLS模型预测误差Fig.9 Predictive errors of PLS with different variable numbers based on SPA

图10为三种方法选择特征波长对比图, UVE选择波长数量较多, 相比之下SPA和KF选择特征波长更为精准, 且重叠部分较多。 表2计算了不同特征选择方法优选出的特征变量数, 及运用特征优选后PLS建模的相关评价指标。 使用卡尔曼光谱特征选择后, 预测相关系数相比UVE、 SPA分别提高了0.05和0.16, RMSEP降低了2.33和7.66。

图10 不同特征选择方法的波长对比Fig.10 The comparison of the selected wavelength points based on different methods

表2 基于不同优选特征的PLS建模结果对比 Table 2 The comparison of different features based PLS

为了验证KF特征选择后, 模型预测的快速性, 在2.7 GHz Intel Core i5硬件环境下, 使用Matlab 2016b软件运行程序, 调用tic和toc函数分别记录了42个测试样本的全波

长光谱提取、 光谱预处理、 特征光谱提取与识别的时间, 各步骤的平均时间如表3所示。 通过对各步骤平均时间的累计可以计算出基于KF-PLS的蒙古栎抗弯强度预测的平均时间为65.8 ms。

表3 基于KF-PLS的各步骤预测时间统计 Table 3 Predicted time statistics of the various steps through KF-PLS
3 结 论

以蒙古栎抗弯强度检测为对象, 重点研究了基于卡尔曼滤波的近红外光谱特征选择方法, 并选用PLS在特征选择后建模。 结果表明, 光谱波长变异系数表现出波段中存在大量的冗余信息, 这些冗余光谱影响着预测模型的精度和速度; 通过设计卡尔曼滤波器中的系数矩阵与后验估计标准差之比来表征波长重要性, 经过数十次迭代可以优选出近红外光谱中的有效波长点, 光谱维度由117维降至18维, 相关系数可以达到0.81。 将KF-PLS与UVE-PLS, SPA-PLS进行比较, UVE选择波长数量多, SPA与KF特征波长具有较大程度重叠, 但是, KF-PLS分类的高精度表明了KF特征选择更精准; 通过对测试样本预测时间的平均累计, 该方法的识别时间仅为65.8 ms, 方法具有快速性, 基于KF-PLS的近红外无损预测方法可应用于木材在线检测过程中。

The authors have declared that no competing interests exist.

参考文献
[1] ZHANG Yi-zhuo, SU Yao-wen, LI Chao, et al(张怡卓, 苏耀文, 李超, ). Journal of Beijing Forestry University(北京林业大学学报), 2016, 38(8): 99. [本文引用:1]
[2] LIANG Hao, CAO Jun, LIN Xue, et al(梁浩, 曹军, 林雪, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(7): 2041. [本文引用:1]
[3] WU Di, WU Hong-xi, CAI Jing-bo, et al(吴迪, 吴洪喜, 蔡景波, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2009, 28(6): 423. [本文引用:1]
[4] XU Hong-mei, WEN Jiang, ZHONG Wen-jie, et al(徐红梅, 文江, 钟文杰, ). Journal of Jiangsu University·Natural Science(江苏大学学报·自然科学版), 2017, 38(3): 295. [本文引用:1]
[5] ZONG Jing-xue, YANG Yu-wang, WANG Lei, et al(宗精学, 杨余旺, 王磊, ). Jiangsu Journal of Agricultural Sciences(江苏农业学报), 2013, 29(4): 864. [本文引用:1]
[6] Liang Hao, Cao Jun, Tu Wenjun, et al. BioResources, 2016, 11(3): 7205. [本文引用:1]
[7] WANG An-xiang, ZHANG Xiao-jun, CAO Yun-hua(王安祥, 张晓军, 曹运华). Infrared and Laser Engineering(红外与激光工程), 2015, 44(11): 3197. [本文引用:1]
[8] WANG Bo-jin, HUANG Min, ZHU Qi-bing, et al(汪泊锦, 黄敏, 朱启兵, ). Acta Photonica Sinica(光子学报), 2011, 40(8): 1132. [本文引用:1]
[9] WEI Xin-hua, WU Shu, FAN Xiao-dong, et al(魏新华, 吴姝, 范晓冬, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2015, 46(3): 242. [本文引用:1]
[10] ZHANG Yi-zhuo, TU Wen-jun, LI Chao, et al(张怡卓, 涂文俊, 李超, ). Journal of Northeast Forestry University(东北林业大学学报), 2016, 44(10): 79. [本文引用:1]