作者简介: 赵 鹏, 1972年生, 东北林业大学信息与计算机工程学院教授 e-mail: bit_zhao@aliyun.com
光谱分析已经在木材特性参数(例如木材树种、 气干密度、 强度、 含水率、 表面粗糙度等)检测中得到应用, 但是, 现有的木材检测研究都只是针对上述某一项参数做数学建模和预测。 如果需要检测木材多项参数, 那么需要进行多次建模, 并且每次建模预测时使用的数学模型类型(例如神经网络的类型)和内部结构参数一般各不相同。 为了提高木材质量检测效率, 提出了一种基于可见光/近红外光谱的木材树种和密度同时预测方法, 它只需要一次建模和预测就可以实现这两项参数的同时输出。 对东北5种常见木材(杨木、 桦木、 樟子松、 白松和落叶松)进行检测, 首先, 采用K/S算法划分样本集, 保证了训练集和预测集具有一定的代表性。 然后, 使用主成分分析和小波变换两种光谱降维方法, 分别与BP神经网络和偏最小二乘支持向量机相结合建立了4种木材树种和密度同时预测模型和预测精度对比。 采用美国海洋公司的Ocean Optics USB2000-VIS-NIR微型光纤光谱仪采集样本的可见光/近红外光谱并进行预测处理, 光谱范围为350~1 100 nm。 结果表明, 这四种模型都可实现对木材树种和密度的同时预测, 其中小波变换降维方法结合偏最小二乘支持向量机所建立的模型预测效果相对较好, 树种正确识别率为100%, 训练集密度的 R为0.973 4, 预测集密度的 R为0.940 8, 训练集密度的RMSE为0.026 13, 预测集密度的RMSE为0.038 46, 它为同时对木材多项特性参数进行预测的便携式多功能一体化木材光谱检测仪器的开发奠定了理论基础。 此外, 还采用该公司生产的另一款光谱范围为900~1 650 nm的FLAME-NIR型微型光纤光谱仪进行了同样的实验。 对比发现, 利用FLAME-NIR型光谱仪所得出的结果整体比利用USB2000-VIS-NIR型光谱仪所得到的结果好, 但是相差并不是很大。 这说明该方法可用于对木材种类与密度的同时预测, 而且具有一定的稳定性和精度, 也节约了仪器的成本。
Spectral analysis has been widely used in wood physical feature parameter detection such as wood species, density, strength, surface roughness and humidity. However, the current wood detection is used to predict the single wood parameter. If the multiple wood parameter detections are required, the single wood detection needs to be performed some times. In order to improve the wood parameter detection’s efficacy, we propose a simultaneous prediction scheme for wood species and wood density parameters with only one prediction. First, the K/S algorithm is used to divide the training and prediction sets to make them representative. Then, two dimensionality-reduction methods of principal component analysis and wavelet transform are combined with BP neural network and least squares support vector machine to establish four prediction models that can predict both wood species and density. In experiments, a small fiber spectrometer of USA Ocean Optics USB2000-VIS-NIR is used to acquire the visible/near infrared spectral curves with a spectral interval of 350~1 100 nm. The results show that all four models can achieve simultaneous prediction of wood species and density, and the model established by wavelet transform dimensionality-reduction method combined with least squares support vector machine is relatively better. The correct recognition rate of wood species based on the combination of wavelet transform and partial least squares support vector machine is 100%, the density correlation coefficient of training set is 0.973 4, the density correlation coefficient of prediction set is 0.940 8, the density training root mean square error is 0.026 13, and the prediction root mean square error is 0.038 46. It lays a theoretical foundation for the development of portable real-time on-line detection instruments that can simultaneously predict several parameters of wood physical feature. Moreover, another spectrometer of FLAME-NIR with a spectral interval of 900~1 650 nm is also used to perform the same prediction experiments. By comparisons, we find that the prediction results with the FLAME-NIR model are slightly superior to those with the USB2000-VIS-NIR model. Therefore, our simultaneous prediction of wood species and wood density is practical with a definite stability, accuracy, and a low instrumentation cost.
实木木材是基本的木材工业产品, 它是家具建材行业的主要生产原料, 不同品质的木材具有不同的特性参数(例如木材树种、 密度、 强度、 含水率、 表面粗糙度等), 导致其用途、 物理性能及价格差别很大。 因此, 对木材特性参数进行检测是木材质量检测的重要内容, 现在主流的检测方法是无损检测法, 例如图像处理法、 光谱分析法等。
可见光/近红外光谱分析技术具有成本低、 效率高、 速度快、 无损、 检测方便、 测试重现性好等优点, 已被广泛应用于各个领域的产品质量定性和定量研究[1, 2, 3, 4]。 到目前为止, 已有研究表明利用近红外光谱实现木材树种的识别及木材密度等参数的预测是可行的[5, 6, 7]。 但是, 这些光谱分析方法都是只针对木材树种或者密度等中的某一项参数进行建模和预测, 不能够对这些参数进行同时建模预测。 如果需要对木材多项参数进行检测, 那么需要进行多次建模和预测。
从仪器设计和测量的角度看, 多参数同时并行测量是当前仪器科学的主流方向。 此外, 在化学领域也有研究表明利用光谱和BP神经网络可实现物质多属性的同时预测[8, 9], 例如, Zhang等通过对聚丙烯酸酯水性涂料性质的研究, 根据三种单体(丙烯酸丁酯、 甲基丙烯酸甲酯和苯乙烯)的用量和两种颜料(二氧化钛和碳酸钙)的用量同时预测四个目标值即硬度、 附着力、 耐冲击性和反射率, 总体预测准确率达到了98%, 证明了BP神经网络对涂料的多种性能进行同时预测是可行且准确的[9]。
但是, 到目前为止还未有研究利用近红外光谱实现木材树种、 气干密度、 强度等多项参数的同时预测。 本工作采用两种光谱降维方法和两种数学建模进行预测和效果对比, 只需一次建模和预测就可实现对木材树种和气干密度的同时预测, 在一定程度上提高了建模预测的效率。
BP神经网络是一种按误差逆向传播算法训练的多层前馈网络, 是目前应用最为广泛的神经网络模型之一。 BP神经网络由输入层、 隐含层和输出层三部分组成, 因其在建立模型时具有很好的学习、 预测及非线性映射能力和柔性的网络结构, 已广泛用于定性和定量分析[6, 10]。 最小二乘支持向量机是由Suykens等在标准的支持向量机基础上提出的, 可用于解决模式识别和回归等问题[11, 12]。 LSSVM利用结构风险最小原则, 有效提高了求解速度和抗噪声能力, 在解决近红外光谱的非线性问题上表现出色[13]。 和传统的SVM相比, LSSVM以求解线性方程组的简便方式替代了求解二次规划问题的复杂方法, 实现了约束条件由不等式约束到等式约束的转变。
以东北常见五种树种杨木、 桦木、 樟子松、 白松和落叶松作为研究对象, 将主成分分析(principal component analysis, PCA)和小波变换(wavelet transform, WT)两种降维方法分别与反向传播人工神经网络(BP)和最小二乘支持向量机(least squares support vector machines, LSSVM)两种模型相结合, 建立了对木材树种和气干密度的同时预测模型并对模型的预测结果进行了对比分析。
实验用的是东北常见的杨木(Populus davidiana)、 桦木(Betula platyphylla)、 樟子松(Pinus sylvestris)、 白松(Picea jezoensis)、 落叶松(Larix gmelinii)5种木材, 将其加工成2 cm× 2 cm× 2 cm的木块, 每个树种80个木块, 共400个木块作为实验样本。 这5种树种木材购置于大庆市木材市场, 产地是郎乡林业局下属林场。 5种木材气干密度的测量按照《木材物理力学性质试验方法》(GB1933— 1991)进行。
实验装置由计算机、 光谱仪、 卤光灯、 光纤、 支架等组成, 光谱采集用美国海洋公司的Ocean Optics USB2000-VIS-NIR微型光纤光谱仪, 待测样本放在光谱仪的支架上, 待测面朝下, 光纤探头距待测物体表面约5 mm, 圆形视场角的直径为6.35 mm, 实验装备示意图如图1所示。 近红外光谱的采集采用漫反射方式, 谱区范围为350~1 100 nm, 分辨率约为1.5 nm。 采集条件: 室温(22± 2)℃, 湿度25%± 3%。 采集光谱前, 需进行光谱白板校正和暗校正, 白板校正时使用标准聚四氟乙烯白板为背景, 暗校正则是以遮光方式进行, 同时需打开电子暗噪声校正和杂散光校正按钮。 在光谱仪器配套的软件SpectraSuite中参数设置如下: 积分时间为1 ms, 重复扫描900次取平均, 平滑度为5。 计算机显示平均光谱, 并将其保存, 每测完5个样本进行一次标准白板的校正, 光谱数据以excel格式导出进行处理。 有研究表明, 用近红外光谱分析测量木材密度时, 从木材横切面、 径切面、 弦切面取得的结果中以从横切面采集到的光谱建立的预测模型效果最好[14], 所以本实验采取的是在每个样本的横切面上随机选取4个测试点进行光谱采集, 取其平均值作为一个样本的结果, 并将其保存到指定位置。
由于近红外光谱包含的信息量较大、 光谱重叠严重且处理起来较为困难, 若直接使用原始光谱数据进行建模往往会导致模型稳定性差、 精度低, 同时也会增加计算的复杂度。 分别选取了主成分分析和小波变换两种方法对光谱数据进行降维处理。
主成分分析是多元统计中的一种变换方法, 是目前最常用的一种光谱特征信息提取方法, 在损失很少信息的前提下, 主成分分析能将多个指标转化为少数综合指标, 代替原来较多的变量。 小波变换是一种高效的数据压缩技术, 将信号分解成一系列小波函数的叠加, 具有时频分析能力。 利用小波变换方法对预处理后的光谱进行压缩, 既可起到压缩数据的作用还可以实现去噪和提取特征信息的作用。 光谱经小波分解后分为低频和高频两个部分, 低频部分对应近似系数, 高频部分对应细节系数, 低频系数含有原光谱信号绝大部分有效信息, 而以噪声为代表的冗余信息多存在于高频系数中。 将小波变换后的低频小波系数代替原来的光谱数据, 大大降低了输入数据量, 提高了建模效率。
由于是对树种和密度的同时预测, 因此选取的模型须具有多输出的特点。 选取了BP神经网络和最小二乘支持向量机LSSVM作为对树种和密度进行同时预测的模型。 以BP神经网络为例, 给出模型的应用体系结构如图2所示。 模型的输入为经过降维处理后的光谱数据, 模型的前5个输出为树种预测值, 第6个输出为密度预测值。 五个树种分别将其编号为如表1所示的单位矩阵编码, 预测结束后, 将每位的预测值都转换为二进制编码。 当某位的预测值< 0.5且与0的偏差(这里指绝对值, 以下同)< 0.5时, 则将该位的预测值视为0; 当某位的预测值≥ 0.5且与1的偏差< 0.5时, 将该位的预测值视为1。 当某位的偏差≥ 0.5时, 说明判别不稳定, 则视为无法识别/拒识(另外, 预测编码含有多个1例如11000, 也算作拒识)。 只有当5位编码的预测值和真实值完全相同时, 视为识别正确(例如预测树种编码和真实树种编码都是10000, 二者一致), 否则视为误识(例如, 预测编码是10000, 真实编码01000, 二者不一致)。 模型第6位的输出值为密度预测值, 保留其原始值作后续分析处理。 此外, LSSVM模型输出比较简单, 它的前5位是0或1, 不需要做判断和转换。 所有的数据处理及模型的建立都是在软件Matlab 2015a中完成。
通过树种正确识别率(correct recognition rate, CRR)、 密度的相关系数(r)和均方根误差(root mean square error, RMSE)来评价模型拟合精度和模型的预测能力。 CRR越高, r值越接近1, RMSE的值越小且训练集的RMSE和预测集的RMSE较为接近, 所建模型性能越好。
由于系统误差使光谱曲线在首尾两端产生的噪声较大, 信噪比低, 不具有分析价值, 直接影响了实验的准确性, 所以将首尾的波段去掉, 只研究450~900 nm范围内的反射光
谱, 以此提高实验的精度。 由图3、 图4可知, 五种木材的光谱曲线重叠严重, 不同树种木材的光谱曲线之间有较小的差异, 同一树种木材不同密度样本的光谱曲线较为相似, 因此要通过光谱数据完成对木材种类的识别以及密度的预测, 需要利用一定的预处理方式及数学模型。 为消除样本不均匀、 基线漂移、 高频随机噪声、 光散射等影响, 对原始光谱采用Savizky-Golay平滑法, 平滑点数为10, 再进行标准化(standard normal variate, SNV)处理。
Kennard-Stone(K/S)算法是通过计算样本间的欧氏距离来划分样本集的, 将光谱差异大的样本选入训练集, 其余的样本归入预测集, 通过此方法可提高预测模型的精度和泛化能力[14]。 400个样本中采用K/S法从每个树种中挑出60个样本作为训练集, 20个样本作为预测集, 即训练集中共有300个样本, 预测集中共有100个样本(训练集和预测集没有交集)。 图5为采用K/S法挑出的训练集和预测集的第一主成分和第二主成分分布图, 可以看出预测集样本包括在训练集样本的分布空间中, 说明此预测集具有代表性。 全部样本的气干密度分布参见表2。
由表3可得, 前3个主成分的累计贡献率达到了99%, 结合图6可知提取的前3个主成分有一定的分类能力, 定性地描述了五种树种木材的特征差异。 从图6可以看出边缘样本区分不明显, 落叶松、 白松和樟子松分得相对比较开, 但仍有少许样本和其他树种混在一起, 而杨木和桦木两者比较难区分。 由表3可以看出, 经主成分分析光谱数据后, 训练集及预测集的前7个主成分的累计贡献率均已达到了99.9%, 因此将前7个主成分代替每个样本的光谱数据作为模型的输入。
2.3.1 PCA-BP模型预测结果
BP神经网络的输入层节点数为7, 经过反复试验数次, 确定隐含层节点数为14, 因此最佳的网络结构为7(输入层)— 14(隐含层)— 6(输出层)三层神经网络模型。 输入层和隐含层之间的传递函数选取为tansig, 隐含层和输出层之间的传递函数为purelin, 迭代次数设定为1 000次, 误差目标为0.001, 学习率为0.01, 训练完成后对预测集进行预测。 图7为密度预测的散点分布图, 图8为对树种进行预测的结果图, 由图中可以看出, 有一个白松样本被视为无法识别。
2.3.2 PCA-LSSVM模型预测结果
LSSVM常用的4种核函数( 线性核、 多项式核、 径向基函数核和高斯核)中径向基核函数(RBF)应用最为广泛, 它只有惩罚因子(c)和RBF核函数的宽度(g)两个参数, 因此选取RBF核函数作为LSSVM模型的核函数。 传统的LSSVM模型中的c和g两个参数是任意给定或者凭经验选取的, 存在主观性和随意性。 为了提高LSSVM学习和泛化能力, 需要对c和g两个参数进行优化, 目前常用的有k-折交叉验证法、 网格搜索法、 粒子群优化算法以及遗传算法等, 本文采取了网格搜索法与5-折交叉验证相结合的方法。 根据交叉验证树种平均正确识别率和密度平均相关系数的和(CRRcv+Rcv)最大的原则选取最优参数, 优化LSSVM模型。 可知当c和g分别为22.627 4和1时, 建立的模型预测性能最好, 利用最优的PCA-LSSVM模型对未参与建模的预测集样本进行预测分析。 PCA-LSSVM模型的密度预测结果如图9所示, 图10为对树种进行预测的结果图, 由图中可以看出, 有1个落叶松样本被视为无法识别。
在进行小波变换时, 模型的预测能力受小波基函数和分解尺度的影响。 选择常用的Symlet小波函数中的sym5为小波基。 Daubechies所提出的Symlet小波函数是对db函数的一种改进, 具有较好的正则性。 Symlet小波函数在连续性、 滤波器长度、 支集长度等方面和dbN小波是相一致的, 但symN小波函数比dbN小波函数具备更好的对称性, 在对信号进行分析和重构时能在一定程度上减少相位失真。 分解时每层采用不同的阈值并使用软阈值策略, 对预处理后的光谱信号进行6尺度的分解, 然后用分解得到的低频系数进行重构光谱。 如图11所示, 分解层数为0处的光谱为预处理后的原始光谱, 当分解层数为6, 光谱的形状没有发生太大变化, 且低频系数重构光谱图保留了原光谱99.99%的能量, 同时与原光谱的相关系数达到了0.999 9, 说明了小波变换没有改变光谱信息。 对光谱进行小波变换后, 将1 328维的原始光谱减少到了29维, 用低频小波系数代替原来的光谱变量作为模型的输入。
2.4.1 WT-BP神经网络模型预测结果
将6层分解后的29维低频小波系数作为BP神经网络的输入, 经过反复实验确定隐含层节点数为26, 因此最佳的网络结构为29(输入层)— 26(隐含层)— 6(输出层)三层神经网络模型。 输入层和隐含层之间的传递函数选取为tansig, 隐含层和输出层之间的传递函数为purelin, 迭代次数设定为1 000次, 误差目标为0.000 1, 学习率为0.01, 训练完成后对预测集进行预测。 图12为密度预测的散点分布图, 图13为对树种进行预测的结果图, 由图中可以看出, 有1个樟子松样本和一个白松样本被视为无法识别。
2.4.2 WT-LSSVM模型预测结果
采用网格搜索法与5-折交叉验证相结合的方法对WT-LSSVM模型中的参数c和g进行优化, 可知当c和g分别为724.077 3和16时, 建立的模型预测性能最好, 利用最优的WT-LSSVM模型对未参与建模的预测集样本进行预测分析。 WT-LSSVM模型的密度预测结果如图14所示, 图15为对树种进行预测的结果图, 由图中可以看出, 没有错分与无法识别的样本。
对比以上建立的各模型分别对预测集样本进行预测的结果, 如表4所示, PCA-BP模型、 PCA-LSSVM模型、 WT-BP模型和WT-LSSVM模型都可实现对木材树种和密度的同时预测, 且效果都相差不是很大, 其中WT-BP模型对密度的预测效果为最好, 预测集密度的R达到了0.944 9, 但对树种的预测不是最佳, 只有98%。 整体上看, 基于小波变换降维的模型略优于基于主成分分析降维的模型。 这是因为木材近红外光谱信息和木材属性之间存在着非线性关系, 而主成分分析是一种线性降维方法, 因此该主成分分析方法的降维效果稍差。 经过综合比较, WT-LSSVM模型的预测效果相对较好, 预测集密度的R为0.940 8, 只比WT-BP模型低了0.41%, 但是它的CRR是四种模型中最高的, 为100%, 因此WT-LSSVM模型对树种和密度的预测能同时达到较好的效果。
为了验证利用可见光和近红外光谱实现木材种类与密度同时预测的稳定性, 我们采用美国海洋光学公司生产的另一款波长为900~1 650 nm, 光谱波长分辨率为2.0 nm的FLAME-NIR型微型光纤光谱仪进行了同样步骤的实验, 所用仪器如图16(b)所示, 实验结果如表4所示。 经过对比发现, 利用FLAME-NIR型光谱仪所得出的结果整体比利用USB2000-VIS-NIR型光谱仪所得到的结果好, 但是相差并不是很大, 说明本研究所使用的可见光近红外光谱可用于对木材种类与密度的同时预测, 且能保证一定的稳定性、 满足一定的精度要求。 由于图16(a)中的USB2000-VIS-NIR型光谱仪的价格比图16(b)中的FLAME-NIR型光谱仪低很多, 所以与此同时节约了开发的成本。
实现了基于光谱分析的木材树种及密度这两项参数的同时预测, 较为准确地预测出了未知木材的种类及气干密度。 建模过程中, 通过采用K/S算法对样本集进行划分, 保证了训练集和预测集具有一定的代表性。 通过主成分分析和小波分析两种光谱降维方法与人工神经BP网络和最小二乘支持向量机分别结合建立了四种模型。 研究表明, 四种模型都可实现对木材树种和密度的同时预测, 其中小波变换降维和最小二乘支持向量机相结合的模型预测效果相对较好, CRR达到了100%, 训练集密度的R为0.973 4, 预测集密度的R为0.940 8, 训练集密度的RMSE为0.026 13, 预测集密度的RMSE为0.038 46。 此外, 将利用350~1 100 nm的光谱所得出的结果和利用900~1 650 nm的光谱所得出的结果进行对比, 可知前者略差于后者, 但是两者之间的差异很小, 说明利用可见光近红外光谱对木材种类与密度进行同时预测, 能保证一定的稳定性, 且能满足一定的精度要求, 同时也节约了开发的成本。
后期研究中, 我们将使用美国海洋公司的USB2000-VIS-NIR微型光纤光谱仪开发便携式的木材多项参数光谱检测仪器, 该款光谱仪体积小重量轻, 整套光谱采集设备(含笔记本电脑)是RMB 3万元左右。 本研究为同时对木材多项参数(例如树种、 密度、 强度、 含水率等)进行预测的便携式在线检测光谱仪器的研发奠定了理论基础。