实木板材抗弯强度的SWCSS-GFK-SVM数据迁移建模方法
陈金浩, 蒋大鹏, 张怡卓*, 王克奇*
东北林业大学机电工程学院, 黑龙江 哈尔滨 150040
*通讯作者 e-mail: zdhwkq@163.com; nefuzyz@163.com

作者简介: 陈金浩, 1978年生, 东北林业大学机电工程学院博士研究生 e-mail: jinhaochen@vip.sina.com

摘要

木材的抗弯强度是木材重要的力学指标。 光谱分析操作简单、 方便、 快速, 已成为木材检测的重要手段。 但是在应用中, 面对检测环境的温湿度变化、 仪器部件老化和附件更换等情况, 采集到的光谱数据会发生一定程度的偏移。 为了解决这一问题, 以落叶松抗弯强度的近红外光谱预测模型为研究对象, 针对不同类型光谱仪数据差异而导致主机模型泛化能力差的问题, 提出了一种迁移学习与光谱转移校准结合的近红外光谱建模方法。 加工200组落叶松板材试件样本, 以NIRQuest512光谱仪为主机、 One-chip微型集成光谱仪为从机, 分别采集落叶松试材光谱数据, 利用力学万能测试机检测试件力学真值; 2类数据经过SNV、 S-G、 光谱剪切预处理后, 从机数据使用PDS转移校正完成从机到主机光谱线性变换; 然后, 利用SWCSS对2类光谱数据进行特征提取, 优选出主机与从机相关的稳定性一致光谱波段; 最后, 采用100组试件的2类近红外光谱数据进行GFK-SVM建模, 得到适用于主机、 从机设备的通用模型。 为了验证模型方法的有效性, 应用100组数据进行测试并对比了DS-PLS, PDS-PLS, DS-SWCSS-GFK-SVM和PDS-SWCSS-GFK-SVM等建模方法; 结果表明, PDS采用了滑窗技术, 方法相较DS方法可以更好地完成光谱数据的线形映射, 在一定程度上提高了建模精度, 统一了两组光谱仪之间的光程与波长数; SWCSS特征提取方法能够根据2组光谱数据集之间的差异与共性优选波段, 保证特征选择的有效性与稳定性, 提升建模精度; GFK-SVM适合不同光谱数据的迁移, 能够通过合理的核函数参数优选实现不同类型光谱数据的高维映射, 在高维空间中构建不同数据集的通用模型, 实现主机模型在从机光谱预测上的泛化, 提升了数据的使用效率, 测试集相关系数 Rp达到0.875, 均方根误差RMSEP为11.975。

关键词: 木材抗弯强度; 模型转移; 迁移学习; GFK-SVM
中图分类号:O657.33 文献标志码:A
Research on Data Migration Modeling Method for Bending Strength of Solid Wood Based on SWCSS-GFK-SVM
CHEN Jin-hao, JIANG Da-peng, ZHANG Yi-zhuo*, WANG Ke-qi*
College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China
*Corresponding authors
Abstract

The modulus of elasticity is an important mechanical index of wood. The advantages of spectral analysis technology include a simple, convenient and fast operation process, which has become an important tool for wood testing. However, in practical applications, we often face changes in temperature and humidity of near-spectrometer testing conditions or aging of instrument components and replacement of accessories when the collected spectral data will be shifted. In order to solve this problem, this paper proposes a near-infrared spectral modeling method combining migration learning and spectral transfer calibration to address the poor generalization of the master model due to the difference data from different types of spectrometers,taking the near-infrared spectral prediction model of larch bending strength as the research object. Firstly, 200 sets of Larch test specimens were processed. Two kinds of spectrometers, the NIRQuest512 spectrometer as the master instrument and the One-chip as the slave, were used to collect the spectral data of Larch test specimens respectively. And the true values of the test specimens were detected by the mechanical universal testing machine. Secondly, the preprocessing of SNV, S-G and spectral shearing was employed, and then the method of PDS transfer correction was applied to complete the linear transformation from the slave instrument to the master. Thirdly, the SWCSS was used to extract the features of two kinds of spectral data, and the stable wave points were optimized. Finally, the GFK-SVM model was established by using two types of near-infrared spectral data of 100 sets of specimens. 100 sets of data were applied to test and compare the modeling methods such as DS-PLS, PDS-PLS, DS-SWCSS-GFK-SVM, and PDS-SWCSS-GFK-SVM. The experimental results show that PDS, compared with DS, can better complete the linear mapping of spectral data due to the sliding window, which could unify the optical length and wave points between the two spectrometers, and improve the modeling accuracy to a certain extent; As a feature extraction method, SWSS can select wavebands according to the differences and similarities of the two groups of spectral data sets, which can ensure the effectiveness and stability of features, and improve the modeling accuracy; The GFK-SVM is suitable for the migration of different spectral data. It can realize high-dimensional mapping of different types of spectral data through reasonable kernel function parameters. A generalized model for different datasets is constructed to realize the generalization of the master model on the slave spectral prediction, which improves the data efficiency, and the test set correlation coefficient Rp reaches 0.875, and the root mean square error RMSEP is 11.975.

Keyword: Wood bending strength; Calibration transfer; Transfer learning; GFK-SVM
引言

抗弯强度(MOR)是木材重要的力学指标, 影响实木产品的质量与安全性。 近年来, 随着近红外(NIR)光谱分析的广泛应用, 力学性能方面的近红外光谱检测已开展大量研究[1, 2, 3]。 但是, 近红外光谱设备的波段精度差异、 元器件间的分散性, 使得光谱模型的通用性有待于提升[4, 5]

光谱模型迁移的相关研究始于上世纪90年代[6], 按照策略的不同可以将相关方法划分为反馈标准化法、 预测值标准化法以及模型系数标准化法[7, 8]。 反馈标准化法通过主、 从机的输出反馈, 将从机光谱校正为与主机相似的响应光谱并进行建模, 这类方法包括直接标准化(direct standardization, DS)与分段直接标准化(piece-wise direct standardization, PDS)[9]。 DS方法使用变换矩阵将从机光谱线性变换为主机光谱, 而PDS方法则将从机光谱分割为一个个滑窗, 在每个滑窗中使用DS方法进行变换。 DS与PDS方法均为线性变换方法, 当主从设备差异较大时, 方法适应性较差。 预测值的标准化法通过计算主机和从机预测值之间的线性关系来校正从机预测值, 代表方法为斜率截距校正方法(slope and bias correction, SBC)[10]; 但SBC方法仅通过调整线性模型的截距来缩小主机与从机的差距, 局限性大。 模型系数标准化法通过调整从机模型参数来实现主机与从机模型的一致性[11, 12], 校准转移方法还包括一些全局建模等特殊方法, 该类方法以牺牲精度建立起所有仪器条件都适用的模型, 模型预测精度普遍较低[13, 14, 15], 代表性的方法为两步偏最小二乘(two step partial least squares)方法[16], 广义最小二乘加权法以及迁移学习(transfer learning)等方法[17]

近年来, 随着深度学习等技术的逐渐发展, 迁移学习引起了广泛关注[18]。 迁移学习能够将已训练好的模型参数转移到新模型来帮助新模型训练, 并将某个领域或任务上学习到的知识或模式应用到相同领域不同问题中。 Geodesic Flow Kernel(GFK)方法是一种迁移学习方法, 目前主要应用于图像处理领域中[19]。 该方法将源域子空间和目标域子空间嵌入到格拉斯曼流形中, 通过构建测地线核函数, 将主机与从机光谱数据集映射到一个高维流形空间, 实现数据从源域到目标域之间的迁移, 使源域与目标域共享特征。 此外, 在数据迁移中, 波段优选可以通过数据降维提高模型精度。 波段优选方法既要表征待测样本特征, 且不同平台的优选波段偏差不能过大[20]。 稳定一致波长优选方法(screening wavelengths with consistent and stable signals, SWCSS)是由Ni L等人提出的一种光谱波段优选方法[21], 通过计算主机与从机采集的两组光谱差, 优选出具有一致性和稳定性的光谱波段。

以落叶松(Larix gmelinii(Rupr.))板材抗弯强度预测为研究对象, 分别应用One-chip微型集成光纤光谱仪和NIRQuest512光谱仪采集落叶松试材的近红外光谱, 使用预处理与PDS模型迁移方法处理不同光谱仪平台采集的原始光谱后, 将GFK-SVM迁移模型引入近红外校准转移中, 结合SWCSS特征提取方法构建SWCSS-GFK-SVM落叶松板材力学性能检测迁移模型, 解决主机模型与从机的适配问题。

1 实验部分
1.1 材料与仪器

选用落叶松作为试件。 试件取自黑龙江省伊春市清水河林场, 地理位置东经128° 01', 北纬42° 30', 海拔600~700 m之间, 在林场伐倒样木并标记样木生长方向, 在每株树的胸高往上截取长度为1或2 m的木段, 气干后锯解, 加工成力学实验试件。 按照木材物理力学性质试验方法《GB1927~1943— 2009》加工试件, 在温度25 ℃左右, 湿度恒定的条件下, 分别使用One-chip光谱仪与NIRQuest512光谱仪采集试件光谱。 One-chip光谱仪采集光谱数据集设为从机光谱, NIRQuest512光谱仪采集光谱数据集设为主机光谱。 光谱仪主机与从机参数表如表1所示。

表1 光谱仪平台参数对比 Table 1 A comparison of spectrometer equipment parameters

参照国家标准《木材抗弯强度试验方法》(GB 1936.1— 2009)、 《木材抗弯强度测定方法》(GB 1936.2— 2009)中的测试步骤及规范, 加工制备了200组落叶松板材试件样本, 并对板材试件进行编号, 按照编号使用万能力学性能试验机测定落叶松试件无疵试样的抗弯强度, 用两个光谱仪分别采集光谱得到试件的主机光谱以及从机光谱。

1.2 近红外光谱采集

主、 从两个光谱仪采集得到的近红外光谱如图1与图2所示, 由于两个光谱仪波长范围不一致, 且从机光谱仪受杂散光、 光谱背景与基线漂移干扰严重, 所以采用SNV、 SG等预处理方法对光谱进行降噪与去趋势处理[22], 去除基线漂移和背景的干扰, 区分重叠峰, 提高分辨率和灵敏度。 然后, 裁剪从机光谱波长, 实现两个光谱仪波段范围统一。 因为两设备测得的光谱差异大, 直接使用GFK-SVM方法建立的全局模型准确率低, 所以从机光谱经PDS校准后, 再使用GFK-SVM方法构建转移模型, 以提高模型预测精度。

图1 主设备原始光谱Fig.1 Spectra of master instrument

图2 从设备原始光谱Fig.2 Spectra of slave instrument

1.3 SWCSS-GFK-SVM方法

设SDPDS为试件主机光谱标准差, SDDSI为主光谱和从光谱之间的偏差, 筛选出SDPDS与SDDSI比值较高的波段。 SDDSI与SDPDS由式(1)与式(2)表示

SDPDS(j)=i=1n(Xij-X-j)2/n-1(1)

式(1)中, X-j为主光谱中所有数据第j个波段的均值, Xij为第i个样本的第j个波段的值。

SDDSI(j)=i=1m(Aij-A-j)2/m-1(2)

式(2)中, Aij为主光谱与从光谱在第i个样本的第j个波段的差值, A-j为第j个波段差值的均值。

bj可表示为

bj=SDDSI(j)/SDPDS(j)(3)

bj理想值为1, 表示从机光谱与主机光谱偏差与主机光谱标准差值相同, 设置合适阈值bj对两组数据集光谱波段进行波段优选。

经SWCSS方法筛选光谱数据集特征波段个数为d, 对其正交化后得到数据D。 令经光谱筛选后的从数据集为源域, 用XS表示; 光谱筛选后的主数据集为目标域, 用XT表示。 RS为源域XS的正交补空间, 满足 RSTXS=0, 定义G(d, D)为所有D× d子空间的集合, 设源域与目标域GFK核函数为

ϕ:t[0, 1]ϕ(t)G(d, D)(4)

式(4)中, ϕ(0)=XS, ϕ(1)=XT, ϕ(t)可表示为:ϕ(t)=XSU1Γ(t)-RSU2Σ(t)

SVD分解 XTSXTRTSPT矩阵, 其中U1, U2, Γ, Σ分别由式(5)与式(6)给出

XTSXT=U1ΓVT(5)

RTSXT=-U2ΣVT(6)

此时从未经降维的原始数据集中取出两个向量xixj, GFK内核被定义为

< zi, zj> =01(ϕ(t)Txi)T(ϕ(t)Txj)dt=xTiGxTj(7)

GFK内核G最终解析式为

G=[XSU1, RSU2]Λ1Λ2Λ2Λ3UT1XTSUT2RTS(8)

Γ Σ 的主对角线元素之间满足正弦关系, 第i个元素可用sinθ i与cosθ i表示, Λ 1, Λ 2Λ 3均为对角矩阵, 对角元素值为

λ1i=1+sin(2θi)2θi(9)

λ2i=cos(2θi)-12θi(10)

λ3i=1-sin(2θi)2θi(11)

SWCSS-GFK-SVM核函数由式(12)给出

K(xi, xj)=exp-(xiS-xTj)TG(xiS-xTj)σ2(12)

式(12)中, σ 2为高斯核函数的方差; xiS为源域数据, 对应的标签为 yiS, xjT为目标域数据, 属于无标签数据。 使用式(12)的核函数构建GFK-SVM模型, 设SVs为源域中支持向量个数。 GFK-SVM模型为

f(xT* )=I=1SVsyiSαiK(xiS, xT* )+b(13)

b=1ki=1k(yiS-< ϕ(xiS, w)> )(14)

w=i=1SVsyiSαiϕ(xiS)(15)

综上所述, 使用光谱数据与力学特征数据建立改进GFKSVM迁移模型的流程如图3所示。

图3 SWCSS-GFK-SVM建模流程Fig.3 Process of SWCSS-GFK-SVM prediction model

2 结果与讨论

图4与图5为经预处理后的落叶松主机光谱和从机光谱。 主机光谱数据集中每个样本的波长范围为900~1 700 nm, 有512个光谱波段数; 从机光谱数据集每个样本的波长范围为900~1 850 nm, 有117个光谱波段。 将从光谱分割为900~1 700 nm, 以保证主机与从机波长范围一致。 图6为分割后的从光谱。

图4 使用S-G与SNV方法处理后的主光谱Fig.4 Master data treated by S-G and SNV preprocessing methods

图5 使用S-G与SNV方法处理后的从光谱Fig.5 Slave data treated by the S-G and SNV preprocessing methods

图6 预处理分割后的从光谱Fig.6 Slave data after preprocessing and segmenting

使用PDS输出的转移矩阵GPDS校正从机光谱数据集。 在应用SWCSS进行波段优选时, 当bj=0.85时, 筛选出14个近红外光谱波段。 以校正后的从机光谱为源域、 主机光谱为目标域, 对GFK-SVM模型中的Cσ 参数进行寻优, 寻优方法为网格搜索法, 图7为SVM寻优过程。 当C=820.352 6, σ =0.067 3时, GFK-SVM模型达到最优, 最优值为0.989。

图7 网格搜索方法优化SWCSS-GFK-SVM模型Fig.7 SWCSS-GFK-SVM model optimized by grid search method

利用SWCSS-GFK-SVM建立了落叶松近红外光谱校准模型。 为了验证模型的优越性, 分别使用DS方法、 PDS-GFK-SVM以及DS-SWCSS-GFK-SVM进行实验对比。 表2给出了上述5种校准模型的预测结果, 选择相关系数Rc、 均方根误差RMSEC、 预测相关系数Rp、 预测均方根误差RMSEP作为评价指标, 对所建模型结果进行比较分析。

表2 基于不同迁移模型的结果分析 Table 2 Analysis of modeling results based on different calibration transfer methods

图8— 图12分别为上述5种方法建立的校准模型的回归散点图, 图中红色圆圈表示训练集的预测值与实际值之间的拟合散点图, 蓝色星号表示测试集预测值与实际值之间的拟合散点图。 在图8对应的DS-PLS转移模型中, 首先使用DS方法校正从机光谱, 将校正后的光谱输入到以训练好的主机模型中测试预测值与实际值之间的拟合程度; PDS-PLS转移模型构建方法与DS-PLS模型类似, 只是将DS方法变更为PDS方法; 对于图12对应的PDS-GFK-GVM转移模型, 为从机光谱经PDS校正后, 使用GFK-GVM迁移模型基于主机与从机光谱数据建模得到; 图9与图11对应的转移模型则在PDS-GFK-GVM模型基础上添加一步SWCSS特征选取方法。 从5张散点图可得, PDS-SWCSS-GFK-SVM校准模型质量明显优于其他方法。

图8 DS-PLS近红外转移模型Fig.8 DS-PLS NIR calibration transfer method

图9 DS-SWCSS-GFK-GVM近红外转移模型Fig.9 DS-SWCSS-GFK-GVM NIR calibration transfer method

图10 PDS-PLS近红外转移模型Fig.10 PDS-PLS NIR calibration transfer method

图11 PDS-SWCSS-GFK-GVM近红外转移模型Fig.11 PDS-SWCSS-GFK-GVM calibration transfer

图12 PDS-GFK-GVM近红外转移模型Fig.12 PDS-GFK-GVM calibration transfer

实验结果对比表明, PDS采用滑窗技术优化了DS对数据的转移效果, PDS-PLS的预测集的相关系数Rp为0.812, 较DS-PLS的0.793有所提升; GFK-SVM的迁移模型对比PLS模型, 预测集的相关系数Rp从0.812提升到0.829, 均方根误差RMSEP从22.374降低到17.853, 说明GFK-SVM更适应数据迁移场景, 能够基于源域数据集提升所建校准模型的准确率; 使用SWCSS优化GFK-SVM迁移模型, 预测集的相关系数Rp从0.829提升到0.875, RMSEP从17.853降低到11.975, 说明SWCSS特征提取能够根据两组光谱数据集之间的差异与共性, 针对性的进行波段优选。

3 结论

针对近红外光谱仪采集光谱间的数据差异, 以落叶松的力学性能预测为研究对象, 运用One-chip与NIRQuest512两台近红外光谱仪, 研究了不同类型光谱仪间的模型泛化方法。 实验结果表明GFK-SVM迁移模型构建精确度更高的全局预测模型, 通过对从机光谱向主机光谱的非线性变换, 实现主机模型在从机光谱数据预测的泛化, 并且GFK-SVM迁移模型使用主机与从机光谱两组不同设备光谱共同构建预测模型, 较之PLS预测模型只使用主机近红外光谱建模, GFK-SVM提升了数据集的使用效率; PDS方法可以实现光谱仪光程与波段数统一, 大大提升了GFK-SVM的模型质量; 使用SWCSS方法对GFK-SVM进行改进, 保证特征选择的有效性与稳定性, 为不同设备间的迁移建模提供了一定的科学基础。

参考文献
[1] LIU Ya-na, YANG Zhong, Bin, et al(刘亚娜, 杨忠, 吕斌, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(3): 648. [本文引用:1]
[2] WANG Cheng-kun, ZHAO Peng(王承琨, 赵鹏). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2020, 39(1): 72. [本文引用:1]
[3] CHAI Yu-bo, SUN Bo-ling, LIU Jun-liang, et al(柴宇博, 孙柏玲, 刘君良, ). Scientia Silvae Sinicae(林业科学), 2014, 50(9): 124. [本文引用:1]
[4] Workman J. J. Applied Spectroscopy, 2018, 72(3): 340. [本文引用:1]
[5] Shi Yunying, Li Jingyan, Chu Xiaoli. Chinese Journal of Analytical Chemistry, 2019, 47(4): 479. [本文引用:1]
[6] ZHANG Jin, CAI Wen-sheng, SHAO Xue-guang(张进, 蔡文生, 邵学广). Progress in Chemistry(化学进展), 2017, 29(8): 902. [本文引用:1]
[7] Chen W R, Bin J, Lu H M, et al. Analyst, 2016, 141(6): 1973. [本文引用:1]
[8] Greensill C V, Wolfs P J, Spiegelman C H, et al. Applied Spectroscopy, 2001, 55(5): 647. [本文引用:1]
[9] Pu Y Y, Sun D W, Riccioli C, et al. Food Analytical Methods, 2018, 11(4): 1021. [本文引用:1]
[10] Qin Y, Gong H. Infrared Physics & Technology, 2016, 77: 239. [本文引用:1]
[11] Luoma P, Natschläger T, Malli B, et al. Analytica Chimica Acta, 2018, 1007: 10. [本文引用:1]
[12] Fernand ez L, Guney S, Gutierrez-Galvez A, et al. Sensors and Actuators B: Chemical, 2016, 231: 276. [本文引用:1]
[13] Zhang F, Zhang R, Ge J, et al. Analytical Methods, 2018, 10(18): 2169. [本文引用:1]
[14] Workman J J. Applied Spectroscopy, 2018, 72(3): 340. [本文引用:1]
[15] Chen Y, Wang Z. Chemometrics and Intelligent Laboratory Systems, 2019, 192: 103824. [本文引用:1]
[16] Poerio D V, Brown S D. Applied Spectroscopy, 2018, 72(3): 378. [本文引用:1]
[17] Yu B, Ji H. Analytical Methods, 2015, 7(6): 2714. [本文引用:1]
[18] ZHUANG Fu-zhen, LUO Ping, HE Qing, et al(庄福振, 罗平, 何清, ). Journal of Sofeware(软件学报), 2015, 26(1): 26. [本文引用:1]
[19] Gong B, Shi Y, Sha F, et al. Geodesic Flow Kernel for Unsupervised Domain Adaptation. 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012, 2066. [本文引用:1]
[20] Ni L, Han M, Luan S, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 206: 350. [本文引用:1]
[21] NI Li-jun, HAN Ming-yue, ZHANG Li-guo, et al(倪力军, 韩明月, 张立国, ). Chinese Journal of Analytical Chemistry(分析化学), 2018, 46(10): 1660. [本文引用:1]
[22] Teye E, Anyidoho E, Agbemafle R, et al. Infrared Physics & Technology, 2020, 104: 103127. [本文引用:1]