基于太赫兹时域光谱技术的红木分类识别
王远1,2, 折帅1,2, 周南3, 贾培兴1,2, 张军国1,2,*
1. 北京林业大学工学院, 北京 100083
2. 林业装备与自动化国家林业和草原局重点实验室, 北京 100083
3. 天津大学, 精密测试技术及仪器国家重点实验室, 天津 300072
*通讯联系人 e-mail: zhangjunguo@bjfu.edu.cn

作者简介: 王 远, 1987年生, 北京林业大学工学院讲师 e-mail: wangyuan@bjfu.edu.cn

摘要

提出了一种利用太赫兹时域光谱技术(THz-TDS)进行红木分类识别方法。 红木价格昂贵, 同时由于种类繁多难以识别, 导致红木市场以次充好, 以假乱真的现象层出不穷, 严重扰乱了市场秩序, 给生产者和消费者造成巨大的经济损失, 传统的红木分类识别方法难以兼顾准确性和快速性, 因此需要研究一种新的方法对现有木材分类识别方法进行补充和发展。 相比于传统方法, 太赫兹波对红木具有良好的穿透性及指纹特性, 在红木的分类识别中有较大的应用潜力。 选用5种红木(巴里黄檀、 奥氏黄檀、 大叶紫檀、 小叶紫檀、 交趾黄檀)作为试验样品木材。 利用THz-TDS系统得到木材的太赫兹时域光谱, 通过对五种木材的太赫兹时域光谱进行快速傅里叶变换, 得到木材太赫兹频域光谱, 并对太赫兹时域光谱提取光学参数, 分别得到木材的太赫兹折射率谱和吸收系数谱, 结果表明不同种类的木材在时域光谱上具有时间延迟线与振幅的差异, 在频域光谱上显示衰减趋势及幅值各不相同, 在吸收系数谱中各种类红木吸收峰出现的频段不同, 能够直观地展示出各种类木材之间的区别, 表明THz-TDS进行红木分类识别具有一定的可行性。 利用连续投影算法(SPA)提取吸收系数谱和折射率谱的特征频率, 对吸收系数谱260个频率点筛选出28个特征频率点, 频段占比10.77%; 对折射率谱260个频率点筛选出12个特征频率点, 频段占比4.62%。 分别建立基于吸收系数谱和折射率谱的随机森林分类模型和支持向量机(SVM)红木分类模型, 并对各模型分类结果进行对比。 实验结果表明, THz-TDS具有良好的木材识别效果, 基于木材太赫兹吸收系数谱和折射率谱建立的随机森林分类模型对红木种类有着较好的分类性能, 总体分类准确率分别达到了94%和96%, 能够准确对红木种类进行分类识别。 利用太赫兹时域光谱技术实现了红木的分类识别, 为红木的分类识别提供了一个新的思路和技术方案, 能够作为近红外光谱木材检测方法的补充, 同时为太赫兹技术在木材分类识别领域的应用提供了理论基础。

关键词: 太赫兹时域光谱; 连续投影算法; 随机森林; 红木; 支持向量机
中图分类号:O433.4 文献标志码:A
Classification of Terahertz Rosewood Based on Continuous Projection Algorithm and Random Forest
WANG Yuan1,2, SHE Shuai1,2, ZHOU Nan3, JIA Pei-xing1,2, ZHANG Jun-guo1,2,*
1. School of Technology, Beijing Forestry University, Beijing 100083, China
2. Key Lab of State Forestry and Grassland Administration for Forestry Equipment and Automation, Beijing 100083, China
3. State Key Laboratory of Precision Measurement Technology and Instrument, Tianjin University, Tianjin 300072, China
*Corresponding author
Abstract

This paper proposes a method to classify and recognize redwood using Terahertz time-domain spectroscopy (THz-TDS). Redwood is expensive and difficult to identify which leads to a shoddy market. The phenomenon disrupts the market order and causes huge economic losses to producers and consumers. The traditional methods of identifying redwood are difficult to give consideration to both accuracy and rapidity, therefore it is necessary to put forward a new method to supplement the traditional classification methods. Compared with the traditional methods, terahertz wave has good penetrability and fingerprint characteristics for redwood, and has great application potential in classification and identification of redwood. In this paper, five kinds of redwood (Dalbergia bariensis, Dalbergia oliveri, Bois de rose, Pterocarpus santalinus, Dalbergia cochinchinensis) are selected as test samples. The THz-TDS system is used to obtain the terahertz time-domain spectrum of wood; the terahertz frequency domain spectrum is obtained by fast Fourier transform of the terahertz time-domain spectrum of five woods, the optical parameters of the terahertz time-domain spectrum are extracted. The results show that different types of wood have time delay line and amplitude difference in time domain spectrum, the attenuation trend and amplitude are different in frequency domain spectrum, the bands of various types of redwood absorption peaks appear differently in the absorption coefficient spectrum, which all can show the differences between various types of wood, indicating that THz-TDS has feasibility for classification of redwood. The successive projections algorithm (SPA) is used to extract the characteristic frequency of the absorption coefficient spectrum and the refractive index spectrum. 28 characteristic frequency points are selected from the 260 frequency points of the absorption coefficient spectrum and the frequency band accounts for 10.77%; 12 characteristic frequency points are selected from 260 frequencies of the refractive index spectrum, and the frequency band accounts for 4.62%. A random forest classification model and a support vector classification model based on the absorption coefficient spectrum and the refractive index spectrum are established and compared. The results show that THz-TDS has great quality to recognize wood. A random forest classification model based on absorption coefficient spectrum and refractive index spectrum shows good classification performance for redwood species and the accuracy rate of classification is 94% and 96% which can show that they can classify and identify redwood species correctly. THz-TDS technique is used to classify and identify mahogany, which provides a new idea and technical scheme for the classification and identification of mahogany therefore it can be used as a supplement to the near-infrared spectrum wood detection method. This method also provides a theoretical basis to apply terahertz technology in the field of wood classification and identification.

Keyword: Terahertz time-domain spectroscopy system (THz-TDS); SPA; Random forest; Mahogany; SVM
引 言

交趾黄檀木材材质优异, 是制作红木家具的上等材料, 被人们称为“ 老红木” , 具有很高的市场价值; 巴里黄檀与奥氏黄檀也是黄檀属, 虽然外观与交趾黄檀接近, 但其材质与价值与交趾黄檀相差甚远, 价格只有交趾黄檀的1/4, 因此被部分不法商家用来冒充交趾黄檀制作家具工艺品从而牟取暴利。 小叶紫檀属于紫檀的一种, 十分名贵, 被誉为“ 木中之王” , 市场价值很高; 大叶紫檀通常是卢氏黑黄檀的俗称, 属于黄檀的一种, 由于大叶紫檀在外观上与小叶紫檀相近, 二者很容易被人们混淆。 因此红木的分类识别对于红木市场的规范有着重要的意义。

太赫兹技术的发展为红木种类识别提供了新的方法, 相比于传统的近红外光谱, THz辐射对于木材的穿透性更强, 木材在THz吸收系数谱中特征更加明显, 对于不同种类的木材区分度较好。 由于太赫兹在电磁波谱位置中的特殊性, 相比其他波谱, 太赫兹有着许多独特性质[1]。 近年来, 太赫兹技术被应用于到生物药材检测、 医学诊断、 材料科学、 石油检测等多个领域[2]。 在石油检测方面, 利用太赫兹技术对材料提取光学参数能够对不同时间热氧化汽油进行分辨[3]; 在生物药材检测方面, 利用太赫兹光谱结合化学计量学算法能够实现药材毒性的鉴定及检测[4]; 在生物分子鉴别领域太赫兹技术也有良好的效果[5]。 在木材方面, 利用太赫兹光谱技术能够对木材太赫兹双折射特性与木材含水率之间的关联性进行研究[6], 利用太赫兹成像技术能够测量木材干燥过程中的含水量分布[7]。 而目前太赫兹技术在木材的种类识别方面应用几乎空白, 经大量文献查阅发现, 仅桂林电子科技大学的张文涛等利用太赫兹时域光谱技术进行了相关研究[8], 针对两种红木(檀香紫檀、 交趾黄檀)与2种非红木(虎斑木、 降真香), 利用主成分分析(principal component analysis, PCA)方法结合随机森林模型, 实现了对红木与非红木的区分, 但没有对红木和非红木具体种类的分类识别。

本工作对不同种类红木的太赫兹时域光谱与太赫兹频域光谱进行了分析, 提取吸收系数谱和折射率谱, 并且利用连续投影算法对木材的折射率谱和吸收系数谱进行了特征提取, 利用提取到的特征频率光谱数据训练随机森林和支持向量机(support vector machine, SVM)红木分类器, 对比了两种分类器对红木的分类识别效果, 提出了一种基于太赫兹技术的红木分类识别方法, 能够作为传统电磁波谱木材分类识别方法的补充。

1 实验部分
1.1 样品制备

采集了5种红木, 分别是巴里黄檀、 奥氏黄檀、 大叶紫檀、 小叶紫檀、 交趾黄檀。 每种木材制备了30块大小为50 mm× 30 mm× 5 mm的木材样本, 共计150个样品。 所有木材样品在实验前被置于温度20 ℃, 湿度22%RH的室温环境下, 确保木材样品含水率在同一范围内。

1.2 太赫兹时域光谱获取

利用天津大学精密测试技术及仪器国家重点实验室的太赫兹时域光谱(Terahertz time-domain spectroscopy, THz-TDS)系统(其结构如图1所示)采集得到木材的太赫兹时域光谱数据。

将木材样品放置在THz-TDS系统的抛物面镜PM2和PM3的公共焦点上, 样品的透射光谱可以通过扫描操作获得, 在扫描木材样品之前测量一组自由空间的时域光谱作为参考光谱。 实验期间, 相对湿度为22.6%RH, 温度为19 ℃。 采样间隔为26 fs, 采样长度为80 ps。

图1 THz-TDS系统框图Fig.1 THz-TDS system block diagram

2 结果与讨论
2.1 太赫兹时域光谱数据分析

通过实验获取木材样品的太赫兹时域光谱与参考信号时域光谱, 如图2所示。 为了消除由设备精度和空气中的水蒸气等因素引起的数据测量误差以及由THz波的反射和折射引起的振荡, 对木材太赫兹时域光谱数据进行加窗截取。

图2 5种木材的太赫兹时域光谱波形Fig.2 Terahertz time domain spectral waveforms of five woods

样品木材的太赫兹时域光谱与参考光谱相比在时间上有一定的延迟以及波谱的强度下降。 五种红木的时间延迟线集中在60~70 ps范围内, 其中巴里黄檀与小叶紫檀的太赫兹时域波形时延较为相近, 巴里黄檀时延主峰在66.58 ps, 振幅为0.57 pA, 小叶紫檀主峰在66.48 ps, 振幅为0.72 pA; 其次为交趾黄檀的主峰在65.05 ps, 振幅为0.78 pA; 大叶紫檀的主峰在63.80 ps, 振幅为0.72 pA; 奥氏黄檀时延最小, 主峰在61.12 ps, 振幅为1.17 pA。

利用傅里叶变换得到了木材样品太赫兹频域光谱, 如图3所示。 由于0~0.2 THz波段和1.5 THz后有明显的设备噪声导致光谱数据可信度较低, 因此选择0.2~1.5 THz频段中的数据进行处理和分析。 从太赫兹频谱图中, 可以看到5种红木样品的频谱波形趋势较为相近, 强度有着微小的差异。

木材样品的太赫兹时域波形在时域中显示出不同的时间延迟和强度的衰减, 而外观特征相近的红木在太赫兹时域光谱有着时延和强度上的较大差距; 在频域上木材样品的太赫兹波形进一步显示了各类木材样品的幅频特性。 经分析表明太赫兹波对于红木种类的识别具有一定的可行性。

图3 5种木材的太赫兹频域光谱波形Fig.3 Terahertz frequency domain spectral waveforms of five woods

2.2 太赫兹光学参数提取及SPA特征频段筛选

根据Dorney和Duvillaret提出的太赫兹时域光谱技术提取光学常数的模型, 可计算得到基于太赫兹频率的吸收系数和折射率谱。

利用复折射率来描述样品的宏观光学性质

n˙=n-ik(1)

其中 n˙为复折射率, n为实折射率, 用来描述样品的色散特性; k为消光系数, 用于描述样品的吸收特性。

得到太赫兹光谱折射率表达式为

n(ω)=φ(ω)cωd+1(2)

吸收系数表达式为

α(ω)=2dln4n(ω)ρ(ω)[n(ω)+1]2(3)

其中n(ω )为折射率实部, α (ω )为吸收系数, d为样品厚度, c为太赫兹波在真空中传播的速度, ω 为角频率, ρ (ω )和φ (ω )分别为样品信号和参考信号的振幅比和相位差。

太赫兹光谱不仅包含被测木材的成分和结构信息, 还包含噪声、 背景信息等系统干扰, 使得太赫兹光谱信息复杂。 在某些情况下, 甚至可以湮没有用的信息, 极大地影响了识别模型的准确性。 为了尽可能地去除光谱中的重叠信息, 对光谱数据进行特征提取是必不可少的一个步骤。 连续投影算法(successive projections algorithm, SPA)是一种使矢量空间共线性最小化的前向变量选择算法, 能够有效消除众多波长变量之间的共线性影响, 降低模型的复杂度[10], 并且应用简便、 计算快速, 多被应用于近红外光谱特征波长选择, 在本研究中利用SPA对150个红木样品的太赫兹吸收系数谱和折射率谱特征频段进行筛选提取。

通过式(2)和式(3)分别计算得到五种红木的折射率谱与吸收系数谱, 并利用SPA分别对其进特征频率筛选。

在吸收系数谱中, 不同种类的红木吸收峰出现的频段不同, 并且吸收强度各有差别。 利用SPA对吸收系数谱进行特征频率筛选, 从260个频率点筛选出28个特征频率点, 占所有频段的10.77%, 如图4所示, 计算得到其均方根误差为0.138 3。

图4 连续投影算法提取吸收系数谱特征频率点Fig.4 Absorption coefficient spectrum SPA extracts characteristic frequency points

在折射率谱中, 不同种类的红木对太赫兹波的折射强度各有差别。 5种红木的折射率波形趋势大致相似, 其中巴里黄檀与奥氏黄檀的折射率强度相近, 小叶紫檀与大叶紫檀的折射率强度相近, 交趾黄檀的折射率强度位于四种红木折射率中间。 SPA对折射率谱260个频率点筛选出12个特征频率点, 占所有频段4.62%, 如图5所示, 计算得到其均方根误差为0.122 3。

图5 连续投影算法提取折射率谱特征频率点Fig.5 Refractive index spectrum SPA extracts characteristic frequency points

2.3 分类建模

利用SPA计算得到的特征频率数据分别建立随机森林红木分类模型和SVM红木分类模型。 将每种红木的30个样品数据分成两组, 一组20个样品数据作为训练集, 另一组10个样品数据为测试集。 分别建立SVM分类模型与随机森林分类模型, 并利用训练得到的模型对测试集数据进行分类测试。

2.3.1 SVM模型

表1显示了基于4种不同核函数建立的SVM模型对红木吸收系数进行分类的准确率。 SVM模型的参数利用网格寻优法确定: C=1, g=0.128 3。 结果表明, 利用SVM对红木的吸收系数分类结果较差, 预测数据标签显示巴里黄檀、 奥氏黄檀、 大叶紫檀、 小叶紫檀四种红木大部分测试样本被分为交趾黄檀, 导致对于交趾黄檀有着较高的分类准确率, 达到80%~100%, 而对其他四种红木的分类结果只能达到0~30%。 总体分类准确度只能达到28%~34%, 分类效果较差。

表1 5种木材样品吸收系数SVM模型分类结果 Table 1 Classification results of absorption coefficient SVM model for five wood samples

表2显示了基于4种不同核函数建立的SVM模型对红木折射谱进行分类的准确率。 利用网格寻优法确定的SVM模型参数为: C=8, g=0.031 25。 对测试集数据分类结果表明, 对于巴里黄檀、 奥氏黄檀、 大叶紫檀3种红木分类准确率较高, 能达到80%~100%, 而对交趾黄檀的分类准确率较低, 达到50%~70%, 对小叶紫檀的分类准确率最低, 只有10%~40%。 总体分类准确度达到60%~74%, 分类效果仍然较差。

表2 5种木材样品折射率SVM模型分类结果 Table 2 Classification results of refractive index SVM models of five wood samples

比较4种核函数建立的SVM分类模型的准确度, 基于径向基核函数的SVM模型具有最高的准确率。 相比于利用吸收系数建立的红木SVM分类模型, 利用折射率建立的红木SVM分类模型对于五种红木的分类准确率稍高, 但整体分类效果较差。

2.3.2 随机森林模型

表3显示了利用随机森林对红木吸收系数进行分类的准确率。 结果表明, 分类模型对巴里黄檀、 大叶紫檀和小叶紫檀分类效果最好, 分类准确率达到100%; 但对奥氏黄檀与交趾黄檀的分类稍有偏差, 准确率分别为80%和90%。 整体分类准确率能达到94%, 分类效果较好。

表3 5种木材吸收系数随机森林模型分类结果 Table 3 Classification results of absorption coefficient RF model for five wood samples

表4显示了利用随机森林对红木折射率进行分类的准确率。 结果表明, 利用折射率建立的随机森林模型对巴里黄檀、 奥氏黄檀和大叶紫檀的分类效果最好, 分类准确率达到100%; 但对小叶紫檀与交趾黄檀的分类有微小的误差。 整体分类准确率能达到96%, 分类效果较好。

表4 5种木材折射率随机森林模型分类结果 Table 4 Classification results of refractive index RF models of five wood samples

对比基于折射率谱和吸收系数谱分别建立的SVM分类模型与随机森林分类模型对测试集数据的分类效果, 结果表明, 基于折射率谱建立的SPA结合随机森林分类模型分类识别效果最好, 对5种红木分类识别准确率能达到96%。

3 结 论

利用太赫兹时域光谱(THz-TDS)来对不同种类的红木进行分类识别。 结果表明, THz光谱对不同种类红木具有很高的区分度, 不同种类红木木材类型对不同频率的太赫兹波的吸收效果完全不同, 在太赫兹吸收系数谱上具有明显的区别。 因此, THz-TDS可以应用于不同树种红木的分类识别。

利用木材太赫兹时域光谱提取得到木材的太赫兹光学参数, 不同种类红木对太赫兹波的吸收强度和折射强度等能够利用木材太赫兹吸收系数谱和太赫兹折射率谱分析。 通过SPA对红木吸收系数谱和折射率谱选取特征频率数据, 并利用其分别训练随机森林红木分类模型和SVM红木分类模型。 对两种模型分类结果进行比较, 结果表明, 利用随机森林建立的红木分类模型对红木的分类准确率较高, 能够达到96%的准确率。

参考文献
[1] Wang R, Xie L, Hameed S, et al. Carbon, 2018, 132: 42. [本文引用:1]
[2] HONG Wei, YU Chao, CHEN Ji-xin, et al(洪伟, 余超, 陈继新, ). Scientia Sinica: Informationis(中国科学: 信息科学), 2016, 46(8): 1086. [本文引用:1]
[3] Méndez A M, Ali A M, Dennis W, et al. Sensors, 2018, 18(7): 2087. [本文引用:1]
[4] Zhang H, Li Z, Chen T, et al. J. Appl. Spectrosc. , 2018, 85(1): 197. [本文引用:1]
[5] Tao C, Qin Z, Zhi L, et al. Spectrochim. Acta A, 2018, 205(5): 312. [本文引用:1]
[6] Bensalem M, Sommier A, Mindeguia J C, et al. J. Infrared Millim. Te. , 2018, 39(2): 195. [本文引用:1]
[7] Zolliker P, Ruggeberg M, Valzania L, et al. IEEE T Thz. Sci. Techn. , 2017, 7(6): 722. [本文引用:1]
[8] ZHANG Wen-tao, WANG Si-yuan, ZHAN Ping-ping, et al(张文涛, 王思远, 占平平, ). Acta Optica Sinica(光学学报), 2017, (2): 341. [本文引用:1]
[9] Tang R, Chen X, Li C, et al. Appl. Spectrosc. , 2018, 72(3): 3702818755142. [本文引用:1]