一种基于激光光谱融合检测技术的废旧塑料分类方法
房家萱, 董茜文, 徐梓睿, 曲东明, 杨光*, 孙慧慧*
吉林大学仪器科学与电气工程学院, 吉林 长春 130026
*通讯作者 e-mail: yangguang_jlu@163.com; sunhuihui@jlu.edu.cn

作者简介: 房家萱, 2002年生,吉林大学仪器科学与电气工程学院硕士研究生 e-mail: fangjiaxuan_jlu@163.com

摘要

塑料是一种生活中常用的高分子聚合物, 随着废旧塑料数量的不断增加, 造成的环境污染越来越严重, 废旧塑料的分类和回收已经成为一个紧迫的问题。 不同种类塑料需要不同的回收方式, 因此研究塑料的分类方法具有重要意义。 激光诱导击穿光谱技术(LIBS)是一种以原子发射光谱为基础的元素分析技术, 具有分析快、 无需样品预处理、 原位分析等优势。 拉曼光谱技术(RS)是一种以拉曼散射理论为基础的分子结构表征分析技术, 具有多元素同时分析、 样品量要求低、 对样品损害小等优势。 将利用LIBS技术和RS技术采集塑料的原子和分子两个角度的光谱信息, 并将两个角度的光谱信息进行拼接得到融合光谱。 利用LIBS光谱、 RS光谱、 融合光谱分别结合随机森林机器学习算法(RF)构建模型, 对塑料进行分类识别, 通过对三个模型分类准确率的对比, 得出融合光谱可以提高分类准确率的结论。 在构建模型的过程中, 在相同测试集数量的情况下, 训练集数量对模型构建时间以及分类准确率都有影响, 针对不同的测试集与训练集比例进行准确率和模型构建时间的实验, 得到测试集与训练集比例1:3最合适的结论, 并达到了96%的准确率。 除了训练集的影响, 光谱数据的预处理方法对塑料融合光谱的分类准确率也有影响, 实验利用稀疏度基线估计去噪法处理融合光谱数据, 并重新构建模型, 将塑料的分类准确率提升到100%。 实验结果表明, 在测试集与训练集比例为1:3时, 融合光谱数据对比单一光谱数据在分类准确率上有明显的优势, 且经过预处理的融合光谱数据分类准确率可以提高到100%。

关键词: 激光诱导击穿光谱; 拉曼光谱; 融合光谱; 随机森林; 光谱预处理
中图分类号:O657.3 文献标志码:A
A Waste Plastic Classification Method Based on Laser Spectral Fusion Detection Technology
FANG Jia-xuan, DONG Xi-wen, XU Zi-rui, QU Dong-ming, YANG Guang*, SUN Hui-hui*
College of Instrumentation and Electrical Engineering, Jilin University, Changchun 130026, China
*Corresponding authors
Abstract

Plastic is a commonly used polymer in daily life. With the increasing amount of waste plastic, the resulting environmental pollution has become more severe, making the classification and recycling of waste plastic an urgent issue. Different types of plastics require different recycling methods, so researching plastic classification methods is of great significance. Laser-Induced Breakdown Spectroscopy (LIBS) is an elemental analysis technique based on atomic emission spectroscopy, offering advantages such as rapid analysis, no sample pretreatment required, and in-situ analysis, which provides convenience for plastic classification. Raman Spectroscopy (RS) is a molecular structure characterization technique based on Raman scattering theory, which offers advantages such as simultaneous multi-element analysis, low sample quantity requirements, and minimal sample damage, also facilitating plastic classification. This paper will utilize LIBS and RS technologies to collect spectral information from both atomic and molecular perspectives of plastics, and then merge the two types of spectral information to obtain a fused spectrum. By using LIBS spectra, RS spectra, and fused spectra in conjunction with the Random Forest machine learning algorithm (RF) to build models for plastic classification and identification, a comparison of the classification accuracy of the three models reveals that the fused spectrum can improve classification accuracy. During the model-building process, with the same number of test sets, the number of training sets affects both the model construction time and classification accuracy. Experiments were conducted on the accuracy and model construction time for different ratios of test sets to training sets, concluding that a ratio of 1:3 is the most suitable, achieving an accuracy of 96%. In addition to the impact of the training set, the preprocessing methods of spectral data also affect the classification accuracy of the plastic fusion spectrum. The experiment-employed a sparsity-based baseline estimation denoising method to process the fusion spectral data and rebuild the model, thereby increasing the classification accuracy of plastics to 100%. The experimental results indicate that when the ratio of the test set to the training set is 1:3, the fused spectral data has a significant advantage in classification accuracy compared to single spectral data. The classification accuracy of the preprocessed fused spectral data can be improved to 100%.

Keyword: Laser-induced breakdown spectroscopy; Raman spectroscopy; Fusion spectroscopy; Random forest; Spectral pretreatment
引言

塑料是一种在日常生活中应用广泛且可塑性极高的高分子聚合物。 传统的废旧塑料处理方法多为焚烧和掩埋, 随着废旧塑料数量的不断增加, 造成的环境污染越来越严重, 废旧塑料的分类和回收已经成为一个紧迫的问题[1]。 不同种类的废旧塑料有不同的回收方式, 对废旧塑料进行回收首先要对其进行分类。 常用的塑料样品分类方法有人工分类法[2]、 近红外光谱法[3]及X 射线衍射法[4]等。 但是, 人工分类方法存在效率低、 成本高及可靠性差的缺点; 近红外光谱法的分类精度受样品颜色的影响较大, 进而影响近红外光谱的测量结果; X射线衍射法对样品的要求较高, 需要制备高质量的样品才能得到准确的测量结果, 且会对操作人员的身体健康造成威胁。

激光诱导击穿光谱(LIBS)是一种以原子发射光谱为基础的元素分析技术, 理论上能够对元素周期表中的所有元素进行定性、 半定量和定量分析[5]。 它具有多元素同时分析、 无需样品复杂预处理、 检测速度快、 对样品损害小、 不受塑料颜色影响、 不存在辐射等优势[6], 使得其在塑料化学分析中的应用尤为广泛, 在塑料分类回收领域具有代表性的研究包括: Liu[7]等提出了一种利用变量重要性选择输入变量的PLS-DA扩展算法(VI-PLS-DA)对塑料进行了分类, 避免了过拟合现象并获得稳定的结果。 刘俊安等[8]用主成分分析(PCA)结合支持向量机(SVM)辅助激光诱导击穿光谱对20种塑料进行快速识别, 使用25 000多个特征的光谱数据, 分类识别准确率达到99%以上。 上述实验研究均对塑料样品的分类效果较好, 但样品特征较多, 支持向量机(SVM)中的参数选择对算法的性能有很大影响, 且易受平台噪声的影响。

拉曼光谱技术(RS)是一种以拉曼散射理论为基础的分子结构表征分析技术, 是光学计量技术中一项突出的分析技术, 理论上可以对所有的有机物、 无机物、 高分子及其混合物进行检测[9, 10]。 它具有无需样品复杂预处理、 样品量要求低、 环境友好性、 检测速度快、 检测范围广、 无损检测、 不存在辐射等优势[11], 使得其在高分子聚合物分析化学中的应用尤为广泛, 如塑料成分分析领域, Yang等[12]比较了基于3种机器学习算法的塑料分类预测模型, 发现这三种机器学习算法都能够较好地对11种塑料进行分类, 表明拉曼光谱与机器学习的结合在塑料快速无损分类中具有巨大的潜力, Qin等[13]采用线性判别分析(LDA)、 决策树(DT)、 支持向量机(SVM)和一维卷积神经网络(1D-CNN)4种机器学习算法对8种家用塑料拉曼光谱数据进行分类和识别, 其中使用1D-CNN模型分类家用塑料的准确率达到97%。

LIBS和RS在针对塑料的分类上都有效果较好的应用情况, Neo等[14]结合了红外线分光镜、 拉曼光谱学和激光诱导击穿光谱等无损光谱方法, 总结了学者们使用的不同化学计量工具, 如Musu[15]等使用RS光谱结合主成分分析(PCA)和支持向量机(SVM)针对三种塑料达到95%的分类准确率、 Junjuri[16]等使用LIBS光谱结合偏最小二乘判别法(PLS-DA)对10种塑料达到93%的分类准确率, 得出化学计量学结合非破坏性光谱方法显示出良好分选塑料潜力的结论。 LIBS是从原子角度对物质进行分析, RS是从分子角度进行分析, 由于塑料是一种高分子聚合物, 不同种类塑料的分子结构不同、 元素含量也可能存在差异, 因此从原子和分子两个角度对塑料进行分类识别, 来提高分类准确率。 同时, 机器学习方法和LIBS技术相结合可以显著的提高物质分类识别和定量分析的准确性[17], 随机森林(Random Forest, RF)算法具有训练速度快, 可以评估各个特征在分类问题上的重要性的优势, 针对上述LIBS和RS的特点, 本文将两种光谱分析方法融合, 使用随机森林(RF)算法对生活废弃塑料样品进行分析。

1 实验部分
1.1 装置

LIBS实验装置中, 激光器使用的是Litron(英国)研发的Nd:YAG NANO SG 120-10激光器, 其输出的激光波长为1 064 nm, 脉冲宽度为8 ns。 激光束通过反射镜和焦距为71 mm 的平凸透镜聚焦在三维样品台上的样品表面。 光导纤维与激光束夹角为45° , 用于接收和传输信号。 光谱仪采用Avantes(荷兰)研发的Ava Spec-ULSi2048光谱仪, 包含三个检测通道, 第一个通道的光谱检测范围为200~320 nm(分辨率: 0.1 nm), 第二个通道的检测范围为320~420 nm(分辨率: 0.1 nm), 第三个通道检测范围为420~940 nm(分辨率: 0.5 nm)。 自主研发的延时/脉冲发生器用于协调激光器与光谱仪开始工作的时间间隔。 实验中, 光谱采集的频率为1 Hz, 积分时间为1.2 ms, 单次脉冲能量为100 mJ, 延时时间为1.41 μ s时, 韧致辐射对采集光谱的影响最小, 采集到的光谱信号最佳。

RS实验装置中, 使用长春新产业光电有限公司生产的MDL-III-785-Lock型号激光器作为激光源; 使用Avantes(荷兰)生产的型号为AvaSpec-ULS2048LTEC-USB2的光谱仪, 波长范围785~1 080 nm, 分辨率0.3 nm; 使用Thorlabs的机械组件和长春新产业光电有限公司生产的RPB-785拉曼探头作为信号传输光路和采集光路, 实验中, 激光器功率为405 mW, 光谱采集的积分时间为10 s, 采集到的光谱信号最佳。

将两个实验装置整合在同一个样品台上, 第一次采集后进行平移, 平移距离为两套光路焦点的间距, 平移后可以进行同一样品点的第二次采集, 融合光谱实验装置如图1所示。

图1 实验系统结构图Fig.1 Experimental system structure diagram

1.2 样品

实验样品为10种生活中的常用塑料, 其中丙烯腈-丁二烯-苯乙烯(ABS)、 聚四氟乙烯(PTFE)、 聚氯乙烯(PVC)为纯白色塑料样品, 聚乙烯(PE)、 聚甲醛(POM)、 聚丙烯(PP)为乳白色塑料样品, 聚碳酸酯(PC)、 聚苯乙烯(PS)、 有机玻璃(PMMA)为透明塑料样品, 聚氨基甲酸酯(PU)为淡黄色塑料样品, 10种塑料样品实物图如图2所示。

图2 样品实物图(灰色背景)Fig.2 Sample physical picture (grey background)

10种样品的详细信息如表1所示。

表1 塑料样品信息 Table 1 Information of plastic samples
1.3 数学模型

随机森林是一种包含很多决策树的分类器, 是通过集成学习的Bagging思想将多棵树集成的一种算法, 它的基本单元就是决策树。 决策树的构建包括两个部分: 样本和特征。 要将一个输入样本进行分类, 就需要将它输入到每棵树中进行分类。 将若干个弱分类器的分类结果进行投票选择, 从而组成一个强分类器, 随机森林的示意图如图3所示, 主要参数中决策树的个数为对原始数据集进行有放回抽样生成的子数据集个数, 最小叶子数为叶子节点含有的最少样本。 本实验采用的决策树数目为10, 最小叶子数为1。

图3 随机森林示意图Fig.3 The diagram of random forest

1.4 分类模型评价指标

常用来评价分类模型的方法有混淆矩阵、 ROC曲线、 AUC面积[18], 采用的评价方法为混淆矩阵。 混淆矩阵也称为误差矩阵, 本质上是由分类正确数与错误数组成的表格。 如图4所示, 以二分类问题为例, 模型判断样本的结果为Positive或Negative, 称为预测值。 根据实际情况可以获得样本的Positive和Negative, 称为真实值。 预测值与真实值进行对比, 可以得到四个指标: True Positive(TP)、 False Negative (FN)、 False Positive (FP)和True Negative (TN)。 本文中, 我们通过利用混淆矩阵对准确率进行计算, 评价训练模型的预测结果, 准确率越高, 建立的模型识别性能越好。

图4 二分类问题混淆矩阵示意图Fig.4 The confusion matrix of dichotomous problem

2 结果与讨论
2.1 光谱数据集的建立

对每种塑料样品的任意10个表面不重叠位置, 分别采集30次得到30组数据, 将每个采样位置的30组数据中每5组数据进行平均, 得到的每个采样位置共有6组数据, 即每种塑料的LIBS光谱和RS光谱都有60(10× 6)组初始光谱数据。 将一组LIBS光谱数据拼接上一组RS光谱数据得到一组融合光谱数据。 为保证融合光谱和原始光谱数据长度的一致性, 将原始光谱与融合光谱的非重叠部分进行赋0处理。 采集到的10类塑料样品的融合光谱图如图5所示, 其中横坐标为采样点顺序, 1~6 144采样点区间数据为LIBS光谱数据, 6 145~8 166采样点区间数据为RS光谱数据。

图5 塑料样品的融合光谱全谱图Fig.5 The full spectrum of fusion spectra of plastic samples

如图5所示的光谱全谱图, 蓝色线为LIBS光谱图, 红色线为RS光谱图, 通过单一光谱可以观察到, 标号为1、 2、 8的LIBS光谱特征相似、 标号为10的LIBS特征峰较多, 标号为1、 2、 3、 4、 5的RS光谱相似, 而结合两个光谱可以观察到每种样品的差异是比较明显的。

在建立数据集时, 从每种塑料样品10个采样位置中随机选择5个采样位置, 每种样品分别得到30组LIBS光谱数据、 RS光谱数据、 融合光谱数据。 10种样品共有300组LIBS光谱数据、 300组RS光谱数据、 300组融合光谱数据用于塑料样品分类研究。

测试集: 每种样品随机取5组数据, 10种样品共有50组LIBS光谱数据、 50组RS光谱数据、 50组融合光谱数据;

训练集: 数据集的其余250组LIBS光谱数据、 250组RS光谱数据、 250组融合光谱数据。

2.2 融合光谱对塑料识别的影响

使用上面得到的训练集, 每种样品随机选择15组数据, 共150组数据作为本次的训练集, 并对三种光谱数据分别建立RF模型, 使用各个模型对50组测试集数据进行评估。

单LIBS光谱数据的RF-LIBS模型的预测结果如图6所示, 正确分类37组光谱数据, 准确率为74%。 单RS光谱数据的RF-RS模型的预测结果如图7所示, 正确分类37组光谱数据, 准确率为74%。 融合光谱数据的RF-MIX模型的预测结果如图8所示, 正确分类48组光谱数据, 准确率达到96%。

图6 RF-LIBS模型预测结果Fig.6 The prediction results of RF-LIBS

图7 RF-RS模型预测结果Fig.7 The prediction results of RF-RS

图8 RF-MIX模型预测结果Fig.8 The prediction results of RF-MIX

三个模型的预测结果如表2所示, 通过比较三种模型, RF-MIX模型对塑料种类的分类准确率最高, 在塑料种类识别方面性能最优。 结合了两个维度的信息, 首先能增强各个光谱图的差异性, 其次可以给分类模型构建提供更多的决策树分裂特征的选择, 基于以上两个原因, 将LIBS光谱数据和RS光谱数据衔接在一起可以增多数据特征量、 拓宽信息来源维度, 因此提高了分类的准确率。 结果表明, LIBS与RS融合光谱检测方法可以用于对不同种类的塑料的分类研究, 从准确率上可以得出融合光谱检测较单一光谱检测有明显优势。

表2 不同模型的分类结果 Table 2 The predicted results
2.3 测试集和训练集比例对塑料识别的影响

使用2.1建立的训练集数据, 每种样品25组数据, 每种样品分别取5组、 10组、 15组、 20 组、 25组作为训练集建立模型, 即测试集与训练集的比例分别为1:1、 1:2、 1:3、 1:4、 1:5, 对融合光谱数据的测试结果如图9所示。

图9 不同比例的准确率Fig.9 The accuracy of different ratios

不同数量的训练集建立模型需要的时间不同, 对五个不同数量的数据所建立模型的过程分别进行计时, 得到了结果如图10所示。

图10 不同比例的模型训练时间Fig.10 Different scales of model training time

根据不同比例的测试结果分析, 在测试集与训练集比例为1:3时, 准确率已经达到了95%以上。 随着比例的增加, 在测试集与训练集比例为1:4时, 准确率达到了98%最高点, 在测试集与训练集比例提升到1:5时, 准确率从1:4的98%下降到和比例1:3相同的96%, 所以对测试集与训练集比例1:3、 1:4进一步分析。

在测试集与训练集比例1:3、 1:4之间有两个因素需要考量, 第一个因素是合理的样本数量可以降低采集数据时间, 由于RS光谱数据采集需要时间较长, 所以采集较少的光谱数据可以降低数据采集时间, 第二个因素是合理的训练集数量可以降低模型训练的时间, 通过图10可以观察到测试集与训练集比例1:2到1:3的模型训练时间变化, 相对于测试集与训练集比例1:3到1:4的模型训练时间变化较小, 综合以上因素认为测试集与训练集比例为1:3较恰当。

2.4 预处理对塑料识别的影响

在实际测量中, 光谱信号常常受到各种噪声和干扰的影响, 导致信号质量下降。 选择合适的预处理方法能够有效地去除这些噪声和干扰, 还原真实的信号特征, 从而提高光谱数据的可靠性和准确性, 这对于后续的数据处理、 分析和物质成分识别至关重要。 目前, 常用的光谱数据的处理方法包括基线矫正、 平滑、 归一化和多元散射校正(multiplicative scatter correction, MSC)[19]等方法, 可以提高分类准确率。

实验中, 先将光谱数据中强度值小于0的异常值全部由0代替后, 使用稀疏度基线估计去噪法(baseline estimation and denoising with sparsity, BEADS)对光谱数据进行处理。 稀疏度基线估计去噪法(BEADS)基于稀疏表示理论, 假设信号或图像由基线和噪声组成, 其中基线是稀疏的。 利用这个假设, 通过稀疏表示方法估计和去除基线, 从而达到去噪的目的。 主要适用于信号处理和图像处理等领域, 特别是在色谱分析、 光谱分析等场景中有着广泛的应用。

以测试集和训练集比例1:3为例, 将预处理后的融合光谱数据重新构建RF-MIX模型, 使用RF算法进行测试, 得到如图11所示的混淆矩阵结果。

图11 预处理后的测试结果Fig.11 The test results after pretreatment

LIBS技术与RS技术结合, 采集的融合光谱结合RF算法对不同种类的塑料进行识别, 由图11可知经过预处理后, 分类精度可达到100%。 实验结果表明, 经预处理后的融合光谱数据能够提升塑料分类效果的影响, 实验所建立的模型对不同种类的塑料样品可以进行效果较好的分类。

3 结论

使用LIBS技术与RS技术联用, 得到数据合成融合光谱, 结合RF机器学习算法对10个塑料样品进行分类识别。 对比单一LIBS技术、 单一RS技术和融合光谱技术结合RF算法建立模型对塑料样品进行识别, 分别获得74%、 74%和96%的准确率, 实验结果表明, 融合光谱技术对塑料的分类识别有优越性。 以融合光谱技术为主, 针对不同测试集和训练集的比例进行测试, 得到1:3比例最为合适的结论后, 对光谱数据进行优化, 利用预处理的融合光谱数据建立了新的RF的模型, 验证集样品的分类精度达到100%, 结果表明, 该方法可以很好的用于常见塑料样品的分类。

参考文献
[1] Lin Kunsen, Zhao Youcai, Zhang Meilan, et al. Journal of Industrial Ecology, 2023, 27(1): 170. [本文引用:1]
[2] Kerdlap P, Purnama A R, Low J S C, et al. Journal of Industrial Ecology, 2023, 27(1): 297. [本文引用:1]
[3] Wu Xiaoyu, Li Jia, Yao Linpeng, et al. Journal of Cleaner Production, 2020, 246: 118732. [本文引用:1]
[4] Aidene S, Semenov V, Kirsanov D, et al. Measurement, 2020, 172: 108888. [本文引用:1]
[5] Harmon R S, Senesi G S. Applied Geochemistry, 2021, 128: 104929. [本文引用:1]
[6] Chen Chenghan, Shi Qi, Wang Shuai, et al. Journal of Analytical Atomic Spectrometry, 2016, 31(7): 1527. [本文引用:1]
[7] Liu Ke, Tian Di, Wang Hongxia, et al. Analytical Methods, 2019, 11(9): 1174. [本文引用:1]
[8] LIU Jun-an, LI Jia-ming, ZHAO Nan, et al(刘俊安, 李嘉铭, 赵楠, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(6): 1955. [本文引用:1]
[9] Jones R R, Hooper D C, Zhang L, et al. Nanoscale Res. Lett. , 2019, 14: 231. [本文引用:1]
[10] Cowger W, Steinmetz Z, Gray A, et al. Analytical Chemistry, 2021, 93(21): 7543. [本文引用:1]
[11] Araujo C F, Nolasco M M, Ribeiro A M P, et al. Water Research, 2018, 142: 426. [本文引用:1]
[12] Yang Y, Zhang W, Wang Zh, et al. Journal of Applied Spectroscopy, 2022, 89(4): 790. [本文引用:1]
[13] Qin Yazhou, Qiu Jiaxin, Tang Nan, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2024, 309: 123854. [本文引用:1]
[14] Neo E R K, Yeo Zhi-quan, Low J S C, et al. Resources Conservation and Recycling, 2022, 180: 106217. [本文引用:1]
[15] Musu W, Tsuchida A, Kawazumi H, et al. Application of PCA-SVM and ANN Techniques for Plastic Identification by Raman Spectroscopy. IEEE 2019 1st International Conference on Cybernetics and Intelligent System (ICORIS), 2019: 114. [本文引用:1]
[16] Junjuri R, Zhang Chi, Barman I, et al. Polymer Testing, 2019, 76: 101. [本文引用:1]
[17] Chen Tingting, Zhang Tianlong, Li Hua. Trac-Trends in Analytical Chemistry, 2021, 133: 116113. [本文引用:1]
[18] XU Ling-ling, CHI Dong-xiang(徐玲玲, 迟冬祥). Computer Engineering and Applications(计算机工程与应用), 2020, 56(24): 12. [本文引用:1]
[19] Tafintseva V, Lintvedt T A, Solheim J H, et al. Molecules, 2022, 27(3): 873. [本文引用:1]