作者简介: 许晓栋, 1996年生,中国农业大学工学院农业工程系博士研究生 e-mail: xuxd@cau.edu.cn
作为四大新兴污染物之一的“微塑料”带来的危害日益凸显, 微塑料的检测识别是其污染评估和风险管理防控的关键。 以鱼粉饲料中的微塑料(包括PA、 PE、 PET、 PP、 PS、 PVC)作为研究对象, 运用XGBoost算法分别研究构建了近红外光谱和红外光谱定性识别模型。 采用GridSearchCV工具包研究优化XGBoost模型的主要超参数, 近红外光谱模型的超参数优化结果为n_estimators: 300, learning_rate: 0.08, gamma: 0, max_depth: 4, min_child_weight: 1; 红外光谱的超参数优化结果为n_estimators: 100, learning_rate: 0.02, gamma: 0.20, max_depth: 4, min_child_weight: 1。 基于优化后的超参数构建的近红外定性识别模型平均精确率(Precision)为0.985, 平均召回率(Recall)为0.977, 平均F1值(F1 score)为0.978, 相比于优化前模型效果分别提升了40.17%, 51.00%, 50.00%; 红外定性识别模型平均精确率(Precision)、 平均召回率(Recall)和平均F1值(F1 score)均为1.000, 优化后的模型效果分别提升了20.67%, 27.50%, 26.33%。 进一步与PLS-DA模型对比分析发现, 红外光谱的XGBoost模型与PLS-DA模型效果基本一致, 近红外光谱的XGBoost模型各参数(Accuracy, Precision, Recall, F1 score)效果均不同程度地优于PLS-DA模型。 综上所述, 运用XGBoost算法可以有效识别鱼粉中不同种类的微塑料, 该研究为鱼粉饲料中微塑料的快速检测识别方法提供理论支持和技术支撑。
As one of the four emerging pollutants, the harm caused by “microplastics”has become increasingly prominent. The detection and identification of microplastics are the keys to pollution assessment and risk management prevention and control. This paper uses microplastics (including PA, PE, PET, PP, PS, and PVC) in fishmeal as the research objects. The XGBoost algorithm studies and constructs the qualitative recognition models of near-infrared and infrared spectroscopy. The XGBoost algorithm studies and constructs the qualitative recognition models of near-infrared and infrared spectroscopy. Optimising the main hyperparameters of the XGBoost model using the GridSearchCV toolkit. The hyperparameter optimization results of the near-infrared spectroscopy model were n_estimators: 300, learning_rate: 0.08, gamma: 0, max_depth: 4, min_child_weight: 1. The hyperparameter optimization results of infrared spectroscopy are n_estimators: 100, learning_rate: 0.02, gamma: 0.20, max_depth: 4, and min_child_weight: 1. The average Precision of the NIR qualitative recognition model constructed based on the optimized hyperparameters was 0.985, the average Recall was 0.977, and the average F1 score was 0.978, which improved by 40.17%, 51.00%, and 50.00% compared with the model before optimization. The average precision, average recall, and average F1 scores of the infrared qualitative recognition model were all 1.000, and the optimized model effect improved by 20.67%, 27.50%, and 26.33%, respectively. Further comparative analysis with the PLS-DA model shows that the XGBoost model of the infrared spectrum is the same as that of the PLS-DA model, and the effect of each parameter (Accuracy, Precision, Recall, F1 score) of the XGBoost model of the near-infrared spectrum is better than that of PLS-DA model to varying degrees. In summary, the XGBoost algorithm can effectively identify different types of microplastics in fishmeal. This study provides theoretical and technical support for rapidly detecting and identifying microplastics in fishmeal.
2021年全球塑料产量达3.907亿吨(欧洲塑料制造商协会数据), 中国塑料制品产量为8 004万吨(国家统计局数据), 占比约20.49%。 按照中国物资再生协会公布的报告, 2020年中国产生废塑料约6000万吨, 其中回收量约为1 600万吨, 废塑料总体回收率仅为26.67%, 而剩余的废弃塑料在自然环境中经过机械降解、 光降解、 热降解和生物降解等作用[1], 分解产生微米级别乃至纳米级别的塑料颗粒, 其中直径小于等于5 mm的塑料颗粒被称为“微塑料”(microplastics, MPs)[2]。 微塑料因其自身含有大量助剂、 较大的比表面积和带电属性, 在自然环境中会吸收富集重金属离子、 持久性有机污染物等有害物质[3], 沿着食物链逐渐进行累积, 最终对其他生物体乃至人体造成巨大的危害[4, 5, 6], 有研究表明微塑料可以在小鼠的肝脏、 肾脏和肠道中积累, 导致肝脏中氧化应激水平的升高, 并产生一定的神经毒性[7], 同时有研究者相继在人体的肺部[8]、 血液[9]以及胎盘[10]中发现了微塑料的“身影”, 微塑料的检测研究至关重要。
现阶段不同环境介质中微塑料的检测研究, 主要的检测方法包括目视法、 光谱法和热分析法[11, 12]。 目视法存在较大的主观性且耗时费力, 热分析法会破坏微塑料的形态, 难以进一步获取微塑料的颜色、 尺寸等信息[13], 而光谱技术不仅可鉴别微塑料聚合物组分, 还可分析其形态特征, 同时具备无损、 高效和高通量等特点, 因此光谱技术被广泛的应用于微塑料的检测研究中。 近红外光谱和红外光谱是现阶段微塑料检测研究较为常用的光谱技术。 近红外光谱为分子振动吸收光谱, 可以反映含氢官能团X—H(X如C—H、 N—H、 O—H等)振动的倍频与合频; 同为吸收光谱技术的红外光谱可以反映官能团振动的基频以及分子中原子间的伸缩和变形振动, 并且获得更多的结构与组成信息。 现阶段光谱技术多用于针对分离富集后介质中微塑料的定性识别研究, 2020年李晋军采用消解方法(10%氢氧化钾和30%过氧化氢)分离富集全球十个国家鱼粉中的微塑料, 并运用红外光谱技术发现我国鱼粉饲料中微塑料的污染水平较高, 丰度为(15.9± 2.7)个·g-1; 2021年Castelvetro等[14]通过一系列溶剂提取和水解处理等多步骤程序分离鱼粉中的聚对苯二甲酸乙二醇酯和聚苯乙烯, 结合红外光谱技术实现了鱼粉中低浓度微塑料的检测; 2021年Christina等[15]综合比较消解分离方法在鱼类个体和商业鱼粉中微塑料浓度的差异, 并运用红外光谱技术识别市售白鲑鱼鱼粉中微塑料种类, 发现白鲑鱼鱼粉中主要的微塑料是聚乙烯并且在加工过程中引入了大量的微纤维; 2022年Christopher等[16]通过运用消解和密度分离(10%氢氧化钾和氯化锌溶液)方法富集鱼粉中微塑料, 并通过显微镜结合红外光谱技术鉴别发现多种石油基塑料颗粒和人造纤维等微纤维, 丰度范围在1 070~2 000个·kg-1, 养殖的大西洋鲑鱼在其商业寿命期间可能会从水产养殖饲料中接触到至少1 788~3 013个人为颗粒。 通过大量文献分析发现, 目前采用近红外和红外光谱直接针对鱼粉饲料中微塑料的定性识别研究尚未见报道。
本研究选取鱼粉中六种常见类型的微塑料作为研究对象, 针对鱼粉中微塑料的掺混样本, 采用XGBoost机器学习算法结合近红外光谱和红外光谱技术, 系统研究优化XGBoost模型的超参数, 探讨构建近红外光谱和红外光谱定性识别模型的可行性。
实验材料包括聚酰胺(polyamide, PA)、 聚乙烯(polyethylene, PE)、 聚对苯二甲酸乙二醇酯(polyethylene terephthalate, PET)、 聚丙烯(polypropylene, PP)、 聚苯乙烯(polystyrene, PS)、 聚氯乙烯(polyvinylchloride, PVC), 采购于中国瑞祥塑胶原料公司, 所有样本纯度均为99%。 鱼粉类型为秘鲁进口鱼粉饲料, 采购于河北省沧州市华中牧业饲料公司, 在使用前过1 mm的筛子。 按照质量分数配置不同浓度梯度(0.5%, 1.0%, 2.0%, 4.0%, 6.0%, 8.0%, 10.0%)的掺混样本, 每一个样本总质量为5 g, 共获得126个鱼粉样本。
近红外光谱设备为德国布鲁克公司的MPA-Ⅱ, 光谱采集范围为10 000~4 000 cm-1, 最大分辨率4 cm-1。 红外光谱设备为德国布鲁克公司的ALPHA-Ⅱ, 光谱采集范围为4 000~500 cm-1, 最大分辨率4 cm-1。 背景、 样本各扫描32次, 每一个样本重复3次扫描, 取其平均光谱。
极限梯度提升(eXtreme Gradient Boosting, XGBoost)算法是Chen在第22届ACM SIGKDD知识发现和数据挖掘国际会议上提出的一种基于决策树的集成机器学习算法[17], 内部决策采用回归树, 以梯度提升为框架, 将树模型的复杂度加入到正则项中来避免过拟合, 因此算法具有较好的泛化能力。 XGBoost算法是并行的BoostingTree工具, 因其计算速度快以及广泛的可移植性, 已被应用于解决数据挖掘比赛问题和工业大规模数据问题。
偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)方法是基于偏最小二乘回归(partial least squares regression, PLSR)的一种判别分析方法[18, 19], 可以将PLS的回归结果转化为一组可用于预测因变量的中间线性潜在变量, 主要反映预测变量和因变量之间的线性关系, 是一种有监督定性判别方法。
1.4.1 XGBoost模型参数
使用XGBoost算法建立鱼粉中微塑料的定性识别模型, 通过不断调整优化决策树的个数(n_estimators), 学习率(learning_rate), 叶子结点最小损失函数的损失量(gamma), 树的最大深度(max_depth)和叶子节点的最小权重(min_child_weight), 使模型得到最优的识别效果。 由于目前对于参数的选择没有明确的规则[11], 模型参数在合理的范围内进行优化即可, 以平均准确率作为模型最后识别结果。 通过网格搜索(GridSearchCV)工具包对模型主要超参数n_estimators、 learning_rate、 gamma、 max_depth和min_child_weight进行超参数优化, 以上模型参数的选择基于Python 3.10.9运行, 并安装xgboost 1.7.3等一系列基础工具包。
1.4.2 模型评价指标
使用XGBoost算法建立定性分析模型(如图1所示), 通过计算模型的准确率(Accuracy)、 精确率(Precision)、 召回率(Recall)和F1值(F1 score)等指标来评价定性模型的鉴别效果, 通过式(1)—式(4)来分别计算指标
式中, TP (true positives)为真阳性, TN (true negatives)为真阴性, FP (false positivs)为假阳性, FN (false negatives)为假阴性, 如图1所示。
按照1.2中的实验仪器和方法, 获得微塑料标准品的近红外和红外光谱。 近红外光谱区间波段为10 000~4 000 cm-1, 分辨率为4 cm-1, 共3 799个特征波段, 红外光谱区间波段为4 000~400 cm-1, 分辨率为4 cm-1, 共1 754个特征波段。
如图2(a, b)所示解析红外光谱中主要的特征峰: PVC的红外光谱中2 965和2 910 cm-1分别对应着νas(CH3)和νas(CH2), 1 327和1 252 cm-1为ν(CHCl), 960 cm-1为ρ(CH2), 689 cm-1为ν(C—Cl); PS的红外光谱中3 082、 3 059和3 025 cm-1为苯环中ν(=CH), 2 917 cm-1为νas(CH2), 1 600、 1 493和1 453 cm-1为δ(C=C), 756和696 cm-1为ω (=CH); PP的红外光谱图中2 950 cm-1为νas(CH3 ), 2 922 cm-1为νas(CH2 ), 1 456 cm-1为δ(CH2), 1 376 cm-1为δs(CH3); PET的红外光谱图1 723 cm-1为ν(C=O), 1 238和1 089 cm-1为ν(C—O—C), 873 cm-1为苯环中ρ(C—H), 727 cm-1为苯环中ω (C—H); PE的红外光谱图中2 919 cm-1为νas(CH2), 2 849 cm-1为νs(CH2), 1 463 cm-1为δ(CH2), 730 cm-1为ρ(CH2)n)n≥ 4; PA的红外光谱图3 301 cm-1为酰胺ν(C—H), 2 936 cm-1为νas(CH2), 2 861 cm-1为νs(CH2), 1 641、 1 542和1 262 cm-1为δ(CO—NH), 1 460 cm-1为δ(CH2)。
![]() | 图2 微塑料标品的原始近红外光谱(a)和红外光谱(b)谱图Fig.2 Near-infrared (a) and infrared spectrum (b) of microplastics standard products |
![]() | 图3 近红外光谱(a)和红外光谱(b)的主成分分析结果Fig.3 Principal component analysis results of near-infrared (a) and infrared (b) |
图3(a, b)为微塑料标品的近红外光谱和红外光谱的PCA分布图, 可知单一种类的微塑料样本在近红外光谱的分布范围相较于红外光谱更为集中。 在近红外光谱的PCA分布图中, PC1得分27.06%, PC2得分23.24%, 六种微塑料没有重叠, 但是PET和PP的分布较为接近; 在红外光谱的PCA分布图中, PC1得分32.55%, PC2得分14.53%, PET和PS分布较为接近, PP和PS存在重叠。 PA、 PE、 PVC在两种光谱技术中区分效果较好, 没有出现重叠现象。
基于近红外光谱和红外光谱的XGBoost定性识别模型初始参数设置: n_estimators: 100, learning_rate: 0.01, gamma: 0, max_depth: 1, min_child_weight: 1。
2.2.1 鱼粉中微塑料的近红外光谱定性识别模型
近红外光谱定性识别模型的平均准确度为0.583, 由图4(a)中混淆矩阵可知六种微塑料在近红外光谱模型中取得了不同的预测识别效果。 PE和PET的识别效果最优, 完全实现了区分, PVC的识别效果最差, 且全部误判为PP。 根据图4(b)中重要特征变量的分布可知近红外光谱定性识别模型的主要参考光谱区间为6 000~4 000 cm-1。
![]() | 图4 近红外光谱模型的混淆矩阵(a)和重要特征变量(b)Fig.4 Confusion matrix (a) and important feature variables (b) for NIR models |
2.2.2 鱼粉中微塑料的红外光谱定性识别模型
红外光谱定性识别模型的平均准确度为0.793, 由图5(a)中混淆矩阵可知六种微塑料在红外光谱模型中也取得了不同的预测识别效果。 PA和PE达到了最优的识别效果, 同样是PVC的识别效果最差, 将PVC预测为PE的概率为50%。 根据图5(b)中重要特征变量的分布可知红外光谱定性识别模型的主要参考光谱区间为3 500~2 500和1 800~1 000 cm-1。
通过GridSearchCV工具包对n_estimators(取值范围100~1 000)、 learning_rate(取值范围0.01~0.1)、 gamma(取值范围0~0.5)、 max_depth(取值范围1~10)和min_child_weight(取值范围1~10)进行超参数优化。
2.3.1 近红外光谱模型参数优化
通过GridSearchCV工具包获取不同参数的模型结果, 如图6所示, n_estimators取值300, learning_rate取值0.08, gamma取值0, max_depth取值4, min_child_weight取值1为模型的最佳参数。
2.3.2 红外光谱模型参数优化
通过GridSearchCV工具包获取不同参数的模型结果, 如图7所示, n_estimators取100, learning_rate取0.02, gamma取0.20, max_depth取4, min_child_weight取1为模型的最佳参数。
基于研究优化后的超参数组合, 分别研究建立鱼粉中微塑料的XGBoost近红外光谱和红外光谱定性识别模型, 优化前后模型评价效果如表1所示。
![]() | 表1 XGBoost近红外光谱和红外光谱模型效果 Table 1 XGBoost NIR and IR model effects |
由表1中结果可知, 近红外光谱和红外光谱的定性识别模型效果均得到了显著的提升。 优化后的近红外光谱定性识别模型的平均精确率为0.985, 提升了40.17%, 平均召回率为0.977, 提升了51.00%, 平均F1值为0.978, 提升了50.00%, 模型在PP和PVC的鉴别中还有待于提高, 由于样本的假阴性(FN)较高导致PP的召回率较差仅为0.86, 而样本的假阳性(FP)较高导致PVC的精确度较差仅为0.91。 优化后的红外光谱定性分析模型取得了良好的识别效果, 相较于优化前平均精确率、 平均召回率和平均F1值分别提升了20.67%, 27.50%, 26.33%, 且均达到了1.000。
建立近红外光谱和红外光谱的PLS-DA定性识别模型, 选取常用的模型评价指标包括准确率(Accuracy)、 精确率(Precision)、 召回率(Recall)和F1值(F1 score)对模型识别效果进行评估[11], 并对六种微塑料的结果取平均值, XGBoost和PLS-DA模型效果评价对比如图8所示。
![]() | 图8 PLS-DA与XGBoost模型效果对比 (a): 近红外光谱; (b): 红外光谱Fig.8 Comparison of PLS-DA and XGBoost models (a): Near-inrared spectroscopy; (b): Inrared spectroscopy |
由图8(a, b)可知, 在近红外光谱模型效果中, XGBoost定性识别模型的平均准确率为0.992, 而PLS-DA算法为0.974, 且XGBoost模型中平均精确率(0.985)、 平均召回率(0.977)以及平均F1值(0.978)均不同程度的高于PLS-DA模型(0.959、 0.958、 0.958), 因此XGBoost模型效果优于PLS-DA模型; 在图8(b)红外光谱模型的效果中, XGBoost和PLS-DA定性识别模型各项指标均已达到了最优, 模型效果相一致, 可能因红外光谱技术自身的优势所致, 红外光谱能够提供较多的结构信息(化合物的类别、 官能团的种类、 取代基的位置和数目等)且特征性强, 大部分不同类型的有机化合物都有其独特的红外光谱谱图[20]。
微塑料作为一种新兴污染物, 已经被证实在人类日常生活的环境中甚至生命体内出现, 而微塑料带来的危害也逐渐引起人们的重视, 不同环境介质中实现微塑料的检测十分重要且必要。 以鱼粉饲料中的微塑料作为研究对象, 运用XGBoost算法建立了近红外光谱和红外光谱的XGBoost定性识别模型, 并且通过GridSearchCV工具包对模型效果影响较大的超参数进行优化, 近红外光谱模型超参数参数优化结果为n_estimators: 300, learning_rate: 0.08, gamma: 0, max_depth: 4, min_child_weight: 1, 优化后的近红外光谱定性识别模型中平均精确率(0.985)、 平均召回率(0.977)、 平均F1值(0.978)分别提升了40.17%, 51.00%, 50.00%; 红外光谱模型超参数的优化结果为n_estimators: 100, learning_rate: 0.02, gamma: 0.20, max_depth: 4, min_child_weight: 1, 优化后的红外光谱定性识别模型平均精确率、 平均召回率和平均F1值均达到了1.000, 模型效果分别提升了20.67%, 27.50%, 26.33%。 进一步对比PLS-DA模型, 发现近红外光谱的XGBoost模型效果要优于PLS-DA模型, 红外光谱的XGBoost模型效果与PLS-DA模型相一致, 均达到了最优的识别结果。 采用XGBoost算法可以识别鱼粉中不同种类的微塑料, 本研究为鱼粉饲料中微塑料的快速检测识别方法提供理论支持和技术支撑。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|