作者简介: 闫红宇, 1997年生, 中北大学仪器与电子学院硕士研究生 e-mail: hyyannuc@163.com
为了保障公共安全和预防恐怖袭击事件的发生, 提出基于遗传算法(GA)优化非对称重加权惩罚最小二乘(arPLS)的远程LIBS基线校正预处理方法, 结合ANN分类模型实现6m距离下的四种爆炸物(TNT、 RDX、 HMX和CL-20)快速、 准确识别。 GA-arPLS算法基于arPLS引入适应度函数评估拟合基线, 寻找候选参数空间中的最优解来实现拟合LIBS基线。 由于LIBS光谱信号通常包括连续辐射、 原子与分子发射线等噪声信息, 其覆盖了LIBS光谱较宽的光波段; 直接通过LIBS光谱对相似元素的有机物定性分析时, 难以捕捉相似爆炸物的特征光谱之间微小差异实现分类, 故远距离环境下通过GA-arPLS预处理来提高特征谱线辨识能力很有必要, 因此提升光谱分析的准确度很有必要。 研究将GA-arPLS校正前后的LIBS数据集分别作为支持向量机(SVM)和最邻近分类(KNN)的输入, SVM的分类准确率提升了8.4%, 而KNN分类模型的准确率提升8.7%。 分类准确率表明, 该GA-arPLS基线校正预处理方法可有效降低远程LIBS光谱的连续背景, 而结合人工神经网络(ANN)构建的分类模型对相似爆炸物的识别准确率从89.2%提升至100%, 分类识别效果达到最优。 研究表明, 该基线校正预处理方法不仅有效减小远距离LIBS的连续背景辐射和噪声干扰, 而且提升了远程LIBS分类模型的鲁棒性和预测能力。 研究成果有望提升远程LIBS在爆炸物检测方面的准确性和效率, 以更好地应对潜在的爆炸物威胁。
This study proposes a remote LIBS baseline correction preprocessing method based on genetic algorithm (GA) optimized nonweighted penalty least squares (arPLS) to ensure public safety and prevent terrorist attacks. It combines this method with an ANN classification model to accurately identify four types of explosives (TNT, RDX, HMX, and CL-20) at a distance of 6 m. The GA-arPLS algorithm's foundation is adding a fitness function to arPLS, which allows it to assess the fitting baseline and choose the best option in the candidate parameter space for fitting the LIBS baseline. On the one hand, it is primarily caused by the instrument's inherent dark current noise, bremsstrahlung, or environmental factors. This is because LIBS spectral signals typically include noise signals such as continuous radiation and atomic and molecular emission lines, which cover a wide range of light bands in LIBS spectra. Therefore, in long-distance environments, it is necessary to improve the ability to identify characteristic spectral lines through GA-arPLS preprocessing; on the other hand, it is difficult to capture small differences between the characteristic spectra of similar explosives for classification when qualitatively analyzing organic compounds of similar elements directly through LIBS spectroscopy. As a result, spectral analysis accuracy needs to be raised. This study used the LIBS dataset as input for closest neighbor classification (KNN) and support vector machine (SVM) before and after GA-arPLS correction. SVM's classification accuracy increased by 8.4%, whereas the KNN model's accuracy increased by 8.7%. The classification accuracy demonstrates that the GA-arPLS baseline correction preprocessing method can effectively reduce the continuous background of remote LIBS spectra. Meanwhile, the artificial neural network (ANN) constructedclassification model achieves the optimal classification recognition effect by improving the recognition accuracy of similar explosives from 89.2% to 100%. Studies have demonstrated that this baseline correction preprocessing technique successfully lowers the noise interference and continuous background radiation of remote LIBS and enhances the robustness and predictive power of the remote LIBS classification model. The research findings are anticipated to increase the precision and effectiveness of remote LIBS in explosive detection to better respond to possible explosive threats.
随着全球不稳定因素的增加, 不法分子将爆炸物伪装成合法有机化合物在安检过程中难以发现, 而爆炸物作为国际恐怖主义袭击的主要原料, 给各国人民带来了巨大的安全隐患和财产损失, 因此爆炸物探测(explosives-detecting technology, EDT)方法一直受各国国防与安全部门的重点关注。 可以帮助保障公共场所、 交通运输、 边防和军事等领域的安全, 而且及时发现和识别携带、 储存或使用爆炸物的人员, 可以防止恐怖袭击、 炸弹爆炸等危险事件的发生。
可疑爆炸物在运输过程中被隐蔽储藏难以察觉, 目前国内外研究人员已经开展许多用于探测爆炸物和非法化学品的技术研究。 主要检测方法有表面增强拉曼光谱(surface-enhanced Raman spectroscopy, SERS), 将爆炸物分子吸附在具有表面增强效应的纳米结构表面上, 使得爆炸物分子的拉曼散射信号得到显著增强, 克服了传统拉曼的低灵敏度[1, 2]; 放大荧光聚合物(amplified fluorescent polymers, AFP)利用放大荧光共轭聚合物的荧光猝灭进行化学探针传感, 通过与爆炸物发生特异的作用而产生荧光信号实现爆炸物的高灵敏度检测[3]; 液相色谱-常压化学电离质谱法(liquid chromatography-atmospheric pressure chemical ionization mass spectrometry, LC-APCI-MS)结合了液相色谱和质谱技术, 将爆炸物与干扰物分离后引入常压化学电离源中, 通过化学反应使其产生离子。 这些离子经过质谱仪的质量分析, 根据其质量-荷质比(m/z)比值进行定性分析[4]; 一些核技术比如中子激发伽马射线分析、 中子活化分析和伽马射线探测也被用于爆炸物探测[5, 6]。 但上述大部分检测方法由于其检测环境、 样品制备和设备造价昂贵等原因, 暂时无法满足现代工业现场的快速检测需求。 亟待开发一种快速实时、 非接触性的爆炸物分类识别方法。
激光诱导击穿光谱(laser-induced breakdown spectroscopy, LIBS)作为表面元素分析技术, 其原理是利用激光烧蚀样品表面, 样品表面产生等离子体的形成与膨胀过程, 该过程伴随着能量的转化与光辐射, 光辐射中包含了来自样品的原子、 离子、 分子等粒子的发射光谱[7, 8]。 LIBS技术因其具有高灵敏度、 实时、 原位、 非接触性检测以及多元素分析等优点, 广泛应用于材料分析、 环境监测、 矿产勘探、 农业与食品安全检测等领域[9, 10, 11, 12]。 基于LIBS进行高能材料的检测与鉴别在国内外早已开展了广泛的研究, 2003年, Frank等通过爆炸物LIBS中原子和分子发射强度比检测和鉴别了高能材料和炸药, 证实了LIBS在爆炸物鉴别领域的可行性[13]。 2012年, De Lucia等使用远程LIBS(standoff laser-induced breakdown spectroscopy, ST-LIBS)结合偏最小二乘判别(partial least squares discriminant analysis, PLS-DA)对油漆表面的爆炸物残留进行分类, 结果表明, 尽管油漆的存在对LIBS分类造成了影响, 但通过数据融合的方式仍获得良好的分类效果[14]。 2013年, Jorge Serrano等研究了一种LIBS结合机器学习的特征选择散点图策略以寻找LIBS光谱信息中的微小差异。 研究结果表明, 存在干扰物的情况下, 该策略对聚合物表面结构相似的爆炸物可有效分类[15]。 2020年, Rajendhar Junjuri等将人工神经网络(artificial neural network, ANN)算法和主成分分析(principal components analysis, PCA)应用于ST-LIBS, 对爆炸物与干扰物进行准确分类[16]。 国内对于爆炸物LIBS分类的研究相对较少, 2019年, 王蒨茜等使用了基于KNN的半监督聚类算法, 成功识别了潜在干扰物中的四种爆炸物[17]。 2022年, 谷天予等使用主成分分析结合线性判别分析(principal components analysis-linear discriminant analysis, PCA-LDA)算法, 对三种有机爆炸物进行快速、 准确检测[18], 对国内外LIBS的爆炸物检测方法研究表明, 研究人员重点关注爆炸物在不同场景中对爆炸物识别分析, 而远距离下结构相似的爆炸物识别鲜见报道。 本研究采用GA-arPLS光谱预处理方法结合ANN分类算法, 对6 m远距离的残留爆炸物进行分类预测。
研究对四种爆炸物样品(TNT、 RDX、 HMX和CL-20)进行分类预测, 爆炸物样品的物理状态均为白色针状晶体或者结晶性粉末, 从视觉上难以准确分辨。 实际检测环境下由于低浓度的爆炸物无法满足LIBS的最低检出限, 因此对爆炸物残留的探测必须考虑可疑爆炸物的取样量[20, 21]。 本研究选取丙酮作为爆炸物的稀释溶液, 避免激光脉冲对样品消融过程中可能诱发潜在爆炸物威胁, 图1(a— d)为残留爆炸物样品的样板。
![]() | 图1 (a)、 (b)、 (c)和(d)分别为爆炸物样品(TNT、 HMX、 RDX和CL-20)的残留待测样板Fig.1 (a), (b), (c), (d) are the residual test samples of explosive samples (TNT, HMX, RDX, and CL-20), respectively |
实验阶段, 准备四块添加过样品标记(长和宽均为8 cm的正方形) 覆膜铝板以及爆炸物样品, 使用玻璃棒将晶体状爆炸物碾压成粉末状以方便溶解与取样。 在电子天平称量纸上分别量取10 mg样品, 分别溶解于50 mL丙酮中来配置浓度0.2 mg· mL-1的样品试剂。 最后撕掉铝板的覆膜后取部分相应溶液均匀涂抹于预先标记的铝板表面, 室温下静置待溶剂自然挥发后爆炸物残留在铝板表面, 以此爆炸物残留样板作为试验样品。 残留物样板使用钢板夹固定于6 m远的三轴位移台上, 控制激光脉冲对残留物样板进行烧蚀, 每次移动固定的距离, 避免激光重复烧蚀样品部位, 激光输出能量: 650 mJ, 脉冲宽度8 ns, 重复频率最高为10 Hz。 每次烧蚀后样板与激光脉冲产生的等离子体可获得1条LIBS光谱, 烧蚀过后移动0.3 cm的固定距离以保证激光均匀烧蚀在样品的不同部位, 每个样本获得100条有效光谱为止。
远程LIBS实验装置如图2所示, 由变焦系统、 激光光源、 光谱采集系统和控制系统组成。 变焦系统是基于施密特-卡塞格林光学系统, 该变焦系统由直径为252 mm的一个中心开孔的精密光学球面主镜[通光孔径: (54± 0.1) mm, 波段范围: 210~950 nm, 曲率半径R=600 mm]和半径5 mm; 凸面镜次镜(波段范围: 210~950 nm, 曲率半径R1=100, 镜面镀铝膜, 抗损伤阈值> 500 MW· cm-2, 表面粗糙度< 2 nm, 镜片材料: JGS2)组成。 Nd∶ YAG泵浦激光器(北京卓镭激光技术有限公司)作为激光光源, 激光器输出波长: 1 064 nm, 脉冲宽度8 ns, 重复频率最高为10 Hz。 波长658 nm激光作为聚焦系统的辅助激光, 通过该激光监测样品表面光斑的成像质量以控制激光器的变焦系统实现精准聚焦。 样品表面的光辐射通过施密特-卡塞格林光学系统, 将光信号经光纤传输到光谱仪(MX2500 Plus高分辨率光谱仪, 光谱分辨率优于0.1 nm, 分辨精度0.05~0.1 nm, 光谱范围180~950 nm)。 通过数字延时脉冲发生器(DG535, Stanford Research System)触发实验测试, 将激光脉冲与光谱仪的最优延迟时间设置为2 μ s, 以实现时间分辨光谱采集。
arPLS原理基于惩罚最小二乘函数来约束参数向量的平滑性[22], 利用GA算法迭代过程中引入非对称逻辑函数对拟合误差进行加权处理以寻找arPLS模型中最优的参数组合, 通过设计适应度函数结合GA自适应调整加权函数和惩罚函数, 使迭代产生更高的适应度参数组完成最优拟合基线, 最
后从原始光谱中减去基线噪声的影响。 其中, 适应度函数如式(1)— 式(4)
式(1)和式(2)中, zk和wk分别为arPLS算法的基线向量和权重, GA迭代中vb和vp分别为逻辑函数的非对称权值(1或0), 式(4)中nb和np分别代表输入数据的背景和峰值点, ns是输入数据的数量。 通过多次迭代产生最优个体, 即适应度函数得分最低(FFscore)来创建下一代群体, 直到达到最大迭代次数或适应度值收敛。
为了获得最佳的平滑效果和噪声抑制水平, 采用GA搜索适应度函数得分最低参数, 该预处理方法的主要参数有: 惩罚因子和平滑参数, 惩罚因子被引入到损失函数中作为正则化项, 而平滑系数决定估计拟合基线的平滑度, 最终得到图3(b)所示连续背景校正后的LIBS。 对比图3(a)和(b)原始爆炸物与GA-arPLS校正后的LIBS, 基线校正后的光谱在保留原始特征峰的基础上降低了连续噪声干扰的影响。 结果表明, 即使远距离LIBS在传输过程中受到空气吸收和散射的影响, GA-arPLS基线校正后的光谱仍可保留爆炸物LIBS的关键特征, 说明该方法能够有效的克服环境噪声干扰, 提高元素和化合物的检测灵敏度。
实际测试中, 远程LIBS的光谱噪声具有一定的不确定性, 为了提高光谱数据的质量, 需要消除干扰噪声对特征光谱的影响。 如图3(a)所示, 爆炸物LIBS 大部分特征谱线在650 mJ脉冲能量激发时趋于饱和, 故选择650 mJ脉冲能量进行基线校正前后的RSD分析。 结合图3(b)与表1可得, 经GA-arPLS处理后的特征谱线强度的RSD均低于原始LIBS光谱中对应特征谱线RSD值, 且光谱中特征谱线强度的RSD变化趋于稳定, 结果说明GA-arPLS可有效降低等离子辐射光谱的稳定性的影响, 表明该预处理方法有利于提高LIBS中等离子体特征光谱的稳定性。
![]() | 表1 650 mJ脉冲激光能量下部分特征谱线的RSD Table 1 RSD of partial characteristic spectral lines under 650 mJ pulse laser energy |
基于爆炸物LIBS全波段进行建模, 由于四种爆炸物光谱特征高度相似导致不同爆炸物LIBS难以直观辨识。 全波段光谱包含所有波长点吸收峰, 不仅提供爆炸物样品更全面的成分信息, 而且可提升对相似样品的定性分析能力。 ANN因其强大的特征学习能力, 通过多层的非线性变换逐步提取出数据中的抽象特征和模式, 尤其是从原始数据中自动学习到高级的特征表示, 它在处理高维数据具有很大的优势。 故选取ANN对爆炸物LIBS进行分类识别。
本研究首先采用Min-max标准化将原始数据线性转换到[0, 1]的范围内, 消除不同类别爆炸物LIBS变量之间的量纲差异[19]。 为减少因数据集划分的随机性带来的评估偏差, 使用5折交叉验证(5-fold cross-validation, 5-CV)方法增强评估模型的性能和泛化能力。 最后使用原始爆炸物LIBS数据集建立一个全连接层数为单层、 激活函数为ReLU、 迭代参数为1000以及正则化强度为0的ANN分类模型, 获得图4(a, b)所示的混淆矩阵。 橙色部分为交叉验证集正确识别爆炸物的概率, 蓝色为测试集正确预测爆炸物的概率, 而浅色部分为识别错误爆炸物的概率。 TPR(true positive rate)和FNR(false negative rate)为分类模型的性能评价指标, TPR指所有实际为正例的样本中被正确地预测为正例的比例, TPR越高表示模型对正例的识别能力越强; FNR为所有实际为正例的样本中, 被错误地预测为负例的比例。
为了更好地评估分类模型的性能, 本研究设置了10组独立样本来验证ANN分类模型的预测能力。 图4(a)和(b)中的ANN分类模型的混淆矩阵表明, 四种爆炸物LIBS的5-CV验证集准确率为87.2%, 测试集准确率为92.5%。 360幅光谱的交叉训练集中有314幅分类正确。 其中主要分类错误的样品为TNT和CL-20, CL-20中有30%的样品被误分类为TNT, 而TNT中20%的样品误分类为CL-20。 通过对图4分析可知, 其误分类的一方面原因在于TNT和CL-20的LIBS光谱中特征分布高度相似; 另一方面, 全波段光谱的冗余噪声一定程度上降低了ANN分类模型的准确率。
将GA-arPLS预处理后的爆炸物LIBS数据集作为ANN分类模型的输入, 数据预处理阶段采取与原始LIBS数据集相同的流程, 以确保数据预处理建模数据集的一致性, 然后通过优化ANN的神经元数量和全连接层数得到表2所示分类模型准确率, 其中设置ANN激活函数为线性整流函数(ReLU)、 迭代参数为1000以及正则化强度为零时, 不同全连接层数和神经元数量的准确率。
![]() | 表2 不同参数下的神经网络分类模型的测试集准确率 Table 2 Accuracy of neural network classifiers with different parameters |
对比表2中不同参数下的ANN模型的准确率, 全连接层数为3层的ANN模型准确率最高, 图5为该分类模型的混淆矩阵。 通过计算可得, 图5(a)中四种爆炸物LIBS交叉验证集的准确率为99.7%, 图5(b)中独立测试集的准确率为100%。 结果表明, 经GA-arPLS预处理后的数据集作为分类模型输入时, 相比于原始爆炸物LIBS的准确率均超过10%, 不同参数设置下的ANN模型准确率均优于原始LIBS数据集, 测试集也表现出较强的预测能力。 证明基线校正后的数据集建模可有效提升ANN模型的鲁棒性, 远程LIBS能够产生准确和可靠的预测结果。
不同的分类模型对LIBS光谱特征的敏感度不同, 因此相似爆炸物LIBS分类问题需要特定的模型处理, 因此研究并对比不同分类模型的参数选择适合爆炸物LIBS识别场景的分类模型。 由于SVM(support vector machine, SVM)通过高维空间中构建超平面可有效处理复杂特征信息的数据集, 适用于高维特征空间的分类。 SVM超参数主要包括核函数、 框约束级别和惩罚参数, 高斯核函数可将数据从源空间映射到线性可分空间, 使不同类的非线性光谱数据可分; 调整框约束等级使拉格朗日乘数处于有界区域, 来增加或减少支持向量的数量, 默认设置为1。
由于K最近邻(K nearest neighbors, KNN)算法没有特征学习过程, 其直接使用原始数据作为特征, 且不对数据的分布做任何假设, 尤其适用于非线性问题和复杂的决策边界。 KNN算法可优化超参数有邻近点数K、 距离度量(distance metric)、 距离度量(weights), 邻近点数K是KNN的核心参数, 通过增加K值, 扩大邻近点选择范围, 进而提高分类准确度。 本研究采取与ANN数据预处理阶段相同的流程, 分别对比模型SVM超参数: 核函数参数选择高斯核, 框约束等级为1; KNN的超参数: K=10, 距离度量为欧几里德距离(euclidean), 距高权重: 反距离平方。 表3为爆炸物LIBS数据集在KNN与SVM与ANN三种模型测试集的分类准确率。
![]() | 表3 爆炸物LIBS数据集不同分类模型测试集的准确率 Table 3 Accuracy of different classifiers based on explosives LIBS test dataset |
将GA-arPLS基线校正预处理方法应用于远程LIBS系统, 实现了6 m距离下的四种爆炸物准确识别, 研究了不同分类模型对LIBS光谱特征的准确率。 研究结果表明, GA-arPLS方法不仅降低远程LIBS中冗余干扰和噪声, 而且可有效保留光谱特以提升分类模型的可解释性。 经GA-arPLS校正后LIBS数据集作为ANN模型的输入, 其识别准确率可达100%, 测试集亦表现出较强的预测能力。 结果表明, GA-arPLS预处理方法结合ANN可实现对远距离爆炸物LIBS快速识别, 表明将GA-arPLS基线校正预处理方法应用于远程LIBS定性分析具有广泛前景。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|