基于希尔伯特滤波的可擦笔油墨光谱模式识别
王晓宾, 张傲林, 邹颖芳, 杨蕾
中国人民公安大学侦查学院, 北京 100038

作者简介: 王晓宾, 1989年生, 中国人民公安大学侦查学院讲师 e-mail: xiaobin08d016@126.com

摘要

文件的真实性是当前诉讼审查阶段的重要工作, 可擦笔在司法案件中常被用来进行伪造文书、 合同等犯罪行为。 针对其油墨成分、 笔迹修改等方面的辨识是文件检验领域的重点研究。 特殊热感变色颜料是可擦笔油墨的主要成分, 其变色原理是随着温度变化会产生笔迹的消失与复现, 在65 ℃以上颜色褪去, 在-18 ℃以下颜色复现。 对其进行种属认定可以对案件证据的真实性进行鉴别, 为案件诉讼过程提供支持。 高光谱的超高光谱分辨率对高分子材料具有较好的特征选择性, 能够有效的对常见油墨成分进行数据采集。 该实验收集22个品牌共45份可擦笔油墨样本, 可以分为碳化钨笔珠、 子弹头笔珠、 全针管、 半针管四种类型, 统一采集450~950 nm波段的高光谱信息。 关于光谱数据背景噪声冗余的问题, 选用主成分分析法(PCA)对数据进行降维处理, 提取特征变量。 基于降维后的数据选用不同类型的希尔伯特变换(HT)进行信号滤波, 进一步选择有效信号, 提升建模效果。 样本识别上选用多层感知器(MLP)和径向基函数神经网络(radial basis function neural network, RBFNN)两种人工神经网络模型, 基于23维主成分提取的特征变量类建模准确率分别为81%, 84%, 通过希尔伯特高通滤波处理后可以将分类准确率提升至88.9%, 92%, 能够有效提升识别准确率。 为进一步区分不同样本的种类, 选择Fisher判别分析方法进行建模, 各样本原始数据在FDA模型中识别准确率为44%, 经最优PCA-HT处理的FDA建模准确率为93.3%, 能够区分出不同的可擦笔油墨类型。 结果表明, PCA能够在保留光谱有效信息的基础上进行降维, 提升模型精度并且缩短运行时间, 相较于原始光谱数据建模效果较好, 通过希尔伯特变换后的光谱数据能够进一步完善有效光谱信息, 使得建模准确率进一步提升。 该实验确定PCA-HT-FDA模型为最佳可擦笔油墨高光谱识别模型, 能够为司法鉴定人员提供一定参考。

关键词: 可擦笔; 高光谱; 滤波器; 希尔伯特变换; 模式识别
中图分类号:O657.33 文献标志码:A
Spectral Pattern Recognition of Erasable Ink Based on Hilbert Filter
WANG Xiao-bin, ZHANG Ao-lin, ZOU Ying-fang, YANG Lei
College of Investigation, People's Public Security University of China, Beijing 100038, China
Abstract

The authenticity of documents is an important work in the current stage of litigation review. In judicial cases, erasablepens are often used to forge documents, contracts and other criminal acts. The identification of ink composition and handwriting modification is the key research in the field of document inspection. Special thermal color pigment is the main component of erasable ink; its color principle is that temperature change will produce the disappearance and recurrence of handwriting, color fades above 65℃, and color recurrence below -18 ℃. The identification of its species can identify the authenticity of the case evidence and provide support for the litigation process of the case. The ultra-high spectral resolution of hyperspectrum has good feature selectivity for polymer materials, which can effectively collect data for common ink components. In this experiment, a total of 45 erasable pen ink samples from 22 brands were collected, which can be divided into four types: tungsten carbide pen beads, bullet pen beads, full needle tube and half needle tube, and the hyperspectral information of 450~950 nm band was collected uniformly. As for the redundancy of background noise in spectral data, the principal component analysis (PCA) was used to reduce the dimensionality of the data and extract the feature variables. Based on the dimensionality reduction data, different Hilbert transform (HT) types were used for signal filtering, and effective signals were further selected to improve the modeling effect. Two artificial neural network models, Multilayer Perceptron (MLP) and radial basis function neural network (RBFNN), were selected for sample recognition. The feature variable class modeling accuracy based on 23-dimensional principal component extraction is 81% and 84%, respectively. After the Hilbert high-pass filtering processing, the classification accuracy can be increased to 88.9% and 92%, effectively improving recognition accuracy. In order to further distinguish the types of different samples, Fisher discriminant analysis method was selected for modeling. The identification accuracy of the original data of each sample in the FDA model was 44%, and the FDA modeling accuracy of the optimal PCA-HT treatment was 93.3%, which could distinguish different types of erasable ink. The results show that PCA can reduce the dimension based on retaining the effective spectral information, improving the model accuracy and shortening the running time. Compared with the original spectral data, the modeling effect is good, and the spectral data after the Hilbert transform can further improve the effective spectral information to further improve the modeling accuracy. This experiment determined the optimal PCA-HT-FDA model and the best erasable ink hyperspectral identification model, which can provide a certain reference for forensic experts.

Keyword: Erasable pen; Hyperspectral imaging technology; Hilbert; Filter; Pattern recognition
引言

作为一类非常规的书写工具, 可擦笔因使用特殊的高分子材料作为其油墨基料, 内部含有生色材料、 显色剂和变色温控调整剂三种特殊成分, 所以可在高温状态下使颜料分子流失, 导致笔迹褪色消失。 犯罪嫌疑人常常利用可擦笔的这种特性, 伪造合同、 收据等文件材料, 使字迹消失, 从而达到犯罪的目的。 在法庭科学文书鉴定中, 针对不同的书写工具材料, 研究人员通过分析油墨的成分来实现种属鉴别和同一认定, 常用的方法有薄层色谱法、 红外光谱法、 拉曼光谱法等, 如赵昱萱[1]等利用红外光谱法对30支可擦笔油墨进行检验, 并结合主成分分析法(principal component analysis, PCA)和热图Heatmap对其进行分类; Sauzier[2]等利用视频光谱仪(video spectrometer, VSC), 结合主成分分析法(PCA)对蓝色圆珠笔墨水实现了快速区分; Kumar等[3]使用ATR-FTIR对57种蓝色圆珠笔墨水样品进行表征和鉴别, 借助多变量分析, 可以对油墨进行系统区分, 总体辨别率达到99.69%。

高光谱成像(hyperspectral imaging, HSI)作为一种可以在整个电磁光谱的数百个窄光带中捕获图像的无损检测技术, 逐渐在食品检测、 医学成像、 材料科学等各种领域得到广泛应用。 近年来, 法庭科学研究人员开始使用高光谱成像技术对各类物证开展检验和鉴定, 去获取案件证据。 Devassy[4]等使用高光谱相机HySpex VNIR-1800获取3种不同颜色25个品牌的墨水高光谱图像, 并使用t-SNE对高光谱墨水数据进行降维和可视化; Reed[5]等使用HSI分析了白色办公纸上的各种红色、 蓝色和黑色凝胶油墨, 分别达到了1.00、 0.90和0.40的区分能力; Sugawara[6]使用波长在4 000~700 cm-1之间的中红外高光谱成像技术, 对4种涂抹掩盖字迹进行了识别。

模式识别技术是一种交叉有计算机科学与生物仿真技术, 包括传统的利用监督与非监督学习方法进行分类[7]是该领域的重要研究方向。 近年来以人工神经网络(artificial neural network, ANN)为主的深度学习应用成熟[8, 9]。 王晓宾[10]等为实现水彩笔油墨的准确分类, 采用红外光谱法对60个水彩笔油墨样品进行了检验, 通过人工神经网络模型进行训练与测试, 分类正确率为83.3%。 目前在司法鉴定领域还未有人使用HIS开展可擦笔鉴别工作, 本实验以市面上常见的可擦笔为研究对象, 通过Hilbert滤波器、 PCA两种方法对光谱数据进行前处理, 使用多层感知器(multilayer perceptron, MLP)、 RBF、 FDA三种模型对其进行快速分类识别。

1 实验部分
1.1 样本

广泛收集市面上常见22种品牌共45支不同可擦中性笔进行实验, 并根据不同颜色、 品牌型号将可擦笔按照一定顺序在普通A4纸上依次涂写成0.5 cm× 0.5 cm较为规则的小方块, 具体处理样例见图1(以C3、 C24、 C41为例), 共45个分样本并依次进行编号, 具体样本信息见表1

图1 C3、 C34、 C41样本制备结果图Fig.1 Sample preparation results of C3, C34 and C41

表1 45组样本数据 Table 1 45 sets of sample data

目前市面上的不同品牌、 型号的可擦中性笔所采用的油墨类型多数为热敏变色油墨, 但由于厂家生产中选用的笔珠不同, 会导致不同品牌、 型号的可擦笔油墨书写形态存在差异, 主要分为碳化钨笔珠、 子弹头笔珠、 全针管、 半针管四种类型, 实验中的45份样本分类具体见表2

表2 样本种类区分 Table 2 45 Sample type distinction
1.2 仪器参数

实验中采用警用凝视型双通道高光谱, 型号: SEC-E1200(深圳市中达和科技有限公司), 具体实验仪器参数见表3

表3 高光谱系统参数 Table 3 Hyperspectral system parameters
1.3 高光谱预处理

通过希尔伯特变换(Hilbert transform, HT)对实数集内的数据进行解析信号的意义是把一个一维的信号反演为二维复平面上的信号[11], 复数的模和幅角代表了信号的幅度和相位。 复数信号的信息通常是完整的, 而实信号只是在复平面的实轴上的一个投影。 解析信号可以计算包络(瞬时振幅)和瞬时相位。 [A(t)=sqrt(x2(t)+Hilbert(x(t))2)], 而瞬时相位就是虚部(Hilbert变换后的)和实部(原始信号)在某一时间点的比值的arctan, 瞬时频率就是它的导数。 与传统的傅里叶变换和小波变换相比, Hilbert变换可以通过信号域的转化有效地补充光谱信号的信息完整度。 张震[12]等在研究文件检验中的复印纸识别时, 通过Hilbert变换处理光谱信号, 能够有效地将贝叶斯判别模型准确率提升至86%。 基于此, 本文选用Hilbert变换对可擦笔油墨的高光谱进行预处理。

目前在文件检验领域应用信号处理对数据进行有效信息筛选的研究较少。 本实验中在450~950 nm高光谱仪器数据采集的波长范围之间有100个波段及101个特征值数据, 信息成分较为繁杂, 相邻波段的样品数据信息存在很大的冗余。 通过对数据进行PCA降维处理, 观察图2主成分得分与累计方差贡献率, 在成分因子23维以上数据累计方差贡献率达100%, 在此波段上的数据具有较好的相关性。 基于提取的23维成分因子, 进行希尔伯特滤波处理, 分别选用Hilbert低通滤波器、 Hilbert高通滤波器、 Hilbert带通滤波器, 三种不同滤波器进行光谱数据前处理。

图2 主成分的方差贡献率图Fig.2 Plot of variance contribution rate of principal component

1.4 建模原理

1.4.1 人工神经网络

(1)多层感知器(multilayer perceptron, MLP)是一种基于感受层(S)、 隐藏层(A)、 相应层(R)之间神经元全连接的人工神经网络[13, 14, 15]。 每一个维度数据对应一个单位神经元, 通过组合计算对数据实现判别分类。 对其S层神经元输入特征向量后, 通过S-A层联结成的联想矩阵和A-R层联结成的决策矩阵实现一个空间非线性映射。 在映射过程输出为f(w1x+b1), w1为连接系数, b1是偏置, 函数f常用为sigmoid函数或tanh函数。

(2)径向基函数(radial basis function, RBF)是一个取值仅仅依赖于离原点距离的实值函数, 也就是ϕ (x)=ϕ (‖ x‖ ), 或者还可以是到任意一点c的距离, c点称为中心点, 也就是ϕ (x, c)=ϕ (‖ x-c‖ )。 任意一个满足ϕ (x)=ϕ (‖ x‖ )特性的函数Φ 都叫做径向基函数, 标准的一般使用欧氏距离。

1.4.2 Fisher判别分析

Fisher判别分析(Fisher discriminant analysis, FDA)是经典的一种判别分类算法[16, 17], 其主要原理是根据向量的投影转化思维, 将高维向量转化为低维向量, 在新的坐标系中实现对输入样本的区分。

通过PCA、 Hilbert两种方法对45份样本高光谱数据进行预处理, 对比两种人工神经网络和传统FDA判别的分类准确率, 寻找最优模型。

2 结果与讨论
2.1 谱图分析

通过高光谱对45份油墨样本选取450~950 nm波段进行分析。 目前国内外主流文具品牌可擦笔在生产中主要使用的热敏油墨工艺, 不同品牌、 型号的成分配比不同。 图3(a)呈现了45份不同样本的原始高光谱图。 对比同一品牌不同颜色样本, 以Elfinbook牌为例, 其蓝色、 浅红、 绿色、 黄色、 红色、 粉红、 晶蓝、 橙色8种颜色可擦笔光谱图在450~950 nm波段变化趋势和幅度具有显著差异性。 三菱在941 nm附近出现峰值, 450~950 nm波段特征值始终小于0.4, 摩磨乐在893 nm附近出现峰值、 韩韵在450~950 nm波段出现多次特征峰值。 通过原始谱图观察, 在同一谱图中绝大多数样本的峰形状和特征峰相似, 通过Hilbert滤波器对信号进行补充处理, 可以发现三种不同频率的滤波器能够分别对原始光谱信息起到不同的补充作用。 图3(b)—(d)为分别经Hilbert低通滤波器、 Hilbert高通滤波器、 Hilbert带通滤波器处理的45种可擦笔高光谱图, 经Hibert滤波器处理后, 能够有效消除谱线重合现象, 但通过谱图难以直接进行辨识。 基于四种不同的处理方式, 选用MLP、 RBF、 FDA三种模型进行进一步讨论。

图3 45份样品原始高光谱及滤波器处理后的谱图
(a): 原始谱图; (b): 希尔伯特低通滤波器; (c): 希尔伯特高通滤波器; (d): 希尔伯特带通滤波器
Fig.3 Original hyperspectral images of 45 samples and their spectra after filter processing
(a): Original spectrogram; (b): Hilbert low-pass filter; (c): Hilbert high-pass filter; (d): Hilbert band pass filter

2.2 光谱数据建模

2.2.1 人工神经网络模型分类

选用MLP、 RBF两种常见人工神经网络模型对45份可擦笔油墨样本进行分类。 由于原始数据的冗余信息较多, 输入原始光谱数据直接进行建模效果较差。 基于此, 选用不同维度的主成分特征进行建模, 在MLP、 RBF两类模型中, 由5维到29维特征向量进行建模分析, 发现当累计方差贡献率达100%后且不再选用冗余的特征进行建模效果最好, 实验中的PCA-RBF模型准确率最高74.1%, PCA-MLP模型准确率最高81%。 具体见图4。

图4 MLP与RBF分类正确率曲线Fig.4 MLP and RBF identify accuracy curves

经Hilbert低通滤波器、 Hilbert高通滤波器、 Hilbert带通滤波器处理后对MLP和RBF两类模型的准确精度明显提高。 经Hilbert高通滤波器、 Hilbert带通滤波器处理后的高光谱数据信息相较于单一PCA处理后所包含的信息更完整。 其中PCA-Hilbert band pass-MLP的准确率81.3%, PCA-Hilbert high pass-MLP的准确率达84.4%, 其他PCA-Hilbert模型较原始数据也具有明显的提升, 具体见图5。

图5 Hilbert处理后分类准确率率曲线Fig.5 Hilbert operation identify accuracy curves

RBF在分类模型中较MLP具有较好的鲁棒性, 经Hilbert滤波器处理后的模型精度也具有显著提升, Hilbert低通滤波器处理下的RBF模型准确率降低7.1%。 Hilbert高通滤波器-PCA处理后的数据在RBF模型中的分类准确率最高, 达88.9%, 相较于只通过PCA处理后的模型准确率提高24%。 通过对比不同维数成分因子的PCA和PCA-Hilbert high-pass filter融合前处理的精度, 发现通过Hilbert high-pass filter处理能够有效地将PCA所消除的部分有效信息通过将一维数据转化成二维数据而提高精度, 此类前处理方法, 对MLP和RBF模型对可擦笔油墨的光谱识别具有较好的效果, 具体见表4

表4 PCA-Hilbert融合精度比较 Table 4 Comparison of fusion accuracy between PCA and Hilbert

2.2.2 FDA模型分类

基于两种人工神经网络模型的讨论结果, 23维主成分特征的建模效果较好, 且Hilbert滤波器能够对光谱信息进行有效的成分补充。 实验中MLP和RFB模型对可擦笔油墨识别准确率较高, 但尚未达到理想效果, 且神经网络算法对数据可解释性较差。 在此基础上, 需引入一种传统监督学习作为对比模型。 选用FDA模型, 建立3个判别函数对不同类别的样本进行判别分析, 并通过可视化展示不同类别的样本区分效果。

以高通Hilbert滤波器处理的主成分特征为例, 选用FDA1、 FDA2、 FDA3作为投影转化的判别函数, 分别为

FDA1=0.732x1+0.989x2+0.069x3+0.031x4+0.176x5+0.050x6+0.286x7+0.201x8-0.323x9+0.721x10+0.306x11-0.349x12+0.042x13-0.060x14+0.633x15+0.012x16+0.257x17+0.032x18-0.456x19+0.343x20+0.264x21+0.010x22-0.075x23

FDA2=0.179x1-0.285x2-0.295x3-0.316x4-0.013x5+0.263x6-0.120x7+0.074x8+0.795x9+0.238x10-0.196x11+0.126x12-0.371x13-0.270x14-0.180x15-0.208x16+0.175x17+0.281x18-0.008x19+0.546x20+0.406x21-0.150x22+0.118x23

FDA3=-0.149x1+0.060x2+0.210x3+0.158x4-0.038x5+0.066x6+0.151x7+0.121x8+0.330x9+0.024x10+0.360x11-0.026x12+0.463x13-0.026x14-0.239x15-0.408x16-0.397x17+0.402x18+0.214x19+0.142x20+0.204x21-0.119x22-0.345x23

通过FDA1、 FDA2、 FDA3建立空间分布图, 选用不同样本的成分得分作为变量, 可以直观地对碳化钨笔珠、 子弹头笔珠、 全针管、 半针管四种笔头的油墨样本进行可视化区分。 如图6所示, 对比(a)、 (b)、 (c)和(d)四种预处理方法的FDA模型样本空间分布图, 高通频率下的Hilbert滤波器结合PCA降维处理后的数据在FDA模型中区分效果最好, 局限性明显, 能够有效地区分四种笔头结构的油墨样本。 带通频率的Hilbert滤波器对原始光谱数据的成分信息补充过于冗余, 模型鲁棒性较差, 区分效果不明显。

图6 四种预处理样本空间分布图Fig.6 Spatial distribution maps of the four preprocessed samples

原始数据的FDA模型对样本的分类准确率是44.4%, 相较于最优预处理的数据建模效果较差, 因此在实验中选用4种预处理方式进行对比, Hilbert high-pass结合PCA的预处理效果最好, 准确率达93.3%, 分类效果优于MLP、 RBF的最优模型。

综上, 选用最优滤波器结合PCA降维处理后, 能够明显的提升三类模型对于不同品牌、 笔形的可擦笔油墨识别准确率。 图7表示三种不同模型的分类效果对比。

图7 模型分类准确率对比图Fig.7 Model classification accuracy comparison diagram

3 结论

使用高光谱结合模式识别方法分析45份不同类别可擦笔油墨样本, 通过Hilbert滤波器与PCA特征提取融合方法对45份样本光谱数据进行前处理。 对比MLP、 RBF两种神经网络在不同条件下的识别准确率, 发现Hilbert High pass对模型的优化效果较好。 FDA模型能够有效地识别不同样本, 将各种样本根据不同种类进行区分。 三种模型均需要PCA进行数据降维, PCA-MLP、 PCA-RBF和PCA-FDA三种融合模型较原始模型识别效果较好。 比较不同类型的希尔伯特滤波器, 可以发现高通、 带通等滤波器能够较好地补充光谱信号, 提升模型分类准确率。 基于PCA-Hilbert High-pass的融合预处理对数据降噪效果最好, PCA-Hilbert high pass-FDA模型准确率提升至93.3%, 分类效果最好, 可以有效地区分不同类型的可擦笔油墨。 通过光谱信号处理的方法可以补充光谱数据的有效信息, 结合降维算法能够消除冗余信息, 提高可擦笔油墨光谱识别的模型准确率, 对法庭科学文件检验方向的笔迹光谱检验具有一定参考意义。

参考文献
[1] ZHAO Yu-xuan, ZENG Le-yang-zi, LI Kai-kai(赵昱萱, 曾乐洋子, 李开开). Spectroscopyand Spectral Analysis(光谱学与光谱分析), 2021, 41(8): 2420. [本文引用:1]
[2] Sauzier G, Mcgann J, Lewis S W, et al. Analytical Methods, 2018, 10(47): 5613. [本文引用:1]
[3] Kumar R, Sharma V. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2017, 175: 67. [本文引用:1]
[4] Devassy B M, George S. Forensic Science International, 2020, 311: 110194. [本文引用:1]
[5] Reed G, Savage K, Edwards D, et al. Science & Justice: Journal of the Forensic Science Society, 2014, 54(1): 71. [本文引用:1]
[6] Sugawara S. Forensic Chemistry, 2017, 6: 44. [本文引用:1]
[7] WANG Shu-yue, YANG Yu-zhu, HE Wei-wen, et al(王书越, 杨玉柱, 何伟文, ). Journal of Instrumental Analysis(分析测试学报), 2021, 40(10): 1489. [本文引用:1]
[8] YANG Lu, HUANG Jian-hua, CHEN Xin-nan, et al(杨璐, 黄建华, 陈欣楠, ). Journal of Instrumental Analysis(分析测试学报), 2020, 39(7): 844. [本文引用:1]
[9] Davis L J, Saunders C P, Hepler A, et al. Forensic Science International, 2012, 216(1-3): 146. [本文引用:1]
[10] WANG Xiao-bin, MA Xiao, WANG Xin-cheng(王晓宾, 马枭, 王新承). Laser & Optoelectronics Progress(激光与光电子学进展), 2020, 57(15): 153005. [本文引用:1]
[11] WANG Jie, TAN Bing-chong, TAO Xing-zhu, et al(王洁, 谭冰冲, 陶星竹, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2022, 41(3): 589. [本文引用:1]
[12] WANG Ju-xiang, WANG Kai(王菊香, 王凯). Chinese Journal of Analysis Laboratory(分析试验室), 2018, 37(7): 821. [本文引用:1]
[13] WANG Xiao-bin, MA Xiao, YANG Lei, et al(王晓宾, 马枭, 杨蕾, ). Laser & Optoelectronics Progress(激光与光电子学进展), 2021, 58(1): 0130002. [本文引用:1]
[14] WEI Chen-jie, WANG Ji-fen, FAN Lin-yuan, et al(卫辰洁, 王继芬, 范琳媛, ). China Plastics(中国塑料), 2020, 34(12): 59. [本文引用:1]
[15] WANG Ju-xiang, WANG Kai(王菊香, 王凯). Chinese Journal of Analysis Laboratory(分析试验室), 2018, 37(7): 821. [本文引用:1]
[16] Wei Chenjie, Wang Jifen, He Xinlong, et al. Microchemical Journal, 2021, 163: 105924. [本文引用:1]
[17] HE Xin-long, WANG Ji-fen, HE Ya, et al(何欣龙, 王继芬, 何亚, ). Laser Journal(激光杂志), 2019, 40(11): 33. [本文引用:1]