显微共聚焦拉曼光谱技术结合化学计量法鉴别静电复印纸
陈维娜1, 国中正1, 李开开1, 杨玉柱1, 杨旭2,*
1.中国人民公安大学侦查学院, 北京 100038
2.司法部司法鉴定科学研究院, 上海 200063
*通讯作者 e-mail: yangx@ssfjd.cn

作者简介: 陈维娜, 1984年生, 中国人民公安大学侦查学院副教授 e-mail: 645421515@qq.com

摘要

静电复印纸的鉴别是法庭科学物证检验中的一项重要工作。 建立显微共聚焦拉曼光谱技术结合化学计量学检验、 鉴别不同品牌、 型号静电复印纸的分析方法, 以实现对静电复印纸的无损检验和准确鉴别。 收集不同品牌、 不同型号的静电复印纸共计20种, 利用激光波长为785 nm的半导体激光器, 采集不同纸张样品的拉曼光谱数据, 分析每种纸张样品中的主要特征峰及对应的物质成分; 将光谱数据使用沃尔德系统聚类分析法进行分类, 并采用主成分分析法评价聚类分析的鉴别结果。 研究发现, 不同纸张样品的主要特征峰集中在900~1 700 cm-1范围内, 分别位于714, 892, 1 092, 1 119, 1 143, 1 343, 1 385, 1 470, 1 510和1 600 cm-1附近, 主要成分为纤维素、 木素和碳酸钙; 各纸张样品的光谱曲线虽然相互交叠, 但峰强度和峰面积存在一定差异, 可利用化学计量学中的聚类分析和主成分分析对纸张样品的光谱数据进行分类鉴别。 根据系统聚类分析的树状图和按计划表绘制的散点图可将20种不同品牌、 不同型号的静电复印纸样品分为四类, 其中第Ⅰ类中包含10份样品, 第Ⅱ类中包含3份样品, 第Ⅲ类中包含6份样品, 第Ⅳ类中仅包含1份样品。 再对纸张样品在900~1 700 cm-1范围内的光谱数据进行主成分分析, 在17个主成分中前两个主成分累计贡献率已达到84%, 包含了绝大部分的光谱信息; 基于前两个主成分绘制纸张样品拉曼光谱数据的主成分得分图, 发现聚类分析的结果在主成分得分图中得到了很好的验证, 第Ⅰ~Ⅳ类所包含的各小类都能聚集在一块、 区分明显, 分类鉴别的结果准确、 合理。 该方法在使用时不会损坏纸张样品, 且操作过程简便, 鉴别效果较为理想, 可适用于法庭科学中对文件物证的检验和分析, 为物证溯源提供线索和依据。

关键词: 静电复印纸; 拉曼光谱; 系统聚类分析; 主成分分析; 鉴别
中图分类号:O433.4 文献标志码:A
Micro Confocal Raman Spectroscopy Combined With Chemometrical Method for Forensic Differentiation of Electrostatic Copy Paper
CHEN Wei-na1, GUO Zhong-zheng1, LI Kai-kai1, YANG Yu-zhu1, YANG Xu2,*
1. College of Investigation, People’s Public Security University of China, Beijing 100038, China
2. Academy of Forensic Science, Ministry of Justice, Shanghai 200063, China
*Corresponding author
Abstract

The identification of electrostatic copy paper is an important work in forensic science physical examination. Establish the analysis method of microscopic confocal Raman spectroscopy combined with Chemometrics to examine different brands and models of copying paper, to achieve the non-destructive inspection and accurate identification of copy paper. The online shopping platform was used to collect 20 kinds of electrostatic copy paper of different brands and models. The Raman Spectra data of different paper samples were collected by using the laser wavelength of 785 nm semiconductor laser. The main characteristic peaks in each paper sample and their corresponding components were analyzed. The spectral data were classified by Wohlde hierarchical clustering analysis, and the discrimination results were evaluated by principal component analysis (PCA). It was found that the main characteristic peaks of different paper samples were concentrated in the range of 900~1 700 cm-1, respectively around 714, 892, 1 092, 1 119, 1 143, 1 343, 1 385, 1 470, 1 510 and 1 600 cm-1, and the main components were cellulose, lignin and calcium carbonate. Although the spectral curves of each paper sample overlap each other, there are some differences in peak intensity and peak area. The spectral data of paper samples can be classified and identified by cluster analysis and principal component analysis in Chemometrics. According to the tree diagram of the system cluster analysis and the scatter diagram drawn in light of the schedule Table, 20 kinds of copy paper samples in different brands and models can be divided into four categories. Among the four categories, 10 samples are included in ClassⅠ and 3 samples are included in ClassⅡ, ClassⅢ contains six samples and ClassⅣ contains only one sample. Then PCA of spectral data of paper samples in the range of 900~1 700 cm-1, the contribution of the first two principal components in 17 principal components reached 84%, which contained most of the spectral information. Based on the first two principal components, the principal component scores of the Raman Spectrum data of paper samples were drawn. It was found that the results of cluster analysis were well verified in the principal component scores. All the subclasses contained in Class Ⅰ-Class Ⅳ can be grouped and distinguished clearly. The results of classification and identification are accurate and reasonable. This method can not damage the paper samples when used, the operation process is simple, and the effect of identification is ideal. It can be applied to the examination and analysis of documents material evidence in forensic science, and it can provide clues and a basis for tracing the source of material evidence.

Keyword: Electrostatic copy paper; Raman Spectroscopy; Hierarchical clustering analysis; Principal component analysis; Forensic differentiation
引言

纸张鉴别是法庭科学领域研究的重要内容之一。 在所有纸张中, 静电复印纸因其纸品洁白、 平整, 纤维细密且具有一定的抗静电性, 被广泛应用于复印、 打印、 传真中。 一些不法之徒利用静电复印纸来伪造合同、 协议, 印制反动宣传品、 敲诈勒索信等, 使静电复印纸成为其从事违法犯罪活动的一种工具。 法庭科学文件检验从业人员通过对静电复印纸的种类、 品牌等进行检验、 鉴别, 不仅能够判断文件材料的真伪及其来源, 还能缩小侦查范围, 为法庭诉讼提供证据。

静电复印纸的主体成分是植物纤维, 检验纸张中其他添加成分是区分不同厂商配方的关键。 通常可使用红外光谱法[1, 2]、 紫外光谱法[3, 4]、 扫描电镜与电子能谱仪检验法[5]、 X射线分析法[6]等对静电复印纸的填料成分等进行定性及定量分析, 但这些方法大多制样复杂, 且对纸张样品有所损坏, 在实际办案中难以普及。

显微共聚焦拉曼光谱技术将拉曼光谱分析技术与显微分析技术相结合, 具有无损检验、 无需制样、 操作简便、 所需样本量少等优点, 适合对文件物证进行检验分析。 特别是近年来, 随着化学计量学方法的引入, 通过对光谱数据的深度挖掘, 在文件物质材料种类鉴别方面取得了较为丰硕的研究成果[7, 8, 9, 10]。 但这些研究成果主要聚焦在文件上的墨水、 油墨、 印泥(油)等色料, 缺乏对文件载体— — 纸张的分析, 本工作利用显微共聚焦拉曼光谱技术采集了静电复印纸样品的光谱数据, 采用聚类分析进行了分类, 并采用主成分分析对聚类分析的分类结果进行了验证, 以期建立一种更可靠、 更便捷的检验方法, 实现不同品牌、 型号静电复印纸的无损鉴别。

1 实验部分
1.1 样品

收集了不同品牌、 不同型号的静电复印纸20种, 纸品定量均为70 g· m-2, 纸幅规格均为A4(297 mm× 210 mm), 编号Y1— Y20; 涉及15个品牌, 12个生产厂家, 详细信息见表1。 同时收集思齐(SiQi)牌定性滤纸, 常见无机填料碳酸钙、 硫酸钡等作为参照。

表1 不同品牌的复印纸 Table 1 Different brands of copying paper
1.2 仪器及工作条件

使用Renishaw公司Renishaw inVia Reflex激光显微共聚焦拉曼光谱仪, 选用10X目镜、 50X物镜和激光波长为785 nm的半导体激光器, 光栅1 200 L· mm-1, 激光功率衰减至10%, 曝光时间为10 s, 积分2次, 扫描范围: 500~2 000 cm-1

1.3 方法

1.3.1 拉曼光谱采集

依次将静电复印纸、 定性滤纸样品放于电控载物台上, 在显微镜下调焦清晰后进行采样。 考虑到纸张的不均匀性, 故随机选择每份样品上的3个点作为采样点, 按照仪器工作条件采集拉曼光谱。 将碳酸钙、 硫酸钡等样品均匀覆盖在载玻片上后置于电控载物台进行光谱取样, 仪器工作条件和操作过程同上。

1.3.2 光谱数据预处理

采用The Unscrambler X软件对光谱数据进行平均滤波平滑处理, 以消除噪声的影响。 计算每次测量的3组数据的平均值, 并使用LabSpec软件采用多项式拟合法去除基线、 选择高斯-洛伦兹混合函数进行峰位拟合, 再通过Origin软件绘制拉曼光谱图进行光谱分析。

1.3.3 沃尔德系统聚类分析

系统聚类法是一种常见的无监督分类方式, 能使类间对象的异质性和类内对象的同质性最大化, 从而达到物以类聚的目的; 同时可对传统视觉分类方法起到良好的补充作用。 沃尔德系统聚类法基于方差分析的思想, 以两类合并为一类时所增加的离差平方和来计算类间距离; 先让每个样品自成一类, 然后通过合并缩小一类, 每缩小一类时离差平方和就要增大, 选择将离差平方和增加最小的两类合并, 直到所有的样品归为一类为止。 如果分类得当, 则同类样品间的离差平方和应较小, 而类间的离差平方和应较大。 本实验使用SPSS软件对光谱数据进行聚类, 聚类方法选用沃尔德法, 测量区间为平方欧式距离, 利用Z得分标准化处理进行分析, 得到聚类集中计划表和树状图。

1.3.4 主成分分析

主成分分析法的中心思想是将数据降维, 从而实现用低维数据代替高维数据的效果; 其基本原理是通过正交变换将相关变量转换为线性不相关的变量, 经过变换之后得到原始光谱的主成分, 同时这些主成分基本能够代替原始光谱的信息。 累计方差贡献率决定主成分的个数, 累积方差贡献率的大小表示了当前选择的所有主成分携带原数据的信息的比例, 当累计方差贡献率能够提供原始变量的绝大部分信息时, 即可根据方差贡献率与主成分数关系图来确定所需的主成分数。 本实验使用SPSS软件对光谱数据进行主成分分析, 从相关性矩阵出发, 提取大于1的特征根与其所对应的主成分。 使用主成分分析法对特定波段的光谱数据进行有效降维, 能够得出各类纸张样品在主成分特征空间中的独立分布, 从而验证系统聚类的结果。

2 结果与讨论
2.1 拉曼光谱分析结果

经预处理后, 20种纸张样品的拉曼光谱见图1。 从图1中可以看出, 在波数500~2 000 cm-1的范围内可见各纸张样品的特征峰, 主要集中在900~1 700 cm-1范围内, 分别位于714, 892, 1 092, 1 119, 1 143, 1 343, 1 385, 1 470, 1 510和1 600 cm-1等处; 不同样品间的峰位相似, 但峰强存在差异。

图1 20种复印纸样品的拉曼光谱Fig.1 Raman spectra of 20 copy paper samples

静电复印纸主要由植物纤维、 填料、 胶料和色料4部分组成, 其中植物纤维是基本成分, 填料也占据较大份额。 为确定各品牌、 型号静电复印纸样品的主要成分, 需要将静电复印纸样品的拉曼光谱与纯纤维素成分的定性滤纸拉曼光谱、 碳酸钙和硫酸钡等常见无机填料的拉曼光谱进行比较分析, 详见图2(a)— (d)。

图2 (a)— (d)静电复印纸样品与定性滤纸、 碳酸钙、 硫酸钡的拉曼光谱图
采用表1中序号对样品进行标号
Fig.2 (a)— (d) Raman spectra of copy paper samples, qualitative filter paper, CaCO3 and BaSO4
The samples are labeled with the serial numbers in Table 1

纯纤维素成分的定性滤纸在1 092, 1 119和1 143 cm-1等处出现特征峰, 分别对应糖苷键COC不对称伸缩振动、 糖苷键COC对称伸缩振动、 OCH3摇摆振动; 波数在1 200~1 500 cm-1范围的峰位则对应HCC, HCO, HCH和COH弯曲振动。 无机填料碳酸钙在714, 892, 1 087和1 470 cm-1等处出现特征峰, 分别对应CO3基团面内弯曲振动、 面外弯曲振动、 对称伸缩振动和C=O伸缩振动。 无机填料硫酸钡在630和992 cm-1等处出现特征峰, 分别对应S— O弯曲变形振动和对称伸缩振动。

通过静电复印纸与定性滤纸的拉曼光谱比较; 发现静电复印纸样品中富含纤维素成分, 在1 092, 1 119, 1 143, 1 343和1 385 cm-1等处出现特征峰。 复印纸与定性滤纸光谱的区别主要表现在714, 892, 1 470, 1 510和1 600 cm-1等处出现的拉曼光谱峰; 其中1 510 cm-1对应苯环的不对称伸缩振动, 1 600 cm-1对应苯环的对称伸缩振动, 为木素的特征峰位, 这说明复印纸样品中除纤维素成分外还含有木素成分。

通过静电复印纸与无机填料碳酸钙、 硫酸钡的拉曼光谱比较; 发现20种静电复印纸样品在714, 892, 1 087和1 470 cm-1等处附近出现特征峰, 且纸张中的纤维素主峰1 092 cm-1与碳酸钙主峰1 087 cm-1位置非常相近; 而在630和992 cm-1等处附近均未出现特征峰, 这说明复印纸样品中的填料成分均为碳酸钙, 而非硫酸钡。

拉曼光谱分析结果表明, 这20种不同品牌、 型号的静电复印纸拉曼光谱反映相近, 纸张中的主要物质成分为纤维素、 木素和碳酸钙等, 未见明显差异, 无法通过纤维、 填料的种类不同直接对复印纸进行种类鉴别。 不过上述检验反映出, 虽然不同纸张样品的光谱曲线存在交叉重叠现象, 但其主要特征峰的强度、 面积等均存在一定差异, 为进一步的鉴别分析提供了基础。

2.2 系统聚类结果

在拉曼光谱中, 植物纤维和碳酸钙是静电复印纸可检测的主要成分, 但二者的主峰过于接近、 相互交叠, 不宜直接使用二者的峰强度比或峰面积比来对样品种类进行进一步的区分。 考虑到系统聚类方法的优势, 将经过预处理的拉曼光谱数据导入SPSS软件中进行聚类分析。 通过测算不同聚类数目所对应的组内平方和, 以组内平方和基本不再变化为依据确定聚类数目, 得到聚类集中计划表, 绘制聚合系数随分类数变化的散点图, 结果见图3。

图3 聚合系数随种类数变化图Fig.3 Curves showing the change of clustering coefficient with the number of categories

从图3中可以看出, 当聚类数大于4时, 曲线变化趋势开始变得平缓; 即当聚类数大于4时, 所对应的组内平方和基本不再发生变化, 因此将该点作为分类数, 确定纸张样品的聚类数目为4类。 20种不同品牌、 型号的纸张样品聚类分析树状图见图4。

图4 不同静电复印纸样品系统聚类树状图Fig.4 The hierarchical clustering trees of different electrostatic copy paper samples

如图4所示, 当平均组间连接距离为2.5时, 可将20种静电复印纸样品分为四类: 第Ⅰ 类中包含10份样品: Y11— Y20; 第Ⅱ 类中包含3份样品: Y7, Y9和Y10; 第Ⅲ 类中包含6份样品: Y1— Y6; 第Ⅳ 类中仅有1份样品: Y8。

2.3 主成分分析结果

考虑到静电复印纸样品的拉曼光谱图主要特征峰集中在900~1 700 cm-1范围内, 故使用SPSS软件对这一特定波段范围内的光谱数据进行主成分分析, 得到的总方差解释见表2

表2 不同静电复印纸样品主成分分析结果 Table 2 Principal component analysis results of different

表2可知, 在纸张样品的17个主成分中, 前两个主成分累计方差贡献率已达到84%, 包含了绝大部分的光谱信息, 基于前两个主成分绘制样品拉曼光谱数据的主成分得分图, 如图5所示。

图5 不同静电复印纸样品主成分得分图Fig.5 The score chart of principal component analysis of different electrostatic copy papers samples

从图5中可以看出, 20种静电复印纸样品被分为四类, 其中: 分类1中包含Y11— Y20共10份样品; 分类2中包含Y7, Y9和Y10共3份样品; 分类3中包含Y1— Y6共6份样品; 分类4中仅包含Y8这1份样品。 将主成分分析结果与系统聚类结果进行比较, 发现运用沃尔德系统聚类得出的4种分类结果在主成分得分图中区分明显, 第Ⅰ — Ⅳ 类所包含的小类都能聚集在一块, 主成分分析结果与系统聚类分析结果相一致, 分类结果准确、 合理。

3 结论

使用显微共聚焦拉曼光谱技术采集了20种不同品牌、 型号的静电复印纸样品光谱数据, 经分析发现: 这些复印纸样品中的主要成分均为纤维素、 木素及碳酸钙填料, 经系统聚类可将这些纸张样品分成四类, 并得到了主成分分析结果的验证。

显微共聚焦拉曼光谱技术结合化学计量法可对不同品牌、 型号的静电复印纸样品进行鉴别, 弥补传统的依据光谱曲线形态进行直接分类方法的不足之处。 整个分析过程对纸张样品无损坏, 操作简便、 无需制样, 鉴别结果可用不同的统计分析方法相互印证, 可靠、 有效。 综上所述, 该方法适合在法庭科学文件检验中推广使用, 为鉴别静电复印纸、 确定文件真伪、 推断纸张来源提供数据支持和检测方法。

参考文献
[1] LI Ji-min, WANG Yan-ji, WANG Jing-han, et al(李继民, 王彦吉, 王景翰, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2009, 29(6): 1521. [本文引用:1]
[2] SHEN Si, LIU Meng, LI Yang-yong, et al(申思, 刘猛, 李杨勇, ). The Journal of Light Scattering(光散射学报), 2017, 29(3): 257. [本文引用:1]
[3] CUI Lian-yi(崔连义). Journal of Analytical Science(分析科学学报), 2013, 29(2): 294. [本文引用:1]
[4] CUI Lian-yi(崔连义). China Pulp & Paper(中国造纸), 2021, 40(2): 37. [本文引用:1]
[5] CHEN Wei-na, Chen-chen, YANG Chun-song, et al(陈维娜, 吕辰晨, 杨春松, ). China Pulp & Paper(中国造纸), 2017, 36(10): 37. [本文引用:1]
[6] Causin V, Marega C, Marigo A, et al. Forensic Science International, 2010, 197(1-3): 70. [本文引用:1]
[7] MA Xiao, WANG Xiao-bin, WANG Xin-cheng(马枭, 王晓宾, 王新承). Chemical Research and Application(化学研究与应用), 2020, 32(5): 873. [本文引用:1]
[8] GUO Zhong-zheng, CHEN Wei-na, WANG Xiao-bin, et al(国中正, 陈维娜, 王晓宾, ). Physical Testing and Chemical Analysis(Part B: Chemical Analysis)(理化检验-化学分册), 2020, 56(8): 878. [本文引用:1]
[9] NIU Fan, HUANG Jian-tong, HE Sen(牛凡, 黄建同, 何森). Physical Testing and Chemical Analysis(Part B: Chemical Analysis)(理化检验-化学分册), 2016, 52(12): 1478. [本文引用:1]
[10] LIU Bin, ZHAO Li, JIANG Yuan-long, et al(柳彬, 赵丽, 江沅龙, ). The Journal of Light Scattering(光散射学报), 2017, 29(2): 153. [本文引用:1]