基于紫外光谱法和有监督模式识别技术对氯化钠、氢氧化钠和β-苯乙胺种类的鉴别
仝昂鑫, 汤晓君*, 张峰, 王斌
西安交通大学电气工程学院电力设备电气绝缘国家重点实验室, 陕西 西安 710049
*通讯作者 e-mail: xiaojun_tang@xjtu.edu.cn

作者简介: 仝昂鑫, 1988年生, 西安交通大学电气工程学院博士研究生 e-mail: tongangxin@stu.xjtu.edu.cn

摘要

β-苯乙胺(PEA)是一种重要的有机合成中间体, 在PEA生产过程中, 最终的生成物中常常为含有氯化钠(NaCl)、 氢氧化钠(NaOH)和PEA三者的混合物。 因此, 对NaCl, NaOH, PEA和混合物种类进行鉴别, 有利于PEA的合成以及定性检测, 需建立紫外光谱快速鉴别NaCl, NaOH, PEA和混合物种类的方法。 利用紫外光谱法分别测量了NaCl, NaOH, PEA和混合物在190~400 nm范围的吸收光谱。 首先, 采用偏最小二乘法(PLS)提取紫外光谱的主成分信息, 用少数的主成分信息取代原始变量, 减少模型的复杂度。 用PLS提取NaCl, NaOH和PEA在前三个主成分空间中得分向量值的分布。 可知NaCl, NaOH和PEA前三个主成分累计贡献率分别是96.64%, 99.44%和99.95%。 因此, NaCl、 NaOH和PEA的前三个主成分基本包含了大部分的光谱信息。 其次, 用获得的三个主成分作为输入变量, 采用线性判别分析(LDA), Sigmoid SVM, RBF-SVM, RBF-ANN, BP-ANN和人工蜂群(ABC)优化神经网络(ABC-BP-ANN)等模式识别方法对NaCl, NaOH和PEA种类进行判别, 获得总的敏感性分别为95.6%, 95.6%, 95.9%, 95.8%, 96.9%和99.6%。 由于NaCl和NaOH特征吸收峰很相似, 主成分得分向量会出现重叠现象, 导致NaCl和NaOH的种类鉴别出现误判。 通过对比六种分类方法, 可知ABC-BP-ANN效果最优, BP-ANN次之, RBF-SVM和RBF-ANN结果相似, 但比BP-ANN稍差, LDA和Sigmoid-SVM效果最差。 最后, 配制7种不同摩尔分数的混合物(混合物摩尔分数是指PEA物质的量占混合物总物质的量百分比), 浓度范围为0%mol·L-1~60%mol·L-1, 然后采用RBF-SVM, BP-ANN和ABC-BP-ANN三种方法对混合物种类进行判别。 从敏感性和特异性结果可以得知, ABC-BP-ANN分类效果最好, BP-ANN次之, RBF-SVM分类效果最差, 由混合物得到的结果与单组分的结果相一致。 结果表明, 紫外光谱结合ABC-BP-ANN模式识别方法可以成功区分NaCl, NaOH, PEA和混合物的种类。 该方法可作为一种简便、 快速、 可靠的方法用于NaCl, NaOH, PEA和混合物的种类判别, 并为PEA的合成和质量控制提供理论依据和技术支撑。

关键词: β-苯乙胺; 紫外光谱; 人工蜂群优化神经网络; 敏感性; 混合物光谱判别
中图分类号:TS227 文献标志码:A
Species Identification of NaCl, NaOH and β-Phenylethylamine Based on Ultraviolet Spectrophotometry and Supervised Pattern Recognition Technology
TONG Ang-xin, TANG Xiao-jun*, ZHANG Feng, WANG Bin
State Key Laboratory of Electrical Insulation and Power Equipment, Xi’an Jiaotong University, Xi’an 710049, China
*Corresponding author
Abstract

β-phenylethylamine(PEA) is a very important chemical that intermediates raw materials. During the synthetic process of PEA, the final product usually contains NaCl, NaOH and PEA. Therefore, it is of great significance for the synthesis and qualitative measurement of PEA to identify the species of NaCl, NaOH, PEA and the mixture. A rapid method for the identification of NaCl, NaOH, PEA and mixtures was established by UV spectroscopy. Therefore, the absorption spectra of NaCl, NaOH, PEA and the mixture were measured by UV spectroscopy in the interval 190~400 nm. Firstly, the PLS method was used to extract the principal components of the UV spectrum, and a few principal components were used to replace the original variables to reduce the complexity of the model. PLS was used to extract the distribution of score vector values of NaCl, NaOH and PEA in the space of the first three principal components. The accumulative contribution rates of the first three principal components of NaCl, NaOH and PEA were 96.64%, 99.44% and 99.95%, respectively. Therefore, the first three principal components of NaCl, NaOH and PEA contain most of the spectral information. Secondly, three principal components were used as input variables to identify the species of NaCl, NaOH and PEA by using LDA, Sigmoid SVM, RBF-SVM, RBF-ANN, BP-ANN and Artificial Bee Colony(ABC) combined with BP-ANN(ABC-BP-ANN), and the overall sensitivity were 95.6%, 95.6%, 95.9%, 95.8%, 96.9% and 99.6%, respectively. Since the characteristic absorption peaks of NaCl and NaOH are very similar, the score vectors of the principal component would overlap each other, which led to misjudgment for the species identification of NaCl and NaOH. By comparing the results of six classification methods, it is known that ABC-BP-ANN is the best, BP-ANN is the second, RBF-SVM and RBF-ANN are similar, but slightly worse than BP-ANN, LDA and Sigmoid-SVM are the worst. Finally, the mixtures of seven different mole fractions were prepared which ranged from 0% m·m-1 to 60% m·m-1(The molar fraction of the mixture is the percentage of PEA in the mixture), then RBF-SVM, BP-ANN and ABC-BP-ANN are used to identify the species of the mixture. From the results of sensitivity and specificity, it can be concluded that the classification result of ABC-BP-ANN is the best, BP -ANN is the second, RBF-SVM is the worst, and the results of the mixtures are consistent with those of the single component. The results indicated that UV spectroscopy combined with ABC-BP-ANN pattern recognition technology could successfully identify the species of NaCl, NaOH, PEA and the mixture. This method can be used as a simple, rapid and reliable method for the species identification of NaCl, NaOH, PEA and the mixture, and it can also provide theoretical basis and technical support for the synthesis and quality control of PEA.

Keyword: β-phenylethylamine; UV spectroscopy; Artificial Bee Colony combined with BP-ANN; Sensitivity; Species identification of the mixture
引言

β -苯乙胺(PEA)是一种重要的有机合成中间体, PEA及其衍生物在染料、 医药、 乳化剂及香料等领域有着广泛的应用[1]。 在PEA生产过程中, 氢氧化钠(NaOH)常作为一种反应物, 最终的生成物中常常含有氯化钠(NaCl)、 NaOH和PEA的混合物[2]。 目前, PEA的主要检测方法包括高效液相色谱法、 气相色谱、 毛细管电泳、 离子色谱-质谱法、 薄层色谱等[3]。 但是, 上述方法存在费时、 繁琐等缺点, 且对实验人员操作水平、 检测环境以及色谱板的要求较高, 不能适应简便、 快速和现场等要求, 亟需探索新的有效的PEA检测方法和技术。 相比之下, 紫外光谱法具有实时检测快、 无化学试剂、 成本低、 无二次污染、 可实现在线原位测量等优点[3]。 国内外学者也很少对最终PEA生成物的物质种类进行鉴别, 因此NaCl, NaOH, PEA以及混合物的种类进行鉴别, 对PEA的合成以及定性检测具有重要的意义。

对于物质种类的鉴别, 国内外学者将红外光谱、 荧光光谱、 高光谱成像技术、 太赫兹光谱、 激光诱导击穿光谱和拉曼光谱等新型的检测方法, 结合线性判别(LDA)、 支持向量机(SVM)和神经网络(ANN)等有监督的模式识别技术, 成功对人脸、 语音信号、 藏药红景天品种、 热带森林树种、 玉米品种、 花生油真伪等进行了鉴别[4, 5, 6, 7, 8]。 但是上述对物质种类检测的方法依然存在着测量周期长、 速度慢、 需要样品预处理、 二次污染等缺点[9]。 在这一背景下, 紫外可见光谱法结合LDA, SVM和ANN等有监督的模式识别技术被成功用来鉴别茶叶种类[10]、 葡萄酒品种[11]和辣椒原产地[12]。 然而, 各类的类别中心重叠时, 不能继续使用LDA; SVM对解决多分类问题存在困难; ANN具有容易陷入局部最小值、 收敛速度慢等缺点。

鉴于此在对比LDA, Sigmoid SVM, RBF-SVM, RBF-ANN和BP-ANN等有监督模式识别技术的基础上[6, 7, 8, 9], 提出了一种新的模式识别技术, 用人工蜂群算法(artificial bee colony, ABC)[13]优化神经网络(BP-ANN)[8]的权值和阈值。 从获得的敏感性和特异性可知, 紫外光谱法结合ABC-BP-ANN对NaCl, NaOH, PEA及其混合物进行分类是一种简便、 快速、 可靠的分类方法, 研究结果为PEA的合成以及定性测量提供了新的理论依据。

1 实验部分
1.1 样品制备与测试

实验所用的NaCl, NaOH和PEA三种试剂均购自上海阿拉丁试剂有限公司。 首先, 分别配制1 mol· L-1 NaCl, 2 mol· L-1 NaOH和0.031 2 mol· L-1 PEA标准液, 用去离子水进行稀释, 分别配制成30组不同浓度的单组分样本, PEA的浓度范围为0.000 016 7~0.008 91 mol· L-1, NaCl的浓度范围为0.003 68~1 mol· L-1, NaOH的浓度范围为0.000 762~2 mol· L-1。 最后, 配制7种不同摩尔分数的混合物(混合物摩尔分数是指PEA物质的量占混合物总物质的量的百分比), 浓度范围为0%mol· L-1~60%mol· L-1, 每个浓度处配制30份溶液, 获得30组光谱数据, 共210组光谱数据。 所有样品的制备均在20 ℃进行。

以去离子水作为参比样品, 对NaCl, NaOH, PEA和混合物样本进行紫外可见光谱测定。 采用UV2900紫外可见分光光度计, 光谱测量范围为190~400 nm, 取样间隔为1 nm, 扫描速度为中速。 每个样品重复扫描5次, 计算平均光谱。 每次光谱测量时间约为1 min。 为了能够更加直观地说明实验过程, 图1和图2分别列出了样品稀释结构图和设备结构图。

图1 样品稀释结构图Fig.1 Structure diagram of sample dilution

图2 设备结构图Fig.2 Structure diagram of the equipment

1.2 数据分析

将20组样本作为训练集, 另外10组样本作为测试集。 采用偏最小二乘法(PLS)减少分类模型构建中需要用到的变量数量。 应用LDA, Sigmoid SVM, RBF-SVM, RBF-ANN, BP-ANN和ABC-BP-ANN进行分类。 所有程序均在Matlab 14.0上运行, 统计分析采用Statistica 8.0软件包。

2 结果与讨论
2.1 单组分和混合物的紫外吸收光谱

图3所示为0.001 49 mol· L-1 NaCl, NaOH和PEA的紫外吸收光谱。 图3中, 在190~400 nm波长范围内, PEA在210和258 nm处有特征吸收峰; NaOH的特征吸收峰在202 nm; NaCl在197 nm处有特征吸收峰。 且PEA的吸收峰最强, NaOH次之, NaCl的吸收峰最弱。 由于不同的物质具有不同的特征吸收峰, 可以利用这些特征吸收峰作为物质的“ 指纹” , 对物质种类进行鉴别。 因此, 根据特征吸收峰的不同, 可以直观的将三种物质区别出来。 然而NaCl和NaOH的特征吸收峰很相似, 不同浓度的NaCl和NaOH溶液的特征吸收峰会出现重叠现象, 此时, 利用特征吸收峰对NaCl和NaOH进行识别, 会出现误判。

图3 0.001 49 mol· L-1 NaCl, NaOH和PEA的紫外吸收光谱Fig.3 UV absorption spectra of NaCl, NaOH and PEA at 0.001 49 mol· L-1

图4所示为七种不同浓度混合物的紫外吸收光谱。 从图4中可以看出, 当PEA浓度较高时, 混合物在210和258 nm波长处有特征吸收峰, 这两个吸收峰与PEA的特征吸收峰相吻合。 因此, 当混合物中PEA含量较高时, 可以通过混合物的特征吸收峰判断出含有PEA。 另外, 吸收峰的强度随着混合物中PEA浓度的降低而减小, 当混合物中PEA的浓度小于10%mol· L-1时, 混合物在258 nm波长处的特征吸收峰消失。 因此, 当混合物中PEA浓度小于10%mol· L-1时, 无法判断混合物中是否含有PEA。

图4 七种不同浓度混合物的紫外吸收光谱Fig.4 UV absorption spectra of the mixtures at seven different concentrations

通过以上分析可发现, 当被测物质的吸收峰存在很相似的情况, 且当被测物质的浓度降低时, 仅仅依靠物质吸收峰对其进行判别具有一定的局限性, 需要借助模式识别技术进行判别, 以便有效地克服依靠吸收峰进行判别的局限性。

2.2 主成分的提取

图5所示为用PLS提取的NaCl, NaOH和PEA在前三个主成分空间中得分向量值的分布。 NaCl, NaOH和PEA前三个主成分累计贡献率分别是96.64%, 99.44%和99.95%。 由此可知, NaCl, NaOH和PEA的前三个主成分基本包含了大部分的光谱信息。 由图5可以将NaCl, NaOH和PEA三种样品明显区分开。 针对这些趋势, 采用有监督的模式识别方法, 利用前三个主成分的得分向量作为输入变量, 找出一个合适的分类模型。

图5 前三个主成分空间中得分向量值的分布Fig.5 Distribution of score vector values in the space of the first three PCs

2.3 有监督的模式识别分类模型

敏感性和特异性两个指标可以通过混淆矩阵求得[14]。 图6为判别函数平面内样本的分布情况。 从图6中可以看出, PEA的第一个判别函数值为负, NaCl和NaOH的第一个判别函数值均为正, 据此可以判别出NaCl, NaOH和PEA的种类, 但是NaCl和NaOH的判别函数有部分重叠, 不能完全区分二者的种类。 表1总结了将不同分类模型应用于测试集得到的结果。 如表1所示, LDA模型获得的总的敏感性和特异性分别为95.6%和94.4%; Sigmoid-SVM并没有改善LDA的结果, 但RBF-SVM获得的总的敏感性和特异性分别提高了0.3%和0.7%; 建立输入层、 隐藏层和输出层分别由3, 12和3个神经元组成的RBF-ANN模型, 从总体结果来看, 与RBF-SVM模型的结果非常相似; 构建输入层、 隐藏层和输出层分别由3, 8和3个神经元组成的BP-ANN模型, 隐含层和输出层的传递函数分别为tansig和logsig, 反向传播的训练函数为traingdm, 与RBF-ANN获得的总体结果相比, BP-ANN获得的敏感性和特异性分别提高了1.1%和1.5%。

图6 NaCl, NaOH和PEA样本在判别函数平面内的分布Fig.6 Sample distribution of NaCl, NaOH and PEA in the plane of the discriminant functions

表1 有监督分类方法得到的测试集NaCl, NaOH和PEA的敏感性和特异性/% Table 1 The sensitivity and specificity of NaCl, NaOH and PEA for test sets obtained by supervised classification methods/%

传统的BP-ANN模型具有容易陷入局部最小值、 收敛速度慢、 对初始值敏感等缺点。 鉴于此, 将ABC与BP-ANN结合, 利用ABC优化BP-ANN的权值和阈值。 ABC通过控制解的个数(Ns)、 极限值(limit)和最大循环次数(MCN)这三个参数寻找最优的阈值和权值。 根据仿真结果进行调试, 选取Ns为150, limit为170, MCN为200。 如表1所示, 与BP-ANN获得的总体结果相比, ABC-BP-ANN获得的敏感性和特异性分别提高了2.7%和2.5%。

将RBF-SVM, BP-ANN和ABC-BP-ANN三种分类方法应用于混合物的分类, 图7给出了三种分类方法对70组混合物测试样本的分类结果。 从图中可以看到, 误判发生在10%mol· L-1, 20%mol· L-1, 40%mol· L-1和60%mol· L-1这四个浓度处。 图7(a)所示为用RBF-SVM方法得到的分类结果, 可知有三个10%mol· L-1的样本被误分类为0%mol· L-1; 有三个20%mol· L-1的样本被误分类为30%mol· L-1; 有一个40%mol· L-1的样本被误分类为30%mol· L-1, 另外一个40%mol· L-1的样本被误分类为50%mol· L-1; 有两个60%mol· L-1的样本被误分类为50%mol· L-1。 图7(b)所示为用BP-ANN方法得到的分类结果, 可知有两个10%mol· L-1的样本被误分类为0%mol· L-1; 有两个20%mol· L-1的样本被误分类为30%mol· L-1; 有一个40%mol· L-1的样本被误分类为30%mol· L-1, 另外一个40%mol· L-1的样本被误分类为50%mol· L-1; 有一个60%mol· L-1的样本被误分类为50%mol· L-1。 图7(c)所示为用ABC-BP-ANN方法得到的分类结果, 可知有一个10%mol· L-1的样本被误分类为0%mol· L-1; 有一个20%mol· L-1的样本被误分类为30%mol· L-1; 有一个40%mol· L-1的样本被误分类为30%mol· L-1; 有一个60%mol· L-1的样本被误分类为50%mol· L-1

图7 三种有监督分类方法得到的混合物分类结果
(a): RBF-SVM; (b): BP ANN; (c): ABC BP ANN; 1: 0%mol· L-1; 2: 10%mol· L-1; 3: 20%mol· L-1; 4: 30%mol· L-1; 5: 40%mol· L-1, 6: 50%mol· L-1; 7: 60%mol· L-1
Fig.7 Classification results of the mixture obtained by three supervised classification method
(a): RBF-SVM; (b): BP ANN; (c): ABC BP ANN; (a): RBF-SVM; (b): BP ANN; (c): ABC BP ANN; 1: 0%mol· L-1; 2: 10%mol· L-1; 3: 20%mol· L-1; 4: 30%mol· L-1; 5: 40%mol· L-1, 6: 50%mol· L-1; 7: 60%mol· L-1

由以上结果可知, 发生误判的混合物样本的浓度往往比较低, 分析认为低浓度混合物样本的吸收峰比较弱甚至消失。 对比表2中的敏感性和特异性可以得知, ABC-BP-ANN方法获得的结果最好, BP-ANN次之, RBF-SVM结果最差。 混合物得到的结果与单组分的结果相一致。

表2 三种有监督分类方法得到的测试集混合物的敏感性和特异性 Table 2 The sensitivity and specificity of the mixture for test sets obtained by three supervised classification methods
3 结论

根据NaCl, NaOH, PEA和混合物的紫外可见光谱, 用190~400 nm范围内的吸光度值作为输入变量, 并应用有监督的模式识别方法, 对其样品种类进行了鉴别。 首先采用PLS提取NaCl, NaOH, PEA和混合物紫外光谱的主成分, 将得到的主成分作为输入变量, 然后通过比较LDA, Sigmoid SVM, RBF-SVM, RBF-ANN, BP-ANN和ABC-BP-ANN几种不同的有监督的模式识别方法, 可以得知运用ABC-BP-ANN模式识别方法, 有效提高了分类敏感性和特异性, 证明了所提出的ABC-BP-ANN方法的有效性。 相比于其他使用昂贵设备或涉及繁琐样品制备的检测方法, 紫外可见分光光度法具有易于获得、 操作简单、 成本低、 易于维护和无二次污染等优点。 因此, 将紫外光谱法结合ABC-BP-ANN模式识别方法对NaCl, NaOH, PEA和混合物进行分类, 研究结果对PEA的在线合成分析提供了一种新的理论依据和思路。

参考文献
[1] Zamora R, Navarro J L, Hidalgo F J. Journal of Agricultural and Food Chemistry, 2018, 66(51): 13503. [本文引用:1]
[2] Uthoff F, Groeger H. Journal of Organic Chemistry, 2018, 83(16): 9517. [本文引用:1]
[3] Onal A, Tekkeli S E K, Onal C. Food Chemistry, 2013, 138(1): 509. [本文引用:2]
[4] Wang Chunyan, Li Wendong, Luan Xiaoning, et al. Talanta, 2010, 81(1-2): 684. [本文引用:1]
[5] SUN Jun, ZHANG Mei-xia, MAO Han-ping, et al(孙俊, 张梅霞, 毛罕平, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2015, 46(6): 251. [本文引用:1]
[6] YANG Yu-ping, ZHANG Cheng, LIU Hai-shun, et al(杨玉平, 张成, 刘海顺, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(1): 45. [本文引用:2]
[7] Manzoor S, Ugena L, Tornero-Lopez J, et al. Talanta, 2016, 155: 101. [本文引用:2]
[8] Bai P L, Wang J, Yin H C, et al. Analytical Letters, 2017, 50(2): 379. [本文引用:3]
[9] Wang Y, Zuo Z T, Shen T, et al. Analytical Letters, 2018, 51(17): 2790. [本文引用:2]
[10] Palacios A M, Alcazar A, de Pablos F, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013, 103: 79. [本文引用:1]
[11] Philippidis A, Poulakis E, Basalekou M, et al. Analytical Letters, 2017, 50(12): 1950. [本文引用:1]
[12] Palacios-Morillo A, Jurado J M, Alcazar A, et al. Food Control, 2016, 62: 243. [本文引用:1]
[13] Ning J X, Liu T T, Zhang C S, et al. Neural Computing & Applications, 2018, 30(3): 775. [本文引用:1]
[14] Qin B Y, Li Z, Chen T, et al. Optik, 2017, 142: 576. [本文引用:1]