基于迁移学习与TrAdaBoost-SVM方法的XRF中药重金属超标研究
马骞1,2, 杨婉琪1,2, 李福生1,2,*, 程惠珠1,2, 赵彦春1,2
1.电子科技大学自动化工程学院, 四川 成都 611731
2.电子科技大学长三角研究院(湖州), 浙江 湖州 313001
*通讯作者 e-mail: lifusheng@uestc.edu.cn

作者简介: 马 骞, 女, 1996年生, 电子科技大学自动化工程学院硕士研究生 e-mail: 17366257929@163.com

摘要

中药材重金属超标问题日趋严重, 将阻碍中药产业的未来高质量发展, 因此研究高效、 准确、 便捷的超标鉴定方法对于了解中药的安全性具有重要意义。 X射线荧光(XRF)光谱分析具有无损检测、 快速准确、 样品制备方便等优势, 在元素分析领域获得广泛应用。 由于中药材重金属超标阈值低(如中国药典2020年版规定铅超标为5 mg·kg-1), 中药的种类繁多, 基体复杂, 国家标准样本匮乏, 常规的分类算法难以准确鉴定超标问题。 将迁移学习与多分类支持向量机(TrAdaBoost-SVM)方法结合, 以金银花为例, 采用与金银花相似的国家土壤标准样品的光谱特征信息用于数据增强, 将土壤标准样品和少量中药样本混合建立迁移学习和支持向量机分类模型。 通过实验验证, 迁移学习和TrAdaBoost-SVM结合的分类优化方法, 与传统SVM、 AdaBoost分类算法相比, 鉴定重金属元素铅(Pb)的超标准确率有显著提高。 通过测试数据集的预测验证, TrAdaBoost-SVM模型的预测准确率为96.7%, 高于传统SVM及AdaBoost分类模型的准确率。 所提出的迁移学习与TrAdaBoost-SVM结合的方法, 可在小样本条件下建立分类模型, 并对中药的重金属超标准确预测, 具有一定的理论意义和应用价值。

关键词: X荧光光谱分析技术; 迁移学习; 支持向量机; 中药重金属超标分类
中图分类号:O434.13 文献标志码:A
Research on Classification of Heavy Metal Pb in Honeysuckle Based on XRF and Transfer Learning
MA Qian1,2, YANG Wan-qi1,2, LI Fu-sheng1,2,*, CHENG Hui-zhu1,2, ZHAO Yan-chun1,2
1. Research Center for Intelligent Equipment, School of Automation Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China
2. Yangtze Delta Region Institute (Huzhou), University of Electronic Science and Technology of China, Huzhou 313001, China
*Corresponding author
Abstract

The problem of heavy metals exceeding the standard in Chinese medicinal materials is becoming increasingly serious, which will hinder the high-quality development of the Chinese medicine industry in the future. Therefore, research on efficient, accurate and convenient methods for the identification of excessive heavy metals is of great value for understanding the safety of traditional Chinese medicine. X-ray fluorescence spectrometry (XRF) instruments have the advantages of non-destructive testing, fast and accurate, and convenient sample preparation, and are widely used in elemental analysis. Due to the low threshold of heavy metals in traditional Chinese medicinal materials (for example, the 2020 edition of the Chinese Pharmacopoeia stipulates that the lead exceeds the standard at 5 mg·kg-1), there are many types of traditional Chinese medicines, complex matrices, and lack of national standard samples. Conventional classification algorithms are difficult to identify excessive problems accurately. This paper combines transfer learning with a multi-class support vector machine (TrAdaBoost SVM) method. The spectral feature information of national soil standard samples similar to honeysuckle is used for data enhancement, and the standard soil sample and a small amount of traditional Chinese medicine samples are mixed with establish Transfer learning and support vector machine classification models. Through the experimental verification, the classification optimization method combining transfer learning and TrAdaBoost-SVM, compared with the traditional SVM and AdaBoost classification algorithm, the accuracy rate of identifying the heavy metal element lead (Pb) exceeding the standard has been significantly improved. Through the prediction verification of the test dataset, the prediction accuracy of the TrAdaBoost-SVM model is 96.7%, which is higher than that of the traditional SVM and AdaBoost classification models. The method of combining transfer learning and TrAdaBoost-SVM proposed in this paper can establish a classification model under the condition of small samples and can accurately predict the excess of heavy metals in traditional Chinese medicine, which has certain theoretical significance and application value.

Keyword: X-ray fluorescence spectroscopy analysis technology; Migration learning; Support vector machine; Heavy metals in traditional Chinese medicine classification
引言

中药作为我国传统的民族瑰宝, 随着国家医疗水平的提高与养生保健需求的增加, 中药材的需求量也在不断增大[1]。 然而中医药产业的蓬勃发展时期, 中药材重金属污染问题时有发生, 严重阻碍了中药行业健康有序发展与国际化的脚步。 有关中药材重金属问题, 2015年中国中医科学院牵头制定了ISO国际标准《中医药-中药材重金属限量》, 明确制定了中药材重金属标准[2]。 传统的中药材元素分类方法有判别分析、 模糊聚类分析法、 卷积神经网络等。 其中判别分析可准确有效鉴定天麻不同产地[3], 运用模糊分类方法可判别药物微量元素与疗效的相关性[4], 卷积神经网络与指纹图谱成功运用于中药的视图识别与鉴定中[5, 6]。 在实验样本充足的条件下, 这些传统的分析算法有时也能够达到很好的效果。 然而传统的机器学习分类模型通常建立在训练集和测试集服从相同数据分布的基础上, 而实际情况下, 这种条件并不一定能够满足。 当我们分类的目标发生改变, 无法使用的旧数据会被直接丢弃, 导致大量的浪费, 而建立新的数据集往往需要较大的成本。 中药种类繁杂、 地区特性明显, 全国仅用于饮片和中成药的药材就有1 000~1 200余种, 建立标准中药样品数据集的工作量非常庞大, 因此研究人员几乎无法购买到大量的标准样品用于实验分析, 大大阻碍了中药材重金属超标问题的研究[7]。 迁移学习作为一种利用相似样本的信息来帮助完成目标样本中的学习任务, 可以有效地在辅助样本与目标领域之间进行信息的共享与迁移, 针对具有相似信息的辅助样本与目标领域样本, 使用大量已有的数据对小样本目标进行数据扩充。 这种方法已被成功运用于物体种类识别与小样本高光谱图像分类[8], 证明其可以运用于样本分类问题, 解决小样本带来的分析准确性差的缺陷。

传统的中药元素检测方法主要有ICP-AES法、 原子吸收光谱法、 火焰原子吸收光谱法等, 这些方法往往需要对固体样本进行化学消解, 分析费用高, 仪器也比较贵[9, 10, 11]。 XRF即X射线荧光光谱分析技术, 由于其几乎不需要样品预处理、 无污染以及快速便捷分析的特点可以满足中药中检测微量元素的需求[12, 13, 14]。 XRF在矿物药真伪鉴别和质量控制应用中已取得了较好的工作成果, 在防风样品中也实现了多种金属元素含量测定[15, 16]。 XRF光谱分类常使用支持向量机算法(SVM), 成功应用于汽油牌号的快速识别与建立药品组分含量的检测模型中, 结果表明SVM的预测效果较优, 分类效果最好, 具有广泛的应用价值[17]

我国的科研工作者对中药重金属超标问题已经展开了大量的研究工作, 韩小丽等统计并分析了中药材中4种重金属元素的污染情况, 各国对于Pb的含量要求较其他3种元素更为详实, 且超标率较高[18]。 根据谭镭等的研究发现金银花在Pb含量超标的统计结果中较突出, 铅超标排名前20的药材中, 金银花就占了10项[19]。 在有关的统计结果中不难发现金银花在ISO国际标准下存在4种重金属同时超标现象[20]。 土壤作为中药材生长的温床, 为其提供了良好的生根立足条件、 充足的营养、 水分和空气, 土壤是否受重金属和农药等污染也是判断中药材品质、 道地性的重要因素。 本工作使用金银花作为实验样本, 针对四大重金属中的铅元素(Pb)展开研究, 使用与中药成分息息相关的大量土壤样本数据, 建立了基于迁移学习与支持向量机结合(TrAdaBoost-SVM)的分类模型, 将该模型用于小数据集的分类测定, 并与单独使用支持向量机与AdaBoost的分类模型进行比较, 提出了针对小样本中药材重金属分类的新方法。

1 实验部分
1.1 材料与仪器

实验辅助样本使用的59份土壤样本购自国家标准样品网站, 包括GSS系列、 GBW(E)系列土壤组分与GSD河流泥沙组分样本。 样本中的铅元素含量范围为0.077~552 mg· kg-1, 具有适当的含量梯度。

30份金银花样本购买自河南、 山东、 湖南及广西省。 由于中药重金属Pb超标率并不高(为3.46%), 导致少数样本几乎无法概括各个含量梯度的重金属含量样本, 因此实验中购买了0.101 4 mol· L-1的硝酸铅溶液, 将其加水稀释配置10~1 000 mg· kg-1不同重金属浓度的Pb元素溶液。 将20份实验金银花样本置于干净的平面上, 将上述配置好的溶液均匀滴入金银花中, 置于通风处自然风干。 将风干后的金银花均匀混合搅拌, 放入研磨机过200(0.074 mm)目筛, 完成30份样本的装杯制作。 实验测试采用的安装Ag阳极X射线管TS-XH4000-P型手持式ED-XRF荧光分析仪(由TecSonde生产), 最大电压均为45 kV。

选取2020年最新版《中国药典》对重金属含量的规定, 将59份国家标准土壤样本与30份金银花样本按照Pb含量大于5 mg· kg-1标记为1, 小于5 mg· kg-1标记为-1的规则进行类别划分, 设置为两类重金属Pb的污染程度。 实验中, 59份国家标准土壤样本均作为训练集, 30份金银花样本按照比例随机划分为训练集与测试集。

1.2 方法

1.2.1 数据预处理

土壤及中药样本中的基体效应对谱图的准确性有非常大的影响, 因此在进行分类模型建立之前, 使用对XRF光谱背景扣除具有较好效果的迭代离散小波变换算法(IDWT)对光谱数据进行预处理。 以具有代表性的GBW07380(GSD-29)土壤样品与山东金银花样品为例, 选择db5小波对土壤谱图进行7层低频分解, 选择最佳分解层数a7, 并且在使用IDWT处理光谱数据后, 得到了此时拟合曲线决定系数(R2)的值均有了一定幅度的提升, 证明了算法的有效性。 使用sym3小波对金银花谱图进行7层低频分解, 最终得到的土壤与中药的拟合曲线分别如图1(a, b)所示。

图1 (a)处理前后土壤中Pb元素的拟合曲线对比与(b)处理前后中药中Pb元素的拟合曲线对比Fig.1 (a) Comparison of fitting curves of Pb elements in soil before and after treatment and (b) comparison of fitting curves of Pb elements in traditional Chinese medicine before and after treatment

1.3 迁移学习与支持向量机模型(TrAdaBoost-SVM)

1.3.1 TrAdaBoost-SVM算法原理

训练支持向量机(SVM)模型, 定义核函数及相关参数, 简化多分类问题为二分类问题。 迁移学习(Tradboost)算法是一种利用不同分布的辅助土壤样本数据与少量中药目标样本数据, 从辅助土壤样本的数据中, 筛选有效数据, 在分类算法实施的过程中, 过滤掉与目标中药样本不匹配的数据。 在迭代的过程中, 调用SVM分类算法, 根据结果在辅助土壤样本中增加有效数据权重, 降低无效数据权重, 使得元素分类朝正确的方向进行, 进而实现在原有土壤模型的基础上迁移至中药元素分类并能够准确地预测。

在类别空间Y={-1, 1}中, 定义土壤样本的重金属元素数据Xa的辅助样本与少量金银花样品的重金属元素数据Xb的源样本, 将其合并为训练数据集T[式(1)], 定义包含未标注类别的中药元素为测试数据集S[式(2)]。

T{(XbXa)×Y}(1)S={(xjt)}(2)

式中, j=1, 2, …, k; k是未标记的测试集S的大小。

初始化权重向量W1=( ω11, …, ωn+m1)、 权重分布Pt与迭代次数N, 归一化每个数据的权重, 使其成为一个分布。 调用SVM分类算法, 定义惩罚系数C=200, 核函数为线性核函数。 根据训练数据T以及T上的权重分布Pt和未标注数据集S, 得到一个在S上的弱分类器ht

计算ht在目标样本数据上的错误率ε t(须小于1/2), 设置新的权重向量 ωit+1, 最后输出最终分类器hf(x)。 表达式如式(3)— 式(5)所示

εt=i=n+1n+mωit|ht(xi)-c(xi)|i=n+1n+mωit(3)ωit+1=ωitβ|ht(xi)-c(xi)|, i=1, , nωitβt-|ht(xi)-c(xi)|, i=n+1, , n+m)(4)hf(x)=1, t=N2Nβt-ht(x)t=N2Nβt-1/2-1, 其他(5)

式(3)— 式(5)中, c(x)为从XY的映射, β β tTaTb权重调整的速率, β=1/1+2lnnN, 其中βt=εt/(1-εt)

分类模型的度量是准确率, 以训练集和测试集的分类准确率作为模型度量。 准确率Accuracy为正确分类的样本数Ts占总样本数S的比值, 由式(6)得到

Accuracy=TsS×100%(6)

2 结果与讨论

为更直观地了解这两组XRF数据集的固有特性, 采用t-SNE算法将350维的XRF特征映射到二维空间并在同一幅图中进行可视化分析。 如图2所示, 两个数据集在二维空间聚集成了两个分布位置不同的簇。 首先, 两组样本在含有重要相关信息的350维数据在二维图中有了明显的区分, 比原始XRF反射光谱图更易于分辨; 其次, 从特征维度上观察实测金银花样本, 发现由于样本数量过少, 进行特征可视化之后样本基本聚集在一起, 对于训练模型而言很难在聚集维度中训练出较好的结果, 而本研究所使用的辅助土壤样本在横向和纵向的特征维度中拓展了数据特征, 为实验的可行性提供了较为直观的理论依据。

图2 两组XRF样本集的t-SNE特征降维可视化图Fig.2 Visualization of t-SNE feature dimensionality reduction for two sets of XRF samples

对于含有同种污染物Pb的不同区域种类样本集(样本颜色相同), 可以看出在二维空间样本集区分度很高。 t-SNE算法保留了数据集的内部非线性特征, 从图2可直规地看出样本集的内部特征之间其实差异很大。 t-SNE可视化进一步验证了使用XRF技术在不同数据集中评估中药材重金属Pb污染水平的可行性, 并可进一步分析后续可迁移模型构建的结果。

在SVM模型中, 可以看出当用源域数据训练的SVM模型用于目标域的重金属Pb污染程度检测后, 模型对于目标域中Pb污染的平均检测准确率为28.1%~15.6%, 准确率整体上有了明显的下降, 由于两组样本虽然有着一定的相关性, 但数据集内部非线性特征亦存在相当大的差距, 在没有数据特征提取筛选的迁移学习加入时, 准确率的下降是可以预见的。 就AdaBoost模型而言, 准确率达到88%~91%, 略低于TrAdaBoost-SVM分类模型。 建立TrAdaBoost-SVM分类模型时, 将30份金银花样本数据按照训练集与测试集分别为1:2、 1:1、 2:1、 1:5、 5:1的比例进行10次随机实验, 其中Pb元素超标的样本随机分布在训练集与测试集中, 每种测试条件下重复测试10次的结果准确率如表1所示。 实验结果中, TrAdaBoost-SVM分类模型中无论测试集样本数量如何分布, 其分类准确率均高于仅使用SVM与AdaBoost分类模型的准确率, 并且三组算法在训练集的准确率均优于测试集。 显然, 本实验中, 辅助样本的同分布数据符合迁移学习的数据要求, 故迁移出的相关特征有效辅助了目标样本的分类, 提高了分类精度, 有效扩充了原本的小样本数据。 TrAdaBoost-SVM的准确率在测试集与训练集上, 当数据为5:1分布时, 准确率最高。 当参与训练的金银花样本由25份逐渐减少至5份时, 分类准确性也随之降低, 即小样本条件越苛刻, 相似样本分类效果越不明显。 但是在这种数据量很小的情况下TrAdaBoost-SVM模型均优于SVM与AdaBoost模型, 表示可以有效利用土壤模拟出的谱图信息辅助完成金银花样本的分类, 分类准确性得到了有效的提高, 较好地解决了小样本情况下使用XRF光谱对中药重金属元素超标分类准确性低的问题。

表1 SVM、 AdaBoost与TrAdaBoost-SVM模型在土壤迁移至中药金银花任务中的准确率(单位: %) Table 1 Accuracy of SVM, AdaBoost and TrAdaBoost-SVM models in the task of soil migration to traditional Chinese medicine honeysuckle (unit: %)
3 结论

采用X荧光光谱分析技术, 借助TrAdaBoost-SVM分类模型将辅助土壤样本的有效信息迁移至中药材金银花的重金属分析, 实现对金银花中Pb含量超标现象进行快速、 准确区分。 本实验对单一分类模型SVM、 AdaBoost与基于迁移学习和SVM结合的TrAdaBoost-SVM分类模型效果进行比较, 结果表明TrAdaBoost-SVM分类模型可将准确度可达96.7%。 这两种算法结合可作为中药材重金属分类可靠、 准确的分类方法, 并且利用研究人员可大量获取的土壤样本辅助建立中药材分类模型, 有效解决了中药材标准样品稀少, 购买困难的问题。 未来工作中, 可以将此类模型迁移的方法扩展至其他种类元素的分析过程, 在样品组成等条件发生变化的情况下使用其他有效样本辅助, 达到准确预测分类的目的, 为XRF元素无损检测与定性分类提供有效的分析工具。

参考文献
[1] WANG Hong-bo(王红波). Digest of the Latest Medical Information in the World(世界最新医学信息文摘), 2017, (68): 2. [本文引用:1]
[2] GUO Lan-ping, ZHOU Li, WANG Shen, et al(郭兰萍, 周利, 王升, ). Science and Technology Herald(科技导报), 2017, 35(11): 8. [本文引用:1]
[3] YAN Hong-yuan, GONG Wen-ling, LIU Yin, et al(颜鸿远, 龚文玲, 刘引, ). Chinese Journal of Experimental Prescriptions(中国实验方剂学杂志), 2021, 27(12): 10. [本文引用:1]
[4] DONG Shun-fu, HAN Li-qin, ZHAO Wen-xiu, et al(董顺福, 韩丽琴, 赵文秀, ). Chinese Journal of Spectroscopy Laboratory(光谱实验室), 2010, 27(4): 1346. [本文引用:1]
[5] ZHOU Bing-wen, ZHU Li-li, ZHU Lin, et al(周炳文, 朱丽丽, 朱林, ). Journal of Instrumental Analysis(分析测试学报), 2021, 40(1): 106. [本文引用:1]
[6] XU Fei, MENG Sha, WU Qi-nan, et al(徐飞, 孟沙, 吴启南, ). Journal of Nanjing University of Chinese Medicine(南京中医药大学学报), 2018, 34(6): 4. [本文引用:1]
[7] ZHANG Xiao-ping, ZHU Lai-long(张小平, 朱来龙). Gansu Normal University Journal(甘肃高师学报), 2011, 16(5): 20. [本文引用:1]
[8] LIU Wan-jun, LI Tian-hui, QU Hai-cheng(刘万军, 李天慧, 曲海成). Remote Sensing for Land & Resources(国土资源遥感), 2018, 30(4): 41. [本文引用:1]
[9] XU Shun-gui, LIU Chun-guang(许顺贵, 刘春光). Chinese Journal of Pharmacovigilance(中国药物警戒), 2015, 12(10): 4. [本文引用:1]
[10] SUN Tao(孙桃). Studies of Trace Elements and Health(微量元素与健康研究), 2012, 29(4): 2. [本文引用:1]
[11] CAI Hui-xia, SONG Ya-ling, YANG Meng-cong, et al(蔡慧侠, 宋亚玲, 杨梦聪, ). Central South Pharmacy(中南药学), 2021, 19(2): 282. [本文引用:1]
[12] Gardner R P, Li F S. X-Ray Spectrometry, 2011, 40(6): 405. [本文引用:1]
[13] Li F S, Yang W Q, Ma Q, et al. Measurement Science & Technology, 2021, 32(10): 105501. [本文引用:1]
[14] Ghidotti M, Papoci S, Dumitrascu C, et al. Talanta Open, 2021, 3: 100040. [本文引用:1]
[15] XIE Ren-quan, LI Wei, WANG Xian-shu, et al(谢仁权, 李玮, 王贤书, ). Journal of Anhui Agricultural Sciences(安徽农业科学), 2019, 47(9): 4. [本文引用:1]
[16] FANG Ping, ZOU Wen, SHI Xian-xiao, et al(方萍, 邹雯, 史先肖, ). Chinese Journal of Pharmaceutical Analysis(药物分析杂志), 2017, 37(7): 6. [本文引用:1]
[17] Lei M, Chen L, Huang B S, et al. Applied Spectroscopy, 2017, 1(1): 2427. [本文引用:1]
[18] HAN Xiao-li, ZHANG Xiao-bo, GUO Lan-ping, et al(韩小丽, 张小波, 郭兰萍, ). China Journal of Chinese Materia Medica(中国中药杂志), 2008, 33(18): 2041. [本文引用:1]
[19] TAN Lei, Hao, ZHAN Yan, et al(谭镭, 吕昊, 詹雁, ). China Test(中国测试), 2009, 35(6): 78. [本文引用:1]
[20] YUAN De-qing, GAO Peng-jin, RUAN Yi-nan, et al(袁得清, 高鹏锦, 阮毅男, ). Journal of Leshan Normal University(乐山师范学院学报), 2020, 35(4): 33. [本文引用:1]