作者简介: 冯浩恒, 2000年生,中国科学院大学电子电气与通信工程学院,中国科学院空天信息创新研究院硕士研究生e-mail: fenghaoheng22@mails.ucas.ac.cn
陈皮的药效和价格受产地及年份的影响较大, 亟需一种快速、 有效的鉴别方法。 传统的化学分析技术虽然精度较高, 但操作复杂、 设备昂贵且耗时较长。 拉曼光谱因其高特异性和无损检测特点, 成为一种潜在的快速检测手段。 然而, 陈皮强烈的荧光背景限制了常规拉曼光谱的应用。 为解决这一问题, 本研究结合时间门控拉曼(TG拉曼)光谱与支持向量机(SVM)分类模型, 提出了一种高效、 无损的陈皮鉴别方法。 研究选取了六组来自广东省江门市新会区不同产地和年份的陈皮样品以及一组人工合成的陈皮样品, 并通过实验比较了波长532和1 064 nm连续波与532 nm脉冲TG拉曼光谱。 实验结果表明, TG拉曼光谱能够有效去除荧光干扰, 显著提高拉曼信号的信噪比, 使得更多化学成分的特征拉曼峰得以提取。 陈皮的关键拉曼峰值出现在856、 1 084、 1 112、 1 264、 1 300、 1 340、 1 456、 1 607和2 935 cm-1。 光谱分析显示, 陈皮的主要化学成分包括果胶、 纤维素、 脂肪酸和黄酮类化合物, 其中1 607 cm-1处的黄酮类特征峰呈现出显著的强度变化, 是区分不同产地与年份陈皮的关键标志拉曼峰。 基于提取的光谱特征, 本研究采用多种核函数构建SVM分类模型, 并通过优化模型参数, 发现径向基函数(RBF)核表现最佳。 在对不同陈皮样本进行训练与测试后, 分类准确率最高可达到96.43%, 充分展示了TG拉曼光谱与SVM结合的卓越分类性能。 研究表明, 该方法具备高效、 无损的特点, 能够在短时间内精准鉴别陈皮样品, 并在产地溯源与年份鉴定中展现出广泛的应用潜力。 综上所述, 本研究为陈皮及其他中药材提供了一种全新的无损检测技术, 特别是在解决传统化学分析方法的时间消耗和高成本问题上具有显著优势。 这一技术为中药材的质量控制、 真实性鉴定及溯源提供了强有力的技术支持, 具有广泛的应用前景。
The efficacy and price of Pericarpium Citri Reticulatae (PCR) are significantly influenced by its origin and harvest year, necessitating a rapidand effective identification method.Traditional chemical analysis techniques, though accurate, are complex, expensive, and time-consuming. Raman spectroscopy, with its high specificity and non-destructive detection capabilities, is a promising method for rapid detection. However, the strong fluorescence background of PCR limits the application of conventional Raman spectroscopy. To address this issue, this study combines time-gated Raman (TG-Raman) spectroscopy with support vector machine (SVM) classification models, proposing an efficient and non-destructive method for identifying PCR. The study selected six groups of PCR samples from different origins and ages in Xinhui District, Jiangmen City, Guangdong Province, as well as one crafted PCR sample, and compared the 532 nm, 1 064 nm continuous wave, and 532 nm TG-Raman spectra. The experimental results demonstrate that TG-Raman spectroscopy effectively eliminates fluorescence interference, thereby significantly enhancing the signal-to-noise ratio of the Raman signals and facilitating the extraction of more characteristic Raman peaks for chemical components.The key Raman peaks of PCR were observed at 856, 1 084, 1 112, 1 264, 1 300, 1 340, 1 456, 1 607, and 2 935 cm-1. Spectral analysis revealed that the main chemical components of PCR include pectin, cellulose, fatty acids, and flavonoids. Among these, the flavonoid characteristic peak at 1 607 cm-1 exhibited significant intensity variation, making it a key marker for distinguishing PCR from different origins and ages. Based on the extracted spectral features, the study constructed SVM classification models using various kernel functions, optimizing model parameters, and found that the radial basis function (RBF) kernel performed best. After training and testing on different PCR samples, the highest classification accuracy reached 96.43%, fully demonstrating the excellent classification performance of the combination of TG-Raman spectroscopy and SVM. The study indicates that this method is efficient and non-destructive, enabling accurate identification of PCR samples in a short time, with broad application potential in origin tracing and age identification. In conclusion, this study -presents a novel non-destructive detection technique for PCR and other medicinal materials, offering significant advantages in addressing the time-consuming and high-cost issues associated with traditional chemical analysis methods. This technology offers robust technical support for the quality control, authenticity verification, and traceability of medicinal materials, with wide-ranging application prospects.
陈皮是芸香科植物柑橘的干燥老化果皮, 作为一种在中国及其他东亚国家具有重要价值的中药材, 其历史可追溯至数百年前[1]。 陈皮主要产自中国南方的浙江、 江西、 四川、 福建和广东等地, 其中广东的新会陈皮因独特的生长条件和优异的品质享有盛誉。 陈皮的药用特性主要由其富含的生物活性成分决定, 包括黄酮类化合物、 生物碱类和挥发性油等, 这些成分赋予其显著的健康功效, 如抗氧化和抗炎作用[2]。 研究表明, 陈皮的药用价值与其陈化时间密切相关, 准确的年份鉴定在质量控制中具有关键作用[3]。
传统的陈皮鉴别方法通常依赖于化学成分分析, 主要关注陈皮中黄酮类化合物的种类和含量差异, 常采用高效薄层色谱、 高效液相色谱以及气相色谱-质谱联用等技术[4]。 尽管这些方法在分析精度上表现优异, 但其过程复杂且依赖昂贵设备, 限制了在实际应用中的推广; 感官鉴别方法虽操作简便, 但因其高度主观性而缺乏精确性, 进一步凸显了开发新型、 快速、 无损陈皮鉴别技术的必要性。
相比之下, 光谱技术凭借其非破坏性、 高效性和灵敏性, 逐渐成为陈皮鉴别的优选方法。 其中, 结合机器学习算法的红外吸收光谱和太赫兹光谱在陈皮分析中展现出显著潜力[5, 6]。 拉曼光谱能够提供分子振动的详细信息且不受水分子的干扰, 在中药材分析中具有独特优势[7]。 尽管太赫兹光谱也可揭示分子层面的信息, 但其对测试环境的依赖性限制了实际应用的灵活性, 而拉曼光谱则在这一点上更具操作优势。
然而, 在应用拉曼光谱进行陈皮分析时仍面临重要挑战, 即有机成分产生的强荧光信号会遮掩拉曼信号。 为了解决这一问题, 研究人员尝试通过表面增强拉曼光谱(surface enhanced Raman spectroscopy, SERS)技术获取清晰的拉曼信号[8]。 SERS有效增强了信号, 但其依赖于复杂的样品前处理过程, 包括活性成分提取和SERS基底制备, 增加了实验复杂性。 时间门控(time-gated, TG)拉曼光谱通过激光脉冲技术与电子门控探测器的结合, 可在捕获拉曼信号的同时有效消除荧光干扰[9]。 这一技术无需复杂的样品制备, 能够快速、 简便地实现荧光抑制。 Lipiainen等[10]将时间门控光谱与小二乘回归相结合, 用于定量分析荧光药物化合物, 展现了其在复杂样品处理中卓越的定量能力。 此外, Itkonen等[11]结合时间门控光谱、 K均值聚类和主成分分析, 探索了蛋白质在不同条件下的结构变化, 进一步验证了该技术在抑制荧光干扰和多维数据处理中的多功能性和精确性。
本研究结合TG拉曼光谱与机器学习算法, 针对七种来自广东省江门市新会区不同年份和产地的陈皮样品(包括一种人工合成陈皮样品)进行了分析研究。 TG拉曼光谱技术显著抑制了荧光干扰, 提升了信噪比, 从而能够获得高质量的光谱数据。 通过引入机器学习算法, 实现光谱特征的快速提取与分类, 大幅提升了陈皮样品的快速、 准确、 无损检测能力。 本研究为陈皮这一传统中药材的标准化管理和质量控制提供了技术支持, 同时展现了TG拉曼光谱在中药材质量鉴定中的应用潜力。
共选取了七种陈皮样品, 其中六组来自广东省江门市新会区的不同产地, 每组样品的陈化时间略有差异, 另外一组人工合成的陈皮样品, 具体信息见表1。 所有样品均以干片形式保存, 其外观形态如图1(a)和图1(b)所示。 在选取的七种样品中, 样品1(梅江)、 样品2(天马)和样品4(无明确产地)产自新会的核心产区, 这些区域以其优越的自然条件和传统的加工工艺闻名; 而样品3(大泽)、 样品6(南坦)和样品5(无明确产地)则来自非核心产区。 这种产地差异为研究陈皮来源与品质特性之间的关系提供了理想条件。
![]() | 表1 不同类型陈皮的基本信息及其编号 Table 1 Basic information of different types of PCR and their numbers |
![]() | 图1 (a)干片陈皮正面; (b)干片陈皮反面; (c)饼状压缩陈皮Fig.1 (a) Dried slice of PCR, front view; (b) Dried slice of PCR, back view; (c) Compressed tablet form of PCR |
陈皮样品表面因其天然的凹凸不平特性可能影响拉曼信号的稳定测试。 为克服这一问题, 本研究将陈皮制备成压片形式, 如图1(c)所示, 以确保信号采集的重复性和稳定性。 具体制备过程如下: 首先, 将每种陈皮干片分别用中药粉碎机研磨2 min, 以获得均匀的样品粉末。 随后, 粉末通过200目筛网过滤后分别装入密封袋中保存。 为保证压片厚度一致性, 使用高精度电子天平称取200 mg样品粉末, 置于压片机中进行压片操作。 压片压力设定为6 t, 持续时间为2 min。 在整个制备过程中, 未添加聚乙烯粉末或其他粘结剂以确保结果的纯粹性。 每种陈皮样品均制备50片, 总计350个样品, 并根据表1的编号分类为7类。 每个样品均标注唯一标签以便后续的测试与分析。
TG拉曼光谱系统的结构示意图如图2所示。 该系统由以下主要组件组成: 波长532 nm脉冲激光器(CNI激光; 脉宽100 ps, 重复频率5 kHz)、 增强型电荷耦合(intensified charge coupled device, ICCD)相机、 拉曼显微镜和光谱仪。 光谱仪配备了1 800线· mm-1透射型衍射光栅, 光谱分辨率可达8 cm-1, 数值孔径为0.22。 ICCD相机含有微通道板光电阴极(S25型, 直径18 mm)和CCD探测器(iVac 316 Andor, 2 000× 256像素), 其最小门宽为≤ 300 ps, 并具有最高1 000倍的可调增益, 与脉冲延时发生器同步工作。
拉曼激发光通过光纤耦合进入拉曼显微镜, 经物镜聚焦至样品表面, 激光功率可在0.1~7 mW范围内调节, 以适应不同实验需求。 样品的反向散射拉曼信号通过同一物镜收集后, 经光纤传输到光谱仪进行分光, 最终由ICCD相机探测。 通过脉冲延时发生器的精确控制(时间延迟调整精度为10 ps), ICCD门控在拉曼信号脉冲到达时打开, 并在脉冲结束后迅速关闭。 这种精准的时间门控技术确保了荧光背景信号的有效抑制, 极大地提高了信噪比。 此外, 为进一步提升光谱数据质量, 根据实验需求可以进行多次曝光积累, 从而获得高质量光谱以满足后续分析需求。
在TG拉曼光谱测量中, 为优化信号收集效率, 本研究采用了5.4 mW的激光功率、 1 s的曝光时间和200次曝光平均, 并使用数值孔径为0.9的100× 物镜进行测试。 为了验证TG拉曼光谱技术对陈皮样品荧光干扰的抑制效果, 本研究还收集了532 nm连续波(continuous wave, CW)和1 064 nm CW拉曼光谱。 在532 nm CW拉曼光谱测量中, 考虑到陈皮样品的强荧光干扰及避免ICCD信号饱和, 实验采用了1 s的曝光时间和1 mW的低功率激光, 总积分时间设定为200 s。 虽然拉曼散射强度在长波长激发光下有所减弱, 但是1 064 nm激光源可以较为显著地降低荧光, 方便获取清晰的拉曼光谱, 因此在本研究中被选用以尝试获得陈皮的拉曼光谱。 1 064 nm CW拉曼光谱通过配备数值孔径为0.4的20× 近红外物镜的ATR8300(Optosky)拉曼光谱仪进行信号采集。 该实验采用了50 mW的激光功率和10 s的曝光时间。 这种多波长光谱的测量方法, 结合时间门控技术与传统连续波光谱的对比分析, 为陈皮样品的拉曼光谱特性研究提供了丰富的数据支持。
支持向量机(support vector machine, SVM)是一种广泛应用于拉曼光谱分析的监督学习算法, 以其卓越的分类性能和强大的鲁棒性被广泛采用。 本研究采用SVM算法分析不同陈皮样品之间的TG拉曼光谱差异。 SVM的核心原理是构建一个最优超平面, 将不同类别的数据点在特征空间中有效分开。 通过最大化类别间的间隔, SVM增强了模型的泛化能力, 提高了分类准确性。 对于非线性分类问题, SVM通过核函数将低维数据映射到高维空间, 从而使得在该空间中数据变得线性可分。 常用的核函数包括:
线性(linear)核
式(1)中, xi和xj表示光谱数据。
多项式(polynomial)核
式(2)中, d≥ 1为多项式核的阶数。
S型(sigmoid)核
式(3)中, α为缩放因子, γ偏置参数。
径向基函数(radial basis function, RBF)核
式(4)中, σ> 0为RBF核的带宽。
在模型优化过程中, 选择最优参数是关键步骤, 其中包括所有特征参数的优化以及分类函数的惩罚参数的调优, 这一过程对模型准确率的提升至关重要。 本研究采用 Python 3.12(64 位)进行数据处理。
图3展示了陈皮样品的三种不同拉曼光谱, 包括532 nm CW拉曼光谱、 532 nm TG拉曼光谱和1 064 nm CW拉曼光谱。 在532 nm CW激光激发下, 陈皮样品表现出强烈的荧光背景, 这显著干扰了拉曼信号的检测。 1 064 nm CW拉曼光谱有效抑制了部分荧光, 但依然仅观察到一个拉曼峰。 相较之下, 532 nm TG拉曼光谱在去除荧光方面表现更为优异, 它们在1 600 cm-1附近清晰地观察到了一个共同的拉曼峰。 而且TG拉曼光谱在提供优异的去荧光效果的同时, 也具备更宽的测试范围, 并捕捉到了更多的拉曼峰。 这一结果表明, 时间门控技术在去除荧光干扰方面具有显著优势, 并能够准确、 可靠地捕获陈皮样品的拉曼光谱特征。
在七种不同陈皮样品的平均TG拉曼光谱中(如图4所示), 共观察到9个主要拉曼峰, 分别位于856、 1 084、 1 112、 1 264、 1 300、 1 340、 1 456、 1 607和2 935 cm-1, 且各峰位变化较小。 尽管大多数拉曼峰的强度变化不显著, 但1 607 cm-1的峰值差异尤其突出。 该峰主要源于芳香环中C=C键的伸缩振动, 是植物中黄酮类化合物的典型拉曼特征信号[12, 13, 14]。 1 607 cm-1的峰强度变化表明它可能作为区分标志, 反映由样品的年份和地理来源等因素所引起的陈皮中活性成分黄酮含量差异。
陈皮原样的拉曼光谱因受到强烈荧光干扰的影响, 在过去较少被研究, 但是一些关于植物的拉曼光谱研究提供了通用的峰值分配, 这些结果在表2中进行了总结。 其中, 856 cm-1的峰与果胶多糖的振动有关, 是果胶中α -糖苷键的特征性标志[15]。 1 084、 1 112和1 340 cm-1的峰值分别对应纤维素的特征振动, 它是植物细胞壁的主要成分[16]。 1 264 cm-1 的带状峰与N-乙酰氨基葡萄糖、 糖原和麦芽三糖等化合物的特征频率相符, 这些物质与柑橘类水果中的碳水化合物组成密切相关[17]。 1 300 cm-1的峰值与CH2的平面弯曲振动相关, 是脂肪酸的特征性峰值[18]。 此外, 1 456 cm-1 的峰值对应CH2的振动, 而2 935 cm-1的峰值则与多种碳水化合物中C— H伸缩振动相关[19]。 这些拉曼峰为陈皮中主要成分的分析提供了重要依据。 以往的陈皮光谱研究中未能检测到这些特征性峰值, 可能由于强烈的荧光干扰以及碳水化合物(如多糖和纤维素)在有机溶剂中的低溶解度所致。 本研究通过使用未提取的陈皮原样, 成功捕捉到了这些特征拉曼峰。
![]() | 表2 陈皮的时间门控拉曼光谱中拉曼峰的归属 Table 2 Assignment of Raman bands in TG Raman spectra of PCR |
在新鲜橘皮的拉曼光谱研究中, 类胡萝卜素和挥发性油显示出明显的拉曼特征峰, 分别位于1 008、 1 156和1 520 cm-1, 以及760、 1 435、 1 646和1 678 cm-1 [20]。 然而, 在陈皮的TG拉曼光谱分析中, 并未观察到与这些成分相关的特征峰。 这可能是由于陈皮通常需要陈化多年, 导致类胡萝卜素部分氧化分解, 而挥发性油含量在存储过程中逐步减少也使其难以被时间门控拉曼光谱仪检测到[21, 22]。
由于天然陈皮资源稀缺且成本较高, 人工陈皮常被用于生产价格较低的产品, 如食品添加剂和低端中药。 一些商家为提高利润, 往往将人工陈皮冒充为天然产品进行销售。 根据中国药典的标准, 正品陈皮中的黄酮类成分必须符合一定的含量要求: 橙皮苷至少为1.75%, 川陈皮素和橙皮素的总含量不得低于0.40%。 在本研究中, 1 607 cm-1处的峰值在人工陈皮中明显较高, 如图4所示, 这可能是由于其浸泡在黄酮溶液中, 导致黄酮含量过高。 因此该峰可成为区分天然与人工陈皮的有效标志。 然而, 仅依靠该峰的强度进行年份和产地区分是不足够的, 因为表面平整度、 测量条件及化学成分的不均匀分布等因素都可能会引起峰值强度变化。 因此, 为了实现更精确的分类, 使用机器学习方法是必要的。
本研究选用SVM进行陈皮样品的分类, 其具有较强的鲁棒性, 能够在特征空间中构建最优超平面以有效区分不同类别的样品。 所有采集的陈皮光谱数据80%用于训练集, 20%用于测试集。 数据预处理包括标准化, 以归一化特征值再进行标签编码, 将类别标签转换为数值格式, 从而确保SVM建模的一致性。 为了实现最优模型性能, 使用GridSearchCV方法进行了参数调优, 系统地探索了预定义的参数空间, 以确定最佳配置参数, 同时采用5折交叉验证方法对模型进行优化。 此外, 该模型还评估了多种核函数, 以确定最适合该分类任务的核函数。 为了确保结果的准确性, 从1到50的所有随机种子都被选择, 并对其结果进行了平均处理, 以提高结果的可靠性。 如表3所示, RBF核函数的表现优于线性核函数、 多项式核函数和S核函数, 平均准确率达到92.30%。 在最优随机种子的选择下, 模型预测准确率最高可达96.43%。 此外, 马修斯相关系数(matthews correlation coefficient, MCC)为0.958 7, 表明该模型在多类别分类任务中具有较高的稳定性和准确性。 MCC值接近1, 进一步验证了模型在处理数据中非线性关系时的有效性, 能够有效区分不同类别, 减少误分类, 提升分类效果。
![]() | 表3 不同核函数及参数的分类准确率 Table 3 Classification accuracy for different kernel functions and parameters |
混淆矩阵有效地展示了SVM分类的结果, 图5显示了在最高准确率下, 不同陈皮样品的分类情况。 可以明显看出, 样品1(梅江)、 样品5(产地不明)、 样品6(南坦)和样品7(人工陈皮)具有显著且一致的光谱特征, 能够被准确识别和分类。 值得注意的是, 样品7的预测准确率达到100%, 这表明其光谱特征与其他样品显著不同, 使得样品7能够在分类过程中轻松区分, 并且没有出现任何错误分类。 相比之下, 样品2(天马)、 样品3(大泽)和样品4(产地不明)则表现相对较高的误分类率, 这表明它们的光谱特征不够显著。 这可能与这些样品的质量差异有关, 从而导致光谱变化较大, 表现出光谱特征的不一致性。 此外, 结果还表明, 陈皮质量受其年龄和产地的显著影响, 较短的存储时间和非核心产地的样品通常与较低的质量正相关。 总体而言, SVM模型能够有效地从时间门控拉曼光谱中提取特征, 区分不同产地和年份的陈皮。 该模型对噪声和干扰具有较强的鲁棒性, 有望成为未来质量监控和认证研究中的重要方法。
本研究结合TG拉曼光谱技术和SVM模型, 实现了对来自不同产地和年份的陈皮样品的精确分类。 TG拉曼技术有效去除了陈皮样品中的强荧光背景, 获得了清晰的拉曼光谱。 通过TG拉曼光谱, 我们明确识别出果胶、 纤维素、 脂肪酸和黄酮类物质是原始陈皮的主要成分。 特别是位于1 607 cm-1的黄酮特征峰在不同类型的陈皮样品中表现出显著的强度变化。 SVM模型表现出色, 在识别人工合成的陈皮样品时达到了100%的准确率, 同时在其他类型的陈皮样品分类中也保持了较高的准确率。 未来的研究应扩大样本的范围, 涵盖更多的年份, 并重点关注来自相同产地的样品, 利用拉曼光谱探讨陈皮成分随年份变化的关系。 TG拉曼光谱卓越的抗荧光能力, 使其成为传统中药鉴定和质量控制的理想工具。 这项技术提供了一种有效且无损的鉴定方法。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|