基于高光谱分析的淫羊藿药用成分快速检测研究
姜庆虎1, 刘峰1, 于东悦2,3, 罗惠2,3, 梁琼3,*, 张燕君3,*
1.中国科学院武汉植物园, 中国科学院水生植物与流域生态重点实验室, 湖北 武汉 430074
2.中国科学院大学, 北京 100049
3.中国科学院武汉植物园, 中国科学院植物种质创新与特色农业重点实验室, 湖北 武汉 430074
*通讯作者 e-mail: yanjunzhang@wbgcas.cn; qiongl@wbgcas.cn

作者简介: 姜庆虎, 1986年生, 中国科学院武汉植物园副研究员 e-mail: jiang8687@163.com

摘要

中药材淫羊藿富含朝霍定和淫羊藿苷等黄酮类化合物, 具有滋阴补肾、 提高免疫力等功效, 有较大的药用价值。 当前, 面对生产及育种过程中批量样品快速、 无损检测需求的增加, 传统的化学分析方法难以满足需要, 而高效、 廉价的现代高光谱分析技术备受青睐。 但受制于光谱数据谱峰重叠及噪声的干扰, 全波段光谱分析建模存在模型精度不高和运行效率低的问题。 利用便携式地物光谱仪器获取淫羊藿可见-近红外光谱数据, 借助遗传算法(GA)特征波段选择方法剔除无关波段, 并与偏最小二乘回归(PLSR)分析建模技术结合, 构建淫羊藿药用组分(朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷)高光谱GA-PLSR校正模型, 探讨淫羊藿药用组分含量高效分析预测的可行性, 并挖掘获取淫羊藿品质鉴定的重要光谱响应波段。 结果表明: 高光谱分析结合化学计量学在淫羊藿有效药用组分的快速无损检测方面具有相当大的潜力。 与全波段PLSR校正模型相比, 通过GA迭代优化, 参与建模的有效光谱数据得到简化, GA-PLSR模型的测量精度和稳定性得到明显提升。 主要表现在交叉验证的决定系数(RCV2)得到明显提高, 交叉验证的均方根误差(RMSECV)普遍降低。 其中, 四种药用组分校正模型的RCV2分别从0.645, 0.720, 0.718和0.642提升为0.671, 0.835, 0.782和0.796; 同时, 其对应的RMSECV值分别由2.102, 2.896, 21.069和1.221降为2.071, 2.230, 18.656和0.912。 此外, 明确了红边波段690~740 nm以及420 nm附近波段为淫羊藿药用组分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷光谱鉴别分析的重要响应波段。 该研究为高光谱技术淫羊藿品质准确高效鉴定和光谱传感器的波段设计提供一定的理论依据。

关键词: 淫羊藿; 药用组分; 高光谱技术; 遗传算法; 偏最小二乘回归; 重要波段
中图分类号:O657.3 文献标志码:A
Rapid Measurement of the Pharmacological Active Constituents in Herba Epimedii Using Hyperspectral Analysis Technology
JIANG Qing-hu1, LIU Feng1, YU Dong-yue2,3, LUO Hui2,3, LIANG Qiong3,*, ZHANG Yan-jun3,*
1. Key Laboratory of Aquatic Botany and Watershed Ecology, Wuhan Botanical Garden, Chinese Academy of Sciences, Wuhan 430074, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. Key Laboratory of Plant Germplasm Enhancement and Specialty Agriculture, Wuhan Botanical Garden, Chinese Academy of Sciences, Wuhan 430074, China
*Corresponding authors
Abstract

Herba Epimedii contains high amounts of flavonoids, such as epimedin and icariin, which are efficient in tonifying kidney and improving immunity. Nowadays, various chemical analysis methods have been applied to measure the flavonoid content of Herba Epimedii. However, these traditional methods are destructive, time-consuming, and costly and cannot meet the requirements of massive samples analysis in pharmaceutical production and plant breeding. As a rapid and effective tool for quantitative determination and process monitoring, modern hyperspectral analysis technology has earned more and more concerns. However, for the full-range spectra, the existence of insignificant and irrelevant spectral variables can weaken the calibration models' accuracy and efficiency. Therefore, the spectral variables selection is essential to improve the performance of the final models by eliminating the uninformative bands. In this study, the partial least squares regression (PLSR) coupled with the genetic algorithm (GA) variables selection procedure, namely GA-PLSR, was used to estimate epimedin A, epimedin B, epimedin C, and icariin content in Herba Epimedii. This paper aims to explore the feasibility of hyperspectral analysis technology in the measurement of the pharmacologically active constituents in Herba Epimedii and further explore their important spectral response bands. The results show thatthe hyperspectral analysis technology combined with chemometrics exhibited considerable potential for rapid and nondestructive assessment of Herba Epimedii. When compared with full-spectrum PLSR models, GA-PLSR models could improve the accuracies and robustness of epimedin A, epimedin B, epimedin C, and icariin content measurements (withRCV2 values increased from 0.645, 0.720, 0.718, and 0.642 to 0.671, 0.835, 0.782, and 0.796, and with RMSECV values declined from 2.102, 2.896, 21.069, and 1.221 to 2.071, 2.230, 18.656, and 0.912, respectively). Besides, we found some feature wavelengths, mainly around 690~740 and 420 nm, which play important roles in detecting pharmacologically active constituents in Herba Epimedii. Given these desirable findings, this study can provide a valuable reference for the rapid and accurate measurement of epimedin A, epimedin B, epimedin C, and icariin contents by hyperspectral technology, can provide a theoretical basis for the design of spectral sensors in qualifying Herba Epimedii.

Keyword: Herba Epimedii; Pharmacological active constituents; Hyperspectral analysis technology; Genetic algorithm; Partial least squares regression; Important bands
引言

淫羊藿是小檗科(Berberidaceae)淫羊藿属(Epimedium L.)多年生草本植物, 作为滋补类中药始载于《神农本草经》, 在我国有2 000多年的使用历史[1]。 其有效药成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷为黄酮类化合物, 临床上具有滋阴补肾、 强筋骨、 益精气、 提高免疫力等多种功效, 是最具开发潜力的大宗常用中药材之一[2]。 目前, 中药材淫羊藿药用成分含量的测量主要通过高效液相色谱法[3]。 该方法准确可靠、 灵敏度高, 但需要做较多前处理, 耗时、 费力、 成本高, 无法满足企业生产及育种过程中批量样品的快速、 无损检测。 相比之下, 可见-近红外高光谱分析技术具有快速、 廉价、 无损、 可重复等优点; 利用中药材中C— H, O— H和N— H等基团的光谱差异, 借助化学计量学方法, 可以实现中药成分的快速分析与鉴定[4]。 利用现代高光谱技术, 学者们在中药材的品质鉴定、 蛋白质含量信息获取及其产地来源判定等方面进行了系列研究, 取得了良好的效果[5, 6]

近年来, 在淫羊藿药用成分光谱分析领域, 科研人员主要利用傅里叶变换红外光谱仪并配有积分球等测样器件获取数据, 并以此为基础建立了多种化学计量模型[4, 7]。 然而, 随着淫羊藿育种、 栽培技术的发展, 推升了田间原位、 实时数据的观测需求。 受测试环境和光谱仪器差异的干扰, 获取的光谱数据无法避免的包含诸如样品背景、 杂散光等无关噪音信息, 且在波长范围、 分辨率等指标上存有较大差异, 构建的模型的适用性必将受到很大的限制。

为了获取预测精度高、 稳健性强的高光谱分析模型, 人们普遍关注多种化学计量方法和建模策略之间的比较研究。 例如, 基于获取的全波段光谱信息, 运用多元线性回归(MLR)、 偏最小二乘回归(PLSR)、 人工神经网络(ANN)、 支持向量机(SVM)等多种算法建立中药材药用成分的光谱反演模型, 并比较其预测精度和运行效率[4, 8, 9]。 淫羊藿光谱数据是其所含多种化学成分光谱的综合叠加, 波长信息变量多, 谱峰重叠非常严重, 如果直接将全波段光谱用于建模分析势必造成模型精度和运行效率的降低[9]。 因此, 在用化学计量学方法建模的同时, 有必要采用适当的方法剔除无关波段变量, 以期得到预测能力更强、 稳健性更好的校正模型。

为了改善现有模型的局限性, 提升淫羊藿药用成分的光谱预测效率, 以便携式地物光谱仪器数据获取载体, 借助遗传算法(genetic algorithm, GA)选取淫羊藿药用成分的特征光谱波段, 并评估该算法与传统的PLSR模型相结合的实用性。

1 实验部分
1.1 样品

实验材料采自中国科学院武汉植物园同质园引种的淫羊藿野生品种, 涵盖了我国的35个品种。 采集同一植株无损成熟叶片, 经烘干研磨后, 过80目筛, 分别供光谱和黄酮类有效成分的测定。 其中, 淫羊藿有效成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量通过高效液相色谱法测定。

1.2 光谱采集

采用便携式地物光谱仪(ASD Field Spec 3)进行淫羊藿粉末光谱数据的测定, 光谱波段范围350~2 500 nm。 采样间隔为1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm)。 整个过程在暗室中进行。 处理好的淫羊藿样品置于培样皿中, 并将其表面刮平; 50 W卤素灯作为光源, 光源距样品表面35 cm, 入射角度为45° ; 采用10° 视场角裸光纤探头, 距样品表面垂直上方10 cm处; 每测量10组样品光谱进行一次白板校正。 每个样品重复测量获取10条光谱曲线, 算术平均后得到淫羊藿样品的反射光谱数据。

为了减少仪器背景随机噪声、 样本自身和光散射等因素对光谱信号的干扰, 对原始光谱进行了一系列预处理, 包括平滑(savitzky-golay convolution smoothing, SG)、 一阶求导(first derivative, FD)、 标准正太变量变换(standard normal variable transformation, SNV)和均值中心化(mean center, MC)。 相关处理过程在Matlab 2013a软件中进行。

1.3 特征波段选取与模型构建

应用遗传(GA)算法结合偏最小二乘回归(PLSR)方法筛选淫羊藿药用组分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷的特征波段, 以建立抗外界因素的稳健分析模型。 其中, 遗传算法是Holland于1975年提出的一种模拟生物自然选择遗传进化过程的智能优化方法[10]。 具体操作步骤如下: 首先按照遗传算法建模框架, 划分适宜的光谱区间大小, 并将每个光谱区间作为一个基因进行0/1字符二进制编码, 随机生成的不同组合构成初始种群; 接着采用偏最小二乘交互验证中的预测值和标准值的相关系数以及均方根误差作为评价指标, 并变换得到适应度函数; 在此基础上, 通过全局搜索, 采用染色体信息随机交叉、 变异等操作, 实现适者生存优胜劣汰, 最终得到最佳的建模波段。 相关操作基于Matlab 2013a (Math Works Inc., U.S.)平台, 使用PLS-Toolbox 7.8.1工具包实现。 相关参数设置如下: 种群大小64, 窗口大小20 nm, 最大繁殖代数100, 交叉概率0.5, 变异概率0.005。

使用优选后的光谱波段, 运用PLSR方法, 分别构建淫羊藿药用成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量的高光谱GA-PLSR校正模型, 并以全光谱波段PLSR校正模型作为参照。 受样品量大小的限制, 模型性能用舍一交叉验证的均方根误差(RMSECV)和决定系数( RCV2)进行评价。

2 结果与讨论
2.1 样品化学组分与光谱数据分析

建模所用的淫羊藿药用组分含量的化学值及其统计特征如表1所示。 统计显示, 样品药用组分的含量变动范围较广, 其中: 朝霍定C的平均含量最高, 变化范围为0.11~159.35 mg· g-1; 朝霍定A的变幅为0.11~11.7 mg· g-1; 朝霍定B的变幅为0.02~19.97 mg· g-1; 淫羊藿苷的变化范围为0.09~7.74 mg· g-1。 此外, 样品药用组分含量存在很大的变异性特征, 其变异系数为89.47~110.78 mg· g-1。 上述统计结果表明, 研究样品较大的数据分异性有助于鲁棒性模型的建立, 为探索淫羊藿药用组分含量光谱反演的可行性提供了良好的数据支持。

表1 样品中朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量统计结果 Table 1 Summary statistics of epimedin A, epimedin B, epimedin C, and icariin contents

经光谱预处理之后的淫羊藿反射光谱曲线如图1所示。 其中, 图1(a)为经平滑处理后的光谱, 可见淫羊藿样品集的反射光谱波动趋势大致相同, 但不同样品的光谱反射峰强度不同, 说明样品中药用组分含量不同。 图1(b)和(c)为经一阶导数变换和标准正太变量变换后的光谱, 经预处理后可以显著减少样品表面散射和光程变化的干扰, 同时消除了部分噪声和基线漂移对定标结果的影响, 使得光谱分布更为集中, 且光谱的吸收峰得到了明显增强。 图1(d)为经上述预处理后进行了均值中心化的光谱, 经过均值中心化, 样品光谱之间的差异得到增强, 从而可以提高后期光谱建模的稳健性和预测能力。

图1 预处理过后的淫羊藿反射光谱曲线
(a)— (d)分别经平滑、 平滑/一阶求导、 平滑/一阶求导/标准正太变量变换、 平滑/一阶求导/标准正太变量变换/均值中心化处理后的淫羊藿光谱反射曲线
Fig.1 Spectral reflectance curves after pretreatment with (a) SG; (b) SG and FD; (c) SG, FD and SNV; (d) SG, FD, SNV and MC

2.2 样品药用组分光谱反演建模分析与对比

运用PLSR和GA-PLSR方法分别建立淫羊藿药用组分的光谱反演模型, 结果如表2所示。 其中, 基于全波段的PLSR校正模型建模效果良好, 模型的R2为0.801~0.999。 然而, 受本研究中样本数量的限制, 且样品间药用组分含量差异较大的影响, 模型交叉验证的 RCV2值显著降低(0.642~0.720), 同时RMSECV值明显增加, 证明模型的稳健性较低。 与全波段模型相比, 在GA算法特征波段选择的基础上, 经过剔除冗余与不相关的波段变量, 可以有效减少参与建模的波段数量(筛选出的朝霍定A、 B、 C和淫羊藿苷光谱建模波段数量分别为456, 675, 275和375个), 简化模型提高运行效率的同时, 各药用组分校正模型的预测性能得到明显提升。 具体表现在: 朝霍定A模型的 RCV2从0.645提升为0.671, 朝霍定B模型的 RCV2从0.720提升为0.835, 朝霍定C模型的 RCV2从0.718提升为0.782, 淫羊藿苷模型的 RCV2从0.642提升为0.796; 同时, 其对应的RMSECV值分别由2.102, 2.896, 21.069和1.221降为2.071, 2.230, 18.656和0.912。 因此, 通过GA算法迭代优化, 能够更好地对淫羊藿药用组分对应的光谱区域进行解释, 从而建立抗外界因素干扰的光谱分析模型, 以提高模型的预测能力和稳定性。

表2 模型构建与交叉验证 Table 2 Model construction and cross-validation
2.3 样品药用组分重要光谱波段提取与分析

淫羊藿药用组分的重要光谱响应波段用PLSR模型的回归系数(b系数)和变量重要值(variables importance in the projection, VIP值)联合确定[11]。 如图2中灰色部分所示, 当VIP值大于1, 且b系数大于其标准差(σ )时, 该波段被识别为药用组分朝霍定A、 B、 C和淫羊藿苷的重要光谱响应波段。

图2 基于可见-近红外光谱的朝霍定A(a)、 朝霍定B)b)、 朝霍定C(c)和淫羊藿苷(d)PLSR校正模型交叉验证的VIP值和b系数曲线图Fig.2 VIP scores (blue line) and b-coefficients (black line) associated with the cross-validation of PLSR model for Epimedin A (a), Epimedin B (b), Epimedin C (c) and Icariin (d) predictions using Vis-NIR spectroscopy

图2为基于全波段PLSR模型的淫羊藿各药用组分的重要光谱响应波段。 其中, 提取的朝霍定A、 B、 C和淫羊藿苷的重要的光谱响应波段数量分别为300, 341, 841和222个(即图中灰色阴影部分涉及的波段数量)。 值得注意的是, 灰色部分在可见光波段(380~780 nm)和短波红外的中长波段(1 400~2 500 nm)区域内较为集中。 这是由于淫羊藿有效成分为黄酮类化合物, 其分子化学结构存在一定的相似性, 受低能电子跃迁和含氢原子团伸缩振动(如C— H伸展, O— H变形, CH2变形)的倍频和合频吸收作用, 从而在上述波段范围内存在相似或近似的光谱响应。 此外, 在红边(690~740 nm)区域内, 朝霍定A、 B和C光谱反演模型的VIP值和b系数值均达到最大峰值, 因此该区间光谱的反射特征有望成为判定淫羊藿药材中朝霍定含量高低的重要依据。 对于淫羊藿苷来说, 光谱反演模型的b系数在420 nm波段附近达到最大值, 同时VIP值也处于较高的峰值, 因此420 nm附近波段有望成为判定淫羊藿苷含量高低的重要依据。

借助相同的重要波段选取方法, 获取了基于特征波段的GA-PLSR模型淫羊藿药用成分的重要光谱响应波段(如图3所示)。 相比之下, GA-PLSR模型确定的重要波段数量显著降低, 其中朝霍定A、 B、 C和淫羊藿苷的重要波段数量分别降为51, 136, 50和66个。 然而, 在红边波段(690~740 nm)和420 nm波段附近同样提取出淫羊藿药用成分的重要光谱波段。 上述重要波段的提取, 可为无人机平台搭载高光谱相机(400~1 000 nm)实时监测大田淫羊藿植株的生长和品质状况, 确定其最佳收获时间提供一定的理论依据。

图3 基于GA-PLSR模型的朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷重要光谱响应波段Fig.3 The important wavelengths of GA-PLSR model for Epimedin A, Epimedin B, Epimedin C and Icariin predictions

3 结论

以便携式地物光谱仪获取的淫羊藿反射光谱数据为基础, 将遗传算法(GA)与偏最小二乘回归(PLSR)结合, 在特征波段选择的基础上建立了淫羊藿药用成分朝霍定A、 B、 C和淫羊藿苷含量的校正模型。 与全波段PLSR校正模型相比, GA-PLSR模型减少建模所用变量的同时, 其交叉验证的决定系数( RCV2)得到显著提升, 交叉验证的均方根误差(RMSECV)明显降低, 表明模型具有较高的稳定性和测量精度。 此外, 本研究提出红边波段690~740 nm以及420 nm附近波段为淫羊藿药用组分光谱反演的重要波段。 有望为今后光谱仪器的波段设计以及淫羊藿品质的高效、 准确鉴定提供一定的依据, 并为实现大田生产中的实时动态监测和科学管理带来了可能。

参考文献
[1] LIANG Qiong, ZHANG Yan-jun, XU Yan-qin, et al(梁琼, 张燕君, 徐艳琴, ). Plant Science Journal(植物科学学报), 2013, 31(4): 422. [本文引用:1]
[2] YU Dong-yue, WANG Ying, SUN Wei, et al(于东悦, 王瑛, 孙伟, ). World Science and Technology/ Modernization of Traditional Chinese Medicine and Materia Medica(世界科学技术-中医药现代化), 2018, 20(11): 2058. [本文引用:1]
[3] Ma H, He X, Yang Y, et al. Journa of Ethnopharmacology, 2011, 134(3): 519. [本文引用:1]
[4] Yang Y, Wu Y, Li W, et al. Spectrochim Acta A: Mol. Biomol. Spectrosc. , 2018, 191: 233. [本文引用:3]
[5] LI Ya-hui, LI Yan-xiao, TAN Wei-long, et al(李亚惠, 李艳肖, 谭伟龙, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(12): 3878. [本文引用:1]
[6] NIU Li-li, ZHANG Hua-feng, CHEN Le, et al(牛丽丽, 张华峰, 陈乐, ). Chinese Bulletin of Botany(植物学报), 2014, 49(5): 611. [本文引用:1]
[7] YU Xiao-xue, YI Yin, ZHOU Ning, et al(于晓雪, 乙引, 周宁, ). Chinese Journal of Spectroscopy Laboratory(光谱实验室), 2012, 29(3): 1379. [本文引用:1]
[8] Luo Q, Yun Y, Fan W, et al. RSC Advances, 2015, 5(7): 5046. [本文引用:1]
[9] Yang Y, Liu X, Li W, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2017, 171: 351. [本文引用:2]
[10] Leardi R. J. Chromatogr. A, 2007, 1158(1-2): 226. [本文引用:1]
[11] Jiang Q, Chen Y, Hu J, et al. Remote Sensing, 2020, 12(18): 3103. [本文引用:1]