作者简介: 姜庆虎, 1986年生, 中国科学院武汉植物园副研究员 e-mail: jiang8687@163.com
中药材淫羊藿富含朝霍定和淫羊藿苷等黄酮类化合物, 具有滋阴补肾、 提高免疫力等功效, 有较大的药用价值。 当前, 面对生产及育种过程中批量样品快速、 无损检测需求的增加, 传统的化学分析方法难以满足需要, 而高效、 廉价的现代高光谱分析技术备受青睐。 但受制于光谱数据谱峰重叠及噪声的干扰, 全波段光谱分析建模存在模型精度不高和运行效率低的问题。 利用便携式地物光谱仪器获取淫羊藿可见-近红外光谱数据, 借助遗传算法(GA)特征波段选择方法剔除无关波段, 并与偏最小二乘回归(PLSR)分析建模技术结合, 构建淫羊藿药用组分(朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷)高光谱GA-PLSR校正模型, 探讨淫羊藿药用组分含量高效分析预测的可行性, 并挖掘获取淫羊藿品质鉴定的重要光谱响应波段。 结果表明: 高光谱分析结合化学计量学在淫羊藿有效药用组分的快速无损检测方面具有相当大的潜力。 与全波段PLSR校正模型相比, 通过GA迭代优化, 参与建模的有效光谱数据得到简化, GA-PLSR模型的测量精度和稳定性得到明显提升。 主要表现在交叉验证的决定系数(
Herba Epimedii contains high amounts of flavonoids, such as epimedin and icariin, which are efficient in tonifying kidney and improving immunity. Nowadays, various chemical analysis methods have been applied to measure the flavonoid content of Herba Epimedii. However, these traditional methods are destructive, time-consuming, and costly and cannot meet the requirements of massive samples analysis in pharmaceutical production and plant breeding. As a rapid and effective tool for quantitative determination and process monitoring, modern hyperspectral analysis technology has earned more and more concerns. However, for the full-range spectra, the existence of insignificant and irrelevant spectral variables can weaken the calibration models' accuracy and efficiency. Therefore, the spectral variables selection is essential to improve the performance of the final models by eliminating the uninformative bands. In this study, the partial least squares regression (PLSR) coupled with the genetic algorithm (GA) variables selection procedure, namely GA-PLSR, was used to estimate epimedin A, epimedin B, epimedin C, and icariin content in Herba Epimedii. This paper aims to explore the feasibility of hyperspectral analysis technology in the measurement of the pharmacologically active constituents in Herba Epimedii and further explore their important spectral response bands. The results show thatthe hyperspectral analysis technology combined with chemometrics exhibited considerable potential for rapid and nondestructive assessment of Herba Epimedii. When compared with full-spectrum PLSR models, GA-PLSR models could improve the accuracies and robustness of epimedin A, epimedin B, epimedin C, and icariin content measurements (with
淫羊藿是小檗科(Berberidaceae)淫羊藿属(Epimedium L.)多年生草本植物, 作为滋补类中药始载于《神农本草经》, 在我国有2 000多年的使用历史[1]。 其有效药成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷为黄酮类化合物, 临床上具有滋阴补肾、 强筋骨、 益精气、 提高免疫力等多种功效, 是最具开发潜力的大宗常用中药材之一[2]。 目前, 中药材淫羊藿药用成分含量的测量主要通过高效液相色谱法[3]。 该方法准确可靠、 灵敏度高, 但需要做较多前处理, 耗时、 费力、 成本高, 无法满足企业生产及育种过程中批量样品的快速、 无损检测。 相比之下, 可见-近红外高光谱分析技术具有快速、 廉价、 无损、 可重复等优点; 利用中药材中C— H, O— H和N— H等基团的光谱差异, 借助化学计量学方法, 可以实现中药成分的快速分析与鉴定[4]。 利用现代高光谱技术, 学者们在中药材的品质鉴定、 蛋白质含量信息获取及其产地来源判定等方面进行了系列研究, 取得了良好的效果[5, 6]。
近年来, 在淫羊藿药用成分光谱分析领域, 科研人员主要利用傅里叶变换红外光谱仪并配有积分球等测样器件获取数据, 并以此为基础建立了多种化学计量模型[4, 7]。 然而, 随着淫羊藿育种、 栽培技术的发展, 推升了田间原位、 实时数据的观测需求。 受测试环境和光谱仪器差异的干扰, 获取的光谱数据无法避免的包含诸如样品背景、 杂散光等无关噪音信息, 且在波长范围、 分辨率等指标上存有较大差异, 构建的模型的适用性必将受到很大的限制。
为了获取预测精度高、 稳健性强的高光谱分析模型, 人们普遍关注多种化学计量方法和建模策略之间的比较研究。 例如, 基于获取的全波段光谱信息, 运用多元线性回归(MLR)、 偏最小二乘回归(PLSR)、 人工神经网络(ANN)、 支持向量机(SVM)等多种算法建立中药材药用成分的光谱反演模型, 并比较其预测精度和运行效率[4, 8, 9]。 淫羊藿光谱数据是其所含多种化学成分光谱的综合叠加, 波长信息变量多, 谱峰重叠非常严重, 如果直接将全波段光谱用于建模分析势必造成模型精度和运行效率的降低[9]。 因此, 在用化学计量学方法建模的同时, 有必要采用适当的方法剔除无关波段变量, 以期得到预测能力更强、 稳健性更好的校正模型。
为了改善现有模型的局限性, 提升淫羊藿药用成分的光谱预测效率, 以便携式地物光谱仪器数据获取载体, 借助遗传算法(genetic algorithm, GA)选取淫羊藿药用成分的特征光谱波段, 并评估该算法与传统的PLSR模型相结合的实用性。
实验材料采自中国科学院武汉植物园同质园引种的淫羊藿野生品种, 涵盖了我国的35个品种。 采集同一植株无损成熟叶片, 经烘干研磨后, 过80目筛, 分别供光谱和黄酮类有效成分的测定。 其中, 淫羊藿有效成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量通过高效液相色谱法测定。
采用便携式地物光谱仪(ASD Field Spec 3)进行淫羊藿粉末光谱数据的测定, 光谱波段范围350~2 500 nm。 采样间隔为1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm)。 整个过程在暗室中进行。 处理好的淫羊藿样品置于培样皿中, 并将其表面刮平; 50 W卤素灯作为光源, 光源距样品表面35 cm, 入射角度为45° ; 采用10° 视场角裸光纤探头, 距样品表面垂直上方10 cm处; 每测量10组样品光谱进行一次白板校正。 每个样品重复测量获取10条光谱曲线, 算术平均后得到淫羊藿样品的反射光谱数据。
为了减少仪器背景随机噪声、 样本自身和光散射等因素对光谱信号的干扰, 对原始光谱进行了一系列预处理, 包括平滑(savitzky-golay convolution smoothing, SG)、 一阶求导(first derivative, FD)、 标准正太变量变换(standard normal variable transformation, SNV)和均值中心化(mean center, MC)。 相关处理过程在Matlab 2013a软件中进行。
应用遗传(GA)算法结合偏最小二乘回归(PLSR)方法筛选淫羊藿药用组分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷的特征波段, 以建立抗外界因素的稳健分析模型。 其中, 遗传算法是Holland于1975年提出的一种模拟生物自然选择遗传进化过程的智能优化方法[10]。 具体操作步骤如下: 首先按照遗传算法建模框架, 划分适宜的光谱区间大小, 并将每个光谱区间作为一个基因进行0/1字符二进制编码, 随机生成的不同组合构成初始种群; 接着采用偏最小二乘交互验证中的预测值和标准值的相关系数以及均方根误差作为评价指标, 并变换得到适应度函数; 在此基础上, 通过全局搜索, 采用染色体信息随机交叉、 变异等操作, 实现适者生存优胜劣汰, 最终得到最佳的建模波段。 相关操作基于Matlab 2013a (Math Works Inc., U.S.)平台, 使用PLS-Toolbox 7.8.1工具包实现。 相关参数设置如下: 种群大小64, 窗口大小20 nm, 最大繁殖代数100, 交叉概率0.5, 变异概率0.005。
使用优选后的光谱波段, 运用PLSR方法, 分别构建淫羊藿药用成分朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量的高光谱GA-PLSR校正模型, 并以全光谱波段PLSR校正模型作为参照。 受样品量大小的限制, 模型性能用舍一交叉验证的均方根误差(RMSECV)和决定系数(
建模所用的淫羊藿药用组分含量的化学值及其统计特征如表1所示。 统计显示, 样品药用组分的含量变动范围较广, 其中: 朝霍定C的平均含量最高, 变化范围为0.11~159.35 mg· g-1; 朝霍定A的变幅为0.11~11.7 mg· g-1; 朝霍定B的变幅为0.02~19.97 mg· g-1; 淫羊藿苷的变化范围为0.09~7.74 mg· g-1。 此外, 样品药用组分含量存在很大的变异性特征, 其变异系数为89.47~110.78 mg· g-1。 上述统计结果表明, 研究样品较大的数据分异性有助于鲁棒性模型的建立, 为探索淫羊藿药用组分含量光谱反演的可行性提供了良好的数据支持。
![]() | 表1 样品中朝霍定A、 朝霍定B、 朝霍定C和淫羊藿苷含量统计结果 Table 1 Summary statistics of epimedin A, epimedin B, epimedin C, and icariin contents |
经光谱预处理之后的淫羊藿反射光谱曲线如图1所示。 其中, 图1(a)为经平滑处理后的光谱, 可见淫羊藿样品集的反射光谱波动趋势大致相同, 但不同样品的光谱反射峰强度不同, 说明样品中药用组分含量不同。 图1(b)和(c)为经一阶导数变换和标准正太变量变换后的光谱, 经预处理后可以显著减少样品表面散射和光程变化的干扰, 同时消除了部分噪声和基线漂移对定标结果的影响, 使得光谱分布更为集中, 且光谱的吸收峰得到了明显增强。 图1(d)为经上述预处理后进行了均值中心化的光谱, 经过均值中心化, 样品光谱之间的差异得到增强, 从而可以提高后期光谱建模的稳健性和预测能力。
运用PLSR和GA-PLSR方法分别建立淫羊藿药用组分的光谱反演模型, 结果如表2所示。 其中, 基于全波段的PLSR校正模型建模效果良好, 模型的R2为0.801~0.999。 然而, 受本研究中样本数量的限制, 且样品间药用组分含量差异较大的影响, 模型交叉验证的
![]() | 表2 模型构建与交叉验证 Table 2 Model construction and cross-validation |
淫羊藿药用组分的重要光谱响应波段用PLSR模型的回归系数(b系数)和变量重要值(variables importance in the projection, VIP值)联合确定[11]。 如图2中灰色部分所示, 当VIP值大于1, 且b系数大于其标准差(σ )时, 该波段被识别为药用组分朝霍定A、 B、 C和淫羊藿苷的重要光谱响应波段。
图2为基于全波段PLSR模型的淫羊藿各药用组分的重要光谱响应波段。 其中, 提取的朝霍定A、 B、 C和淫羊藿苷的重要的光谱响应波段数量分别为300, 341, 841和222个(即图中灰色阴影部分涉及的波段数量)。 值得注意的是, 灰色部分在可见光波段(380~780 nm)和短波红外的中长波段(1 400~2 500 nm)区域内较为集中。 这是由于淫羊藿有效成分为黄酮类化合物, 其分子化学结构存在一定的相似性, 受低能电子跃迁和含氢原子团伸缩振动(如C— H伸展, O— H变形, CH2变形)的倍频和合频吸收作用, 从而在上述波段范围内存在相似或近似的光谱响应。 此外, 在红边(690~740 nm)区域内, 朝霍定A、 B和C光谱反演模型的VIP值和b系数值均达到最大峰值, 因此该区间光谱的反射特征有望成为判定淫羊藿药材中朝霍定含量高低的重要依据。 对于淫羊藿苷来说, 光谱反演模型的b系数在420 nm波段附近达到最大值, 同时VIP值也处于较高的峰值, 因此420 nm附近波段有望成为判定淫羊藿苷含量高低的重要依据。
借助相同的重要波段选取方法, 获取了基于特征波段的GA-PLSR模型淫羊藿药用成分的重要光谱响应波段(如图3所示)。 相比之下, GA-PLSR模型确定的重要波段数量显著降低, 其中朝霍定A、 B、 C和淫羊藿苷的重要波段数量分别降为51, 136, 50和66个。 然而, 在红边波段(690~740 nm)和420 nm波段附近同样提取出淫羊藿药用成分的重要光谱波段。 上述重要波段的提取, 可为无人机平台搭载高光谱相机(400~1 000 nm)实时监测大田淫羊藿植株的生长和品质状况, 确定其最佳收获时间提供一定的理论依据。
以便携式地物光谱仪获取的淫羊藿反射光谱数据为基础, 将遗传算法(GA)与偏最小二乘回归(PLSR)结合, 在特征波段选择的基础上建立了淫羊藿药用成分朝霍定A、 B、 C和淫羊藿苷含量的校正模型。 与全波段PLSR校正模型相比, GA-PLSR模型减少建模所用变量的同时, 其交叉验证的决定系数(
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|