多种光谱变量筛选算法在红参提取近红外建模中的应用
陈蓓1, 郑恩让1,*, 郭拓2
1.陕西科技大学电气与控制工程学院, 陕西 西安 710021
2.陕西科技大学电子信息与人工智能学院, 陕西 西安 710021
*通讯作者 e-mail: zhenger@sust.edu.cn

作者简介: 陈蓓, 1982年生, 陕西科技大学电气与控制工程学院讲师 e-mail: chenbei@sust.edu.cn

摘要

红参中提取出的有效活性成分人参皂苷含量对后续产品的质量有重要的影响。 传统的红参提取质量控制化学检测方法成本高, 具有滞后性。 已有的研究表明快速无损的近红外检测方法用于红参提取过程具有可行性, 但现有方法依赖仪器自带数据处理软件, 无法满足生产实际的精度和速度需求。 为实现红参提取过程的快速、 精确监测, 提出将多种智能光谱筛选算法应用在近红外光谱建模中, 并对比不同光谱筛选算法的性能和稳健性。 以红参提取液中含量高的人参皂苷Rg1和含量较低的人参皂苷Rc为目标, 采集了三个不同批次前两次红参提取液样本128份, 在线获取1 000~2 499 nm波段近红外原始光谱吸光度数据, 并同时采用国标方法高效液相色谱法测定目标人参皂苷含量, 首先采用竞争适应性重加权采样法(CARS)、 无信息变量消除法(UVE)、 随机蛙跳算法(RF)和连续投影算法(SPA)四种波长筛选算法进行波长降维处理, 然后使用筛选后的波长建立线性偏最小二乘(PLS)定量模型, 并通过模型的均方根误差(RMSE)、 决定系数( R2)和预测相对分析误差(RPD)等来评估模型的性能。 从四种波长优选算法PLS建模结果可知, 经RF优选后, 建模特征波长变量下降为原来的0.67%, 红参提取液中人参皂苷Rg1和Rc含量的 R2都达到了0.94以上, 预测均方误差分别为0.024 6和0.013 5, 预测集相对分析误差达到了4.84以上, 降低了建模的难度, 提高了建模的精度; 将RF和CARS在原始光谱、 全光谱、 SNV预处理后的全光谱上建模对比, RF波长筛选算法建模模型的性能整体较好, 不同的光谱范围和预处理方法下性能影响较小, 稳健性好。 综上表明RF是红参提取液建模相对理想的波长筛选算法, 基于RF的PLS算法实现了对红参两次提取液的一次建模, 可用于提取液中人参皂苷成分含量的快速检测, 为药物的在线提取控制提供理论支撑。

关键词: 近红外光谱; 红参提取; 随机蛙跳; 稳健性; 人参皂苷
中图分类号:R91 文献标志码:A
Application of Various Algorithms for Spectral Variable Selection in NIRS Modeling of Red Ginseng Extraction
CHEN Bei1, ZHENG En-rang1,*, GUO Tuo2
1. School of Electrical and Control Engineering, Shaanxi University of Science & Technology, Xi’an 710021, China
2. School of Electronic Information and Artificial Intelligence, Shaanxi University of Science & Technology, Xi’an 710021, China
*Corresponding author
Abstract

As an effective active component in red ginseng extraction, ginsenoside content has an important impact on the quality of follow-up products. Traditional chemical detection quality control methods have high costs and time-delay. Existing studies have shown that the fast and non-destructive near-infrared detection method is feasible for red ginseng extraction. However, the existing methods heavily rely on the data processing software algorithm of the instrument, which cannot meet the actual production accuracy and speed requirements. In order to monitor the extraction process rapidly and accurately, a variety of intelligent spectral selection algorithms are applied in the near-infrared spectral(NIRS) modeling, and the performance and robustness of different spectral selection algorithms are compared in this study. In order to detect the high content of ginsenoside Rg1 and the low content Rc in the red ginseng extract, 128 samples of red ginseng extract in the first two times extracted were collected from three batches, 1 000~2 499 nm band NIRS data were obtained online, and the content of ginsenoside was determined by using the international standard high-performance liquid chromatography (HPLC). Firstly, the dimension of the input wavelength was reduced by using four wavelength selection algorithms, namely, competitive adaptive reweighting sampling (CARS), the uninformative variable elimination (UVE), random frog (RF) and successive projection algorithm (SPA). Then the selected wavelength was used for the linear partial least squares (PLS) quantitative model establishment. At last, the performance of the model was evaluated by the root mean square error (RMSE), coefficient of determination ( R2) and relative analysis error (RPD), etc. According to the PLS modeling results of four wavelength optimization algorithms, after RF optimization, the characteristic wavelength variable of the modeling decreased to 0.67% of the original, R2 of the ginsenoside Rg1 and Rc content in red ginseng extract reached above 0.94, the RMSE of the prediction was 0.024 6 and 0.013 5 respectively, and the RPD of prediction set reached above 4.84, which reduced the difficulty of the modeling and improved the accuracy of modeling. From the comparison of RF and CARS modeling in the original spectrum, full-spectrum and SNV pretreated full spectrum, the overall performance of the RF wavelength selection algorithm model is better. Different spectral ranges and pretreatment methods have little impact on the performance and good robustness. In conclusion, RF is a relatively ideal wavelength selection algorithm for the modeling of red ginseng extract. PLS based on RF realizes the one-time modeling of two red ginseng extracts, which can be used to rapidly detect ginsenoside content in the extract. The study provides theoretical support for the online extraction control of medicine.

Keyword: Near infrared spectroscopy; Red ginseng extraction; RF; Robustness; Ginsenoside
引言

红参属于传统的名贵中药材, 国内外广泛应用于中医临床和中药制剂, 具有补气、 安神、 强心、 抗癌等功效[1]。 在红参提取过程中, 由于原料来源、 年份、 工艺、 提取过程质量的控制等差异, 会影响中药材的利用率、 药物杂质的浸出量和中成药药效成分的含量, 引起红参提取物成分含量的批间差异, 对后续产品的质量产生重要的影响[2]。 按照《中国药典》2020年版有关规定[3], 用高效液相色谱(HPLC)法测定红参中人参皂苷含量来评估红参的质量, 该方法具有很高的准确度, 但需要化学试剂和一系列的样品预处理[4], 过程相对复杂、 污染环境且耗时较长, 无法满足红参提取生产过程现场监控的需求。

近年来, 近红外光谱技术由于环保和快速性等优点, 已经成功地应用于食品[5]、 制药[6]、 化工[7]等领域。 刘唤等[8]对近红外光谱技术在红参质量控制方面的研究进行了详细的综述, 肖雪等[9]利用近红外光谱测定了红参提取过程中的人参皂苷的成分含量, 对1提和2提过程分别建模, 含量较低的Rc模型精度有待完善。 以上研究证明了近红外光谱技术在红参提取过程中对人参皂苷含量监测的可行性, 但建模都依赖于仪器本身自带的光谱分析软件, 精度无法满足实际需要。 吕晓菡等[10]在用近红外检测辣椒素的含量中, 采用SPA, UVE和CARS三种方法提取特征波长再PLS建模, 并于全光谱进行了对比分析。 但多种智能的光谱筛选算法结合近红外光谱技术, 应用于中药提取过程建模鲜有研究。

本文在红参乙醇回流提取过程中, 在线采集提取液的近红外光谱, 结合高效液相测定的人参皂苷含量参照值, 以提取液中高含量的Rg1和含量低的Rc为对象, 剔除异常样本, 进行光谱预处理, 利用竞争适应性重加权采样法、 无信息变量消除法、 随机蛙跳算法和连续投影算法优选波长变量, 再建立PLS模型, 实现红参提取生产过程中质控成分的在线监控, 选出最优的波长筛选算法, 并对比验证了该算法的稳健性, 为实现快速简便的红参提取液质量监测提供技术参数。

1 实验部分
1.1 仪器和材料

SupNIR4510型近红外光谱仪(聚光科技(杭州)有限公司), Ultimate3000型高效液相色谱仪(美国Thermo公司), Mill-Q纯水系统(美国Milllipore公司), XS-105型电子天平(Mettler-Toledo公司), Matlab2018(美国MathWorks公司), 红参药材样品(神威药业有限公司), 人参皂苷Rg1和Rc对照品(成都曼斯特生物科技有限公司), 乙腈(色谱纯, 美国Fisher公司)。

1.2 数据采集

药材经过选择, 清洗, 精制等初步处理, 通过与一定浓度的乙醇水溶液加热回流提取。 采用NIRS在线仪器对红参提取过程进行监控。 采集了提取过程中的三批样本, 所有样本均为前两次提取过程的提取液, 总共128个。 光谱仪的扫描范围为1 000~2 499 nm, 每四分钟采样一次, 分辨率为1 nm, 采用透射方式, 每个样品扫描三次, 将平均值作为最终原始光谱数据, 并将导出数据存储在EXCEL表格中。

在近红外光谱仪监控的同时, 对所采集的红参提取液进行HPLC分析。 以提取液中人参皂苷含量高的Rg1、 和含量低的Rc为参考对象, 使用比色法在207 nm的检测波长为下进行测量, 并读出待测样品的含量, 将其作为近红外光谱分析的对照值。

1.3 建模方法和评价

近红外光谱分析技术是一种间接的分析手段, 采集光谱数据的同时, 必须通过国家标准的方法检测出成分含量作为参考值, 剔除异常点和对光谱进行预处理, 然后应用光谱筛选算法优选波长变量, 再应用偏最小二乘(partial least squares, PLS)建立定量模型并评价可行性, 最后再用所建模型对未知的样品进行定量分析, 红参提取液的人参皂苷成分建模的步骤如图1所示。

图1 红参提取近红外光谱技术建模过程流程图Fig.1 Flow chart of NIRS modeling process of red ginseng extraction

1.3.1 光谱波长变量筛选

近红外光谱包含有关样品性质的丰富信息, 每个光谱都包含了许多波长点, 但其存在谱带宽、 不同组分的峰信息重叠且彼此干扰, 因此直接用近红外光谱建模是困难的, 必须先进行特征波长优选, 然后才能将其用于定量建模。 本文中采用的特征波长筛选算法有竞争适应性重加权采样法、 无信息变量消除法、 连续投影算法、 随机蛙跳算法。

竞争适应性重加权采样法(competitive adaptive reweighted sampling, CARS)是由梁逸曾教授的课题组在2009年提出的 [11]。 当CARS使用MC采样时, 在每次迭代中都会再次随机选择校正集样品, 使用指数衰减函数强制选择波长, 然后使用自适应性重加权方法优化波长变量, 挑选交互验证均方根误差最小的变量子集。 无信息变量消除法[12] (uninformative variable elimination, UVE)基本原理是在原始近红外光谱之后添加人工白噪声信号, 再根据噪声信号的稳定性给定一个阈值, 然后删除波长变量中比此阈值小的变量, 并保留其余的波长变量。 连续投影算法[13](successive projection algorithm, SPA)属于前向选择变量算法, 首先选择一个波长变量作为初始值, 计算该变量在其余变量上的投影, 将最大投影向量对应的波长作为新的待选变量, 依次迭代, 直到内部交互验证均方根误差达到最小, 能最大限度地消除光谱变量之间的共线性。 随机蛙跳算法(random frog, RF)是一种后启发式群体优化算法, 是Eusuff等[14]为解决组合优化问题而提出的。 该算法也是以优化校正模型的预测精度为目标, 把各波长在循环计算中被选择的概率作为基准, 通过循环迭代, 选择概率最高的前十个特征波长建立预测模型。

1.3.2 模型评价

采用下列评价参数[15]:

(1)交叉验证均方根误差和预测均方根误差

RMSECV/RMSEP=i=1n(yi-ypi)2n

(2)决定系数R2

R2=1-i=1n(yi-ypi)2i=1n(yi-y̅i)2

(3)预测相对分析误差(residual predictive deviation, RPD)

RPD=SDVRMSEP=11-Rp2

式中, n为校正集或者验证集的样本数量, ypi为模型预测值, yi为样本真实值。 通常, 好的定量分析模型应具有较低的RMSECV和RMSEP, 较高的R2和RPD值。

2 结果与讨论
2.1 数据预处理

将在线采集到的128个红参提取液样本光谱, 用matlab软件画出原始光谱如图2所示。 两次提取液人参皂苷含量差距较大, 但从光谱数据中并不能直接区分。

图2 128份红参样品的近红外原始光谱图Fig.2 NIR spectra of 128 red ginseng samples

异常样本的存在会在一定程度上影响模型的适应性和准确性, 采用蒙特卡洛采样法剔除4个奇异数据, 剩余124个样本用作建模。 并根据KS(Kennard-Stone)法, 按照3:1对数据集分类, 分得校正集93个样本, 验证集31个样本, 样本的具体划分结果及数据统计如表1所示, 校正集和验证集的浓度范围、 平均值和标准差也非常接近, 满足了对建模样本进行划分的要求。

表1 样本划分统计表 Table 1 Statistical table of sample division

对于红参提取液的原始光谱, 选择不同的波段并利用标准正态变换(SNV)、 多元散射校正(MSC)、 求导、 卷积、 差分等10种方法对光谱进行预处理, 并建立PLS模型验证。 对比最终选择1 000~2 099 nm波段作为建模的全光谱, 1 100个波长, 标准正态变换(SNV)预处理方法用来建模。

2.2 筛选特征波长

将SNV预处理后的红参提取液的近红外全光谱数据, 再利用CARS, UVE, SPA和RF四种方法进行波长筛选, 从图3中可以看出来, 四种分析方法, 筛选出的波长数目和分布各不相同。

图3 人参皂苷Rg1含量检测波长优选分布对比图Fig.3 Comparison of optimal detection wavelength distribution of ginsenoside Rg1 content

四种方法筛选出的特征波长数目分别为: 57, 430, 8和10, 波长数目大幅度下降, 从全光谱的1 100个, 分别下降为全光谱的5.2%, 39.1%, 0.7%和0.9%。

2.3 建模分析对比

2.3.1 不同光谱筛选算法建模效果对比

利用前面提到的四种特征波长筛选算法提取的特征波长, 分别建立PLS模型, 建模效果对比如表2所示。

表2 不同的特征波长筛选算法PLS模型对红参皂苷含量建模及性能评价结果 Table 2 Different characteristic wavelength variable selection and performance evaluation results of red ginsenoside content based on PLS model

表2对比可以看出, 全光谱经UVE, CARS和SPA三种算法筛选后, 建模波长数目大大降低, 简化了模型, 但精度有所下降; 利用RF算法筛选后, 不仅剔除了冗余波长和干扰变量, 建模效率和精度还得到了提高。

为了进一步验证和对比建模的效果, 以红参提取液中含量较高的人参皂苷Rg1为例, 将验证集数据输入不同光谱筛选方法下的PLS模型, 得到散点图如图4所示。

图4 不同建模方法人参皂苷Rg1含量预测集散点图Fig.4 Distribution diagrams of ginsenoside Rg1 content predicted by different modeling methods

散点图上点落在对角线上表示建模预测所得的预测值和真实值相同, 样本点值越接近于对角线说明预测结果越准确。 从图4可以看出, 左下为第二次提取液, 右上为第一次提取液, 两次红参提取液的浓度差距明显。 加入波长筛选四种方法, 建模精度都有所提升, 特别是图4(b) RF-PLS模型的样本点更接近于对角线, 预测能力比其他几种方法的精度高, 并且对于两次提取液Rg1含量预测RF-PLS建模精度都很高, 可以进一步证明RF波长筛选算法是一种有效的近红外光谱定量分析建模方法。

2.3.2 不同波长筛选算法的稳健性分析

为了对比不同的波长筛选算法的稳健性, 在原始光谱、 全光谱、 SNV预处理后的全光谱三种光谱数据上采用波长筛选算法进行对比建模, 以RF和CARS两种波长筛选算法为例, 在红参提取液近红外建模性能结果如表3表4所示。

表3 RF算法对不同光谱PLS建模性能评价结果 Table 3 PLS modeling and performance evaluation of different spectra based on RF algorithm
表4 CARS算法对不同光谱PLS建模性能评价结果 Table 4 PLS modeling and performance evaluation of different spectra based on CARS algorithm

表3表4中数据对比可以看出, 对三种光谱数据采用两种波长筛选算法建模后, 光谱范围和光谱预处理方法, 对CARS算法的建模性能影响较大, RPD数值变化范围达2.2以上, 对RF波长筛选算法变化较小, RF波长筛选后PLS建模, 整体性能都较好, 模型评价参数针对不同的光谱处理跳跃性不大, 说明RF算法具有很好的稳健性。

3 结论

将红参两次提取液中人参皂苷Rg1和Rc含量检测建立近红外光谱模型, 先用CARS, UVE, SPA和RF四种算法进行光谱筛选, 并PLS建模对比。 RF算法优选后的波长数目只有原始光谱的0.67%, 与其他三种波长筛选算法实验结果对比, 所得的验证集RMSEP最小, RP2最大, RPD最大; 红参的两次提取液含量差距较大, 对其统一进行RF-PLS建模, 降低了建模的成本; 光谱波长范围和波长预处理算法都对RF-PLS评价参数影响较小。 说明对于红参提取过程近红外建模, RF-PLS算法是一种可行的、 稳健的建模方法, 该算法简化了模型, 提高了建模效率和精度。 在后续的研究中将该方法推广到更多的药物生产检测中, 为药物在线提取监控提供了理论依据。

参考文献
[1] Park H H, Choi S W, Lee G J, et al. Journal of Ginseng Research, 2019, 43(1): 86. [本文引用:1]
[2] WANG Min, LIU Yong-li, DUAN Ji-ping, et al(王敏, 刘永利, 段吉平, ). Chinese Pharmaceutical Affairs(中国药事), 2017, 31(6): 647. [本文引用:1]
[3] Chinese Pharmacopoeia Commission(国家药典委员会). Pharmacopoeia of the People’s Republic of China(中华人民共和国药典). Beijing: China Medical Science Press(北京: 中国医药科技出版社), 2020. 160. [本文引用:1]
[4] HOU Xin-lian, HUANG Lu, PENG Cheng, et al(侯新莲, 黄露, 彭成, ). China Pharmacy(中国药房), 2020, 31(10): 1228. [本文引用:1]
[5] Akkaya M R. Journal of Food Science and Technology, 2018, 55(6): 2318. [本文引用:1]
[6] Razuc M, Grafia A, Gallo L, et al. Drug Development & Industrial Pharmacy, 2019, 45(10): 1. [本文引用:1]
[7] HAO Pan-yun, MENG Yan-jun, ZENG Fan-gui, et al(郝盼云, 孟艳军, 曾凡桂, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(3): 787. [本文引用:1]
[8] LIU Huan, LI Ling-ming, YU He-shui, et al(刘唤, 李灵明, 余河水, ). Chinese Traditional and Herbal Drugs(中草药), 2018, 49(9): 2210. [本文引用:1]
[9] XIAO Xue, LI Jun-shan, ZHANG Bo, et al(肖雪, 李军山, 张博, ). Acta Scientiarum Naturalium Universitatis Nankaiensis(南开大学学报·自然科学版), 2017, 50(3): 44. [本文引用:1]
[10] Xiao-han, JIANG Jin-lin, YANG Jing, et al(吕晓菡, 蒋锦琳, 杨静, ). Journal of Zhejiang University·Agriculture and Life Sciences(浙江大学学报·农业与生命科学版), 2019, 45(6): 760. [本文引用:1]
[11] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[12] Centner V, Massart D L, De Noord O E. Analytical Chemistry, 1996, 68(21): 3851. [本文引用:1]
[13] Zhang J K, Rivard B, Rogge D M. Sensors, 2008, 8(2): 1321. [本文引用:1]
[14] Eusuff M M, Lansey K E. Journal of Water Resources Planning and Management, 2003, 129(3): 210. [本文引用:1]
[15] Li J, Zhang H, Zhan B, et al. Infrared Physics & Technology, 2019, 104: 103154. [本文引用:1]