近红外光谱结合化学计量学快速测定阿里红饮片中齿孔酸含量
谢玉玉1,2,3, 陈志慧2, 侯雪玲1,3, 刘永强1,3,*
1. 中国科学院新疆理化技术研究所干旱区植物资源与化学重点实验室, 新疆 乌鲁木齐 830011
2. 中国科学院新疆理化技术研究所分析测试中心, 新疆 乌鲁木齐 830011
3. 中国科学院大学, 北京 100049
*通讯作者 e-mail: liuyq@ms.xjb.ac.cn

作者简介: 谢玉玉, 女, 1984年生, 中国科学院新疆理化技术研究所干旱区植物资源与化学重点实验室、 分析测试中心及中国科学院大学博士研究生 e-mail: xieyy@ms.xjb.ac.cn

摘要

传统的阿里红中齿孔酸含量测定采用高效液相色谱法(HPLC), 但该方法前处理复杂, 操作繁琐。 为了实现对中药阿里红饮片中齿孔酸含量的快速无损监测, 尝试建立基于近红外光谱(NIR)的偏最小二乘(PLS)回归模型。 用来预测阿里红中齿孔酸的含量, 采用传统的HPLC方法对阿里红中的齿孔酸含量进行测定, 其结果作为指标值。 采集近红外数据后使用五种光谱变换方法对光谱数据进行预处理, 即多元散射校正(MSC)、 标准正态变化(SNV)、 Savitzky-Golay平滑(7点)、 一阶导数变换(FD)和二阶导数变换(SD)。 通过竞争自适应重加权法(CARS)进行波长选择并对PLS模型进行优化, 大大减少了光谱变量的数量, 并显著提高了PLS模型的性能, 尤其是SNV-CARS-PLS模型, 仅占总光谱波长的5.53%, 预测集的 R2值为0.982 3, 预测均方根误差(RMSEP)值为0.103 7%, 残差预测偏差(RPD)值为5.34。 通过t检验表明: 该最优模型与传统HPLC法在预测阿里红中齿孔酸含量上没有显著差异。 研究结果表明: 近红外光谱结合竞争性自适应重加权算法对波长筛选后建立偏最小二乘回归模型对阿里红饮片中齿孔酸含量的无损检测可行。

关键词: 阿里红; 齿孔酸; 近红外; 化学计量学; 偏最小二乘法
中图分类号:TS255 文献标志码:A
A New Method for Determination of Eburicoic Acid in Fomes Officinalis Ames by NIR Combined With PLS
XIE Yu-yu1,2,3, CHEN Zhi-hui2, HOU Xue-ling1,3, LIU Yong-qiang1,3,*
1. Key Laboratory of Plant Resources and Chemistry of Arid Zone, Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China
2. Analysis Center of Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi 830011, China
3. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author
Abstract

The traditional method for determining the content of Eburicoic acid is HPLC, which is inefficient and cumbersome to operate. To achieve rapid and non-destructive monitoring of Eburicoic acid, this paper attempted to establish a partial least squares (PLS) regression model based on near-infrared spectroscopy (NIR) to predict the Eburicoic acid content in Fomes officinalis Ames decoction pieces. Firstly, the traditional HPLC method was used to test the content of Eburicoic acid in Fomes officinalis Ames, and the test results were used as indicator values. Secondly, near-infrared data was collected, and five spectral transformation methods were used to preprocess spectral data, namely Multiplicative Scattering Correction (MSC), Normalized Normal Variation (SNV), Savitzky Golay Smoothing (7 points), First Derivative Transformation (FD), and Second Derivative Transformation (SD). Finally, wavelength selection was performed through competitive adaptive reweighted sampling (CARS) and the PLS model was optimized, greatly reducing the number of spectral variables and significantly improving the performance of the PLS model, especially the SNV-CARS-PLS model, which only accounted for 5.53% of the total spectral wavelength. The R2 value for prediction sets 0.982 3. The root mean square error (RMSEP) value for prediction is 0.103 7%, and the residual prediction deviation (RPD) value is 5.34. The t-tests indicated no significant difference in precision and accuracy between the results of the optimal model and that of the traditional HPLC method. The research results indicate that it is feasible to establish PLS models based on near-infrared spectroscopy combined with a competitive adaptive reweighting algorithm for non-destructive detection of Eburicoic acid content in Fomes officinalis Ames decoction pieces.

Keyword: Fomes officinalis Ames; Eburicoic acid; NIR; Chemometrics; Partial least squares
引言

阿里红是中药材, 主要来源于多孔菌科真菌药用拟层孔菌的子实体, 也被称作落叶松茸, 主要分布在新疆、 内蒙和四川等地[1]。 阿里红的性味归经为甘、 苦、 温, 具有温肺化痰、 降气平喘、 祛风除湿、 活血消肿、 利尿、 解蛇毒等功效, 常用于治疗咳嗽、 哮喘、 胃痛、 胃酸过多、 尿路结石、 肾炎、 慢性风湿性关节炎、 咽喉炎、 牙周炎以及毒蛇咬伤等症状[2]。 阿里红中的化学成分主要包括三萜类、 倍半萜类、 甾体类化合物、 多糖以及一些其他的直链烷烃类结构, 其中以三萜类化合物成分最多, 齿孔酸和去氢齿孔酸为其主要的三萜类成分。 三萜类成分是药用真菌的有效成分之一, 具有提高人体免疫功能、 抗衰老等多种保健功效。 其还含有齿孔醇、 齿孔二醇、 去氢硫色多孔菌酸、 鲨鱼烯、 去氢齿孔酮酸、 落叶松脂酸、 麦角甾醇等成分[3], 主要成分化学式见表1

表1 阿里红中主要化学成分 Table 1 Main chemical components of Fomes Officinalis Ames

为了更好地控制阿里红的质量, 实验室一般采用HPLC对阿里红中齿孔酸含量进行测定。 然而HPLC前处理繁琐, 需要长时间进行分析, 设备、 操作和维护成本很高。 为了克服这些缺点, 近红外光谱技术是HPLC法的一种有利的替代策略。 近红外光通常是指在800~2 500 nm波长范围内的光, 在近红外光谱(NIR)中, 未知物质用光谱(许多波长或频率)的近红外光照射, 这些近红外光可以被样品吸收、 透射、 反射或散射, 在与样品中分子的某些键的振动频率的组合和泛音相对应的特定频率下, 光被样品吸收[4]。 偏最小二乘回归是一种线性统计算法, 在普通多元回归的基础上结合了主成分分析和正则相关分析, 可以用以解决自变量的多重共线问题[5]。 随着化学计量学的发展, 偏最小二乘法与近红外相结合已在食品、 农业、 石油和医学领域得到广泛应用[6, 7, 8, 9, 10, 11]。 本研究在结合近红外光谱和偏最小二乘法建立定量模型用以预测阿里红中齿孔酸含量。

1 实验部分
1.1 仪器

DHG-9055AD电热恒温干燥箱(上海齐欣科学仪器有限公司); 1100高效液相色谱(安捷伦); KQ-400KDE型高功率数控超声波清洗器(昆山市超声仪器有限公司); SolidSpec 3700DUV近红外光谱仪(岛津, 日本); Matlab R2021b用于数据处理、 作图和建模。

1.2 样品

90%乙醇 (分析纯, 天津致远化学试剂有限公司); 齿孔酸对照品 (NLT: ≥ 98.0%购自四川精萃天成药物科技有限公司); 乙腈(色谱纯, Merck公司, 批号: K54731230); 阿里红饮片90份(新疆恩萨尔维吾尔医药饮片制药有限公司), 该饮片由刘戈宇副研究员鉴定为阿里红药材。 实验前, 样品需粉碎过40目筛并置于电热恒温干燥箱中60 ℃干燥4 h以除去水分。

2 结果与讨论
2.1 HPLC测定阿里红中齿孔酸的含量

2.1.1 色谱条件

色谱柱: Hedera ODS-2 C18柱(4.6 mm× 250 mm, 5 μ m), 如图1所示;

图1 高效液相色谱
(a): 供试品溶液; (b): 齿孔酸对照品溶液; (c): 空白样品溶液; 1: 齿孔酸
Fig.1 HPLC chromatograms
(a): Sample solution; (b): Standard solution; (c): Blanksolution; 1: Eburicoic acid

流动相: A相为0.1%磷酸(A), B相为乙腈; 检测波长: 210 nm; 流速1.0 mL· min-1; 进样量10 μ L;

梯度洗脱时间程序: 0~20 min保持A-B(40∶ 60), 20~28 min, 线性变化至A-B(10∶ 90), 28~48 min, 保持A-B(10∶ 90), 48~51 min, 线性变化至A-B(40∶ 60), 51~53 min, 保持A-B(40∶ 60);

柱温: 30 ℃。

2.1.2 溶液制备

齿孔酸对照品溶液制备: 精密称取齿孔酸对照品24.75 mg, 加入90%乙醇溶解并定容于25 mL量瓶中, 摇匀, 即得浓度为0.97 mg· mL-1的对照品溶液, 备用。

供试品溶液制备: 称取干燥阿里红药材粗粉(过40目筛)约0.5 g, 置于15 mL具塞试管中, 并用15 mL 90%乙醇处理; 样品混合物在60 ℃下超声处理30 min(功率200 W), 过滤并收集滤液, 再加90%乙醇15 mL洗涤残渣继续超声提取2次, 合并滤液浓缩并定容至50 mL摇匀, 然后通过0.45 μ m有机滤膜, 取续滤液作为供试品溶液。

空白样品溶液: 90%乙醇用0.45 mm滤膜过滤, 续滤液作为空白样品溶液。

2.1.3 线性关系考察

精密量取对照品溶液1.00, 3.00, 5.00, 8.00 mL分别置于10 mL量瓶中, 加90%乙醇定容, 摇匀。 分别吸取上述各浓度对照品线性溶液和对照品溶液各10 μ L依次注入液相色谱仪, 按“ 2.1.1” 项色曲线, 如图2所示得回归方程为Y=3 435.6x+440.82, r=0.999 8, 结果表明在97~970 μ g· mL-1内, 浓度和峰面积的线性关系良好。

图2 齿孔酸标准曲线Fig.2 Standard curve of Eburicoic acid

2.1.4 仪器精密度试验

制备同一份供试品溶液连续进样6次, 每次精确进样10 μ L, 记录6次峰面积并计算出RSD为0.041%, 表明仪器精密度良好, 测定结果可信, 结果见表2

表2 精密度试验结果 Table 2 Results of Precision test

2.1.5 稳定性试验

精密吸取同一份供试品溶液分别于0, 4, 8, 12, 18, 24 h每次精确进样10 μ L, 并记录每次峰面积并计算出RSD为0.057%, 表明本品在室温条件下24 h内稳定性良好测定结果可信, 结果见表3

表3 稳定性试验结果 Table 3 Results of solution stability test

2.1.6 重复性试验

取同一份阿里红药材6个平行样, 按供试品溶液制备方法制成样品溶液, 按“ 2.1.1” 项下色谱条件测定, 记录6次峰面积并计算出含量和RSD分别为2.41%和1.73%, 表明该方法重复性良好, 测定结果可信, 结果见表4

表4 重复性试验结果 Table 4 Results of repetitive test

2.1.7 回收率试验

取同一份阿里红药材6个平行样约0.5 g, 精密称定, 并加入一定量的对照品, 按供试溶液制备方法制成样品溶液, 精密吸取10 μ L, 按“ 2.1.1” 项色谱条件测定, 计算回收率。 平均回收率为100.81%, RSD为1.81% (n=6), 表明回收率良好, 结果见表5

表5 齿孔酸加样回收率试验结果(n=6) Table 5 Result of sample recovery of Eburicoic acid

2.1.8 阿里红中齿孔酸含量计算并划分样本

取90批阿里红药材, 每一批样品平行制备3份, 按“ 2.1.1” 项下色谱条件测定, 计算90份样品中齿孔酸的含量, 齿孔酸含量范围为1.27%~4.35%, 采用K-S样本划分法, 将样品以3∶ 1比例进行校正集和预测集划分, 最终校正集为68个样品, 预测集为22个样品, 如表6所示。

表6 阿里红样本划分 Table 6 Samples division
2.2 近红外光谱法建模

2.2.1 光谱采集

使用近红外光谱仪(SolidSpec 3700DUV, Shimadzu, Japan)采集近红外光谱。 仪器配备了水平积分球漫反射采样元件、 近红外区的InGaAs和PbS探测器。 NIRS仪器系统在测量前用白板进行校准, 收集了800~2 500 nm范围内的光谱, 分辨率为0.1 nm。 每个样品重新加载并记录3次, 计算平均光谱并用于数据处理。

2.2.2 光谱预处理

原始光谱是药材最直接的表现形式, 光谱变换可以不同程度地削弱或消除背景噪声, 对优化特征谱带和提高谱带灵敏度至关重要。 本研究选择了五种常用的光谱变换方法进行光谱数据预处理, 包括一阶导数(FD)、 二阶导数(SD)、 Savitzky-Golay平滑算法(SG)、 多元散射校正(MSC)和标准正态变化(SNV), 结果如图3所示。

图3 90批次阿里红饮片的近红外光谱Fig.3 NIR spectra of 90 pieces of Fomes officinalis Ames Decoction

2.2.3 近红外光谱解析

90个样品的近红外光谱特征如图3(a)所示。 在1 198、 1 467、 1 733、 1 949、 2 117和2 301 nm附近有6个主峰。 1 198 nm的吸收来源于C— H伸缩和第二泛音。 1 467、 1 733和1 949 nm处的峰值分别来自O— H和O— H组合带的第一泛音。 2 117和2 301 nm处的峰是由于脂的CH2基团中C— H和C— O伸缩振动的组合带。 图3(b)为多元散射校正(MSC)处理后的90个样品的近红外光谱, 图3(c)为标准正态变化(SNV)处理后的90个样品的近红外光谱, 图3(d)为Savitzky-Golay平滑算法(7个点)处理后的90个样品的近红外光谱图, 图3(e)为一阶导数(FD)处理后的90个样品的近红外光谱图, 图3(f)为二阶导数(SD)处理后的90个样品的近红外光谱图。 视觉观察, 90个样品的NIR光谱显示出非常微小的差异, 并且所有峰的趋势和吸收强度都非常相似。 这些细微的差异可用来通过化学计量学进行量化。

2.2.4 波长点选择方法

近红外光谱吸收峰重叠现象严重, 信号吸收较弱, 且背景干扰严重, 波长选择的目的就是剔除干扰和无用的变量, 并减少数据冗余和多重共线性, 提高模型的预测精度和预测效率。 波长点选择方法的特点是将每个波长点视为一个单元, 因此点选择的变量是离散的。 本研究采用竞争自适应加权采样法(CARS)进行点变量选择[12]。 竞争性自适应重加权算法(CARS)是每次通过自适应加权采样, 保留PLS模型中回归系数绝对值权重较大的点作为新的子集, 去掉权值较小的点, 再新的子集建立PLS模型, 经过多次计算, 选择PLS模型交互验证均方根误差最小子集中的波长作为特征波长。

如图4所示, CARS的波长选择基于50次迭代和十折交叉验证。 以CARS选择过程的图形表示, 图4(a)表示蒙特卡洛采样运行次数和选择率, 由于衰减指数函数的作用, 随着采样次数的增加, 在采样前期变量数快速减少, 随着采样次数的增加, 变量减少的速度减慢, 表明算法“ 粗选” 和“ 精选” 的过程。 图4(b)表示蒙特卡洛采样运行次数和交叉验证均方根误差, 采样次数为22次时RMSECV最小为0.123 7%。 图4(c)表示蒙特卡洛采样运行过程中各个波长的回归系数趋势。 每个波长由彩色线表示, 星号垂线表示在22次采样运行后确定的交叉验证均方误差根最小时对应的波长子集共94个波长纳入PLS模型, 占原始光谱信息的5.53%。

图4 竞争自适应重加权抽样(CARS)变量选择
(a): 蒙特卡洛(MC)样本的数量和选择率; (b): 基于选择过程的进展的交叉验证误差; (c): 在采样运行过程中各个波长的回归系数的趋势, 每个波长由彩色线表示, 星号线指示在22次采样运行后识别的具有最低交叉验证均方根误差(RMSE)的子集
Fig.4 Competitive adaptive reweighted sampling (CARS) variable selection with top panel
(a): The number of Monte Carlo (MC) samples and rate of selection; (b): Cross-validated error based on progression of the selection process; (c): Trends in regression coefficients of individual wavelengths over the course of the sampling runs with each wavelength represented by a coloured line and the asterisk line indicating the subset with the lowest root mean square error (RMSE) of cross-validation identified after 22 sampling runs

2.2.5 模型评价

使用一种普遍接受的十折交叉验证方法, 通过式(1)获得的最小预测残差平方和(PRESS)点确定模型的潜在变量数量。 PLS模型评价一般由确定系数R2和均方根误差(RMSE* )确定。 R2由式(2)获得, R2越接近于1, 表示因变量的变化是由大部分回归线描述的。 如果直线的平方误差很大, R2越接近于0, 表示因变量的变化很少由回归线描述。 RMSE* 从式(3)获得, RMSE* 表示回归线未描述的总变化的百分比, 如果直线的平方误差很小, 意味着直线非常适合。 评价原则一般认为R2越接近1, RMSE* 越接近0, 模型效果越好。 性能偏差比(ratio of performance to deviation, RPD)由式(4)计算得到, 表示模型预测性能。 一般RPD越大, 模型的预测能力越强[13]。 RPD的阈值选择取决于多种因素, 如背景、 目的和行业。 学者们更倾向于将RPD< 1.4视为轻微或根本不具有代表性, 将1.4~3.0之间的值视为合理预测, 当RPD> 3时, 表示模型预测精度高。 各项评价参数不能孤立参考, 需要综合起来评价。

$\operatorname{PRESS}=\sum_{i=1}^{n}\left(\hat{y}_{i}-y_{i}\right)^{2}$(1)

$R^{2}=1-\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-y_{i}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}_{i}\right)^{2}}$(2)

$\operatorname{RMSE}^{* }=\sqrt{\frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-y_{i}\right)^{2}}{n-1}}$(3)

RPD=1/1-Rp2(4)

其中, yi为第i个样本的测量值, $ \hat{y}_{i}$为第i样本的预测值, y̅i为所有样本测量值的平均值, n为样本个数。

表7所示, 建立不同前处理光谱数据和不同策略选择波长的PLS模型, 并对其建模效果进行评价。 显然在引入CARS变量选择之前, 近红外光谱吸收峰重叠现象严重, 背景干扰严重, 模型效果很差。 CARS波长选择的引入剔除了干扰和无用的变量, 大大提高模型的预测精度和预测效率, 与其他模型相比, SNV+CARS模型性能最佳, 其潜变量为45个, Rp2为0.982 3, RMSEP为0.103 7%, RPD为5.34。 图5为该模型真实含量和预测含量对比。 t检验表明, SNV+CARS+PLS建模方法和传统HPLC方法在预测阿里红中齿孔酸含量上没有显著差异。

表7 不同前处理和CARS选择波长组合下PLS模型 Table 7 PLS models by different preprocessing combined with CARS wavelength selection algorithms

图5 真实含量VS预测含量Fig.5 Actual content VS calculated content

2.2.6 决定系数的解释

回归分析主要用于探索因变量和自变量之间的关系。 在线性回归分析中, 决定系数法(也称为R平方)用于预测和解释模型的结果。 与一元回归模型不同, 除了内部验证性能外, 多元回归还包括外部验证性能, 会导致模型选择中出现一个以上的R2。 有些模型的 Rc2大于 Rp2, 这称为过拟合。 相反有些模型的 Rp2大于 Rc2, 称为欠拟合。 理想情况下, Rp2的变化方向与 Rc2相同, 但实际上过拟合和欠拟合是常见现象。 本文最优回归模型选择的是 Rp2最大的模型。

3 结论

采用近红外光谱和偏最小二乘相结合的方法建立阿里红饮片中齿孔酸的定量模型, 比较了CARS波长选择前后模型策略的性能。 CARS波长选择后的模型有了很大的提高, 具有较高的相关系数(> 0.9)。 在众多PLSR模型中, SNV+CARS模型性能最佳, 其潜变量为45个, Rp2为0.982 3, RMSEP为0.103 7%, RPD为5.34。 t检验表明, SNV+CARS+PLS建模方法和传统的高效液相色谱法在预测阿里红饮片中齿孔酸含量上没有显著差异, 表明所开发的模型可作为传统方法的替代或补充。 尽管高效液相色谱法在植物药质量控制中的活性成分测定方面领先了一步, 但近红外光谱法可以在不需要任何样品前处理, 在不到5 min的时间内成功地用于测定阿里红饮片中的齿孔酸含量。 多项研究表明近红外光谱与化学计量工具相结合可以有效测定植物药物中的活性成分。 植物药的质量控制一直是一个棘手的问题, 若将红外技术与化学计量学相结合, 建立的定量模型将具备快速、 无损、 绿色和节约成本等优点, 可以为中药质量控制提供更好、 更便捷的方法。 本研究90个样品中的齿孔酸含量变化很大, 从1.27%到4.36%。 尽管R2没有达到0.999, 我们开发的模型仍然可以用于筛选分析。

参考文献
[1] WU Yun-na, LIU Ying, CHI Meng-yi, et al(乌云娜, 刘颖, 池梦怡, ). Acta Edulis Funji(食用菌学报), 2021, 28(3): 154. [本文引用:1]
[2] XU Fu-chun, DU Mao-bo(许福春, 杜茂波). Central South Pharmacy(中南药学), 2023, 21(8): 2053. [本文引用:1]
[3] GUO Xiong-fei, WEI Hong-yan, MA Xiao-ling, et al(郭雄飞, 魏鸿雁, 马晓玲, ). Journal of Chinese Medicinal Materials(中药材), 2021, (1): 44. [本文引用:1]
[4] ZHU Xue-mei, CHI Xian-guo, ZHANG Gui-yu, et al(朱雪梅, 庹先国, 张贵宇, ). Modern Food Science and Technology(现代食品科技), 2023, 39(1): 196. [本文引用:1]
[5] LIU Jing-jing, HE Kai-xun(刘晶晶, 贺凯迅). Control Engineering of China(控制工程), 2022, 29(10): 1887. [本文引用:1]
[6] PENG Hai-yang, JIANG Zi-ye, WU Zhong-dong, et al(彭海洋, 姜子烨, 巫忠东, ). Journal of Food Safety & Quality(食品安全质量检测学报), 2023, 14(17): 215. [本文引用:1]
[7] LI Zu-di, ZHANG Ke, ZHANG Ze-fei, et al(李祖頔, 张珂, 张泽飞, ). Acta Pharmaceutica Sinica(药学学报), 2023, 58(4): 1041. [本文引用:1]
[8] WANG Qi, MA Hui-feng, CAI Jian-bo, et al(王启, 马辉峰, 蔡建波, ). China Brewing(中国酿造), 2023, 42(12): 161. [本文引用:1]
[9] LIANG Qi-feng, ZENG Ling-cong, GUO Hong-wei, et al(梁奇峰, 曾令聪, 郭红卫, ). Guangdong Chimical Industry(广东化工), 2023, 50(16): 152. [本文引用:1]
[10] LIU Hong-jian, JIN Hong-gang, HUANG Xiao-ming, et al(刘洪剑, 金红岗, 黄晓明, ). Guangdong Agricultural Sciences(广东农业科学), 2023, 50(7): 64. [本文引用:1]
[11] ZHANG Ruo-qiu, DU Yi-ping(张若秋, 杜一平). Journal of Instrumental Analysis(分析测试学报), 2020, 39(10): 1282. [本文引用:1]
[12] GUO Peng, ZHAO Yang, SUN Zi-hao, et al(郭鹏, 赵阳, 孙子皓, ). China Agricultural Informatics(中国农业信息), 2023, 35(1): 55. [本文引用:1]
[13] SONG Yan, YANG Yang, ZHANG Xue-ping, et al(宋艳, 杨洋, 张学平, ). China Brewing(中国酿造), 2022, 41(12): 230. [本文引用:1]