作者简介: 吴 强, 1994年生,河南农业大学农学院博士后 e-mail: imauwq@163.com
黄芪为豆科植物膜荚黄芪或蒙古黄芪的干燥根, 具有补气固表等作用, 而传统品质评价方法存在耗时、 破坏性和主观性强等局限。 研究旨在利用地物高光谱技术结合关键有效成分含量, 建立快速、 无损的蒙古黄芪品质分级模型。 采集内蒙古自治区包头市固阳县的蒙古黄芪根系样品200份; 采用高效液相色谱测定黄芪甲苷(AS)和毛蕊异黄酮葡萄糖苷(C7G)的含量, 并基于这两种有效成分的含量, 通过K-均值聚类分析, 将样品划分为超高AS型、 高AS型、 高C7G型和普通型四个品质等级; 使用ASD FieldSpec 4地物光谱仪获取各样品粉末在350~2 500 nm范围内的漫反射光谱数据, 并进行SG平滑预处理; 采用竞争性自适应重加权采样算法(CARS)从全波段光谱中筛选出了包含20个波长的特征子集, 并基于特征波长构建偏最小二乘判别分析(PLS-DA)、 支持向量机(SVM)和随机森林(RF)分类模型。 研究结果表明: (1)超高AS型(28个)、 高AS型(44个)、 高C7G型(36个)和普通型(92个)的AS平均含量分别为: 0.130%、 0.112%、 0.096%和0.089%, C7G平均含量分别为: 0.039%、 0.034%、 0.046%和0.029%; (2)不同品质等级黄芪样品的光谱曲线在形状和吸收强度上存在明显差异, 且有效成分含量与特定波长区域的光谱反射率表现出显著相关性, AS含量与1 890~1 900 nm波段相关性最高( r=0.621), 而C7G含量则与1 356~1 365 nm波段相关性最高( r=0.636); (3)三种分类模型中RF模型表现最佳, 其校正集和验证集的总体准确率分别达到94.8%和92.3%, Kappa系数达0.893。 研究证明了地物高光谱技术结合CARS特征选择和RF分类模型, 能够实现蒙古黄芪品质的快速、 无损分级, 可为黄芪品质的评价提供新途径。
Huang qi is the dried root of the legume Astragalus membranaceus (Fisch. ) Bge. var. Mongholicus (Bge. ) Hsiao ( A. mongholicus) or Astragalus membranaceus (Fisch. ) Bge., which has the functions of bu qi gubiao. However, its traditional quality evaluation methods are time-consuming, destructive, and subjective. The purpose of this study is to establish a rapid and non-destructive quality classification model of A. mongholicus by using ground feature hyperspectral technology and the key effective component content. Two hundred A. mongholicus root samples were collected from Guyang County, Baotou City, Inner Mongolia Autonomous Region; Astragaloside (AS) and calycosin-7-glucoside (C7G) content was determined by HPLC. Based on the effective component content, the samples were divided into four quality grades: ultra high AS, high AS, high C7G and ordinary by K-means clustering analysis; The diffuse reflectance spectrum data of each sample powder in the range of 350~2 500 nm were obtained using ASD FieldSpec 4 surface spectrometer, and SG smoothing pretreatment was performed; The competitive adaptive reweighted sampling (CARS) algorithm was used to select the characteristic wavelength from the full band spectrum, and the partial least squares discriminant analysis (PLS-DA), support vector machine (SVM) and random forest (RF) classification models were constructed based on the characteristic wavelength. The results showed that: (1) the average content of AS in ultra high AS (28), high AS (44), high C7G (36) and ordinary (92) were 0.130%, 0.112%, 0.096% and 0.089%, respectively, and the average content of C7G was 0.039%, 0.034%, 0.046% and 0.029%, respectively; (2) The spectral curves of A. membranaceus samples with different quality grades were significantly different in shape and absorption intensity, and the effective component content showed a significant correlation with the spectral reflectance in a specific wavelength region. The AS content had the highest correlation with the 1 890~1 900 nm band ( r=0.621), while the C7G content had the highest correlation with the 1 356~1 365 nm band ( r=0.636); (3) Among the three classification models, RF model performed best, and the overall accuracy of its correction set and validation set reached 94.8% and 92.3%, respectively, and the kappa coefficient reached 0.893. PLS-DA and SVM models also showed good classification performance. This study proved that the ground feature hyperspectral technology combined with CARS feature selection and RF classification model can realize the rapid and non-destructive grading of A. mongholicus quality, which can provide a new way for the evaluation of Huang qi quality.
黄芪为豆科植物蒙古黄芪[Astragalus membranaceus(Fisch.)Bge. var. mongholicus(Bge.)Hsiao](A. mongholicus)或膜荚黄芪的干燥根, 为传统中医常用的大宗药材, 具有补气固表、 利尿托毒、 排脓、 敛疮生肌等功效[1, 2], 在临床治疗、 功能性食品和保健品开发中应用广泛, 具有重要的药用和经济价值[3, 4]。 黄芪的品质直接影响其临床疗效和产品价值, 因此准确、 高效的品质评价至关重要。 目前, 黄芪的品质评价主要依据《中国药典》[1]及相关研究, 涉及性状鉴定、 显微鉴别、 薄层色谱以及关键有效成分的高效液相色谱(high performance liquid chromatography, HPLC)法测定[5, 6]。 其中, 黄芪甲苷(Astragaloside IV, AS, 分子式C41H22O10)是黄芪中的主要三萜皂苷类化合物, 具有增强免疫力、 抗炎、 抗氧化、 保护心血管等多种药理活性; 毛蕊异黄酮葡萄糖苷(Calycosin-7-glucoside, C7G, 分子式C22H22O10)是黄芪中的主要异黄酮糖苷类化合物, 具有抗氧化、 抗肿瘤、 雌激素样作用等生物活性。 这两种化合物被《中国药典》[1]规定为质量控制指标成分, 其含量高低直接反映黄芪的品质优劣。 然而, 这两种化合物的传统测定方法多存在样品前处理复杂、 检测周期长、 成本高、 且具有破坏性等缺点, 难以满足现代中药产业大批量样品快速、 在线、 无损检测的需求[7]。 此外, 黄芪的商品等级划分目前主要依据形态学特征(如根的长度、 直径、 外观等), 这种方法具有很强的主观性且与药材的有效成分含量及药效缺乏直接关联[8, 9]。
近年来, 可见-近红外光谱和高光谱技术因其快速、 无损、 无需复杂样品制备等优点, 在农产品[10]和中药材品质检测领域[11]展现出巨大潜力。 高光谱技术能够在极短的时间内采集目标物体在连续波长下的反射光谱, 通过分析光谱特征可以获取与样品内部化学成分和物理结构相关的信息[12]。 基于这一技术优势, 国内外学者在中药材品质评价方面开展了广泛的研究。 在黄芪相关研究方面, Xiao等[13]采用双波段高光谱成像系统结合卷积神经网络, 对来自5个省份的黄芪样本进行产地识别, 通过深度特征融合的CNN模型达到了99.92%的识别准确率, 为黄芪产地溯源提供了高精度技术手段; Xu等[14]建立了基于高光谱成像的黄芪种子非破坏性分类方法, 采用FD-UVE-SVM模型对黄芪种子实现了100%的分类准确率, 显著优于传统机器视觉方法; Yang等[15]开发了基于漫反射中红外傅里叶变换光谱的黄芪掺伪快速检测方法, LDA-KNN模型在区分真伪黄芪方面表现最佳。 在其他中药材品质评价方面, Chen等[16]提出了基于高光谱图像的全连接卷积神经网络用于人参生长年限快速鉴定, FC-CNN模型在食用与药用人参分类中达到100%准确率; Zhu等[17]将挤压激励残差网络应用于丹参化学成分无损检测, 对丹参酚酸B等四种活性成分的预测R2均超过0.94; Zhang等[18]创新性地将U-Net神经网络用于甘草产地分类, 达到了96.07%的测试准确率。 这些研究充分证明了高光谱技术在中药材品质评价中的巨大潜力和应用价值。 然而, 现有研究多集中在单一指标的定量分析或产地鉴别, 缺乏基于多种关键有效成分含量综合进行品质等级划分的系统性研究, 且针对蒙古黄芪这一道地药材的无损分级模型仍有待建立和完善。
内蒙古自治区包头市固阳县为蒙古黄芪的道地产区。 本研究以固阳县产的蒙古黄芪为研究对象, 结合根系中AS和C7G两种关键有效成分的含量, 通过K-均值聚类建立科学的品质等级标准。 在此基础上, 采集根系粉末样品的高光谱数据, 通过筛选特征波长, 并比较不同化学计量学分类模型, 旨在建立一种快速、 无损、 准确的蒙古黄芪品质分级模型, 以期为黄芪的质量控制和标准化提供技术支持。
2024年9月— 10月于内蒙古自治区包头市固阳县, 在4个种植基地随机采集不同生长年限(2~4年)的蒙古黄芪, 共计200份。 样品在生长年限及外部形态等方面具有代表性和多样性, 以期建立稳健的分类模型。 样品采集后, 去除泥土杂质、 芦头和地上部分, 根系切成厚度约3~5 mm的饮片, 于60 ℃鼓风干燥箱中烘干至恒重。 后使用高速粉碎机将各样品分别粉碎, 过40目筛, 得到均匀粉末, 分装于自封袋中, 置于干燥器内室温保存备用。 每份样品分为两部分, 一部分用于化学成分测定, 另一部分用于光谱数据采集。
1.2.1 有效成分测定
参考《中国药典》[1]的HPLC法, 以乙腈为流动相A, 0.2%甲酸溶液为流动相B, 在260 nm的波长下, 测定样品AS和C7G含量。 所有测定均重复3次, 结果以干重百分含量(%)表示。
1.2.2 品质等级划分
基于1.2.1数据, 对两种有效成分含量进行标准化处理, 消除量纲差异的影响后采用K-means聚类分析进行分类。
1.3.1 光谱数据采集
使用ASD FieldSpec 4地物光谱仪(波长范围350~2 500 nm, 光谱分辨率3 nm@700 nm、 10 nm@1 400/2 100 nm, 美国ASD公司)对样品进行高光谱数据采集。 光谱采集在暗室内进行, 以消除环境杂散光影响。 仪器参数设置如下: 光谱采样间隔为1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm); 使用带内置光源的高强度接触式探头; 积分时间100 ms; 视场角25° ; 扫描次数20次/点。 将约4 g黄芪粉末样品平铺于直径5 cm的培养皿中, 压实表面, 厚度约5 mm, 将接触式探头垂直紧贴在样品表面进行测量, 仪器开机预热30 min 以上, 每15 min进行一次标准Spectralon板校正。 每个样品选取3个不同位置进行测量, 每个位置重复扫描3次, 将9条光谱数据取平均值作为该样品的最终光谱。
1.3.2 光谱预处理
原始光谱数据包含仪器噪声和环境影响, 对保留的光谱数据采用Savitzky-Golay平滑算法进行预处理, 窗口宽度为15个点, 多项式阶数为2, 以减少随机噪声对光谱信号的影响, 同时保留光谱的主要特征。
1.3.3 相关性分析
采用Pearson相关分析计算全波段光谱与AS及C7G含量的相关系数, 识别光谱中与活性成分高度相关的区域。
1.4.1 数据集划分与模型验证
将全部200个样本采用分层抽样的方法按照7:3的比例随机划分为140个样本的校正集和60个样本的验证集, 确保各品质等级在两个数据集中的分布比例一致。 为评估模型的稳定性, 采用10折交叉验证方法。
1.4.2 分类模型构建
为降低数据维度、 去除冗余信息、 提高模型稳健性和解释性, 采用竞争性自适应重加权采样算法(competitive adaptive reweighted sampling, CARS)进行特征波长选择。 CARS算法设置迭代次数为50次, 采用指数衰减函数控制样本子集规模, 通过十折交叉验证最小均方根误差(root mean square error of cross validation, RMSECV)评估不同特征子集的性能, 筛选出最优特征子集。 基于CARS筛选的特征波长, 构建三种分类模型。 所有模型参数优化均采用10折交叉验证法, 以分类准确率为评价指标。 具体模型如下:
(1)偏最小二乘判别分析(partial least squares discriminant analysis, PLS-DA): 通过优化潜变量, 最终确定最优潜变量数为6个。
(2)支持向量机(support vector machine, SVM): 通过网格搜索法优化惩罚参数C和核函数参数gamma(γ ), 参数C的候选范围为2-5到215, γ 的候选范围为2-15到23, 最终确定最优参数为C=64、 γ =0.125。
(3)随机森林(random forest, RF): 通过优化模型参数, 包括决策树数量(ntree)和每个节点处的最优分割所考虑的特征数量(mtry), 最终确定ntree=500、 mtry=4。
为评估特征选择的有效性, 基于全波段光谱数据(350~2 500 nm)构建分类模型作为对照。
1.4.3 模型评价指标
采用以下指标评估模型在校正集和验证集上的性能:
(1)总体准确率: 正确分类的样本数占总样本数的比例。
(2)各类别准确率: 每个品质等级正确分类的样本数占该等级总样本数的比例。
(3)Kappa系数: 评估分类结果与随机分类相比的一致性程度, 值越接近1表示分类效果越好。
光谱数据采集使用ViewSpec Pro 6.2(ASD Inc.)。 数据分析和建模在MATLAB R2024a(The MathWorks, Inc.)环境中进行, 使用PLS_Toolbox 8.6 (Eigenvector Research, Inc.)、 libSVM工具箱和自定义脚本。 RF分类使用R 4.4.3软件中的RandomForest包实现。 数据可视化部分使用Origin 2024(OriginLab, Inc.)和R 4.4.3软件中的ggplot2包完成。
200份蒙古黄芪根系样品的AS含量范围为0.076%~0.136%, 平均值为0.102%; C7G含量范围为0.020%~0.055%, 平均值为0.034%。 两种有效成分之间存在弱相关性(r=0.28, p< 0.05), 表明蒙古黄芪中不同类别的有效成分在合成代谢上可能存在一定程度的独立性。
通过K-均值聚类分析(K=4), 200份蒙古黄芪样品被划分为超高AS型、 高AS型、 高C7G型和普通型四个品质等级, 见表1。 由表可见, 超高AS型样品AS含量最高, 达到0.130%, 为普通型的1.46倍; 高C7G型样品的C7G含量最高, 达到0.046%, 为普通型的1.59倍。 这种基于有效成分的分类结果, 比单纯依靠外观更能客观反映蒙古黄芪的内在品质差异。
| 表1 品质等级分类结果 Table 1 Quality grade classification results |
四类样品的两种有效成分含量在二维空间的分布如图1所示。 不同类别间的边界清晰, 重叠区域较小, 证实了聚类方备的合理性。 需要指出的是, 四个品质等级的样本数量存在不平衡分布(超高AS型28个, 高AS型44个, 高C7G型36个, 普通型92个), 这符合自然界和实际生产中高品质药材相对稀少的客观规律。 普通型样品在数量上占主导(46%), 而超高AS型样品比例最小(14%)。
四个品质等级蒙古黄芪样品的平均光谱反射率曲线见图2。 由图2可见, 所有样品在可见光区(400~700 nm)反射率较低, 主要吸收峰在蓝绿光区域, 这与黄芪粉末的淡黄色外观有关; 在近红外区域(700~2 500 nm), 光谱曲线呈现出典型的有机物吸收特征, 包括1 450和1 940 nm处的水分吸收峰, 以及多个与C— H、 O— H、 N— H等官能团振动相关的特征峰。 不同等级样品的光谱曲线在整体反射率水平和部分吸收峰的强度上存在差异, 如普通型样品在多个波段反射率普遍较低, 这些差异表明光谱特征能够有效反映样品中有效成分的含量差异, 为无损分类提供了可能性。
为探索光谱特征与有效成分含量之间的关系, 计算了全波段(300~2 500 nm)光谱反射率与两种有效成分含量的Pearson相关系数, 结果见图3所示。 由图3可见, 两种有效成分含量与特定波长区域的光谱反射率表现出显著相关性, AS含量与1 890~1 900 nm波段相关性最高(r=0.621); 而C7G含量则与1 356~1 365 nm波段相关性最高(r=0.636)。 此外, 相关系数曲线中的波峰和波谷位置与蒙古黄芪中主要化学成分的特征吸收区域高度一致, 这可能反映了它们在分子结构上的某些共同特征。 例如, 1 890~1 900 nm区域对应O— H和C=O的组合频带, 与AS中的糖苷结构密切相关; 1 356~1 365 nm区域则对应C— H和C— O的伸缩振动, 与C7G中的黄酮基本骨架相符。
CARS算法筛选的最优特征子集共有20个波长, 即542、 673、 720、 798、 811、 860、 930、 941、 969、 1 013、 1 130、 1 212、 1 355、 1 364、 1 405、 1 824、 1 841、 1 860、 1 889和2 373 nm。 相较于原始的全波段光谱大幅降低了数据维度, 显著减少了计算复杂度。 这些波长涵盖了可见光、 红边区域、 近红外Ⅰ 区和近红外Ⅱ 区, 形成了完整的光谱特征体系。 可见光区波长(542和673 nm)通常反映色素成分特征, 与传统经验评价中的色泽指标相符; 近红外I区波长(特别是969 nm)主要与多糖和水分含量相关; 近红外Ⅱ 区多个波长(如1 212和1 824 nm)则与常芳香环上的C— H键第二泛频带以及糖苷键中O— H和C— O的组合频带相关。 这些在化学上具有明确意义的波长作为分类模型的特征, 进一步增强了模型的可靠性和可解释性。
基于特征波长, 构建了PLS-DA、 SVM和RF三种分类模型, 结果见表2。 由表2可见, 所有三种模型在校正集和验证集均表现出良好的分类效果, 总体准确率均超过88%, Kappa系数均大于0.84, 表明分类结果具有高度可靠性。 在三种模型中, RF模型的校正集和验证集的总体准确率分别达到94.8%和92.3%, 高于PLS-DA和SVM模型, 其优势可能来源于集成学习的特性, 通过构建多个决策树并综合其预测结果, 能够有效处理数据中的噪声和异常值。 从各品质等级的分类准确率来看, 样本分布不平衡对模型性能产生了一定影响。 RF模型中, 样本数量最多的普通型(92个)识别准确率最高(94.1%), 而样本数量较少的高C7G型(36个)识别准确率相对较低(88.5%), 超高AS型(28个)居中(93.8%)。 少数分类错误主要发生在相邻类别之间, 这可能是由于样本不平衡和类别间光谱特征存在一定重叠所致。 尽管如此, RF模型的Kappa系数达到0.893, 表明基于特征波长的分类模型能够有效捕捉黄芪样品中与品质等级相关的光谱信息, 为黄芪的快速无损分级提供了可靠工具。
| 表2 基于特征波长的分类模型性能比较 Table 2 Comparison of classification model performance based on selected wavelength |
为系统评估CARS特征选择对模型精度、 复杂度和泛化能力的提升程度, 构建了基于全波段光谱数据(350~2 500 nm, 共2 151个波长数据)分类模型作为对照。 全波段建模结果如表3所示, 不同模型在高维数据上的适应性存在显著差异: PLS-DA模型验证集准确率达到81.7%, 体现了其针对高维数据设计的优势; RF模型准确率为83.3%, 集成学习特性使其保持相对较好的性能; SVM模型使用RBF核在高维设置下性能急剧下降至65.0%, 主要因RBF核在特征数远大于样本数时易产生严重过拟合。 基于CARS筛选特征波长的建模比全波段建模有明显优势: 精度方面, RF、 SVM、 PLS-DA模型验证集准确率分别提升9.0%、 25.0%、 6.6%; 复杂度方面, 数据维度从2151降至20(压缩比99.1%), 大幅降低计算和存储需求; 泛化能力方面, SVM和RF模型的校正集与验证集性能差分别从9.3%和8.1%降至2.9%和2.5%, 表明CARS算法有效消除冗余噪声特征, 显著提高模型稳定性。 不论是精度、 复杂度还是泛化能力, CARS特征选择方法均显示出明显优势, 充分证明了特征选择的价值。
| 表3 基于全波段光谱的分类模型性能比较 Table 3 Comparison of classification model performance based on full-band spectra |
传统中药材品质评价主要依据外观形态特征进行等级划分, 存在主观性强、 与内在品质关联度低、 难以实现精准分类等问题, 导致“ 优质优价” 机制难以有效实施, 制约了中药材产业的高质量发展。 研究表明AS具有增强免疫力、 抗炎、 抗氧化等多种药理活性, 而C7G则被报道具有抗氧化、 抗肿瘤等作用[19, 20]。 本研究基于这两种关键有效成分含量建立的客观分级标准, 能够准确反映蒙古黄芪的内在品质差异, 为实现差异化利用和精准应用提供科学依据。 基于实验结果, 可对不同品质等级蒙古黄芪的应用提出以下建议: 超高AS型可重点用于免疫调节类制剂和高端保健品; 高C7G型可优先应用于抗氧化和抗肿瘤类产品; 高AS型则适合用于功能相对平衡的综合性制剂; 普通型可作为一般药用和保健品原料。 这种基于有效成分的精准分级不仅能够最大化发挥蒙古黄芪的药效价值, 还可显著提高资源利用效率, 推动中药材从粗放式利用向精细化、 个性化应用转变, 具有重要的科学意义和经济价值。
本研究建立的无损分级模型在实际应用中具有较为广阔前景和重要经济价值。 在种植环节, 可为黄芪种植基地提供田间快速检测服务, 指导农户优化栽培管理策略, 实现精准收获, 提高优质药材比例; 在流通环节, 可应用于中药材收购站点的现场品质评估, 为差异化定价提供科学依据, 避免优质优价难以实现的问题; 在生产环节, 可用于制药企业原料验收的快速筛查, 显著提高质控效率, 降低批次间质量波动风险; 在监管环节, 可支撑中药材市场的品质监管, 规范市场秩序, 保障消费者权益。 与传统HPLC检测相比, 基于光谱的方案具有检测速度快、 无需样品预处理、 非破坏性、 成本低等显著优势。 然而, 技术完善和产业化仍面临多重挑战: 研究层面需纳入更多活性成分(如黄芪多糖、 总黄酮等)进行更全面的品质评价, 系统研究不同采收季节、 施肥水平和种植环境对品质的影响机制; 应用层面需解决光谱仪成本高(需开发低成本便携式设备)、 操作人员专业培训需求、 环境因素(温湿度、 光照)对检测准确性的干扰、 不同产地和年份样品的光谱差异导致的模型适应性问题。 可通过与仪器制造商合作开发基于关键波长的专用检测设备、 建立行业标准和操作规范、 构建涵盖主要产地多年份的光谱数据库、 建立模型更新机制等方式逐步解决。 同时, 将本方法拓展应用到人参、 当归、 丹参等其他道地药材, 推动中药材质量评价体系的标准化和智能化发展。 逐步实现技术的规模化应用, 为中药材产业高质量发展提供重要技术支撑。
以内蒙古自治区包头市固阳县产的蒙古黄芪为研究对象, 基于AS和C7G两种关键有效成分含量, 通过K-均值聚类将样品划分为超高AS型、 高AS型、 高C7G型和普通型四个品质等级, 各等级在有效成分含量上表现出较大差异; 相关性分析发现AS含量与1 890~1 900 nm波段相关性最高(r=0.621), 而C7G含量则与1 356~1 365 nm波段相关性最高(r=0.636), 为光谱检测提供了理论基础; 在三种分类模型中, RF模型表现最佳, 其校正集和验证集的总体准确率分别达94.8%和92.3%, Kappa系数达0.893, 证明了该方法的可靠性; 通过对比全波段与特征波长建模结果, CARS算法筛选的20个特征波长不仅将数据维度从2 151降至20, 还使RF模型验证集准确率从83.3%提升至92.3%, 证明了特征选择的有效性。 综上所述, 地物高光谱技术结合CARS特征选择和RF分类模型能够实现蒙古黄芪品质的快速、 无损分级, 可为黄芪产业的质量控制和标准化提供了有效技术支持。
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
|
| [20] |
|

