作者简介: 吴 强, 1994年生,河南农业大学农学院博士后 e-mail: imauwq@163.com
黄芪是一种重要的中药材, 为豆科植物蒙古黄芪或膜荚黄芪的干燥根。 一般来说, 仿野生种植的蒙古黄芪在有效成分含量等方面往往优于平栽种植, 但仅凭外观难以有效鉴别, 而传统的高效液相色谱法(HPLC)测量有效成分则存在成本高昂、 耗时长等缺点。 本研究旨在探索一种快速、 经济且准确的方法来区分仿野生和平栽种植的蒙古黄芪。 采用HPLC测定研磨后蒙古黄芪根系样品的有效成分含量; 采用地物光谱仪(SVC-HR1024)获取样品在350~2 500 nm波长范围的高光谱反射率信息, 重点关注可见光(VIS, 350~700 nm)、 近红外(NIR, 700~1 100 nm)和短波红外(SWIR, 1 100~2 500 nm)三个主要波段的光谱特征; 采用随机森林(RF)、 K近邻(KNN)、 朴素贝叶斯(NB)和支持向量机(SVM)四种机器学习模型进行分类; 对表现最佳的RF模型进行了SHAP特征重要性分析。 研究表明: (1)仿野生种植的蒙古黄芪有效成分的含量均显著高于平栽种植; (2)仿野生和平栽蒙古黄芪在近红外和短波红外区域存在显著的光谱差异, 反映出仿野生种植环境的多样性对蒙古黄芪色素合成、 组织结构及化学成分的影响; (3)随机森林模型在分类任务中表现最佳, 准确率、 精确率、 F1分数、 Kappa和MCC系数分别为97.14%、 97.42%、 0.971 3、 0.942 9、 0.945 6; (4)SHAP分析识别出的关键波段与水分、 蛋白质和纤维素等重要成分相关。 本研究证明了基于高光谱反射率的方法在区分蒙古黄芪仿野生与平栽样品方面的有效性, 为中药材质量控制和鉴别提供了一种新的、 非破坏性的快速检测方法, 有望在中药材质量评估和市场监管中发挥重要作用。
Huangqi is an important medicinal herb, specifically the dried root of either Astragalus membranaceus (Fisch.) Bge. var. Mongholicus (Bge.) Hsiao ( A. mongholicus) or Astragalus membranaceus (Fisch.) Bge. Generally, simulated wild cultivation of A. mongholicus tends to result in higher active compound content compared to horizontal cultivation. However, these differences are challenging to distinguish by visual inspection alone. Traditional methods like High-Performance Liquid Chromatography (HPLC) are accurate for measuring these compounds but are costly and time-consuming. This study aims to develop a rapid, cost-effective, and accurate method to differentiate between simulated wild and horizontally cultivated A. mongholicus. Using a spectroradiometer, we measured the active compound content in ground root samples using HPLC and obtained hyperspectral reflectance data within the 350~2 500 nm wavelength range (SVC-HR1024). The study focused on the spectral characteristics in the visible (VIS, 350~700 nm), near-infrared (NIR, 700~1 100 nm), and shortwave infrared (SWIR, 1 100~2 500 nm) regions. Four machine learning models—Random Forest (RF), K-Nearest Neighbors (KNN), Naive Bayes (NB), and Support Vector Machine (SVM)—were employed for classification. An importance analysis of SHAP features was conducted on the best-performing RF model. The findings reveal that: (1) Simulated wild cultivation had significantly higher active compound content in A. mongholicus than horizontal cultivation; (2) Distinct spectral differences exist between simulated wild and horizontally cultivated A. mongholicus in the NIR and SWIR regions, indicating the impact of the diverse simulated wild environment on pigment synthesis, tissue structure, and chemical composition; (3) The RF model achieved the best performance with an accuracy, precision, F1 score, Kappa, and MCC coefficients of 97.14%, 97.42%, 0.971 3, 0.942 9, and 0.945 6, respectively; (4) SHAP analysis identified key wavelengths associated with moisture, protein, and cellulose content. This study demonstrates the effectiveness of hyperspectral reflectance in distinguishing between simulated wild and horizontally cultivated A. mongholicus samples, providing a novel, non-destructive, and rapid detection method for the quality control and identification of medicinal herbs. This approach has the potential to play a significant role in the quality assessment and market regulation of medicinal herbs.
黄芪为豆科植物蒙古黄芪(Astragalus membranaceus (Fisch.) Bge. var. Mongholicus (Bge.) Hsiao, A. mongholicus)或膜荚黄芪的干燥根, 作为传统中药材在中国已有数千年的应用历史[1]。 其主要有效成分包括黄芪多糖、 黄酮类化合物和皂苷等, 具有增强免疫力、 抗氧化、 抗炎和保护心血管等多种药理作用[2, 3]。 随着对天然药物需求的增加, 蒙古黄芪的野生资源面临过度采集的压力, 促使仿野生种植技术的发展[4]。 仿野生种植和平栽种植是蒙古黄芪两种主要的栽培方式。 平栽种植采用传统的农业种植模式, 特点是规则的种植行距、 统一的田间管理措施和标准化的农事操作, 包括定期除草、 灌溉和施肥等。 而仿野生种植则模拟野生环境条件, 通过调控种植密度、 水分供应和杂草管理等因素, 创造接近自然生态系统的生长环境, 这种方式下, 植物需要与周围植被竞争养分和水分, 形成一定的逆境胁迫, 进而促进次生代谢产物的积累。 相比传统平栽方式, 仿野生种植的蒙古黄芪通常具有更高的有效成分含量和更佳的药用价值[5], 而仿野生与平栽蒙古黄芪在外观上往往难以区分, 这为市场监管和质量控制带来了挑战。 目前高效液相色谱法(high performance liquid chromatography, HPLC)是测定蒙古黄芪有效成分的主要方法[6], 但HPLC方法存在成本高、 耗时长、 需要复杂样品前处理等缺点, 不适合大规模快速筛查[7]。 因此, 开发一种快速、 无损且经济的鉴别方法成为当前研究的热点。
近年来, 高光谱技术因其快速、 无损和多波段的特点, 在农业和药用植物研究中得到广泛应用[8], 该技术可以在350~2 500 nm的波长范围内获取连续的光谱信息, 为样品的化学成分和物理特性提供丰富的数据。 在中药材研究中, 高光谱技术已成功应用于产地鉴别、 品种分类和质量评估等方面[9]。 机器学习算法在处理高维度光谱数据方面表现出色, 为高光谱数据分析提供了强大工具, 随机森林、 支持向量机和人工神经网络等算法在中药材分类和质量评估中显示出良好的性能[10]。 此外, 特征重要性分析方法, 如SHAP(SHapley Additive exPlanations)能够揭示影响分类决策的关键波段, 为进一步理解光谱特征与样品性质之间的关系提供帮助[11]。
尽管高光谱技术在中药材研究中的应用日益广泛, 但研究主要集中在不同产地或品种的鉴别[12], 而对栽培方式的区分研究相对较少。 鉴于仿野生种植在提高蒙古黄芪质量方面的重要性, 本研究旨在探索基于高光谱反射率的方法, 结合先进的机器学习算法, 并利用SHAP分析深入探讨影响分类的重要特征, 以实现蒙古黄芪仿野生与平栽样品的快速、 准确分类。
于2022年和2023年9月中下旬在蒙古黄芪道地产区内蒙古包头市固阳县(北纬40° 42'58″、 东经109° 38'3″; 温带大陆型干旱半干旱季风气候; 海拔1 300 m; 年平均气温5.5 ℃; 年降水量291.1 mm; 无霜期为69~177 d)不同乡镇的5个种植基地, 随机选取仿野生种植和平栽种植两种栽培方式的蒙古黄芪样品, 样品从芦头处剪断只保留根系, 每个种植基地两种栽培方式各10株, 每年取100株, 两年共200株。 所取样本土壤耕层有机质含量15.08~16.21 g· kg-1、 全氮含量1.07~1.12 g· kg-1、 速效氮含量61.27~63.33 mg· kg-1、 速效磷含量8.27~8.41 mg· kg-1、 速效钾含量143.2~145.8 mg· kg-1。 其中仿野生种植和平栽种植均于当年5月中下旬按照株距8~10 cm、 行距25~30 cm、 沟深8~10 cm将蒙古黄芪种苗水平移栽, 仿野生种植在种苗移栽后不进行任何处理, 平栽种植分别在种苗返青后及7月上中旬进行锄草。
采集的蒙古黄芪样品经过以下步骤进行预处理: (1)清洗: 用清水清洗样品, 去除表面泥土和杂质; (2)干燥: 在60 ℃恒温干燥箱中干燥48 h, 直至恒重; (3)粉碎: 使用中药材粉碎机将干燥后的样品粉碎; (4)过筛: 使用40目(0.425 mm)标准筛网过筛, 确保颗粒大小均匀; (5)保存: 将处理后的样品装入密封袋, 避光保存在4 ℃冰箱中, 待测。
参考《中国药典》[13]的HPLC法, 以乙腈为流动相A, 以0.2%甲酸溶液为流动相B, 检测波长为260 nm, 测定样品黄芪甲苷和毛蕊异黄酮葡萄糖苷含量。
使用SVC-HR1024地物光谱仪进行高光谱数据的采集, 光谱范围为350~2 500 nm。 具体操作步骤如下: (1)仪器预热: 开机预热30 min, 确保仪器稳定; (2)白板校正: 每10个样品测量一次白板, 进行参考校正; (3)样品测量: 将样品平铺于黑色样品盘中, 厚度约5 mm, 探头垂直放置于样品表面上方2 cm处; (4)数据采集: 每个样品随机选取3个位置进行测量, 每个位置采集3个光谱曲线, 并取平均值; (5)数据保存: 将采集的光谱数据以SIG格式保存, 并记录相应的样品信息; (6)光滑处理: 采用Savitzky-Golay滤波算法进行光谱平滑, 消除随机噪声。
采用随机森林(random forest, RF)、 K近邻(K-Nearest Neighbors, KNN)、 朴素贝叶斯(Naive Bayes, NB)、 支持向量机(support vector machine, SVM)四种常用的机器学习算法构建分类模型, 这四种机器学习方法, 在遥感分类研究中已经得到广泛的验证[14], 模型的关键参数配置及设定理论依据见表1。
![]() | 表1 四种分类模型的关键参数配置及其理论依据 Table 1 Key parameters configuration and theoretical basis of four classification models |
数据集按7∶ 3的比例随机划分为训练集和测试集, 使用5折交叉验证优化各模型的参数。 模型评估指标包括准确率(Accuracy)、 精确率(Precision)、 F1分数、 Kappa和MCC系数。 计算公式如式(1)— 式(5)
其中, TP为真正类(true positive); TN为真负类(true negative); FP为假正类(false positive); FN为假负类(false negative)。
采用SHAP方法进行特征重要性分析, 以解释模型决策并识别对分类最具影响力的光谱特征, SHAP值计算基于表现最佳的随机森林模型, 使用TreeSHAP算法进行快速估算。
式(6)中, N是所有特征的集合, S是N中去掉特征i的任意子集, f(S)是只使用子集S中特征的模型预测值, ϕ i是特征i的SHAP值。
使用Python 3.8及其科学计算库(NumPy, pandas, scikit-learn)进行数据处理和统计分析。 采用单因素方差分析(ANOVA)比较仿野生和平栽样品有效成分含量及在关键波段的光谱反射率差异, 显著性水平设为P< 0.05。 使用Excel 2019、 Matplotlib和Seaborn库绘制柱形图、 光谱曲线和SHAP值总结图。
由图1可见, 仿野生种植的蒙古黄芪样品黄芪甲苷和毛蕊异黄酮葡萄糖苷的含量均显著高于平栽种植, 且均达到药典[13]规定的标准, 说明仿野生种植有利于蒙古黄芪药用价值的提高。 仿野生种植的蒙古黄芪由于杂草对土壤水分、 养分、 光照等竞争, 造成了逆境胁迫, 而药用植物在逆境下其有效成分含量往往较高[15]。
由图2可见, 仿野生和平栽蒙古黄芪样品在350~2 500 nm波长范围内的平均光谱反射率曲线整体趋势相似, 但在某些波段存在明显差异。 仿野生样品在可见光区域(350~700 nm)的450~550 nm范围内反射率略低, 在近红外区域(700~1 100 nm)普遍表现出更高的反射率, 在短波红外区域(1 100~2 500 nm)的1 450和1 940 nm附近出现两个明显吸收峰的强度略低。 可见光区域的差异可能反映了样品的色素含量, 如类胡萝卜素含量; 近红外区域的差异可能反映了样品的组织结构变化, 如细胞间隙; 短波红外区域的差异则可能反映了样品的化学成分, 如水分、 糖类和蛋白质含量[16]。 这些差异可能源于仿野生和平栽栽培环境的不同, 如土壤条件、 光照强度和水分供应等因素[17]。
![]() | 图2 蒙古黄芪样品的平均光谱反射(a)、 标准差(b)和变异系数(c)Fig.2 Average reflectance spectra(a), standard deviations (b) and coefficients of variation (c) of A. mongholicus samples |
仿野生样品在大部分波长范围内表现出更小的标准差, 特别是在近红外和短波红外区域, 表明仿野生样品的光谱特征更加稳定。 两类样品在不同波长范围的变异程度存在差异, 特别是在可见光区域, 仿野生样品的变异系数明显高于平栽样品, 这可能反映了仿野生种植环境的多样性对蒙古黄芪色素合成的影响。
使用四种机器学习模型对仿野生和平栽蒙古黄芪样品进行分类, 由表2可见, RF模型在所有评估指标上都表现最佳, 准确率达到97.14%, 显示出极高的分类性能; KNN模型表现次之, 准确率为88.57%, 也展现出不错的分类能力; NB模型表现一般, 准确率为76.43%; SVM模型表现较差, 准确率仅为57.86%, 可能需要进一步的参数调优。 总体而言, RF模型展现出最佳的分类性能, 这可能得益于其集成学习的特性, 能够更好地捕捉高光谱数据中的复杂模式, 包括高维数据和复杂非线性关系的处理[18], 而SVM模型的表现较差, 可能是由于SVM对高维数据的敏感性以及参数选择的复杂性[19], 未来的研究可以考虑采用更复杂的核函数或深度学习方法来进一步提高分类性能[20]。
![]() | 表2 四种分类模型的性能比较 Table 2 Performance comparison of four classification models |
根据表1结果, 为了解释模型决策并识别对分类最具影响力的光谱特征, 对表现最佳的RF模型进行了SHAP特征重要性分析, 由图3可见, 最具影响力的波长主要集中在近红外和短波红外区域, 特别是1 400~1 450、 1 900~1 950和2 200~2 300 nm附近的波段, 1 450和1 940 nm附近的吸收峰主要与水分含量有关, 仿野生样品在这些波段表现出的差异可能反映了其特殊生长环境下的水分代谢调节; 2 200~2 300 nm区域的特征与蛋白质和纤维素含量相关, 这表示仿野生和平栽样品在这些成分上可能存在显著差异[21]。 而可见光区域某些波段的重要性可能与样品中的色素成分(如类胡萝卜素)有关[22]。 这些差异可能反映了两种栽培方式下植物次生代谢产物合成的差异。 不同波长对分类决策的影响方向和强度各不相同, 某些波长(如1 450 nm附近)对分类结果有显著的正面影响, 而其他波长(如1 950 nm附近)则表现出负面影响。 SHAP值的分布和强度差异反映了这些特征波长在区分仿野生和平栽样品时的重要作用。
基于高光谱技术的蒙古黄芪分类方法展现出快速、 准确的特点, 为中药材质量控制提供了新的技术思路[23]。 通过构建机器学习分类模型并结合SHAP特征重要性分析, 探索了基于高光谱技术区分仿野生与平栽蒙古黄芪的方法学基础。 在处理高维光谱数据时, 特征选择策略通常被认为能够通过降低数据冗余和减少噪声影响来提升模型性能。 为验证这一判断, 采用递归特征消除(RFE)进行特征选择, 结果显示在保留前10个最重要特征后, RF模型分类准确率略有下降至91.86%。 而实验结果表明, 直接使用完整光谱数据进行分类的策略具有其独特优势。 这一优势主要基于以下几点考虑: 首先, RF模型本身具有内在的特征选择机制, 能够在训练过程中自动识别和利用最具判别力的特征, 使其特别适合处理高维光谱数据; 其次, 通过SHAP分析发现的关键波段(1 400~1 450、 1 900~1 950和2 200~2 300 nm)与样品的水分、 蛋白质和纤维素等重要成分直接相关, 表明完整光谱信息的保留有助于捕捉样品的综合化学特征。 特征选择虽然可以简化计算过程, 但可能损失部分光谱响应的协同信息。 这一观察与近年来光谱分析领域的研究发现相符[24], 即在复杂生物样品分析中, 完整光谱的整体模式可能比单独的特征波段提供更多的判别信息。 这一发现表明在构建分类模型时, 需要权衡特征选择带来的计算效率提升与可能的信息损失之间的关系, 特别是对于具有复杂化学组分的中药材, 保留完整的光谱信息可能更有利于捕捉其整体特征。
从方法学角度而言, 本研究采用的样品粉碎预处理方法引发了技术应用性的深入思考。 样品粉碎处理的理论基础在于提高测量的可重复性和可靠性, 通过降低样品表面形态和粒度差异对光谱测量的影响, 确保光谱信息能更准确地反映样品的整体化学组分特征。 这种处理方式虽然改变了样品的物理形态, 但保持了化学组分的完整性, 与传统的HPLC检测方法具有可比性和互补性[25]。
未来研究方向应着重探索高光谱成像技术在完整药材表面的应用可行性, 系统研究不同粒度对光谱特征的影响规律, 建立光谱特征与粒度的校正模型。 同时, 开发集成式的便携检测设备, 实现采样、 处理和检测的一体化, 这将显著提升在市场监管中的实用价值。 本研究也存在地域局限性, 样本均来源于道地药材产区固阳县, 模型对当地的适用性较强, 但对气候条件差异较大的其他地区, 其判别能力可能会有所降低。 为增强模型的泛化能力, 未来研究需要扩大样本的地理范围, 构建更具代表性的光谱数据库。 随着检测技术的进步和配套设备的完善, 基于高光谱技术的快速检测方法将在中药材质量评价和市场监管中发挥更重要的作用[9]。
应用高光谱技术结合机器学习方法, 实现了蒙古黄芪仿野生和平栽样品的准确分类, 研究表明: (1)仿野生种植的蒙古黄芪样品有效成分的含量均显著高于平栽种植; (2)仿野生和平栽蒙古黄芪在近红外和短波红外区域存在显著的光谱差异; (3)随机森林模型在分类任务中表现最佳, 准确率达97.14%; (4)SHAP分析识别出的关键波段与水分、 蛋白质和纤维素等重要成分相关。 可为蒙古黄芪的质量评估和仿野生栽培技术的优化提供参考。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|