作者简介: 柳 薇, 2000年生,湖南农业大学食品科学技术学院硕士研究生 e-mail: liu12222020@126.com
金银花和山银花均为忍冬科植物, 二者外形颇为相似, 但化学组成和含量、 功效以及价格存在着显著差异。 一些不法商家为获取超额利润, 以价廉的山银花冒充金银花进行售卖, 消费者仅凭肉眼较难准确鉴别。 现阶段尚缺少金银花与山银花的无损鉴别研究。 近红外(NIR)光谱技术可以实现复杂样品的快速无损分析, 通过结合偏最小二乘判别分析(PLS-DA)等模式识别方法可以实现不同来源样品的鉴别分析。 然而, 光谱变量过多易导致PLS-DA方法出现过拟合的问题。 本研究利用光栅型便携式NIR光谱仪采集了3个产地的643份金银花与本地200份山银花的光谱。 此外, 一个月后收集3个产地金银花与本地山银花样品各50份作为独立验证集。 提出了一种新型模式识别方法——随机检验(RT)-PLS-DA, 并与主成分分析(PCA)、 PLS-DA以及现有的变量筛选-PLS-DA方法如竞争性自适应重加权采样法(CARS)-PLS-DA和蒙特卡罗-无信息变量消除法(MC-UVE)-PLS-DA进行了比较, 利用光谱预处理进一步提高模型的准确性。 结果表明: NIR原始光谱中存在严重的谱峰重叠、 基线漂移及背景干扰; 即使结合优化预处理方法, PCA模型仍无法实现金银花与山银花的准确鉴别; 一阶导数(1st)或连续小波变换(CWT)预处理结合PLS-DA模型可以获得较为准确的鉴别结果, 验证集和独立验证集的鉴别率分别为100%和98%; 3种变量筛选方法-PLS-DA方法中, CARS方法选择变量数最少, RT方法在选择特征变量的同时还可获得满意的鉴别率。 1st-RT-PLS-DA模型最佳, 验证集和独立验证集的鉴别率分别为100%和99.50%。 以上结果表明, 便携式NIR光谱仪结合变量筛选-PLS-DA策略可实现金银花与山银花的准确鉴别, 为中药材掺伪快速鉴定提供了新的思路。
Both Lonicerae Japonicae Flos and Flos Lonicerae are plants of the Caprifoliaceae family. They are rather similar in appearance. However, there are differences in chemical composition, content, efficacy, and price. To obtain excessive profits, unscrupulous merchants sell the cheaper Flos Lonicerae as Lonicerae Japonicae Flos. It is difficult for consumers to distinguish them with the naked eye. Currently, there is no study on the non-destructive identification of Lonicerae Japonicae Flos and Flos Lonicerae. Rapid and non-destructive analysis of complex samples can be achieved using near-infrared (NIR) spectroscopy. The identification of samples from different sources can be achieved by combining pattern recognition methods, such as partial least squares discriminant analysis (PLS-DA). However, an excessive number of spectral variables may easily lead to the problem of overfitting in the PLS-DA method. In this study, 643 spectra of Lonicerae Japonicae Flos from three production areas and 200 spectra of Flos Lonicerae from the local area were collected using a grating portable NIR spectrometer. Besides, 50 samples of Lonicerae Japonicae Flos from each production area and local Flos Lonicerae were collected one month later as the external validation set. A new pattern recognition method, named randomization test (RT)-PLS-DA, was proposed. This method was compared with principal component analysis (PCA), PLS-DA, and existing variable selection-PLS-DA methods, such as competitive adaptive reweighted sampling (CARS)-PLS-DA and Monte Carlo-uninformative variable elimination (MC-UVE)-PLS-DA. The accuracies of the models were further improved with the spectral pretreatments. The results showed that there were severe interferences, including peak overlapping, baseline drift, and background, in the original spectra. Even with optimized pretreatment methods, the accurate identification of Lonicerae Japonicae Flos and Flos Lonicerae cannot be achieved using the PCA method. Accurate identification results could be obtained using PLS-DA with either first derivative (1st) or continuous wavelet transform (CWT) pretreatment, while the identification rates for the validation and external validation sets were 100% and 98%, respectively. Among the three variable selection-PLS-DA methods, the CARS method selected the fewest variables. The selection of feature variables and achieving satisfactory identification rates can be done simultaneously with the RT method. The 1st-RT-PLS-DA model was the best, and the identification rates for the validation and external validation sets were 100% and 99.50%, respectively. The above results indicate that the accurate identification of Lonicerae Japonicae Flos and Flos Lonicerae can be achieved using a portable NIR spectrometer and a variable selection-PLS-DA method, providing a new approach for the rapid detection of adulteration in traditional Chinese medicinal materials.
金银花和山银花均为忍冬科植物, 具有疏风散热、 清热解毒的功效[1]。 金银花为忍冬的干燥花蕾或带初开的花, 以山东、 河南及河北为主产区[2]。 而山银花为灰毡毛忍冬、 红腺忍冬、 华南忍冬或黄褐毛忍冬的干燥花蕾或带初开的花, 主产于湖南、 湖北及广东等省份[3]。 二者形态相似, 但是化学成分与含量、 功效及价格差异显著。 如木犀草苷是金银花的标志活性成分之一, 有较强的抗菌、 保肝等功效, 而山银花中木犀草苷含量极少甚至无法检出[4]。 一些不法商家为谋取更多利润以价格更便宜的山银花代替金银花进行售卖, 严重损害消费者权益。 因此, 亟需建立一种金银花与山银花快速鉴别的方法。
近红外(NIR)光谱技术是基于分子振动光谱的倍频和主频吸收原理, 通过扫描样品的NIR光谱获得样品中有机分子含氢基团的光谱特征, 具有成本低、 耗时短、 无损等优点。 NIR光谱技术在制药[5]、 化工[6]、 食品[7]等领域得到了广泛应用, 可以实现复杂样品的快速无损分析。 现阶段NIR光谱技术主要用于金银花的产地溯源[8]及成分分析[9]等, 尚缺少金银花与山银花的无损鉴别研究。 Zhao等[10]利用傅里叶变换NIR光谱仪结合主成分分析(PCA)和逆向传播人工神经网络(BPANN)建立了金银花与山银花粉末的掺假鉴别模型, 鉴别率为96.55%。 但是, 该方法需要对样品进行粉碎处理, 无法实现金银花与山银花的无损鉴别分析。
NIR光谱中往往存在谱峰重叠、 基线漂移及背景噪声等干扰, 需结合化学计量学方法才能实现定性定量分析。 光谱预处理方法可以消除信号中基线漂移和背景干扰[11]。 模式识别方法可实现不同来源数据的鉴别分析, 分为无监督模式识别与有监督模式识别两类。 PCA是最常用的无监督模式识别方法, 通过线性变换实现多维复杂数据的降维[12]。 但无监督模式识别方法没有利用“ 先验知识” , 鉴别结果往往较差。 偏最小二乘判别分析(PLS-DA)是常见的有监督模式识别方法, 主要是基于偏最小二乘方法建立样本分类变量与NIR光谱特征间的回归模型来实现样品的分类识别[13]。 然而, 光谱变量中非信息波长过多易导致PLS-DA方法结果出现偏差[14, 15]。
变量筛选方法可以实现特征变量的筛选和模型的简化, 提高PLS-DA模型的稳定性。 近年来, 已经开发了基于变量筛选如竞争性自适应重加权采样法(CARS)[16]和蒙特卡罗-非信息变量消除法(MC-UVE)[17]的PLS-DA方法。 其中, CARS是依据回归系数大小去除无关变量, 筛选变量数较少, 但是回归系数大小会随着样本空间变化而变化, 从而可能使有用变量也被剔除[18, 19]。 MC-UVE方法将各变量的稳定性与设定的阈值比较以实现特征变量的筛选。 当数据较复杂且变量数较多时, MC-UVE方法易导致相关性高的特征变量的丢失[20]。 随机检验(RT)是一种新型变量筛选方法, 其将数据对应的自变量打乱以形成随机化自变量, 并建立随机化自变量与光谱特征间的回归模型, 可有效提高模型预测能力[21, 22]。 然而, 现阶段尚无基于RT变量筛选的模式识别方法。
本工作利用光栅型便携式NIR光谱仪采集了不同产地的金银花与山银花的光谱。 利用光谱预处理方法消除干扰, 结合PLS-DA建立鉴别模型, 通过变量筛选进一步提高模型鉴别能力。 首次提出了RT-PLS-DA模式识别新方法, 与PCA、 PLS-DA及现有的变量筛选-PLS-DA方法(CARS-PLS-DA和MC-UVE-PLS-DA)进行了比较。 以验证集和独立验证集(一个月之后的光谱数据)对模型进行验证, 以期实现金银花与山银花的准确无损鉴定。
金银花与山银花样品均购于湖南省长沙市老百姓大药房。 金银花样品来自3个产地, 分别是河北省巨鹿县(243份)、 河南省封丘县(200份)及山东省平邑县(200份); 山银花样品来自湖南省隆回县(200份)。 为保证产地真实性, 所有实验样品均邀请湖南农业大学园艺学院中药资源与开发专业相关专家进行类别鉴定和验证。 根据Kennard-Stone方法按照2∶ 1的比例获得校正集和验证集样品。 此外, 于一个月后在3个产地的金银花与山银花样品中各收集50份作为独立验证集。 图1为3个产地金银花与山银花样品的照片。 二者外形极其相似, 表面为黄绿色, 单凭外形较难准确鉴别。
仪器: i-Spec Plus光栅型便携式NIR光谱仪(瑞士万通中国有限公司), 光源为20 W的钨灯。
于室温25 ℃下操作, 取金银花或山银花干燥样品加至石英瓶的2/3处置于NIR光谱仪的光斑中心处, 使用积分球漫反射模式采集45 ms积分时间下的光谱数据, 光谱扫描范围设置为11 000~5 900 cm-1, 数据点为511个。 每份样品重复扫描3次, 并以3次扫描所得平均光谱值作为该样品的原始光谱。
使用MATLAB R2022a(The Mathworks, Natick, USA)软件进行光谱预处理、 PCA分析、 PLS-DA分析。 采用连续小波变换(CWT)、 去偏置校正(De-bias)、 最大最小归一化(Min-Max)、 去趋势校正(DT)、 标准正态变量变换(SNV)、 多元散射校正(MSC)、 一阶导数(1st)和二阶导数(2nd)等8种光谱预处理方法对数据进行优化。 此外, 采用RT、 CARS及MC-UVE等3种变量筛选方法提取特征变量。 利用特征变量建立PLS-DA模型, 以鉴别准确率作为模型性能评价指标。
图2(a)是金银花与山银花的原始光谱, 图中Lonicerae Japonicae Flos(Hebei)、 Lonicerae Japonicae Flos(Henan)、 Lonicerae Japonicae Flos(Shandong)及Flos Lonicerae分别代表河北金银花、 河南金银花、 山东金银花及山银花。 由图2(a)可知, 在5 800~11 000 cm-1范围内金银花与山银花各波段的谱线走势几乎没有差异, 且均具有2个明显的特征吸收峰, 波段范围分别为7 558~8 930和6 400~7 404 cm-1, 可能是C— H第三泛频带和C— H第二泛频带振动所引起。 然而, 金银花与山银花在特征峰处重叠程度较高, 很难从光谱上进行准确区分。 此外, 由于环境、 仪器及样品物理特性等因素的影响, 原始光谱信号中往往存在基线漂移、 谱峰重叠及背景噪声等多种干扰。 采用CWT、 De-bias、 Min-Max、 DT、 SNV、 MSC、 1st和2nd等8种不同光谱预处理方法优化光谱数据。 以CWT为例, 图2(b)是经CWT预处理后的光谱图。 从图可以看出, CWT预处理方法可以有效消除光谱中的背景以及基线漂移的干扰, 但是其处理后噪声干扰更加严重。 CWT预处理后依旧无法找到金银花和山银花光谱之间的差别。 因此, 即使采用了优化光谱预处理, 依旧无法实现金银花与山银花的准确鉴别。
对金银花与山银花NIR光谱数据进行PCA分析, 图3(a)为两类样品原始光谱的PCA结果。 由图3(a)可知, 前3个主成分累积方差贡献率高达98.85%, 说明前3个主成分能较好代表原始光谱的大部分信息。 然而, PCA图中金银花与山银花样品数据点仍存在较为严重的交错重叠, 无法准确鉴别。 采用8种不同光谱预处理方法优化光谱数据并建立PCA模型。 以CWT为例, 图3(b)为CWT预处理后的PCA结果。 由图可知, 第一主成分(PC1)、 第二主成分(PC2)和第三主成分(PC3)的方差贡献率分别为36.79%、 26.01%和11.84%, 前3个主成分能较好代表原始光谱的大部分信息。 与原始光谱PCA结果相比, CWT预处理后的PCA结果得到了一定的提高, 但依旧无法准确鉴别。 以上结果表明, 即使采用了优化预处理方法, PCA模型仍不能对金银花与山银花准确鉴别。
无监督模式识别方法没有利用“ 先验知识” , 鉴别结果往往较差。 PLS-DA是常见的有监督模式识别方法, 可实现不同来源样品的准确鉴别。 采用8种预处理方法消除NIR光谱中的干扰, 建立PLS-DA模型。 图4是PLS-DA模型验证集和独立验证集的鉴别率。 由图4可知, 原始光谱PLS-DA模型验证集鉴别率为97.5%, 独立验证集鉴别率为96%。 经1st及CWT预处理后模型得到了明显提高, 验证集及独立验证集的鉴别率分别为100%和98%。 然而, 不合适的预处理方法会降低模型的鉴别能力。 MSC-PLS-DA模型验证集鉴别率仅为73%, 独立验证集鉴别率仅为73.5%。
PLS-DA模型中冗余变量可能会给模型带来干扰, 模型鉴别能力下降。 通过提取特征波长, 可以简化模型并提高PLS-DA模型的稳定性。 因此, 利用RT、 CARS及MC-UVE变量筛选方法提取特征波长, 以这些特征变量建立PLS-DA模型。 图5为RT、 CARS及MC-UVE方法获得的特征变量数。 由图5可知, 对于原始光谱, CARS方法获得变量数最少(24个)。 MC-UVE从511个变量中筛选了500个变量, 筛选的变量数过多, 并未得到特征变量。 RT方法居中, 可以筛选得到260个变量。 此外, MSC预处理的CARS变量数仅为2。
图6是RT-PLS-DA模型验证集和独立验证集的鉴别结果。 从图中可以看出, 对于原始光谱数据, RT-PLS-DA模型验证集及独立验证集的鉴别率均为95%。 1st为最佳预处理方法, 1st-RT-PLS-DA模型验证集和独立验证集的鉴别率分别高达100%和99.50%。 该模型优于1st-PLS-DA和CWT-PLS-DA模型。 此外, 独立验证集的光谱是在一个月之后采集的, 其光谱分布可能与校正集和验证集存在一定的差别, 导致独立验证集鉴别率略低于验证集。 利用变量筛选方法可以筛选特征波长, 消除冗余变量, 简化模型, 获得更可靠的PLS-DA模型。
图7(a, b)是CARS-PLS-DA方法获得的验证集和独立验证集结果。 图7(c, d)是MC-UVE-PLS-DA方法获得的验证集和独立验证集结果。 由图7(a, b)可知, 对于原始光谱, 与不采用CARS变量筛选的结果相比, 其鉴别结果略有下降, 验证集鉴别率由97.5%降至96%, 独立验证集鉴别率由96%降至95.5%。 最佳预处理是1st方法, 1st-CARS-PLS-DA验证集鉴别率为98.5%, 独立验证集的鉴别率为98%。 然而, 该模型略差于1st-RT-PLS-DA模型。 由图7(c, d)可知, 对MC-UVE-PLS-DA模型, 采用DT、 1st和CWT预处理均可以获得验证集100%的鉴别率, DT-MC-UVE-PLS-DA模型是最佳鉴别模型, 独立验证集的鉴别率为97%。 该模型依旧略差于所建立的RT-PLS-DA模型。 此外, 由于独立验证集样品是一个月后所收集的, 其鉴别率同样差于验证集结果。 以上结果表明, 与CARS和MV-UVE方法相比, RT方法在选择特征变量(变量数可减少至240个)的同时还可获得满意的鉴别率, 1st-RT-PLS-DA模型最佳, 更适合于金银花与山银花的无损鉴别。 此外, 采用合适的变量筛选方法可以获得特征变量, 简化模型, 提高鉴别率。 然而, 不适当的变量筛选方法可能会导致鉴别率的下降。
提出了RT-PLS-DA模式识别新方法, 结合光栅型便携式NIR光谱仪首次实现了金银花与山银花的快速无损鉴别。 NIR原始光谱中存在严重的谱峰重叠、 基线漂移及背景干扰; 即使使用优化预处理方法, PCA模型仍无法实现金银花与山银花的准确鉴别; 1st或CWT光谱预处理结合PLS-DA模型可实现较为准确的鉴别结果, 对验证集和独立验证集的鉴别率分别为100%、 98%; 3种变量筛选方法-PLS-DA方法中, CARS方法获得变量数最少, RT方法在获得特征变量的同时还可获得满意的鉴别结果, 1st-RT-PLS-DA模型最佳, 验证集和独立验证集的鉴别率分别为100%和99.50%。 便携式NIR光谱仪结合变量筛选-PLS-DA策略能够为实现中药材掺伪快速鉴定提供新思路。 后续研究将结合气相色谱-质谱等技术找到金银花与山银花的特征差异组分。 此外, 本研究提出的方法仍无法获得对于独立验证集的100%鉴别率, 后续可结合深度学习算法等建立更准确的鉴别模型。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|