基于高光谱成像技术和主成分分析对粉葛年限的鉴别
胡会强1, 位云朋1, 徐华兴1, 张蕾2, 毛晓波1,*, 赵宇平2,*
1. 郑州大学电气工程学院, 河南 郑州 450001
2. 中国中医科学院中药资源中心, 北京 100020
*通讯作者 e-mail: mail-mxb@zzu.edu.cn; 18810084632@163.com

作者简介: 胡会强, 1998年生, 郑州大学电气工程学院博士研究生 e-mail: huhuiqiang_zzu@163.com

摘要

粉葛是一种药食两用的植物, 含葛根素、 淀粉、 纤维素、 维生素等, 具有极高的药用和食用价值。 相关研究表明粉葛中化学成分的含量与其生长年限密切相关。 目前对粉葛年限鉴别主要依靠传统的理化技术, 其操作周期长, 破坏样品的完整性, 无法快速批量检测。 高光谱成像技术(HIS)的发展为粉葛年限的快速、 无损鉴定提供了新思路。 为了避免因生长年限不足而导致粉葛质量问题, 采用高光谱成像技术结合机器学习对其年限进行鉴别。 然而高光谱图像数据存在冗余性, 所含数据量巨大, 且波段之间高度相关, 容易对后续的分类效果产生影响。 采用主成分分析法(PCA)对高光谱数据进行特征提取, 并基于全波段和PCA降维后的数据建立了支持向量机(SVM)、 逻辑回归(LR)、 多层感知机(MLP)、 随机森林(RF)四种分类模型, 旨在实现对不同年限粉葛的精准鉴别。 使用全波段数据建模时, 四种不同的分类模型在不同镜头下测试集的精度分别为78.09%、 77.03%、 81.43%、 72.09%; 93.11%、 93.79%、 94.23%、 89.77%。 其中MLP模型在SN0605VNIR(VNIR)与N3124SWIR(SWIR)镜头下均取得的了最好的效果。 使用PCA降维后的数据建模时, 四种不同的分类模型在两个镜头下的测试集精度分别为96.12%、 87.53%、 95.02%、 93.41%; 99.26%、 97.09%、 99.16%、 97.91%, 其中SVM模型在VNIR和SWIR镜头下均取得了最优的预测精度。 结果表明, 基于PCA构建的模型能优化数据质量, 有效降低波段冗余, 进一步提高模型分类性能。 对模型参数进一步分析, 探究了主成分占比对四种模型预测精度的影响。 在VNIR镜头下, 四种模型的测试集准确率达最高时, 其主成分占比分别为65%、 75%、 80%、 45%; 在SWIR镜头下, 四种模型的测试集准确率达最高时, 其主成分所占比分别为20%、 60%、 35%、 30%。 其中, PCA-SVM模型的综合效果最佳, 在主成分所占比为20%时达到了较高的预测精度(99.28%)。 研究结果表明, 高光谱成像技术结合机器学习能够实现对粉葛年限的快速、 无损、 准确鉴别。

关键词: 高光谱成像; 年限鉴别; 机器学习; 主成分分析
中图分类号:TP312 文献标志码:A
Identification of the Age of Puerariae Thomsonii Radix Based on Hyperspectral Imaging and Principal Component Analysis
HU Hui-qiang1, WEI Yun-peng1, XU Hua-xing1, ZHANG Lei2, MAO Xiao-bo1,*, ZHAO Yun-ping2,*
1. School of Electrical Engineering, Zhengzhou University, Zhengzhou 450001, China
2. National Resource Center for Chinese Materia Medica, China Academy of Chinese Medical Sciences, Beijing 100020, China
*Corresponding authors
Abstract

Puerariae Thomsonii Radix is a medicinal and edible plant with an extremely high medicinal and edible value containing puerarin, starch, cellulose, vitamins, etc. Extensive research has shown that the content of chemical components in Puerariae Thomsonii Radix is closely related to the growth period. However, much of the research up to now has been descriptive. The main disadvantage of traditional techniques is that the operation cycle is long, and the destructiveness is large, which cannot be tested on a large scale. The development of hyperspectral imaging (HIS) has provided new insights for the rapid non-destructive identification of Puerariae Thomsonii' s age.In order to avoid the quality problems caused by the insufficient growth years of Pueraria, hyperspectral imaging technology combined with machine learning was used in this experiment to identify the years of Pueraria accurately. However, in fact, one major drawback of this approach is that there is a great deal of redundant information in hyperspectral image data. What is more, the huge amount of data and highly correlated between characteristic bands directly increases the difficulty of sample identification. Principal Component Analysis (PCA) has been taken to extract features from the data to avoid an impact on subsequent classification effects. Based on the full band and PCA dimensionality reduction data to achieve accurate identification of different years of age, there are four classification models currently being adopted in research, including support vector machines (SVM), logistic regression (LR), multi-layer perceptron (MLP) and random forest (Random Forest, RF).When using full-band data modeling, the accuracy of four different classification models under different lenses is 78.09%, 77.03%, 81.43%, 72.09% and 93.11%, 93.79%, 94.23%, 89.77% respectively. The MLP model achieved the best effect under both SN0605VNIR(VNIR) and N3124SWIR(SWIR) lenses. When using PCA dimensionality reduction data modeling, the test set accuracy of four different classification models under two lenses is 96.12%, 87.53%, 95.02%, 93.41% and 99.26%, 97.09%, 99.16%, 97.91% respectively, in which SVM has achieved the optimal prediction accuracy under both VNIR and SWIR lenses. In summary, these results show that the method of PCA can effectively improve the model's prediction accuracy. In addition, in order to explore the influence of principal component content on prediction accuracy, the authors analyzed the model parameters further, and the experimental results showed that under the VNIR lens, the principal components of the four models accounted for 65%, 75%, 80% and 45% when the accuracy of the test set reached the highest. Under the SWIR lens, when the accuracy of the test set of the four models reached the highest, the proportion of principal components was 20%, 60%, 35% and 30%, respectively. Among them, the PCA-SVM performed the best comprehensive effect, and high prediction accuracy (99.28%) was achieved with 20% principal components. Therefore, the findings of hyperspectral imaging technology combined with machine learning will be of interest to realisingrapid, non-destructive and high-precision identification of the age of Puerariae Thomsonii Radix.

Keyword: Hyperspectral imaging; Identification of Puerariae Thomsonii Radix growth years; Machine learning; Principal component analysis
引言

粉葛(Puerariae Thomsonii Radix)为豆科植物甘葛藤(Pueraria thomsonii Benth.)的干燥根。 其性甘、 辛、 凉, 归脾、 胃经, 具有解肌退热, 生津止渴, 透疹, 升阳止泻, 通经活络, 解酒毒等功效[1]。 我国作为粉葛的主要产地, 拥有非常丰富的资源, 且粉葛与葛根在我国都有着悠久的药用和食用历史。 现代药理学研究表明粉葛具有抑菌抗炎、 抗心肌缺血、 降血压、 改善骨质疏松及生殖功能等作用[2, 3, 4, 5, 6], 被广泛应用于癌症、 帕金森、 糖尿病、 阿尔茨默症等疾病的临床治疗[7, 8, 9, 10], 在中药饮片中具有显著地位。 粉葛中还富含淀粉、 纤维素、 还原糖、 蛋白质以及人体必需微量元素与氨基酸等[11], 是一种典型的药食同源植物。

粉葛属多年生植物, 研究表明其化学成分的含量随生长年限增加而增加[12, 13, 14, 15], 当生长年限为1~2年时, 其化学成分的积累达不到中国药典规定的标准[1]。 然而粉葛在市场流通中存在不满足规定生长年限的非标准品, 肉眼难以区分, 严重影响临床疗效。

目前对粉葛年限鉴别主要依靠传统的理化分析, 如薄层色谱法、 比色法、 高效液相色谱法等[16, 17]。 此类操作实验周期长、 成本高、 并破坏药材的完整性, 在一定程度上受技术人员主观性影响。 因此, 如何快速、 无损、 精准的鉴别不同生长年限的粉葛具有重要意义。 高光谱成像(hyperspectral imaging, HIS)是一种可以捕获和分析一片空间区域内逐点上光谱的精细技术, 能同时获取物体内部与表面信息, 因此HSI可以检测到视觉上无法区分的物质[18]。 近年来随着HSI的快速发展, 在地质勘测[19]、 农业遥感[20]、 环境监测[21]、 食品分析[22]、 生物医学[23, 24, 25]等领域均有广泛的应用。 本研究将高光谱成像技术结合机器学习应用于中药领域, 旨在实现对不同年限粉葛快速、 有效、 精准的鉴定, 为粉葛的评价研究和综合利用提供科学依据。 本研究主要内容: (1)采用标准正态变换对不同年限的粉葛高光谱数据进行预处理; (2)选用主成分分析法对预处理后的数据进行特征提取; (3)基于全波段数据和主成分分析(principal component analysis, PCA)降维后的数据分别建立支持向量机(support vector machines, SVM)、 逻辑回归(logistic regression, LR)、 多层感知机(multi-layer perceptron, MLP)、 随机森林(random forest, RF)四种分类模型并分析实验结果; (4)探讨不同的主成分占比对四种分类模型整体性能的影响。

1 实验部分
1.1 样品

实验用粉葛药材品种为赣葛1号, 产地为江西上饶, 由中国中医科学院提供。 不同年限的粉葛原药材趁鲜切片, 得到饮片总数为838片, 其中一年生245片, 二年生292片, 三年生301片。

1.2 高光谱成像系统及数据的采集

实验所用高光谱成像设备为HySpex系列高光谱成像光谱仪(Norsk Elektro Optikk AS), 主要由2个卤钨灯、 CCD探测仪以及SN0605VNIR与N3124SWIR两个镜头, 移动平台, 仪器自带计算机与内置软件组成。 经调试, 设置高光谱成像仪的镜头与样品的距离为20~30 cm, 平台移动速度为1.5 mm· s-1。 SN0605VNIR镜头的积分时间为9 000 μ s, 帧时间为25 500 μ s, 光谱检测范围为410.45~990.10 nm, 波段间隔为5.37 nm, 总共108个波段; N3124SWIR镜头积分时间为3 500 μ s, 帧时间66 482 μ s。 光谱仪的光谱范围为948.72~2 512.97 nm, 波段间隔为5.43 nm, 总共288个波段。

1.3 高光谱图像校正

由于受光源的不均匀性、 暗电流及偏置等因素的影响, 高光谱成像系统可能输出不均匀的图像, 不利于后续的数据分析, 因此需要对数据进行黑白校正, 校正公式如式(1)所示

Inew=Iraw-IdarkIwhite-Idark(1)

式(1)中, Inew为样本校正后反射率图像, Iraw为样本的原始光谱反射率图像, Idark为黑板参考校正图像, Iwhite为白板参考校正图像。

1.4 ROI采样

黑白校正后, 需要选择每个高光谱图像的感兴趣区域(region of interest, ROI), 使样品与背景分离。 本实验采用棋盘法对不同生长周期的粉葛高光谱图像进行提取, 其中每个ROI内相对反射率的平均值作为一个样本。 具体的采样情况如表1所示。

表1 不同年限粉葛的ROI数量 Table 1 The quantity of ROI of Puerariae Thomsonii Radix in different years
1.5 光谱数据的预处理

在高光谱数据的采集过程中易受样品背景、 形态差异的影响, 产生随机噪声, 因此对数据预处理具有重要意义, 有效的预处理方法能减少甚至避免干扰信息对高光谱数据的影响。 常见的高光谱预处理方法主要包括多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量变换(standard normal variate, SNV)、 Savitzky-Golay平滑、 一阶导数、 二阶导数法等。 本实验选择SNV对高光谱数据进行预处理, 消除表面散射和光程变换对漫反射的影响[26]。 如式(2)所示

XSNV=x-x̅σ(2)

式(2)中, x为采样样本, x̅为样本均值, σ 为样本的标准偏差。

1.6 主成分分析

高光谱数据存在冗余信息, 且波段之间高度相关, 在一定程度上增加了数据分析的复杂性, 影响模型的效果。 可采用特征提取的方式对高光谱数据降维, 减少数据的冗余度, 优化有效的鉴别信息, 提高研究对象的分类准确率。 本实验采用PCA对粉葛的高光谱数据进行特征提取。 在高光谱应用中, PCA将原始光谱数据中数百个波段通过一个正交矩阵线性变换为低维的样本矩阵, 并能最大限度保留原始数据的有效信息, 是一种有效的数据精简方式[27]。 采用PCA对不同年限的粉葛高光谱数据进行特征提取, 降低波段间的冗余性和相关性, 从而提升数据分类的准确率和模型训练速度。 PCA的原理如下:

(1)设光谱数据为X=M× N的矩阵, 其中M表示样本数, N表示特征维度;

(2)对样本矩阵进行中心化(取均值): μ=1Mi=1Mxi, 其中 xi为第 i个样本;

(3)计算样本的协方差矩阵: C=1MXT;

(4)对协方差矩阵C进行特征值分解;

(5)对特征值按从大到小的顺序排列, 保留其中最大的N'个;

(6)取出N'个特征值对应的特征向量(w1, w2, w3, …, wN'), 组成特征向量矩阵W;

(7)将样本矩阵X投影到以特征向量矩阵W为基的新空间中, 得到降维后的矩阵: Z=X× W

1.7 分类模型

采用支持向量机, 逻辑回归, 随机森林, 多层感知机建立分类模型, 比较不同年限粉葛的分类准确率。 实验随机将总数据集划分为训练集(90%)和测试集(10%)。

1.7.1 支持向量机

支持向量机(support vector machines, SVM)是一种常见的分类模型, 具有运算时间短、 泛化能力强等优点, 被广泛应用于求解非线性问题, 在光谱数据分析中十分有效[28]。 SVM的学习策略为间隔最大化, 通过训练集的间隔最大化得到一个最优分离超平面, 可形式化为求解凸二次规划的最优化结果[29]。 对于线性不可分的问题, 需引入合适的核函数, 通过构造一个非线性映射, 将样本从低维映射到高维的特征空间以求解最佳的分割曲面。 核函数的选取影响SVM的性能, 若选择不适, 可能导致模型的效果不佳。 常用的核函数有线性核、 多项式核、 高斯核、 拉普拉斯核、 Sigmoid核等。 本实验分类模型SVM使用高斯核函数。

1.7.2 逻辑回归

逻辑回归(logistic regression, LR)是一种广义的线性回归分析模型, 主要通过最大似然估计寻找模型的最佳拟合参数来获得良好的鉴别效果。 LR模型简单, 速度快, 易于理解, 泛化能力强[30], 被广泛应用于各种现实问题。 对LR模型一般采用L1范式和L2范式来防止模型过拟合。 本实验基于LR构建模型选择的正则化参数为L2, 损失函数的优化算法选择坐标下降法(liblinear), 算法收敛最大迭代次数为200。

1.7.3 多层感知机

多层感知机(multi-layer perceptron, MLP)是机器学习中常用的分类模型, 具有高度的自适应和较强鲁棒性, 能很好地解决模式识别等相关问题[31]。 使用MLP处理分类问题时, 主要任务为找到合适的权重使损失函数最小化, 常见的优化方法有梯度下降法、 拟牛顿法等。

本研究使用的多层感知机模型为单隐层神经网络, 由输入层、 隐藏层、 输出层构成, 以反向传播的监督学习算法进行训练。 其中隐藏层的神经元个数为500, 隐藏层的激活函数选择relu函数, 权重优化的求解器选择adam, 初始学习率为0.001, 最大迭代次数为500。

1.7.4 随机森林

随机森林(random forest, RF)是基于决策树的集成学习算法, 在解决回归和分类问题时具有良好的能力。 RF模型实现简单, 抗干扰能力强、 对数据的适应能力快, 不易出现过拟合现象, 在处理大数据集时具有良好的效果[32], 被广泛用于处理情感分析、 图像分类等问题。 近年来随着高光谱成像技术的发展, 随机森林算法也逐步被应用于解决该领域的各类问题。 随机森林的主要参数有决策树的数量, 决策树的最大深度, 叶子的最小样本数等。 本实验基于RF建模时, 决策树的数量和最大深度分别设为200和40。

1.8 分类模型的评价指标

分类模型构建完成后, 需要对模型的效果进行评估。 为了直观地判断模型优劣, 采用预测精度(Accuracy)作为模型评价标准。 如式(3)所示

Accuracy=TP+UNTP+FP+TN+FN(3)

式(3)中, TPTNFPFN分别表示真正例, 即正样本被预测为正样本的数量; 真负例, 即负样本被预测为负样本的数量; 假正例, 即负样本被预测为正本的数量; 假负例, 即正样本被预测为负样本的数量。

1.9 数据分析软件

本实验使用ENVI5.3软件实现粉葛高光谱图像数据可视化, 原始数据的预处理和样本的采集借助MATLAB2018b完成, 最终的实验环境则由Python3.7软件实现。 为了避免实验的偶然性, 本实验所有结果均为30次均独立运行的平均值。

2 结果与讨论
2.1 不同生长年限的粉葛光谱曲线

经过1.3节对高光谱数据进行校正后, 按照1.4节对不同年限的粉葛进行采样, 得到样本的光谱曲线如图1(a, b) 所示, 图1(a)和(b)分别为VNIR(410.45~990.10 nm)透镜和SWIR(948.72-~2 512.97 nm)透镜下光谱曲线, 其中每一条曲线代表一个样本。 从图1中可知不同年限粉葛的光谱反射率趋势大致相同, 但难以对其区分。 为了清晰地比较不同年限粉葛之间的区别, 分别对三种不同年限的样本求平均, 得到的光谱曲线如图2所示, 其中(a)和(b)分别为VNIR和SWIR透镜下的结果, 每条代表一个年限的平均光谱曲线。 从图2中能直观的看出不同年限的粉葛平均光谱反射率在VNIR和SWIR两个镜头下均存在差别, 其中三年生粉葛高于一年生和二年生, 说明不同年限粉葛的光谱特征存在差异, 基于高光谱成像技术对其年限鉴别是一种可行手段。

图1 粉葛样本的原始光谱曲线图
(a): VNIR透镜下; (b): SWIR透镜下
Fig.1 The Original spectral curve of Puerariae Thomsonii Radix samples
(a): Under VNIR lens; (b): Under SWIR lens

图2 不同年限粉葛样本的ROI平均光谱曲线
(a): VNIR透镜下; (b): SWIR透镜下
Fig.2 The average spectral curve of ROI of Puerariae Thomsonii Radix samples in different years
(a): Under VNIR lens; (b): Under SWIR lens

2.2 标准正态变换预处理

本研究采用标准正态变换(standard normal variate, SNV)为预处理方法, 经过SNV预处理后的光谱曲线如图3所示, (a)和(b)分别为VNIR和SWIR两个镜头下的结果。 经SNV处理后, 能有效消除光谱散射和漫反射的影响, 减少各种干扰信息。

图3 SNV预处理后的粉葛样本光谱曲线图
(a): VNIR透镜下; (b): SWIR透镜下
Fig.3 The Spectral curve of Puerariae Thomsonii Radix samples pretreated by SNV
(a): Under VNIR lens; (b): Under SWIR lens

2.3 全波段数据预测模型

为验证PCA对高光谱数据降维的有效性, 本实验首先基于对全波段数据进行建模。 实验将预处理后的光谱数据作为输入变量, 分别导入四种分类模型中(SVM、 LR、 MLP、 RF), 结果如表2所示。 由表2可以看出, 在波段范围410.45~990.10 nm之间, SVM、 LR、 MLP、 RF四种模型的测试集准确率分别为78.09%、 77.03%、 81.43%、 72.09%; 波段范围在948.72~2 512.97 nm时, 四种模型的测试集准确率分别为93.11%、 93.79%、 94.23%、 89.77%。 由此可见, 在两个不同镜头下处理全波段数据时, MLP模型的准确率最高, 相较于其他三种模型具有更好地性能, 四种不同的分类模型在高波段(SWIR)范围下的预测精度均高于低波段(VNIR), 表明基于高光谱成像技术结合机器学习模型鉴别不同生长年限的粉葛时, 高波段的数据更具优势。 然而, 从整体的分类精度来看, 尤其是VNIR镜头下, 基于全波段建立的模型仍然有较大的提升空间, 因此在2.4节基于PCA构建不同粉葛年限的分类模型。

表2 不同年限的粉葛样品在不同分类模型下的准确率(%) Table 2 The accuracy of Puerariae Thomsonii Radix samples in different years under different classification Models (%)
2.4 PCA预测模型

PCA具有最大可分性, 通过矩阵变换将高维、 强相关的原始高光谱数据转变为低维的变量。 基于上述全波段建模分析结果, 本实验采用主成分分析方法对不同年限的粉葛高光谱数据进行处理, 旨在达到更好地预测精度。 实验设置主成分所占百分比为30%, 分别建立SVM、 LR、 MLP、 RF四种机器学习分类模型, 结果如表3所示。

表3 基于PCA降维后不同分类模型的准确率(%) Table 3 The accuracy of different classification models based on dimensionality reduction by PCA (%)

表3可知, 在VNIR和SWIR两个镜头下, 基于PCA降维的模型分类准确率较全波段数据具有显著的提升, 波段范围在410.45~990.10 nm之间效果更佳。 主成分所占比为30%时, SVM的预测准确率最高, 分别为96.12%和99.26%, 高于全波段的最优模型(MLP)。 分析认为PCA降维后, 缩小了数据集并有效减少高光谱数据的冗余信息, 而SVM处理低维空间和小样本下的分类问题具有较好的优势。 另外, 相对于其他三种模型, 随机森林在VNIR和SWIR两个镜头下的预测精度提升最为明显, 相较全波段的最优结果分别提升了21.32%和8.14%。 分析认为全波段数据下, RF模型在两个不同镜头下的训练集准确率最高, 而测试集准确率最低, 可能出现了过拟合的现象, 使用PCA进行降维后, RF模型的测试精度提升最明显, 说明PCA能解决其过拟合的现象。

对PCA而言, 主成分所占比例是一个关键的参数, 参数的选取直接影响分类模型的性能。 若设置的过小, 大部分有效特征被剔除; 参数设置的过大, 则无关变量的存在直接降低模型的预测精度。 为了更精准预测不同生长年限的粉葛, 进一步分析讨论了参数对不同模型分类的影响。 本实验得到四种模型在不同透镜下的分类准确率随主成分占比增加的趋势, 图4(a)和(b)分别为VNIR和SWIR镜头下的分析结果。

图4 不同分类模型的预测精度随主成分占比增加的趋势
(a): VNIR透镜下; (b): SWIR透镜下
Fig.4 The prediction accuracy trend of different classification models with the increased proportion of principal components
(a): Under VNIR lens; (b): Under SWIR lens

从图4可以看出在VNIR镜头下, 主成分所占比低于10%时, 训练集和测试集均低于全波段数据下的分类准确率。 由此可知波段范围在410.45~990.10 nm时, 主成分个数参数设置为10%以下, 将主要特征和有效信息剔除, 导致分类模型的预测精度降低。 对SWIR镜头下的数据而言, 使用PCA降维后的效果更好, 当主成分所占比为10%时, 四种分类模型的预测精度较全波段数据有明显的提升, 再次表明SWIR镜头下的粉葛光谱数据在模型中表现出更好地效果。 在VNIR和SWIR两个镜头下, 当主成分占比为15%时, 四种模型均达到了较好的效果, 充分表明PCA能降低粉葛高光谱数据特征间的相关性, 有效地通过低维数据反映出较为真实的原始信息。

表4列出了四种分类模型在不同透镜下的最佳性能对应的成分所占比。 测试集的准确率在VNIR和SWIR镜头下, MLP的预测精度达到最高, 分别为98.55%和99.62%, 对应的主成分占比为80%和35%。 看主成分的占比, 四种模型在不同镜头下的预测准确率达最优时, 主成分所占百分比均不同, 说明不同主成分占比的选取会影响分类模型的性能。 其中SVM模型的效果最好, 在VNIR镜头下, 主成分占比为65%时, 分类准确率为97.74%, 在SWIR镜头下, 主成分所占百分比为20%, SVM的预测精度就达到了99.28%。 SVM模型中较少的主成分就达到了较高的预测精度, 说明SVM相对LR、 MLP、 RF三种模型的整体性能更好。 实验表明, 选用PCA对粉葛光谱数据降维后, 有效的选取主成分占比影响模型的最终性能。 对不同的模型在不同的镜头下应合理的选择主成分占比。

表4 PCA降维后不同模型的最高预测准确率(%) Table 4 The highest prediction accuracy of different models after dimensionality reduction by PCA(%)
2.5 讨论

通过对粉葛高光谱数据的建模分析, 四种不同的分类器在SWIR镜头下数据的准确率均高于VNIR, 说明SWIR镜头下的数据质量优于VNIR镜头。 因此, 在对其实现快速无损检测时, 应优先选择SWIR镜头下的高光谱数据。 本工作只选择了“ 赣葛1号” 用于研究, 实验样本不具多样性, 后续将进一步采用不同产地粉葛品种对模型进行验证。

在实际的生产和应用中, 高光谱数据包含很多特征, 且波段之间具有强相关性, 在构建模型对其分类和识别时, 往往只有部分特征具备良好的预测效果。 假如将所有的高光谱数据直接作为输入且运行模型, 则会增加模型的计算量, 得到不理想的结果。 为了节省时间和成本, 提高所建模型的预测能力, 降低数据的维度数量、 提取特征波段在各种现实的应用中显得至关重要。 本研究选用主成分分析对粉葛高光谱数据降维, 相对较少的主成分就包含了原始数据中相对完整的信息, 当主成分所占比为15%左右, 四种模型均达到了较高的准确率, 其中PCA-SVM的综合效果最好, 说明采用PCA降维能很好地解决高光谱数据的高波段和共性问题。 因此, PCA被广泛应用于高光谱数据的特征提取。

3 结论

将高光谱成像技术和主成分分析法结合, 建立四种机器学习模型, 能够准确的鉴别一年生、 二年生、 三年生的粉葛。 经高光谱成像系统采集不同年限的粉葛样本数据, 采用SNV预处理方法去除干扰因素, 选用主成分分析方法(PCA)获取样品的特征光谱信息, 最后比较SVM、 LR、 MLP、 RF四种分类模型的效果。 结果表明, 基于VNIR和SWIR镜头下的全波段数据, 建立的MLP模型效果最好, 预测精度分别为81.43%和94.23%; 基于PCA构建的四种模型效果均高于全波段数据模型, 其中SVM的综合表现最佳, 其相对较少的主成分就能达到最高的准确率。 本研究结果初步验证了不同生长年限的粉葛之间存在差异, 这与马喜玲等[12]通过理化分析对不同年限“ 赣葛1号” 的研究结果一致, 不同种植年限的粉葛其化学成分不同。 本实验结果表明高光谱成像技术结合机器学习算法可以实现对不同生长周期粉葛的精准鉴别。 未来将进一步研究如何优化模型, 同时改进硬件设施, 将获得稳定、 准确的模型并植入便携式设备中, 实现对不同年限粉葛快速无损的工业化检测, 为粉葛的野生抚育和科学合理安排粉葛的种植年限提供理论依据与方法。

参考文献
[1] Chinese Pharmacopoeia Commission(国家药典委员会). Pharmacopoeia of the People's Republic of China(中华人民共和国药典). Beijing: China Traditional Chinese Medicine Publishing House(北京: 中国中医药出版社), 2020, 347. [本文引用:2]
[2] Lai Y, Quan H, Shao F, et al. Phytochemistry Letters, 2020, 39: 90. [本文引用:1]
[3] Sun Y, Zhang H, Cheng M, et al. Natural Product Research, 2019, 33(24): 3485. [本文引用:1]
[4] Wu K, Liang T, Duan X, et al. Food and Chemical Toxicology, 2013, 60: 341. [本文引用:1]
[5] Ahmad B, Rehman S U, Azizullah A, et al. Chemical Biology & Drug Design, 2021, 97(4): 914. [本文引用:1]
[6] ZHU Wei-feng, LI Jia-li, MENG Xiao-wei, et al(朱卫丰, 李佳莉, 孟晓伟, ). China Journal of Chinese Materia Medica(中国中药杂志), 2021, 46(6): 1311. [本文引用:1]
[7] ZHANG Ming-yue(张明月). Master Dissertation(硕士论文). Jiangxi University of Traditional Chinese Medicine(江西中医药大学), 2021. [本文引用:1]
[8] Liu D, Ma L, Zhou Z, et al. Food Chemistry, 2021, 343: 128445. [本文引用:1]
[9] Yamazaki T, Hosono T, Matsushita Y, et al. International Journal of Clinical Pharmacology Research, 2002, 22(1): 23. [本文引用:1]
[10] Wong K H, Razmovski-Naumovski V, Li K M, et al. Journal of Ethnopharmacology, 2015, 164: 53. [本文引用:1]
[11] LI Gui-hua, FU Mei, LUO Wen-long, et al(李桂花, 符梅, 罗文龙, ). Guangdong Agricultural Sciences(广东农业科学), 2021, 48(9): 72. [本文引用:1]
[12] MA Xi-ling, ZHANG Rui, YUAN Ren-wen, et al(马喜玲, 张蕊, 袁仁文, ). Northern Horticulture(北方园艺), 2020, (20): 107. [本文引用:2]
[13] LIU Ji-quan, SONG Qiang, YANG Wen-zhen, et al(刘计权, 宋强, 杨文珍, ). China Pharmacy(中国药房), 2015, 26(3): 366. [本文引用:1]
[14] XIONG Hui-jiang, LIU Shen-liang(熊惠江, 刘甚良). Journal of Medicine & Pharmacy of Chinese Minoritie(中国民族医药杂志), 2009, 15(7): 45. [本文引用:1]
[15] WANG De-li, SUN Ying, ZHANG Xing-cui (王德立, 孙滢, 张兴翠). Research and Practice on Chinese Medicines(现代中药研究与实践), 2008, (1): 23. [本文引用:1]
[16] YUE Shi-yan, ZHOU Rong-rong, NAN Tie-gui, et al(岳世彦, 周荣荣, 南铁贵, ). China Journal of Chinese Materia Medica(中国中药杂志), 2022, 47(10): 2689. [本文引用:1]
[17] ZHOU Li-shi, PAN Xiao-yan, QIU Wen-xi, et al(周礼仕, 潘小燕, 邱雯曦, ). Journal of Chinese Medicinal Materials(中药材), 2021, (10): 2382. [本文引用:1]
[18] Chang C I. Springer Science & Business Media, 2003, 1. [本文引用:1]
[19] Buckley S J, Kurz T H, Howell J A, et al. Computers & Geosciences, 2013, 54: 249. [本文引用:1]
[20] Lu B, Dao P D, Liu J, et al. Remote Sensing, 2020, 12(16): 2659. [本文引用:1]
[21] Stuart M B, McGonigle A J S. Sensors, 2019, 19(14): 3071. [本文引用:1]
[22] Calin M A, Parasca S V, Savastru D, et al. Applied Spectroscopy Reviews, 2014, 49(6): 435. [本文引用:1]
[23] He J, Chen L, Chu B, et al. Molecules, 2018, 23(9): 2395. [本文引用:1]
[24] Vermaak I, Viljoen A, Lindström S W. Journal of Pharmaceutical and Biomedical Analysis, 2013, 75: 207. [本文引用:1]
[25] Tankeu S, Vermaak I, Chen W, et al. Phytochemistry, 2016, 122: 213. [本文引用:1]
[26] Tan W, Sun L, Yang F, et al. Optik, 2018, 154: 581. [本文引用:1]
[27] Bajorski P. IEEE Journal of Selected Topics in Signal Processing, 2011, 5(3): 438. [本文引用:1]
[28] Guo C, Liu F, Kong W, et al. Journal of Food Engineering, 2016, 179: 11. [本文引用:1]
[29] Jamal M Z, Lee D H, Hyun D J. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1. [本文引用:1]
[30] DUAN Long, YAN Tian-xing, WANG Jiang-li, et al(段龙, 鄢天荥, 王江丽, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(12): 3857. [本文引用:1]
[31] Meng Z, Zhao F, Liang M. Remote Sensing, 2021, 13(20): 4060. [本文引用:1]
[32] Xia J, Ghamisi P, Yokoya N, et al. IEEE Transactions on Geoscience and Remote Sensing, 2017, 56(1): 202. [本文引用:1]