高维红外光谱数据预处理在中药材产地鉴别中的应用
金承亮1, 王永军2,*, 黄河2, 刘军民3
1.温州商学院信息工程学院, 浙江 温州 325035
2.温州职业技术学院人工智能学院, 浙江 温州 325035
3.西安交通大学数学与统计学院, 陕西 西安 710049
*通讯作者 e-mail: wangyjmcvti@qq.com

作者简介: 金承亮, 2001年生,温州商学院信息工程学院本科生 e-mail: cl.jin@hotmail.com

摘要

为提高利用红外光谱数据鉴别中药材产地的预测模型效果, 应该选用合适的数据预处理方法和合适的算法。 针对具有3 448个特征(波长551~3 998 nm)的658条红外光谱中药材数据, 借助于支持向量机(SVM)算法, 研究了10种基于样本预处理方法(不做预处理、 最大最小归一化、 标准化、 中心化、 移动平均平滑、 SG平滑滤波、 多元散射校正、 正则化、 一阶导数和二阶导数法)与5种基于特征波长预处理方法(不做预处理、 中心化、 最大最小归一化、 标准化和正则化)的组合(共50种)对产地模型预测精度和稳定性的影响。 结果表明: 合适的数据预处理对提高模型精度是必要的; 标准化和最大最小正则化方法光谱的预处理建模效果较好, 其预测系数值约85%; 基于特征的预处理对模型预测效果改进小。 只做光谱预处理或基于特征预处理的预测稳定性值近似相等(两类方式的决定系数平均值都近64%); 基于样本+特征的组合预处理方法中, 二阶导数+标准化处理和二阶导数+正则化组合处理方法的模型预测效果好, 其决定系数 R2达到近94%; 而中心化+正则化组合处理达不到直接采用原始数据(不做数据预处理)的建模效果, 该方法预测效果最差。 该研究的方法和结论为具有高维光谱特征的药材产地鉴别和选取有效的预处理方法提供了参考, 对进一步分析药材药效和化学成份有重要的意义, 也可供其他光谱数据分析借鉴。 也为高维小样本数据建模的前期数据处理提供了思路。

关键词: 中药材产地鉴别; 光谱数据; 数据预处理; 小样本高维特征数据; SVM算法
中图分类号:TH744.4 文献标志码:A
Application of High-Dimensional Infrared Spectral Data Preprocessing in the Origin Identification of Traditional Chinese Medicinal Materials
JIN Cheng-liang1, WANG Yong-jun2,*, HUANG He2, LIU Jun-min3
1. School of Information and Engineering, Wenzhou Business College, Wenzhou 325035, China
2. School of Artificial Intelligence, Wenzhou Polytechnic, Wenzhou 325035, China
3. School of Mathematics and Statistics, Xi'an Jiaotong University, Xi'an 710049, China
*Corresponding author
Abstract

To improve the effectiveness of identifying the origin of Chinese Medicinal Materials based on infrared spectroscopic data with high dimensions, appropriate data preprocessing(DP) should be firstly used, and advanced algorithms can be considered secondly if necessary. Faced with the dataset consists of 658 samples with wavelengths from 551 to 3 998 nm, with the help of support vector machine (SVM) algorithm, ten sample-based DP methods (namelynon-DP, maximum and minimum normalization, standardization, centralization, moving average smoothing, SG smoothing filtering, multivariate scattering correction, regularization, first order derivative followed by second order derivative calculation), five spectral feature based methods (i. e., non-DP, centralization, maximum and minimum normalization, standardization and regularization) and their combinations (50 kinds in total) were investigated accord to the prediction effectiveness and stability. Numerical results show that the right DP is conducive to improving the model accuracy. Moreover the standard variate and Max-Min average DP methods achieve higher scores (the coefficient R2 is approximately 85%) among 10 sample based methods. Feature based only methods get little model improvement. The sample based only and feature-based only methods get the approximately equal average ratio of 64%. The combined methods of standard normal variate or normalization processing followed by second order derivative DP achieve the relatively highest prediction score with R2 of nearly 94%. However, the DP approach of data regularization added to centralization performs most poorly. The suggestions are also given. The research is valuable for further analysis of medicinal efficacy and chemical composition. Furthermore, it can be a reference to infrared spectral data analysis. Moreover, the research also provides references for modeling data with high dimensional small samples.

Keyword: Origin identification of Chinese medicinal materials; Infrared spectroscopic data; Data preprocessing; High dimensional small sample; SVM algorithm
引言

红外光谱是分析有机化合物结构的重要手段之一[1]。 它具有不破坏样本、 不用试剂、 保护环境、 可以直接测物品、 测量精度高、 分析速度快、 操作费用低等优点。 利用红外光谱对中药材的全组成份进行测定比传统的药材鉴别方法更方便且准确[2]

随着计算机技术和互联网的发展, 机器学习学科获得了快速的发展, 并取得了一系列的应用成果。 支持向量机(support vector machine, SVM)算法因其在解决高维小样本数据的模式识别问题中优势突出, 所以常用来进行数据分类和回归分析。

我国古代中医学家普遍认为药材的道地性是评价药材品质的独特综合性指标。 现代技术表明, 药材药效的不同是由于其所含化学成分和各成分含量的比例不同所造成的[3]; 道地药材的药效要高于非道地药材。 中药材的产地鉴别至关重要。 刘沐华等[2]利用留一法交叉验证和SVM多分类技术开展了红外光谱法识别中药材产地研究, 准确率较高, 但当数据样本量较大时, 计算量变得较大。 同时, 该文也指出了红外光谱的测定环境对数值影响较大。 因此, 在设计复杂算法前, 对光谱数据的预处理变得很重要。 刘沐华等[2]提出了利用皮尔逊相关系数并设计递归SVM分类方法来缩减特征数量和提高识别率(预测准确率达92%)。 实际上, 缩减特征数量不当会引起拟合函数的不稳定性, 进而降低模型预测精度。

数据标准化、 规则化等处理方法是通过数学转换的方式改变原始数据间的比例关系、 中心位置等来消除量纲或数值大小对计算结果的影响, 并尽可能的保留原始数据的内在信息, 从而加速梯度下降的收敛速度和提高解的质量, 转换后的数据满足了机器学习模型对数据统计分布的要求, 使得训练的模型稳健性增强。 因此, 数据预处理是数据建模的重要基础, 是设计复杂模型前的重要手段[4]。 红外光谱数据中包含了与待测样品性质无关的干扰信息、 如光的散射、 杂散光等噪音, 所以对光谱数据进行预处理可以增加数据的可靠性, 提高模型的精度[5]

图1显示了同一组原始数据[图1(a)]经过两种不同方法预处理后的结果[图1(b), (c)]。 可以看出, 同一坐标系下图1(b)和(c)的数据中心和离散程度不同, 这对后期建模精度有影响。 王智宏等[6]通过对光谱数据的不同预处理方法与组合, 开展了对油页岩含油率的预测分析, 得到了有效的数据预处理组合方式。 《光谱学与光谱分析》杂志中有多篇论文讨论了光谱数据预处理的重要性、 不同光谱数据预处理的效果等[7], 其中典型的如吕美蓉[7]探讨了基于样本的数据变换和特征波长处理的组合对带沉积物氮LSSVM模型影响, 并给出了组合建议; 有学者通过光谱数据预处理与数据降维后建立的卷积神经网络模型, 提高了对太平猴魁茶产地的鉴别率; 有研究者在采用组合预处理方法的同时, 对数据进行特征降维并结合Fisher线性判别分析方法构建模型提高了柑橘产地鉴别精度; 有学者通过采集不同位置的漫反射光谱强度对种鸡蛋的性别进行鉴定, 其中的去趋势法数据预处理, 取得了更好的效果。

图1 (a)原始数据; (b)中心化后数据; (c)标准化后数据Fig.1 (a) Original data; (b) Centrlized data; (c) Normalized data

受奥卡姆剃刀原理启发, 也受文献[2, 5]启示, 本文没有设计更复杂的模型来提高预测率, 而是针对551~3 998 nm(3 448维特征)的658条红外光谱数据, 设计了10种光谱预处理(基于样本)方式与5种矩阵预处理(基于特征)方法的组合策略, 并采用多分类SVM算法开展了数据预处理方法对模型预测效果的影响研究。 根据决定系数(R2)给出了每种组合的量化评价。 借助于经典的SVM机器学习模型, 针对特征维度高、 样本量少的中药材光谱数据, 评价预处理方法对产地鉴别率的影响, 从而探索有效的预处理方式和为光谱数据研究提供借鉴是本工作的核心思想。 也为道地药材药效和成分分析提供科学参考[2]

1 实验部分
1.1 实验数据

数据来源于2021年中国大学生数学建模竞赛E题的附件2。 其中, 总样本量673条, 分别来自于11个产地(数据类别标签), 缺失数据为5条, 没有重复样本。 原始光谱如图2所示, 其中横轴表示波长(波频段), 纵轴表示波吸收系数。 从图2中可以看出, 不同波段的原始数据横向变化大, 这说明数据独立特征属性多。 同一波段的不同样品特征高度相似, 表明建立产地鉴别模型难度大。 经过异常值分析, 发现第7号样本在波段0~1 500 nm范围内的测量值和第410号样本在波段2 500~3 000 nm范围内的测量值比其他样本的对应值偏大(如图2所示), 但是数值比较发现这两个样本的测量值在正常范围内, 所以最终使用的有效数据样本量为658条, 波长范围从551~3 998 nm。 原始数据中不同产地的样本量如表1所示, 可以看出样本分布相对均衡。 如果用矩阵格式表示该光谱数据(称作光谱数据矩阵), 则该数据有658行(样本个数, 表示来自不同产地的药材), 3 448列(数据属性或维度, 表示不同光谱波长的药材吸收系数), 还有1列为产地标签数据。

图2 原始光谱数据Fig.2 Raw spectral data

表1 实验数据的样本产地分布 Table 1 Origin distribution of experimental data
1.2 数据预处理方法

红外光谱数据包含了样品相关信息和与待测样品性质无关的干扰, 如样品的背景、 噪声、 杂散光以及仪器的响应等。 背景噪音影响待测样品的预测效果。 因此, 对红外光谱数据进行合适的预处理是建立稳健预测模型的关键和基础[1, 4]。 文献[1]给出了光谱分析的预处理方法原理。 用于中药材产地鉴别的光谱数据, 按两种处理方式及组合展开:

(1)基于数据样本的预处理方式(记作光谱预处理)。 对于光谱数据矩阵, 第1类预处理方法基于每一行数据(样本), 即以每一个样品的不同频谱段的数据为处理单位开展。 考察了10种数据预处理方法(含不做数据处理), 其基本公式如下, 详细可参考文献[1]和[5]。

注: 下面各公式中, 令x={xi}, i=1, 2, …, n表示行向量(样本)数据, xi是其特征分量。 x*={xi*}, i=1, 2, …, n表示x经过处理后的数据。

①最大最小值归一化处理

x*=x-xminxmax-xmin(1)

式(1)中: xmaxxmin分别为样本序列x的属性最大值和最小值。 此方法利用数据中的最大值和最小值实现对原始数据的等比例缩放至[0, 1]之间, 使得不同数量级之间的数据在数值上有可比性。

②中心化处理

x*=x-x¯(2)

式(1)中:x¯为样本序列x的平均值。 中心化也叫零均值化, 即原数据减去该组数据的平均值。 经过中心化处理后, 原数据的坐标平移至中心点(0, 0), 且中心化的数据均值变为0。 该方法的目的是消除数据量纲的影响。

③标准化处理

x*=x-x¯σ(3)

式(3)中:x¯为样本序列x的平均值; σ 为标准差。 此方法将数据按照比例进行缩放, 但不改变数据的原始概率分布。 缩放后的数据均值为0, 方差为1。 处理后的数据不一定符合标准正态分布, 但由于其更好地保持了样本间距, 且更符合统计学假设, 使得该方法提升了基于距离类型的算法模型精度。

④移动平均平滑(moving average, MA)处理

xi*=1Nj=0N-1xi-j(4)

式(4)中:xi*的含义同式(3)。 移动平均平滑是最常用的滤波器, 其主要作用是降低数据噪声影响。

⑤SG平滑滤波(savitzky-golay filter)处理

xi*=1Hj=-ω+ωxi+jhj(5)

式中:

H=i=-ω+ωhi(6)

式(6)中, H为归一化因子, hi为平滑系数。 SG平滑滤波器是一种数字滤波器, 其能够在不改变信号趋势的前提下提高数据精度。

⑥正则化处理

xi*=xix(7)

式(7)中, 采用L1标准处理时,x=|xi|; 当使用 L2 标准处理时,x=xi2; 当使用max标准处理时, ‖ x‖ =max{xi}。

⑦多元散射矫正(multiplicative scatter correction, MSC)[8]处理:

记平均光谱计算公式

x̅=i=1nxin(8)

令线性回归计算公式

xi, LR=mix¯+bi(9)

则多元散射矫正的表达式

xi, MSC*=xi, LR-bimi(10)

式(10)中: mi为线性回归方程斜率; bi为线性回归方程截距。 通过最小二乘求解方法得到这两个参数。 MSC方法在光谱预处理中可以算作标准化方法[5]。 通过调整mibi的大小可保留原有成分的信息, 使光谱数据的样本内特征差异变小。 该方法可以消除数据基线漂移和平移现象。

⑧一阶导数(the first derivative, 1st Der)处理

xi*=xΔx+i-xiΔx(11)

式(11)中: Δxxi处的变化量。 式(11)是红外光谱预处理中常用的一种方法[5], 该种方法可以消除基线和降低背景干扰, 但是可能同时放大噪声。

⑨二阶导数(the second derivative, 2nd Der)处理

xi*=xi+Δx-2xi+xi-ΔxΔx2(12)

式(12)中, Δx的含义同式(11)。

(2) 基于数据样本特征的矩阵预处理(记作矩阵预处理): 这类(第2类)处理方式的数学公式与基于样本预处理(第1类)方法的公式相同。 只是该类数据处理方式是基于属性特征(矩阵列)的数据处理方式。 虽然基于导数类的光谱处理方法能够消除基线和背景干扰, 但会放大噪声、 降低数据信噪比[5], 因此在矩阵预处理中不再考察[5]

①最大最小归一化: 式同式(1);

②中心化: 式同式(2);

③标准化: 式同式(3);

④正则化: 式同式(7)。

1.3 支持向量机(SVM)简介

SVM算法是一类监督学习方法, 其基本模型是定义在特征空间上的间隔最大的线性分类器, 且其决策边界是对学习样本求解的最大边距超面。 如图3所示, SVM方法是实质上的非线性分类器。 该方法在最小化样本点误差的同时最小化结构风险, 进而提高了模型的泛化能力, 且没有限制数据维数。 因此, SVM算法在人像识别、 分类等模式识别问题中都取得了不错的应用效果。 这也是本工作选取多分类SVM方法作为检验数据预处理方法效果的主要原因。

图3 支持向量机模型示意图Fig.3 Schematic diagram of support vector machine model

1.4 SVM超参数选取

选用了Python语言的机器学习库(Sklearn库)的SVM 方法。 对于每种数据预处理方法, 确定SVM模型中最优参数组合的K折交叉验证方法以及网格搜索策略如下:

K折交叉验证(K-fold cross validation): 在机器学习中, 当数据量不充分时采用的一种对数据进行重复使用方法。 其内容是把数据分为训练集、 验证集、 测试集, 每次实验随机选出n组数据, 训练出n个模型, 然后用测试集对n个模型进行评价, 根据得分选出最优模型。

网格搜索法[9]: 是一种通过遍历参数组合来寻找优化模型的方法。 使用这种技术可以构建独立的模型, 并评估其性能, 从而找到产生最佳结果的模型和超参数。 比如, 在SVM参数寻优中, 以核函数RBF的SVM分类模型为例, 需要优化包括正则化常数和核函数参数在内的至少两个超参数, 并在验证集上分别评估它们的性能(或者在训练集内进行K折交叉验证), 从而得到结果。

1.5 性能度量-决定系数(R2)

决定系数(R2)是一种评价模型对数据拟合度的量。 见式(13)

R2=1-SSRSSTotal(13)

式中

SSR=(xi-xR)2(14)

其中, SSR表示预测值和真实值的误差平方和。

SSTotal=(xi-x¯)2(15)

式(15)中, SSTotal表示所有样本点的平均值和真实值的误差平方和。

从式(13)可以看出: R2越接近于1, 则模型对数据的拟合度越高; 越接近于0, 则表示模型拟合精度越接近于平均值估计; 如果R2值小于0, 则拟合误差大于直接以平均值为模型估计值, 即模型拟合效果差。

2 结果与讨论
2.1 实验设计

基于输入的原始光谱数据及产地标签, 分别采用上述两类数据预处理方式及其组合处理后的数据进行SVM建模。 实验流程(见图4)为: 首先对原始数据进行10种基于样本(矩阵行)的数据预处理(即光谱预处理, 见1.2节), 再按照5种数据预处理方式对数据进行基于特征或维度的数据处理(即矩阵预处理, 见1.2节), 最终得到50组预处理后的数据, 共需要创建50个SVM模型。 具体的预处理方法和组合方式见表3。 预处理后的数据集按照训练集与验证集7∶3的比例划分。 最终得460个训练样本, 198个测试样本。

图4 实验流程图Fig.4 Experimental flow chart

考虑到机器学习算法对数据均衡性的要求, 记录了五次实验的训练样本(460条)中的不同产地样本数量以及平均值如表2与图5所示。 从中可以得到, 产地4与产地6的样本数较多, 而产地5与产地9的样本数量较少。 尽管实验数据样本量的不均衡情况不突出, 但考虑到预测模型的准确性, 采用了K折交叉验证方法来解决样本不均衡问题。

表2 五次实验的训练集样本分布 Table 2 Sample number of origin obtained by five experiments

图5 五次实验的训练集产地统计图Fig.5 Sample number of origin in each five experiments

需要说明的是, 在按照7∶3的比例训练模型时, 对50种模型中的每一种都进行了5次实验。 不同模型的每次实验输入的数据是相同的, 表3给出了每种模型的5次数值实验平均结果。

表3 预处理方式和对应的决定系数R2 Table 3 Preprocessing methods and corresponding coefficients of determination

对于表3中每一种预处理方法, SVM 最优超参数组合采用网格搜索法得到(见1.4部分), 然后把测试集输入到参数优选后的模型中, 得到决定系数[R2, 计算方法见式(13)]。 每个模型进行5次随机实验, 并记录决定系数R2(每大类处理方法)的平均值。 上述过程均采用Python编程语言实现。

图6—图9展示了本次试验方案中的4种典型预处理后的数据特征。 从图6—图9可以看出, 4种不同方法预处理后的数据样本属性特征差异大, 特征间的相对关系变化大。 这意味着用不同方式预处理后的数据建立的模型预测精度可能不同。

图6 数据只做移动平滑处理Fig.6 Data with moving average processing

图7 数据移动平滑+标准化处理Fig.7 Data pretreated with moving average+normalization

图8 数据二阶导数+标准化处理Fig.8 Data pretreated with 2nd Der+normalization

图9 数据二阶导数+最大最小化处理Fig.9 Data pretreated with 2nd Der+max-min normalization

2.2 实验结果

表3给出了50种数据预处理建模的决定系数和每大类决定系数的平均值。

(1)从表3可以看出, 不同处理方法对应的决定系数(R2)变化范围从负值到正值。 其中, 最高预测值(94.66%) 对应的方法是基于样本的二阶导数处理+按列标准化处理。二阶导数按行处理+按列正则化处理的R2系数为93.56%。 这两种方法在所有的预处理方法中表现最好。

(2)第1行、 第1列对应的不做任何预处理的数据建模的R2值为73.84%, 超过平均值50%, 说明SVM算法使用原始数据也可以取得不错的效果。

(3)从第1列不做特征预处理对应的各行R2值来看, 按样本的最大最小归一化、 标准化方法对应的R2值近86%, 但所有基于样本处理方法的R2平均值为63.89%。 说明在只做基于样本的数据预处理中, 最大最小归一化、 标准化方法效果最好。

(4)从第1行(只做基于按特征的预处理)可以看出, R2平均值为63.70%, 这与只做各种按样本处理的R2平均值(63.89%)接近。

(5)R2系数出现了负数情况, 比如第5列(正则化列)的某些行的对应值。 这意味着先按样本行进行预处理, 再按特征进行正则化处理后的数据建模效果变差(决定系数远远低于不做任何预处理的数据建模效果, 如第1行、 第1列的73.84%)。

(6)从表3的第4行可以看出, 基于样本的中心化处理+按特征数据处理后的R2平均值最低, 为3.79%。 说明这种处理方法不利于建模。

2.3 实验评价

(1)合适的数据预处理是非常必要的。 尽管药材光谱数据不存在量纲不一致问题, 但是如果不做预处理, R2值最高不到74%。 这主要因为不同光谱谱段的特征差异比较大。 当然, 不合适的预处理组合训练的模型, 会出现决定系数(R2)为负的情况。

(2)不同的预处理方法及组合训练的模型预测效果差异大。 从表3中可以看出, 决定系数(R2)变化范围从负值到最高正值为94.66%, 最高预测值对应的预处理方法组合是二阶导数按样本(行)处理+按特征(列)的标准化处理。 二阶导数按样本处理+按列进行的正则化处理对应的R2次高。 在某种意义上, 数据预处理组合后的SVM预测效果甚至超过了复杂模型的预测结果, 这对于降低建模复杂度有重要的意义。

(3)对于基于样本预处理+按特征(列)的中心化处理方法, R2出现了多个负值。 对于表中所出现的R2<0情况, 分析式(13)可知, SVM这时的拟合函数预测误差大于取Y=平均值函数的预测误差。

(4)先进行基于样本的一阶导数与二阶导数处理(表3的第9、 10行), 再进行最小最大归一化、 标准化或正则化数据预处理后的预测效果显著高于其他方法。 这主要是按样本的一阶导数处理突出了不同谱段变化较大部分, 消除了不同谱段的常数项差异; 二阶导数处理突出了相同样本的曲率, 消除了不同谱段的突变和常数项差异部分, 因此, 再做按特征的列标准化(或归一化、 正则化)可以消除各谱线基线差异不同带来的影响, 从而提高了预测率。 但是, 只做基于样本的二阶求导或按样本求二阶导数+按列中心化处理效果较差, 这是因为这种预处理突出了样本的特征变化大部分, 放大了特征内的噪音, 所以降低了预测准确率。

(5)只进行基于样本标准化处理(第3行)或者按样本标准化预处理+按列中心化处理对应的R2均超过85%。 这归功于预处理后的数据满足了正态分布假设要求, 因此提高了SVM预测率。

(6)从表3可以看到, 基于样本中心化+按特征列的正则化处理后的R2值为-121.5%。 这是因为样本间的特征值差异小而特征间的属性值差异大引起。 从图2可以明显看出不同特征的吸收系数变化大, 而样本之间表现为相似的特征行为(大小变化一致且差异小)。 因此先样本中心化, 只修改了样本的中心位置, 再特征正则化(把特征值统一修正为0~1之间)修改了较大的特征间差异, 降低了算法预测效果(低于不做任何预处理的R2值73.84%)。

(7)在组合预处理方法中, 所有基于样本预处理方法+标准化处理的SVM决定系数(R2)平均值最高, 为72.40%。 基于样本的一阶导数预处理+所有按列(特征)预处理的 SVM决定系数(R2)平均值最高, 为77.74%。 说明标准化和一阶导数预处理在光谱数据建模的稳定性中有意义。

3 结论

(1)在10种按样本预处理+5种按特征的矩阵预处理组合中, 恰当的预处理方法组合可以显著地提高中药材产地的预测精度, 从而降低了对复杂模型设计的要求。 三种预测效果从高至低的组合方法依次为; 二阶导数+标准化、 二阶导数+正则化和一阶导数+标准化预处理, 这为进一步开展中药材药效和成分分析奠定了基础。 同时, 本工作为高维度、 小样本量数据的预处理方式提供了思路。

(2)随着红外光谱分析有机化合物结构的便捷度提高, 本文报道的数据预处理方法对利用红外光谱法开展有机化学、 高分子化学、 无机化学、 化工、 催化、 石油、 材料、 生物、 医药、 环境等领域的数据定量分析研究有借鉴意义。

(3)无论样本数据的规则性如何或样本特征间的量纲是否相同, 适合的数据预处理对提高建模的精度是有效的。 样本预处理(中心化、 二阶导数)的建模效果一般高于不做预处理的预测率。

(4)文中的两种数据预处理策略对开展线性回归、 相关分析等提高数据建模精度的研究有借鉴意义。

(5)开展合适的特征选择方法研究、 选取更加适合的预测模型提高精度是我们正在做的另一项工作。

参考文献
[1] LI Zhi-gang(李志刚). Spectral Data Processing and Quantitative Analysis Technology(光谱数据处理与定量分析技术). Beijing: Beijing University of Posts and Telecommunications Press(北京: 北京邮电大学出版社), 2017. [本文引用:4]
[2] LIU Shu-hua, ZHANG Xue-gong, SUN Su-qin(刘沭华, 张学工, 孙素琴). Chinese Science Bulletin(科学通报) , 2005, 50(4): 393. [本文引用:4]
[3] ZHU Yan, CUI Xiu-ming, SHI Li-ping(朱艳, 崔秀明, 施莉屏). Research and Practice on Chinese Medicines(现代中药研究与实践), 2006, 20(1): 58. [本文引用:1]
[4] WANG Yong, LI Hao, WANG Jing(汪勇, 李好, 王静). Statistics & Decision(统计与决策), 2020, 36(24): 15. [本文引用:2]
[5] WANG Xin(王欣). Science & Technology Information(科技资讯), 2013, 336(15): 2. [本文引用:5]
[6] WANG Zhi-hong, LIU Jie, WANG Jing-ru, et al(王智宏, 刘杰, 王婧茹, 等). Journal of Jilin University(Engineering and Technology Edition)[吉林大学学报(工学版)], 2013, 43(4): 1017. [本文引用:1]
[7] Mei-rong, REN Guo-xing, LI Xue-ying, et al(吕美蓉, 任国兴, 李雪莹, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(8): 2409. [本文引用:2]
[8] Windig W, Shaver J, Bro R, et al. Applied Spectroscopy, 2008, 62(10): 1153. [本文引用:1]
[9] WANG Jian-feng, ZHANG Lei, CHEN Guo-xing, et al(王健峰, 张磊, 陈国兴, ). Applied Science and Technology(应用科技), 2012, 39(3): 28. [本文引用:1]