作者简介: 位云朋, 1994年生,郑州大学电气与信息工程学院博士研究生 e-mail: weiyunpeng@gs.zzu.edu.cn
龟甲是常见的集药、 食两用的中药之一, 富含维生素、 氨基酸、 胶原蛋白及大量矿物质成分, 被广泛应用于贫血、 骨质疏松、 免疫力低下等临床症状的医疗与日常饮片炮制。 研究表明, 龟甲的生长年限越长, 其滋阴有效部位及微量元素含量越充足。 由于对生长规律认识不足、 培育不规范等因素, 市场上普遍存在以次充好的现象。 目前对龟甲生长年限的鉴别主要通过经验法与理化手段。 经验法具有较强的主观性, 不利于推广应用; 理化技术操作周期长, 会破坏样本的完整性。 考虑到传统经验、 理化检验等鉴别方法的局限性, 该研究构建了一种基于高光谱成像技术的龟甲年限鉴别模型。 以不同生长年限的龟甲药材为研究对象, 采用高光谱成像系统采集原始龟甲药材在可见近红外(VNIR)与短波红外(SWIR)透镜下的高光谱图像, 并建立基于支持向量机(SVM)、 逻辑回归(LR)与K近邻(KNN)分类策略的异构集成学习模型。 结果表明, 基于VNIR与SWIR融合波段下的高光谱图像包含更丰富的光谱信息, 采用异构集成学习模型可以有效地对龟甲年限实现精确鉴别。 模型在龟甲背甲与腹甲样本的测试集准确率分别达到96.14%与93.82%, 表明龟甲背甲对其生长年限的鉴别更有优势。 考虑到快速性检测的因素, 采用波段选择方法剔除冗余特征, 降低龟甲药材图像的复杂度, 并采用特征波段表征龟甲药材的光谱信息, 进一步提升模型分类性能。 结果表明, 模型在波段数目为32时的背甲样本可以达到96.35%的分类准确率, 超过了全波段光谱数据的鉴别精度, 表明波段选择策略对提取有效光谱信息的可行性。 基于高光谱成像技术的异构集成学习模型可以快速、 准确地鉴别龟甲药材的生长年限, 为龟甲及其他药材属性的检测提供新的技术参考。
Plastrum Testudinis is a popular traditional Chinese medicine (TCM) with abundant medicinal and edible value, and it is widely applied to clinical medical treatment and medicinal slice preparation. Studies show that the contents of trace elements in Plastrum Testudinis are directly proportional to its growth years. However, due to inexperience and nonstandard breeding, adulterated Plastrum Testudinis medicines are on the market. Because of the limitation of empirical and chemical-based methods, a heterogeneous ensemble learning (HEL) method based on a hyperspectral imaging technique is proposed to identify the growth years of Plastrum Testudinis. First, the Plastrum Testudinis samples with different growth years are taken as research objects. The original hyperspectral images of visible near-infrared ray (VNIR) and short-wave infrared ray (SWIR) lenses are captured on the hyperspectral imaging system. Then, the heterogenous ensemble learning (HEL) model is constructed based on support vector machine (SVM), logistic regression (LR), and K-nearest neighbors (KNN). Results show the fused hyperspectral images of VNIR and SWIR include more abundant spectral information. The HEL model can achieve satisfactory prediction ability by identifying the different growth years of Plastrum Testudinis samples. In addition, considering the detection efficiency, an unsupervised band selection is employed to reduce the complexity, eliminate the redundant bands in hyperspectral images, and improve the classification performance further. When the number of selected spectral bands is 32, the classification accuracy reaches 96.35%. Experimental results demonstrate that the HEL model based on hyperspectral imaging can accurately and rapidly identify the different growth years of Plastrum Testudinis samples and provide a novel technique reference for the attributes identification of TCM.
龟甲(Testudinis Carapax et Plastrum)取自龟科动物乌龟Chinemys reevesii(Gray)的背甲及腹甲, 始载于《神农本草经》, 被列为上品。 其性咸、 甘, 微寒, 归肝、 肾、 心经, 具有滋阴潜阳, 益肾强骨, 养血补心, 固经止崩等功效, 常用于治疗阴虚潮热, 骨蒸盗汗, 头晕目眩, 虚风内动, 筋骨痿软, 心虚健忘, 崩漏经多等症状[1]。 龟甲药材含有大量的氨基酸、 维生素与多种矿物质元素[2, 3], 其提取物可以用于骨质疏松、 免疫力低下与帕金森等症状的治疗[4, 5, 6, 7]。 由于过度捕杀和环境污染, 野生龟甲资源已经濒临匮竭, 目前临床使用的龟甲药材大多为人工养殖品。 研究表明, 龟甲药材的滋阴有效部位及微量元素含量与其养殖年限密切相关[8]。 由于对生长规律认识不足、 培育不规范等因素, 市场上的龟甲存在生长年限不足、 以次充好的现象, 并且在外观上非常相似, 很难进行区分, 对临床应用有一定的风险。 有效地鉴别龟甲生长年限对保证药材质量具有重要意义。
传统理化方法, 如薄层色谱法、 比色法、 高效液相色谱法等[9, 10], 具有较高的准确度, 通常需要破坏龟甲药材的完整性, 需要一定的试剂反应时间, 不适用于药材的快速、 批量检验[11, 12]。 近年来, 高光谱成像技术在无损检测领域受到广泛关注, 并成功应用在淀粉含量及栀子药材产地等属性的鉴定[13, 14, 15, 16]。 在采用高光谱图像(hyperspectral image, HSI)对药材进行分析时, 其原始图像存在波段冗余度较高的问题, 对快速性、 准确性分析具有一定的负面影响[17, 18, 19]。
针对上述类问题, 将高光谱成像技术与多种机器学习算法相结合, 并结合波段选择降维策略为不同生长年限的龟甲药材的快速、 无损鉴别提供了新的技术。 主要内容: (1)对龟甲HSI进行预处理与感兴趣区域(region of interest, ROI)采样; (2)采用波段选择技术提取HSI的有效波段, 简化数据结构, 提高模型处理效率; (3)构建基于支持向量机、 逻辑回归、 K近邻机器学习算法的异构集成学习模型, 实现对龟甲药材年限的准确鉴别。 (4)分析不同波段选择数目对异构集成学习模型分类性能的影响。
使用的龟甲药材样品从湖北省国家级京山盛昌乌龟原种场提供并炮制。 其中生长周期在5年内的龟甲背甲621 g, 腹甲570 g; 5~10年龟甲背甲590 g, 腹甲525 g; 10年以上的龟甲背甲615 g, 腹甲553 g。
研究采用挪威纳斯克电子光学公司(Norsk Elektro Optikk AS)的高光谱成像仪采集龟甲药材的光谱数据。 详细工作组件包括: 高光谱成像仪、 两盏150 W卤素灯、 移动式扫描平台、 计算机处理系统以及可见近红外线(visible and near infrared ray, VNIR)和短波红外线(short wave infrared ray, SWIR)两个光谱采样透镜。 其中VNIR透镜的积分时间为9 000 μ s, 采样光谱波长范围为410.41~990.10 nm, 波段间隔为5.37 nm, 共计108个波段; SWIR透镜的积分时间为3 500 μ s, 光谱波长范围为948.72~2 512.97 nm, 波段间隔为5.43 nm, 共计288个波段。 为避免自然光的干扰, 实验在暗室环境下进行, 采样过程中, 保持高光谱成像仪的透镜与样本距离为20 cm, 可移动平台速度保持为1.5 mm· s-1。
由于暗电流、 光源分布不均匀等外界因素影响, 高光谱成像系统初始产生的图像存在一定的噪声干扰, 需要对原始光谱图像进行黑白板校正。 校正过程的数学表达如式(1)所示。 式中Ic为校正后的高光谱图像, Iraw是原始光谱图像, Idark和Iwhite分别代表黑板和白板校正图像。
为提高采样效率, 避免手动采样带来的主观性, 采用基于网格的ROI自动采样法。 将校正后的VNIR与SWIR透镜下的龟甲HSI依波长范围进行级联, 以保证两透镜下采样得到ROI区域的一致性; 对级联后的龟甲药材HSI进行网格划分, 由于背景黑板对光的吸收特性, 其光谱反射特征远小于龟甲药材的反射特征, 因此可以采用阈值法分辨出划分的ROI网格是否包含背景黑板像素(比较网格四角像素的反射特征); 最后, 滤除掉包含背景的网格, 将保留的ROI网格矩阵进行均值处理作为采样样本, 即每个样本代表对应ROI区域的平均反射率特征。 采样规模如表1所示。
![]() | 表1 不同年限龟甲药材的ROI样本数量 Table 1 The description of ROI samples of Plastrum Testudinis in different years |
1.5.1 标准正态变换
为减少表面散射及漫反射带来的影响, 采用标准正态变换(standard normal variate, SNV)对采样后的数据进行预处理[20], 如式2所示。 其中, m为波长点数,
$x_{\mathrm{SNV}}=\frac{x-\bar{x}}{\sqrt{\frac{\sum_{k=1}^{m}\left(x_{k}-\bar{x}\right)}{m-1}}}$(2)
1.5.2 波段选择
高光谱图像是由数百个光谱波段组成的“ 数据块” , 包含丰富的光谱信息, 可以表达物质的特定属性[21, 22]。 由于其特征波段是通过对波长的连续划分而获得, 因此高光谱图像的波段间具有较高的相似性, 尤其体现在相邻维度。 这种冗余性对高光谱数据的处理效率、 预测性能等存在较大的负面影响。 为降低高光谱图像的冗余性, 简化数据结构, 提高后续模型的预测性能, 通常需要对原始图像进行降维操作。 降维可分为特征(波段)选择和特征提取。 特征提取需要构建映射矩阵, 通过矩阵运算将高维数据映射至低维空间。 波段选择则通过选择原始HSI中的有效波段实现降维[23, 24]。 波段选择并未改变原始数据中的光谱数据信息, 因此物理可解释性更强。 而根据使用标签信息与否, 波段选择方法又可以分为有监督波段选择与无监督波段选择。 无监督不依赖标签信息, 旨在发掘光谱特征之间的关联性, 因此更符合对未知样本的客观规律认识。 由于标签的获取代价较大, 现实应用中许多问题难以获得大量标签样本。 本研究采用无监督波段选择对获得的龟甲样本进行降维处理, 滤除冗余的波段特征, 降低样本的复杂度。
Optimal clustering framework (OCF)是基于动态规划的无监督波段选择策略[25]。 由于波段选择本质上是一种最优化问题, 动态规划可以将最优化问题分解为若干可求解的简单子问题, 并将其重新组合获取问题的最优解决方案。 OCF将光谱波段视为单个个体, 将高光谱空间划分为若干连续的波段子空间, 每个波段子空间为一个波段簇。 通过最大化波段簇之间的类内距离与类间距离之比, 得到最优的波段子空间划分方案。 在每个子空间选择信息熵最大的波段组合成为最终的波段子集, 实现降维的目的。 本研究采用OCF对龟甲药材的高光谱图像进行波段选择, 使用较少的龟甲光谱波段保留原始图像中的光谱信息, 以达到较好的鉴别效果。
在对龟甲药材的高光谱数据完成预处理后, 需要通过机器学习算法挖掘出不同年限龟甲药材光谱曲线的差异性, 从而实现对龟甲生长年限的鉴定。 由于单个分类模型对样本存在一定的偏好性, 本研究采用集成学习构建龟甲生长年限的预测模型。 集成学习将多个分类器组合, 使之组合后的输出达到不弱于任意单个分类器的分类效果。 为实现此目的, 这些分类器不应被其中某个分类器所支配, 即分类器之间应该具有多样性。 异构集成学习(heterogeneous ensemble learning, HEL)指使用不同种类的分类模型做出集成决策的机器学习手段, 可以综合多种分类器的优势, 具有较好的多样性。 本研究采用支持向量机(support vector machine, SVM)、 逻辑回归(logistic regression, LR)与K近邻(K-nearest neighbor, KNN)三类模型为学习器, 对不同分类模型的预测结果进行投票操作, 以达到更好的鉴别精度。
SVM是机器学习中较为流行的分类模型, 具有结构简单, 泛化能力强等优点。 SVM的算法思想是通过核函数将原始样本映射至更高维的空间, 并在高维空间中寻找一个最佳超平面, 使不同类别的样本距分类平面的距离最大, 以实现最优的分类效果。
LR是一种广义的线性回归模型, 其本质是对线性回归结果的一种非线性映射, 可以通过最大似然估计将样本特征与事件发生的概率联系起来, 故LR也是一种基于概率的分类模型。 LR形式简单, 效率较高, 具有很好的模型可解释性, 因此本研究采用LR作为集成学习模型的个体分类器之一。
KNN算法的主要思想是相同属性的样本标签应和与其相似的邻近样本保持一致。 这种相似性可以用距离来衡量, 如欧式距离、 曼哈顿距离、 闵可夫斯基距离等。
建立分类模型后, 使用分类准确率衡量模型对龟甲生长年限的鉴别能力, 其计算方式为分类准确率=正确分类ROI样本数/总采样数。 当分类准确率越接近100%时, 代表模型的预测能力越强。
本研究的高光谱图像可视化软件采用ENVI 5.3, 后续ROI采样过程采用Matlab 2018b编程环境实现, 数据的预处理、 降维与分类模型建立均基于Python 3.8编程语言实现。
首先对龟甲药材光谱反射特征进行分析, 其中涉及到的所有光谱数据均在相同实验环境下采集。 以背甲为例, 样本在VNIR和SWIR透镜下的光谱曲线和平均光谱曲线如图2所示。 图2显示, 在相同的光照环境下, 龟甲药材的光谱曲线具有相似的变化趋势[图2(a)、 (c)], 表明了其在光谱特征上的一致性。 然而对于不同生长年限的龟甲, 彼此之间的平均反射率具有一定的差异[图2(b)、 (d)]。 其原因可能是内部所含的化学成分含量或物理性质不同, 因此对相同光照的反射特征不同。 十年以上的龟甲药材在VNIR与SWIR透镜下均具有较高的光谱反射率。 而5~10年与5年内的龟甲在VNIR透镜下的光谱特征互有交叉[图2(b)]。 在SWIR透镜下, 5~10年龟甲的光谱反射率高于生长年限在5年内的龟甲药材[图2(d)]。 因此可以推测生长年限越久的龟甲药材通常具有较高的光谱反射率, 表明了用高光谱成像技术对龟甲年限进行鉴别可行。
2.2.1 模型构建
将采样得到的龟甲ROI样本随机划分为训练集(90%)与测试集(10%), 其中训练集用于模型训练及内部十折交叉验证选择最优模型参数; 测试集用于模型性能的最终验证。 实验构建了基于SVM、 LR、 KNN三种分类算法的异构集成学习模型。 其中, SVM算法将原始样本映射至更高维的空间, 并使不同类别的样本距分类平面的距离最大, 以实现最优的分类效果。 关键超参数为惩罚项因子C, C值越大表示对错误分类样本的惩罚程度越大。 本实验SVM模型参数最终确定为采用高斯核函数, 惩罚项因子C=50。 LR是一种基于概率的分类模型, 形式简单, 具有很好模型可解释性。 本实验LR采用L2正则化以防止模型的过拟合, 超参数正则化系数确定为λ =0.3。 KNN的主要是样本的类别应和与其相似的邻近样本保持一致。 实验中, KNN采用欧式距离衡量样本间的相似程度, 经十折交叉验证后, 模型设置最近邻个数k=3。
2.2.2 全波段模型分类精度
实验采用VNIR与SWIR透镜下采集的龟甲HSI图像构建了龟甲年限的分类模型。 为了更全面地分析龟甲年限与光谱特征规律, 实验将两透镜下的龟甲高光谱图像依照波长进行级联, 得到波长覆盖范围410~2 500 nm的融合波段光谱数据, 并利用建立的模型进行分析。 实验首先对三种数据在全波段下的样本进行分类, 准确率见表2。
![]() | 表2 全波段不同年限龟甲药材的分类精度(%) Table 2 Classification accuracies of PlastrumTestudinis in different growth years with full spectral bands (%) |
由表2中:
(1)相比于腹甲样本, 四种模型在VNIR透镜、 SWIR透镜与融合波段三类数据中的背甲样本基本上达到了较高的分类准确率, 表明龟甲背甲的光谱特征与其生长年限的相关度较高。
(2)对于SVM、 LR、 KNN三种基学习器, 在VNIR透镜下, LR模型具有较好的分类性能, 测试精度分别达到90.72%(背甲)与89.60%(腹甲); 而在SWIR透镜下, SVM模型预测精度较高, 分别为92.57%(背甲)与91.32%(腹甲)。 表明不同的分类模型对不同的高光谱数据具有各自的优势。 而融合波段综合了两透镜下的光谱信息, 使得模型的分类准确率普遍高于VNIR与SWIR透镜。 相比于学习器, HEL模型综合了不同模型与融合波段的优势, 进一步提升了对龟甲生长年限的分类准确率, 背甲样本达到96.14%的分类精度。
实验验证了采用全波段惯光谱图像对龟甲药材生长年限鉴别的有效性。 由于“ Hughes” 现象的存在, 波段数过高反而会对模型的分类精度产生负面影响。 在实际应用中, 高光谱图像的高复杂度与强共线性会大幅影响模型的效率, 不利于快速与批量检验。 因此进一步对龟甲药材的高光谱数据进行降维分析, 目的是使用较少的波段逼近或超越全波段HSI的分类准确率。
采用OCF波段选择简化全波段龟甲药材高光谱图像的复杂度。 OCF的算法将高光谱空间划分为若干低相关的波段子空间, 并在每个子空间选择信息熵最大的波段组合成为最终的波段子集, 在保证信息量的同时, 降低波段间的相关性。 模型在不同波段数目及全波段(HEL)及不同波段数目下对龟甲药材年限的分类精度与波段选择情况见图3。
由图3(a— f)可以看出, 随着波段数目的增多, 模型的准确率逐渐提升, 表明了波段中有效新信息在不断增加。 对于背甲样本, 当波段降维数目为32时, HEL模型在融合波段的龟甲年限分类精度[图3(c)]达到最高分类精度96.35%, 并超过龟甲药材原始高光谱图像的精度。 因此OCF可以选择32个特征波段表征原始龟甲高光谱图像的信息。 图4给出了OCF在融合波段下, 降维维度为16与32时波段选取的对比结果。
由图4可以看出, 当波段选择数目较少时, 选择的波段主要集中于光谱曲线的反射特征峰值区域。 随着波段选择数目增多, 每个特征峰值区域会根据信息熵继续增添特征波段, 并保证波段之间的离散程度, 避免相邻的冗余波段被同时选中。 与图3实验结果比较, HEL模型可以使用较少的光谱特征实现龟甲药材年限的准确鉴别, 为快速性、 批量检验提供一定的技术参考。
龟甲作为临床中广泛应用的动物类中药, 富含大量人体所必需的微量元素。 随着生长年限的增加, 龟甲中微量元素的含量也逐渐增多。 传统经验法与理化手段不利于批量检测及推广应用, 且无法满足快速性与无损性的要求。 本研究针对不同生长年限的龟甲药材, 采用高光谱成像技术与多种机器学习算法建立了其生长年限的鉴别模型。 (1) 从龟甲药材的光谱曲线来看, 不同生长年限的龟甲药材在光谱特征具有一定的差异性, 其中生长年限在十年以上的龟甲相对反射率高于10年内的龟甲药材, 表明了使用高光谱成像技术实现对龟甲年限的鉴别可行; (2) 构建了基于SVM、 LR、 KNN的异构集成学习模型HEL, 综合了多种模型的优势, 在融合波段的龟甲药材样本达到了96.14%的分类精度; 为了增加对龟甲药材鉴别的快速性, 本研究采用波段选择策略对龟甲的高光谱图像进行有效降维。 实验结果表明, 模型可以在降维波段数目为32时, 超过原始光谱图像的分类准确率, 并证明了高光谱成像技术可以作为一种快速、 无损的方法实现对不同生长年限龟甲药材的有效鉴定。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|