基于高光谱图像技术的高粱品种识别研究
宋少忠1, 刘园园2, 周紫阳3, 滕星3, 李继红3, 刘君玲1, 高勋2,*
1.吉林工程技术师范学院数据科学与人工智能学院, 吉林 长春 130052
2.长春理工大学物理学院, 吉林 长春 130022
3.吉林省农业科学院, 吉林 长春 130033
*通讯作者 e-mail: lasercust@163.com

作者简介: 宋少忠, 1972年生, 吉林工程技术师范学院数据科学与人工智能学院教授 e-mail: songsz@jlenu.edu.cn

摘要

高粱是酿造白酒的重要原料, 高粱内的成分对白酒中微量成分含量和品质十分重要, 并且高粱品质影响着白酒的质量和风味, 因此, 无损快速鉴别高粱品种对于提高白酒质量是个迫切需要的重要问题。 采用高光谱成像技术结合机器学习算法对高粱品种进行分类鉴别, 通过高光谱成像技术, 获取了10个品种高粱的高光谱谱线以及图像纹理数据。 采用多元散射校正(MSC)对光谱进行预处理, 并用连续投影算法(SPA)筛选出62个特征波段, 采用灰度共生矩阵提取高粱的4种纹理特征, 分别以高光谱数据和光谱-图像数据融合, 采用PLS-DA、 SVM、 ELM和RF等4种机器学习算法模型对10个高粱品种进行分类识别。 结果表明, 高光谱经MSC预处理后, 用SPA降维提取的高光谱特征波段可以代表全光谱的数据信息, 提高了PLS-DA模型识别高粱品种的稳定性。 10个品种高梁的分类准确度从67.58%提高到93.85%, 识别精度提升了27%。 高光谱数据与图像纹理特征数据融合后, PLS-DA基于模型全光谱和特征谱段的高粱品种分类识别精度分别提升到96.47%和97.16%, 相比于单一的高光谱数据更适用于高粱品种分类识别。 相比于SVM、 ELM和RF三种分类机器学习算法模型结果, PLS-DA机器学习算法模型的高粱品种分类识别精度最好。 研究证明了高光谱成像技术结合机器学习算法在高粱品种鉴别中的有效性, 可实现快速精确的高粱品质检测。

关键词: 高粱; 高光谱成像; 机器学习算法; 品种识别
中图分类号:S323 文献标志码:A
Identification of Sorghum Breed by Hyperspectral Image Technology
SONG Shao-zhong1, LIU Yuan-yuan2, ZHOU Zi-yang3, TENG Xing3, LI Ji-hong3, LIU Jun-ling1, GAO Xun2,*
1. School of Data Science and Artificial Intelligence, Jilin Normal University of Engineering and Technology, Changchun 130052, China
2. School of Physics, Changchun University of Science and Technology, Changchun 130022, China
3. Jilin Academy of Agricultural Sciences, Changchun 130033, China
*Corresponding author
Abstract

Sorghum is an important raw material for liquor brewing. The components of sorghum are very important to the trace components and quality of liquor, and the quality of sorghum can affect the quality and flavor of liquor. Therefore, the nondestructive and rapid identification of sorghum breeds is an urgent and important question for improving the quality of liquor. In this paper, hyperspectral imaging technology combined with a machine learning algorithm is used to classify and identify sorghum breeds. By using the hyperspectral imaging technology, hyperspectral spectral lines and image texture data of 10 breeds of sorghum are obtained at the same time. Multivariate scattering correction (MSC) is used to preprocess the hyperspectral spectrum, and a continuous projection algorithm (SPA) is used to screen 62 feature bands. The gray level co-occurrence matrix extracts four texture features of sorghum. The hyperspectral spectral data and spectral-image fusion data are used, respectively, and four machine learning algorithms, including PLS-DA, SVM, ELM and RF, are used to classify and identify the sorghum breed. The results show that the hyperspectral characteristic bands extracted by SPA dimensionality reduction can be represented by the data information of the full hyperspectral spectral information after MSC pretreatment, which improves the stability of the PLS-DA algorithm model in the identification of the sorghum breed. The identification accuracy of 10 breeds of sorghum is improved from 67.58% to 93.85%, and the identification accuracy is increased by 27%.After the fusion of hyperspectral spectral data and image texture feature data, the identification accuracy of the sorghum breed by using the PLS-DA model under the conditions of full-spectrum and feature spectrum is improved to 96.47% and 97.16%, respectively, which is more suitable for the classification and identification of sorghum breed compared with the single hyperspectral data. Compared with the results of SVM, ELM, and RF machine learning algorithms, the PLS-DA machine learning algorithm model has the best identification accuracy for the sorghum breed. The research has proved the effectiveness of hyperspectral imaging technology combined with machine learning algorithms in the identification of sorghum breeds, which can achieve fast and accurate quality inspection of sorghum products.

Keyword: Sorghum; Hyperspectral imaging; Machine learning algorithm; Breed identification
引言

高粱作为一种经济粮食作物, 含有丰富的淀粉(支链淀粉和直链淀粉)含量以及适量的单宁和花青素, 发酵后赋予白酒的芳香, 已成为酿制优质白酒的重要生产原料。 白酒是中国五千年文明的独特产物, 酿酒原料高粱的品质影响着酒的质量和风味, 对白酒中微量成分含量和品质十分重要[1]。 近年来, 随着我国白酒酿酒品质提升, 对优质的高粱有重大需求。 因此, 高粱品种的质量检测和品质鉴别, 对于筛选优质高粱酿酒原料, 提升白酒酿造和白酒品质十分重要。 目前, 高粱品种检测主要采用人工经验判别、 生物抽样检测和无损检测方法。 人工检测易受主观影响, 难以形成统一的标准。 生物抽样检测可检测高粱中的淀粉、 蛋白质、 脂肪和单宁含量, 但操作耗时且具有破坏性[2]。 无损检测方法包括X射线、 近红外和拉曼光谱[3, 4]。 X射线可以检测样品中的杂质, 但由于其价格高、 能耗高、 辐射大, 不适用于高粱的检测。 近红外光谱和拉曼光谱可以快速无损地检测样品的成分, 但只能获得样品的局部光谱数据, 且检测精度不高。 因此, 迫切需要一种快速、 无损的检测方法来对高粱品种进行鉴定和识别。

高光谱成像作为一种新兴的光谱检测技术, 能够同时获取待测样本的图像和光谱信息, 能够快速、 无损地对样本进行定量和定性分析。 近年来, 多名学者利用高光谱成像技术对作物品种进行了鉴别。 潘冉冉等[5]利用高光谱技术获得油菜和杂草的光谱信息, 基于去趋势化(De-trending)-主成分分析(PCA)-极限学习机(ELM)算法建立的鉴别模型, 建模集和预测集的分类精度均达到100%; Huang[6]等采集了四个不同年份的玉米品种种子, 利用最小二乘支持向量机(LSSVM)建立了基于种子平均光谱特征的分类模型, 结合高光谱成像和LSSVM模型实现了不同年份种子的分类准确率达到94.4%。 为了进一步提升高光谱技术鉴别种子品质的准确率, 许多学者将高光谱的光谱和图像特征结合起来, 同时获得待测样本的内部化学成分和外部物理信息, 比单一的光谱信息更具有优势。 刘立新等[7]利用高光谱技术与机器学习对新疆红枣品种进行了鉴别, 对比了高光谱的波段选择对红枣品种准确率的影响, 发现基于全波段建立的SVM模型运行时间远长于基于特征波段情形, 但是红枣品种识别准确率均能实现100%。 Yuan[8]等人应用线扫描拉曼高光谱成像系统检测单个玉米籽粒中的真菌孢子数量, 同时获得纹理特征来描述玉米霉变, 采用竞争自适应加权采样(CARS)优化特征变量并建立了偏最小二乘回归(PLSR)检测模型, 从而实现原位无损检测真菌孢子数量。 上述研究表明, 利用高光谱对作物进行分类研究是可行的。 由于高粱品种之间的颗粒形状和大小差异很小, 用肉眼难以区分, 因此, 结合高光谱信息和图像特征系统研究高粱品种的质量检测和品质鉴别具有重要意义。

利用高光谱成像技术获得10个品种高粱样本的光谱信息和图像信息, 结合机器学习算法对10个高粱品种进行分类鉴别。 对高粱数据进行MSC预处理后, 利用SPA提取特征波长, 并从图像中提取4种纹理特征, 最后使用PLS-DA等4种分类模型基于光谱和图像融合数据对高粱品种进行鉴别, 并对不同数据和模型的分类结果对比分析。

1 实验部分
1.1 样本来源

吉林省农科院提供的编号为G1—G10的高粱品种用于高光谱实验。 选取形态相似, 外部无缺陷的高粱籽粒作为实验样本, 每个品种选取75粒, 共750粒, 如图1所示。 高粱籽粒不做任何方式处理, 从而使高光谱相机捕获高粱的原始形态图像。

图1 高粱样本的高光谱图像Fig.1 Hyperspectral images of sorghum samples

1.2 高光谱图像采集

用于高粱品种识别的高光谱采集系统如图2所示。 推扫式高光谱成像仪(PIKA Ⅱ , Resonon Inc, Bozeman, MT, USA)连接CCD相机(Raptor EagleV)和镜头(Schneider-KREUZNACH CINEGON 1.8/4.8), 两个卤素灯(IT, 3900, 150W)安装在镜头两侧下, 距离移动平台照射距离29 cm, 以50像素· mm-2的空间分辨率获取高光谱图像。 2个卤素灯与移动平台的夹角分别为45° , CCD相机的曝光时间为20 ms, 高粱籽粒均匀平铺放置在移动平台上, 平台的移动速度设为1.1 mm· s-1。 防止外部环境光线的干扰, 高光谱成像实验在暗室中运行, 采集到462个波段(392.38~1 011.01 nm)的光谱信息。 对于每个高粱籽粒样本, 采用ENVI5.3软件人工选择感兴趣的图像区域(ROI), ROI内所有像素点光谱平均值为其光谱反射值。 以整个高粱籽粒作为感兴趣区域提取光谱, 可以更加完整、 全面的代表高粱的内部成分信息, 有利于后续的品种分类鉴别。

图2 高光谱实验装置Fig.2 The hyperspectral experimental setup for sorghum breed identification

1.3 高粱高光谱及图像数据预处理及特征参数提取

1.3.1 高粱高光谱曲线预处理

对10个高粱品种每类75个样本高光谱数据取平均值, 获得的10个高粱品种的高光谱曲线如图3(a)所示。 由图3可看出, 不同品种高粱的高光谱强度随波长的变化近似相同, 且存在部分曲线交叉重叠的情况, 但不同高粱品种的高光谱谱线的强度略有差异, 因此可依据高光谱强度作为高粱品种分类的判别依据。 10个品种高粱的高光谱曲线均在520、 780和950 nm附近出现了波峰和波谷, 这与高粱内含有的羧基官能团分子键的伸缩振动有关。

图3 高粱的高光谱曲线
(a): 10类高粱平均光谱曲线; (b): G1原始谱线; (c): G1经MSC预处理曲线
Fig.3 Hyperspectral spectra of sorghum
(a): Average spectra of 10 types of sorghum; (b): Original spectra of G1; (c): G1 preprocessed spectra by MSC

高粱的高光谱信号采集过程中会受高光谱实验系统稳定性、 实验环境等因素的影响, 因此需要对采集的高光谱数据进行预处理, 从而提高光谱图谱信息与内部化学成分之间的相关性。 多元散射校正(MSC)是高光谱数据预处理常用的算法, 选取MSC对高粱的高光谱数据进行预处理, 可有效消除由于散射水平不同带来的光谱差异[9]。 以G1品种高粱为例, MSC预处理前后的高光谱曲线分别如图3(b)和(c)所示, 预处理前的高光谱谱线的强度变化范围较大, 经MSC预处理后高光谱强度变化明显减小, 高光谱曲线的辨识度得到提高。

1.3.2 特征波段的提取

连续投影算法(SPA)是一种前向特征变量的降维选择方法[10]。 使用SPA算法从高粱的高光谱462个波段中筛选特征波段, SPA降维运行结果如图4所示。 使用SPA算法对462个波段进行降维, 通过计算多元回归模型的预测集均方根误差(RMSE)变化趋势图如图4(a)所示, 可见选择的高光谱波段数量越多, RMSE越小, 当选择的波段数量达到62之后RMSE基本保持稳定, 表明此时已经筛选出含有最少冗余信息及最小共线性的波段组合。 因此, 最终使用RMSE值为2.563 6时, 对应的高梁样本的最优特征为62个波段。 特征波长的具体位置如图4(b)红色标记所示。

图4 SPA算法特征波段提取
(a): RMSE变化趋势; (b): 特征波段选择
Fig.4 Feature bands extraction by SPA algorithm
(a): RMSE trend; (b): Feature bands selection

1.3.3 高光谱图像特征参数提取

图像特征包括形态特征和纹理特征, 高粱样本形态规则, 品种之间形态相近, 因此, 选用纹理特征作为高光谱图像特征的分析。 纹理是图像的一种局部结构化特征, 反映了目标图像灰度的性质及其空间拓扑关系[11]。 与形态特征相比, 纹理特征中关于被测物体的化学和物理属性信息更为丰富, 更易于识别样本。

对每个品种高粱而言, 利用ENVI5.3软件提取高粱样本图像, 依次切割分离出单粒高粱, 从而获得75个样本图像, 利用灰度共生矩阵提取各单粒高粱的纹理特征, 进行归一化后对每个品种的计算结果取平均值, 计算各品种在每个函数下的标准差(σ ), 判断各函数在不同品种之间的差异度, 选择熵(E)、 能量(P)、 灰度方差乘积(SMD)函数和Brenner梯度函数四个特征作为高粱的图像特征进行后续的品种分类鉴别。 其公式分别为

E=-i=0L-1Piln(Pi)(1)

P=yx(|f(x+1, y)-f(x, y)|2+|f(x, y+1)-f(x, y)|2(2)

SMD=yx(|f(x, y)-f(x, y-1)|+|f(x, y)-f(x+1, y)|)(3)

Brenner=yx(|f(x+2, y)-f(x, y)|2(4)

其中, Pi是图像中灰度值为i的像素点出现的概率, L为灰度级总数, f(x, y)表示图像f对应像素点(x, y)的灰度值。

2 结果与讨论
2.1 PLS-DA训练过程

偏最小二乘判别回归(PLS-DA)算法是经典PLS回归的扩展, 是一种统计多变量的判别分析方法[12]。 将高粱高光谱的空间向量构成的数据矩阵作为PLS-DA算法的输入量, 进而实现高粱品种鉴别。 为评估PLS-DA实现高粱品种分类识别性能, 采用常用的随机化测试策略, 将高粱的高光谱数据按6∶ 4的比例随机分成训练集和测试集, 并迭代50次, 以确保各类数据之间的公平比较。 为防止过度拟合, 设定PLS-DA的参数(LVs的数量)不超过10, 最佳数值由训练集的交叉验证确定, PLS-DA算法的运行流程如图5所示。

图5 PLS-DA算法运行流程Fig.5 PLS-DA algorithm operation flow

2.2 基于高光谱数据的高粱品种的分类

基于10个品种高粱的经MSC预处理前后的高光谱和SPA降维后选择的特征谱段数据, 采用PLS-DA分类算法对10个高粱品种的分类识别结果如表1所示。 高粱的高光谱谱线经MSC预处理后, 相比于高光谱原始数据, 10个品种高梁的分类准确度从67.58%提高到93.85%, 识别精度提升了27%。

表1 高粱数据PLS-DA下的识别结果 Table 1 Identification of sorghum by PLS-DA algorithm

为了对比高光谱曲线预处理前后的数据变化, 将PLS-DA前两个主成分绘制散点分布如图6所示, 可以看出高粱的高光谱初始数据的散点图存在大量重叠, 无法看出各品种之间的差异, 经MSC预处理后高光谱数据的散点图存在较好的聚类效果, 且整体沿x轴近似线性分布(PC1)。 经SPA降维后, 10个品种高梁的分类准确度达到94.16%, 结果表明SPA降维不仅能够提高高梁的分类准确度, 还能够缩短高梁分类算法运行时间, 且降低了算法模型的标准差。 说明经SPA降维提取的高光谱特征波段可以代表全光谱的数据信息, 并能提高高梁品种的分类准确度, 且PLS-DA模型识别高粱品种的稳定性更好。

图6 PLS-DA主成分散点图
(a): 原始数据散点图; (b): 预处理后数据散点图
Fig.6 Scattering plots of the principal components of PLS-DA
(a): Raw data; (b): Preprocessed data

2.3 基于光谱-图像融合数据的分类结果

将高粱的高光谱谱线数据和提取的图像纹理特征数据采用低层数据融合方法进行光谱-图像数据融合[13], 光谱-图像数据融合方法如图7所示。 经PLS-DA算法模型获得的高粱品种分类识别结果如表1所示。 高光谱数据与图像纹理特征数据融合后, 基于PLS-DA模型下全光谱和特征谱段条件下的高粱品种分类识别精度分别提升到96.47%和97.16%, 相比于单一的高光谱数据更适用于高粱品种分类识别, 光谱-图像数据融合既考虑了高粱籽粒内部的化学成分信息, 又考虑了高粱籽粒的外部形貌信息, 从而光谱-图像数据融合能够有效地提高了高粱品种的分类识别精度。 为确保光谱-图像数据融合用于高粱品种的分类识别结果的有效性, 分别采用SVM、 ELM和RF三种分类机器学习算法模型对高粱品种进行分类识别, 结果如图8所示。 采用原始高光谱数据对高粱品种的识别精度均在70%附近, 识别效果不佳。 经MSC对高粱高光谱预处理后, 高粱品种的识别精度均高达90%以上, 高光谱的MSC预处理对高粱品种的识别精度均提高了30%以上, 并且经SPA降维后的选取的特征谱段用于高粱品种识别的识别精度优于全光谱情形, 而且光谱-图像数据融合的高粱品种识别精度优于高光谱数据。 相比于SVM、 ELM和RF三种分类机器学习算法模型结果, PLS-DA机器学习算法模型的高粱品种分类识别精度最好。 综上所述, 基于高光谱技术结合机器学习算法对高粱品种进行鉴别是可行的, 并且光谱-图像数据融合能够进一步提高高粱品种识别精度。

图7 高粱的高光谱与图像数据融合原理Fig.7 The fusion principle of hyperspectral and image data of sorghum

图8 机器学习算法模型对高粱品种识别结果对比Fig.8 Identification comparison of sorghum breed by machine learning algorithm model

3 结论

采用高光谱成像技术结合机器学习算法对高粱品种进行分类鉴别, 通过高光谱成像技术, 同时获取了10个品种高粱的高光谱谱线以及图像纹理数据。 利用MSC进行光谱数据预处理, SPA算法选出62个特征波段, 采用灰度共生矩阵提取高粱的4种纹理特征, 分别以高光谱数据和光谱-图像数据融合, 采用PLS-DA、 SVM、 ELM和RF等4种机器学习算法模型对10个高粱中进行分类识别。 结果表明, 高光谱谱线经MSC预处理后, 10个品种高梁的分类准确度从67.58%提高到93.85%, 识别精度提升了27%。 高光谱数据与图像纹理特征数据融合后, 基于PLS-DA模型下全光谱和特征谱段条件下的高粱品种分类识别精度分别提升到96.47%和97.16%, 结果优于SVM、 ELM和RF等3种机器学习算法模型。 研究证明了高光谱成像技术结合机器学习算法快速检测高粱品种的有效性, 且以纹理特征作为辅助后的图谱融合方式可以进一步提升结果的准确性和稳定性, 该方法可以推广到其他类型农产品的鉴定, 具有良好的应用前景。

参考文献
[1] Kaufman R C, Wilson J D, Bean S R, et al. Journal of Cereal Science, 2017, 74: 127. [本文引用:1]
[2] Zhao Haitao, Feng Yaoze, Chen Wei, et al. Meat Science, 2019, 151: 75. [本文引用:1]
[3] Khairi M T M, Ibrahim S, Yunus M A M, et al. Journal of Food Process Engineering, 2018, 41: 20. [本文引用:1]
[4] Liu Dongli, Wu Yixuan, Gao Zongmei, et al. Crop & Pasture Science, 2019, 70(5): 437. [本文引用:1]
[5] PAN Ran-ran, LUO Yi-fan, WANG Chang(潘冉冉, 骆一凡, 王昌). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(11): 3567. [本文引用:1]
[6] Huang Min, Tang Jinya, Yang Bao, et al. Computers and Electronics in Agriculture, 2016, 122: 139. [本文引用:1]
[7] LIU Li-xin, HE Di, LI Meng-zhu, et al(刘立新, 何迪, 李梦珠, ). Chinese Journal of Laser(中国激光), 2020, 47(11): 1111002. [本文引用:1]
[8] Long Yuan, Huang Wenqian, Wang Qingyan, et al. Food Chemistry, 2022, 372: 131246. [本文引用:1]
[9] He Peihuan, Wu Yi, Wang Jingjing, et al. Journal of Food Process Engineering, 2020, 43(6): e13386. [本文引用:1]
[10] Peng Xiaoting, Shi Tiezhu, Song Aihong, et al. Remote Seneing, 2014, 6(4): 2699. [本文引用:1]
[11] Mirzapour F, Ghassemian H. International Journal of Remote Sensing, 2015, 36(4): 1070. [本文引用:1]
[12] Zhao Shangyong, Song Weiran, Hou Zongyu, et al. Journal of Analytical Atomic Spectrometry, 2021, 36(8): 1704. [本文引用:1]
[13] Liu Yuanyuan, Zhao Shangyong, Gao Xun, et al. RSC Advances, 2022, 12: 34520. [本文引用:1]