高光谱结合极限学习机的玉米品种鉴别
张伏1,2, 王新月1, 崔夏华1, 禹煌1, 曹炜桦1, 张亚坤1, 熊瑛3, 付三玲4,*
1.河南科技大学农业装备工程学院, 河南 洛阳 471003
2.机械装备先进制造河南省协同创新中心, 河南 洛阳 471003
3.河南科技大学农学院/牡丹学院, 河南 洛阳 471023
4.河南科技大学物理工程学院, 河南 洛阳 471023
*通讯作者 e-mail: fusanling@126.com

作者简介: 张 伏, 1978年生, 河南科技大学农业装备工程学院教授 e-mail: zhangfu30@126.com

摘要

玉米是我国重要粮食作物之一, 在我国广泛种植, 筛选优良的玉米品种是农业生产和育种的关键, 但市场上玉米品种繁多, 如何快速准确高效鉴别玉米品种从而实现玉米高产高收亟待解决。 提出了基于高光谱图像技术的极限学习机(ELM)鉴别模型, 以期解决玉米品种鉴别问题。 以八个品种玉米种子作为研究对象, 试验样本共480个, 按2:1比例划分为训练集和测试集, 分别为320个和160个。 利用高光谱图像采集系统获取935.61~1 720.23 nm范围内的玉米种子图像, 黑白校正后选取胚芽部位大小为10×10 pixel的感兴趣区域(ROI), 提取该区域内平均光谱作为原始光谱数据。 因原始光谱两端噪声较大, 有效信息较少, 为增强信噪比, 截取949~1 700 nm范围内的玉米种子光谱波段作为有效波段进行分析。 由于数据采集过程中受无关信息干扰较强影响建模效果, 故对去噪后的光谱波段信息进行SG平滑(Savitzky-Golay smoothing)预处理, 将平滑点数设置为3, 在SG平滑基础上进行最大归一化(MN)预处理。 预处理后分别采用竞争性自适应重加权算法(CARS)、 连续投影算法(SPA)单一提取和CARS+SPA、 CARS-SPA组合筛选方法提取特征波长, 以特征波长反射率作为输入矩阵 X, 预设样本类别1、 2、 3、 4、 5、 6、 7、 8作为输出矩阵 Y, 利用极限学习机分别建立(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM、 (SG+MN)-(CARS-SPA)-ELM五种玉米品种定性鉴别模型。 试验结果表明:(SG+MN)-(CARS-SPA)-ELM模型较其他四者鉴别效果最佳, 训练集和测试集平均鉴别准确率均为98.13%, 表明CARS-SPA二次筛选的特征波长变量更敏感, 能够代表所有波长信息, 且极限学习机模型有较好的定性鉴别性能, 可实现对玉米品种的鉴别。 该研究为玉米种子及其他农作物种子快速准确鉴别提供了新思路和新方法。

关键词: 高光谱图像技术; 玉米; 品种鉴别; 极限学习机; 组合筛选
中图分类号:TP391 文献标志码:A
Identification of Maize Varieties by Hyperspectral Combined With Extreme Learning Machine
ZHANG Fu1,2, WANG Xin-yue1, CUI Xia-hua1, YU Huang1, CAO Wei-hua1, ZHANG Ya-kun1, XIONG Ying3, FU San-ling4,*
1. College of Agricultural Equipment Engineering, Henan University of Science and Technology, Luoyang 471003, China
2. Collaborative Innovation Center of Advanced Manufacturing of Machinery and Equipment of Henan Province, Luoyang 471003, China
3. College of Agriculture/Tree Peong, Henan University of Science and Technology, Luoyang 471023, China
4. College of Physical Engineering, Henan University of Science and Technology, Luoyang 471023, China
*Corresponding author
Abstract

Maize is one of the important food source, which is widely planted in China. The selection of excellent maize varieties is the key to agricultural production and breeding. However, there are wide varieties of maize on the market at present. In this paper, the extreme learning machine (ELM) model of maize varieties identification based on hyperspectral image technology was proposed to solve the problem of maize varieties identification. In this study, eight varieties of maize seeds were regarded as research objects, and 480 experiment samples were divided into training sets and test sets in a 2:1 ratio, with 320 and 160 samples respectively. The images of maize seeds in the 935.61~1 720.23 nm were obtained by a hyperspectral acquisition system. Regions of interest (ROI) of 10×10 pixels in germ were selected after correction, and the average spectrum in the region was extracted as the original spectral data. Due to the large noise at both ends and less effective information of the original spectrum, in order to enhance the signal-to-noise ratio, spectral bands of maize seeds in the range of 949~1 700 nm were selected as effective bands for analysis. Due to the strong interference of irrelevant information during data collection, the spectral bands information after denoising was processed by Savitzky-Golay smoothing. The smoothing point was set to 3. Maximum normalization (MN) was used to pretreat based on SG smoothing. After pretreatment, feature wavelength variables were extracted by competitive adaptive reweighted sampling (CARS), successive projection algorithm (SPA) and CARS+SPA, CARS-SPA. The wavelength reflectance was used as the input matrix X, and the sample varieties 1, 2, 3, 4, 5, 6, 7, 8 were used as the output matrix Y. (SG+MN)-ELM, (SG+MN)-CARS-ELM, (SG+MN)-SPA-ELM, (SG+MN)-(CARS+SPA)-ELM, (SG+MN)-(CARS-SPA)-ELM were established. The experiment results showed that (SG+MN)-(CARS-SPA)-ELM model had the best identification performance compared with others, and the average identification accuracy of training sets and test sets was 98.13%, indicating that CARS-SPA secondary screening feature wavelength variables were more sensitive, which could represent all wavelengths information. The ELM model had better qualitative identification performance. It could realize the identification of maize varieties. This study provides a new idea and method for rapid and accurate identification of maize and other crop seeds.

Keyword: Hyperspectral image; Maize; Varieties identification; Extreme learning machine; Combination screening method
引言

玉米是我国重要的粮食作物之一, 黄淮海玉米生产区在我国粮食生产方面占有重要地位。 在玉米种植过程中选择合适的玉米品种是实现高产的关键环节。 在农业实际生产中, 玉米品种很难通过肉眼观察进行准确区分[1]。 因此, 对玉米品种的准确高效、 快速鉴别具有重要的研究意义和应用价值。

传统种子鉴别包括人工鉴别、 田间种植鉴别、 电泳检测、 生理和化学鉴定等方法, 鉴别过程冗杂且费时费力[2], 高光谱图像无损检测技术具有图谱合一特点, 广泛用于农作物种子品种、 品质、 活力等无损检测研究[3, 4, 5]。 Huang等[6]基于高光谱图像技术对玉米品种鉴别, 其SPA-(LS-SVM)模型准确率为90%; Xia等[7]基于高光谱图谱特征对17个玉米品种鉴别, 其MLDA-(LS-SVM)模型准确率为99.13%; Chivasa等[8]基于多时相高光谱数据建立PLS-DA模型对25个玉米品种区分; Zhou等[9]基于高光谱图像技术对玉米品种鉴别, 结合次区域投票建立的CNN模型效果较好; Sun等[10]基于高光谱图像技术对大麦品种鉴别, 其SPA-KNN模型准确率为93.71%; Singh等[11]基于近红外高光谱技术对大麦品种鉴别, 其CNN模型效果较好; 邵琦等[12]基于高光谱图像技术对3个玉米品种鉴别, 其Boruta-RF模型准确率为78.3%; 吴翔等[13]基于近红外高光谱技术对4个玉米品种鉴别, 其SPA-PLS-DA模型训练集、 测试集准确率分别为78.5%、 70.8%; 黄敏等[14]基于高光谱图像技术对9个玉米品种鉴别, 其PCA-BP模型准确率为94.44%; 黄敏等[15]基于高光谱图像技术对小麦品种鉴别, 其SPA-MS-3DCNN模型准确率为96.72%; 吴永清等[16]基于高光谱图像技术对小麦品种鉴别, 其CARS-LDA模型训练集、 测试集准确率分别为91.8%、 86.0%; 张航等[5]基于高光谱图像技术对3个小麦品种鉴别, 其PCA-SVM模型准确率为95%; 邓小琴[17]等基于高光谱图像技术对水稻品种鉴别, 其(MP-UVE-PLS)-PLSDA模型准确率为96%。

已有大量国内外学者开展农作物种子品种鉴别研究, 其中, 提取特征波长多采用SPA单一提取方法, 由于提取数目较少, 易出现部分有效信息缺失问题; 模型多采用LS-SVM, 只实现局部最优, 缺乏稀疏性且鲁棒性较低。 基于此, 提出一种基于高光谱图像技术的玉米品种快速无损鉴别方法, 8个品种玉米种子的高光谱数据经SG平滑和最大归一化预处理后, 选用CARS、 SPA单一提取和CARS+SPA、 CARS-SPA组合筛选方法提取特征波长, 分别建立极限学习机模型对玉米品种鉴别, 以期获得较佳鉴别效果, 为玉米及其他农作物种子品种鉴别提供新思路和新方法。

1 实验部分
1.1 材料

试验所用玉米种子样本均来自河南省洛阳市河南科技大学农学院的外观完好且颜色相近的8个品种玉米种子, 分别标号为类别1、 2、 3、 4、 5、 6、 7、 8, 如图1所示, 其中, 类别1、 7、 8为常规种子, 其他为杂交种子, 每个品种60粒, 共480粒玉米种子样本。

图1 玉米种子样本
(a): 类别1; (b): 类别2; (c): 类别3; (d): 类别4; (e): 类别5; (f): 类别6; (g): 类别7; (h): 类别8
Fig.1 Maize seed samples
(a)Type 1; (b): Type 2; (c): Type 3; (d): Type 4; (e): Type 5; (f): Type 6; (g): Type 7; (h): Type 8

1.2 仪器与设备

高光谱图像采集系统主要包括高光谱成像仪(SPECIMFX17e, Specim, 芬兰)、 自稳定扫描平台(SPECIMLabScanner 40× 20 cm)、 2组150 W的卤素灯阵列光源、 光纤、 暗箱和计算机等, 如图2所示。 高光谱成像仪的扫描范围是935.61~1 720.23 nm, 共224个光谱波段, 视场角为38° , 采样间隔为3.5 nm, 光学分辨率为8 nm。 利用SPECIM配套的LumoScanner软件获取玉米种子高光谱图像。 研究中数据处理软件为ENVI5.3、 The Unscrambler X10.4、 Excel 2019、 Origin 2018、 Matlab 2016b。

图2 高光谱图像采集系统
①: 暗箱; ②: 高光谱相机; ③: 光源; ④: 计算机; ⑤: 扫描平台
Fig.2 Hyperspectral image acquisition system
①: Dark chamber; ②: Hyprspectral camera; ③: Light source; ④: Computer; ⑤: Scanning platform

1.3 光谱采集

为获得稳定的光谱数据, 先将高光谱成像仪预热30 min, 并设置曝光时间6.50 ms、 数据采集频率50 Hz、 平台移动速度25.11 mm· s-1、 高光谱相机镜头与自稳定扫描平台间距32 cm等参数。

在种子成熟阶段胚芽储存大量蛋白质、 脂肽等有机物供其生长和发育[18]。 因此, 采集样本胚芽面图像信息, 样本整齐排列摆放在自稳定扫描平台上, 每次扫描一个样本类别。

为避免杂光干扰, 图像采集全程在暗箱中进行, 采集后通过LumoScanner软件将采集的样本高光谱图像信息及黑板、 白板图像信息导入计算机中, 用ENVI5.3软件对高光谱图像黑白校正, 校正公式如式(1)。

R=I-IANIB-IAN(1)

式(1)中, R表示样本校正后图像, I表示样本原始图像, IAN表示黑板图像, IB表示白板图像。

选取玉米种子胚芽部位大小为10 pixel× 10 pixel的ROI区域, 如图3所示, 将ROI区域的光谱信息导出得到每粒种子ROI区域的平均光谱值, 处理后得到935.6~1 700.0 nm波长范围的平均光谱反射率曲线, 如图4所示。 为提高光谱测量精度, 增强光谱信噪比, 剔除935.6~949.4 nm光谱信号噪声较大的区域, 所以本试验实际有效波长范围是949.4~1 700.0 nm。 图像采集过程中, 每隔10 min采集一次白板图像信息重新进行校正, 以确保采集准确性。

图3 选取ROI区域示意图Fig.3 Diagrammatic drawing of select ROIs

图4 原始平均光谱反射率曲线图Fig.4 Original mean spectral reflectivity curves

1.4 建模方法和模型评价标准

竞争性自适应重加权算法(competitive adapative reweighted sampling, CARS)与连续投影算法(successive projections algorithm, SPA)可实现对原始数据降维处理; 极限学习机(extreme learning machine, ELM)用于定性分类和预测, 通过训练单隐藏层前馈神经网络, 随机选取输入层权重和隐藏层偏置, 输出层权重通过最小化损失函数计算解析, 具有训练参数少、 学习速度快、 泛化能力强等优点。

光谱数据预处理后, 对其提取有效特征波长作为模型输入变量, 8种不同类别种子作为输出变量, 建立ELM品种鉴别模型, 通过鉴别准确率(Accuracy)对模型性能进行评价。

2 结果与讨论
2.1 训练集与测试集的划分

将480个样本按照2:1的比例随机划分为训练集和测试集, 其中, 每个类别训练集和测试集分别为40和20个, 八个类别训练集和测试集分别为320和160个, 以此分析训练集和测试集平均鉴别准确率(Accuracy)。

2.2 光谱数据预处理

由于光谱数据除含被测样本待测信息外, 易受杂散光、 噪声等无关信息的干扰, 故在建立模型前对光谱数据预处理, 以减弱各种非目标因素对检测信号的影响, 以期提高模型精度。 首先选择平滑点数为3的SG平滑法(Savitzky-Golay smoothing)对ROI区域内光谱数据平滑去噪, 再采用最大归一化法(maximum normalization, MN)将光谱数据映射到[0, 1]区间内, 消除由于量纲不同而引起的误差。 所使用的数据处理软件是The Unscrambler X 10.4, 预处理后的光谱平均反射率曲线图, 如图5所示。

图5 预处理后的光谱平均反射率曲线图Fig.5 Average Spectral reflectivity curves after preprocessing

2.3 特征波长提取与组合

2.3.1 竞争性自适应重加权算法(CARS)优选特征波长

设置蒙特卡洛采样次数为50, 采用5折交叉验证法提取特征波长, 如图6所示。 图6(a)表示CARS优选特征波长变量数目随采样次数增加而减少, 在第23次采样前, 优选特征波长变量数目急剧下降, 第23次采样后, 优选特征波长变量数目缓慢下降, 说明CARS优选特征波长是从粗选到细选的过程; 图6(b)表示交叉验证均方根误差(RMSECV)随采样次数增加先缓慢减小后逐渐增大, 表明在第30次采样后CARS出现了筛选过度的情况, 以至于剔除了含有有效信息的敏感波长变量, 导致模型预测精度下降, RMSECV值陡然增大; 图6(c)表示在第23、 24次采样时RMSECV值最小, 此时优选出26个特征波长变量。

图6 CARS算法提取特征波长过程
(a): 优选特征波长变量数目; (b): 交叉验证均方根误差变化; (c): 回归系数路径图
Fig.6 Process of extracting feature wavelengths by CARS
(a): Variables number of preferred feature wavelengths; (b): Changes of root mean square error of cross validation; (c): Regression coefficient path

2.3.2 连续投影算法(SPA)优选特征波长

设置优选最大波长数目为20, 共优选出10个波长变量, 如图7所示。 由图7(a), 随变量个数增加, 均方根误差(RMSE)整体呈现先急速下降后缓慢减小趋势。 当变量数为10时, RMSE变化不再显著, 此时RMSE为1.294 9。 由于变量过多会增加模型的运算量和复杂度, 因此选取10个变量作为最终特征变量数目。

图7 SPA算法提取特征波长过程
(a): 变量数目; (b): 变量位置
Fig.7 Process of extracting feature wavelengths by SPA
(a): Number of variables; (b): Variables position

2.3.3 组合筛选特征波长

为解决CARS和SPA单一筛选特征波长变量出现共线性等问题, 采用CARS+SPA组合筛选方法及CARS-SPA二次筛选方法, 不同提取特征波长方法结果对比如表1所示。

表1 不同提取特征波长方法结果 Table 1 Extracting feature wavelengths of different methods

CARS-SPA二次筛选结果如图8所示, 共优选出18个特征波长变量, 分别是949.4、 952.8、 956.3、 1 039.5、 1 140.4、 1 168.4、 1 199.8、 1 220.8、 1 234.8、 1 319.1、 1 336.7、 1 375.5、 1 410.7、 1 435.5、 1 495.7、 1 573.8、 1 645.1和1 698.7 nm。

图8 SPA算法二次提取特征波长过程
(a): 变量数目; (b): 变量位置
Fig.8 Process of secondary extracting feature wavelengths by SPA
(a): Number of variables; (b): Variables position

2.4 极限学习机(ELM)模型建立与分析

分别将全光谱波段共217个特征波长、 CARS算法提取的26个特征波长、 SPA算法提取的10个特征波长、 CARS和SPA算法组合提取的共34个特征波长、 CARS算法一次提取、 SPA算法二次筛选的18个特征波长作为输入变量建立(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM、 (SG+MN)-(CARS-SPA)-ELM模型, 训练集和测试集平均鉴别准确率分别为96.56%和94.38%、 95.94%和94.38%、 83.75%和81.25%、 97.5%和95%、 98.13%和98.13%。 模型预测结果如表2所士, 单个类别准确率对比如图9所示, 五种模型平均鉴别准确率对比如图10所示。

表2 模型预测结果 Table 2 Prediction results

图9 品种鉴别准确率对比
(a): 训练集; (b): 测试集
Fig.9 Prediction accuracy comparison of varieties
(a): Training sets; (b): Test sets

图10 模型平均准确率对比Fig.10 Average accuracy comparison of models

根据图10可知训练集和测试集模型的鉴别精度排序是: 组合筛选> 全波段> 单一提取, 说明组合筛选特征波长避免了单一提取的弊端。 根据图9, 类别7鉴别效果最佳, 类别5最差, 类别6次之。 推测类别5与类别2、 4、 6有内在本质联系, 可能与其父系或母系相关。 而CARS-SPA组合筛选特征波长法恰好提升了杂交种子的鉴别精度, 其中, 类别5、 6效果最为显著, 表明CARS-SPA组合筛选的特征波长更敏感, 能代表全波段光谱信息。

综上, (SG+MN)-(CARS-SPA)-ELM较(SG+MN)-ELM、 (SG+MN)-CARS-ELM、 (SG+MN)-SPA-ELM、 (SG+MN)-(CARS+SPA)-ELM模型训练集和测试集平均鉴别准确率分别提高了1.57%、 2.19%、 14.38%、 0.63%和3.75%、 3.75%、 16.88%、 3.13%, 结果表明(SG+MN)-(CARS-SPA)-ELM模型对玉米品种具有较好的鉴别效果, 组合筛选的特征波长较全波段及单一方法提取的更具代表性。

3 结论

为鉴别优良的玉米品种, 实现玉米高产, 对8个不同玉米品种进行了鉴别试验和分析。

(1)利用SG+MN预处理方法对所采集的光谱数据平滑降噪并归一化, 确定949.4~1 700.0 nm范围的光谱波段信息为有效光谱;

(2)分别采用CARS、 SPA单一提取法和CARS+SPA、 CARS-SPA组合筛选法对SG+MN预处理后的样本降维, 得到26、 10、 34、 18个特征波长变量;

(3)基于上述4种提取特征波长方法建立ELM定性鉴别模型, 并与全波段建模效果对比分析, 发现组合筛选法> 全波段法> 单一提取法。 其中, (CARS-SPA)-ELM模型效果最佳, 训练集共320个样本, 预测正确数目为314, 预测平均鉴别准确率为98.13%, 较ELM、 CARS-ELM、 SPA-ELM、 (CARS+SPA)-ELM分别提升了1.57%、 2.19%、 14.38%、 0.63%; 测试集共160个样本, 预测正确数目为157, 预测平均鉴别准确率为98.13%, 较ELM、 CARS-ELM、 SPA-ELM、 (CARS+SPA)-ELM分别提升了3.75%、 3.75%、 16.88%、 3.13%。

结果表明, CARS-SPA组合筛选的特征波长较单一法及全波段法更敏感, 能代表全波段光谱信息, ELM定性模型有较好的鉴别性能, 可实现玉米种子快速准确鉴别, 该研究为玉米种子及其他农作物种子快速准确鉴别提供了新的思路和方法。

参考文献
[1] YUE Hai-wang, WEI Jian-wei, XIE Jun-liang, et al(岳海旺, 魏建伟, 谢俊良, ). Journal of China Agricultural University(中国农业大学学报), 2022, 27(4): 31. [本文引用:1]
[2] LI Hui, WU Jing-zhu, LIU Cui-ling, et al(李慧, 吴静珠, 刘翠玲, ). Journal of the Chinese Cereals and Oils Association(中国粮油学报), 2019, 34(2): 125. [本文引用:1]
[3] CHENG Xue, HE Bing-yan, HUANG Yao-huan, et al(程雪, 贺炳彦, 黄耀欢, ). Remote Sensing Technology and Application, 2019, 34(4): 775. [本文引用:1]
[4] WU Yong-qing, LI Ming, ZHANG Bo, et al(吴永清, 李明, 张波, ). Journal of the Chinese Cereals and Oils Association(中国粮油学报), 2021, 36(5): 165. [本文引用:1]
[5] ZHANG Hang, YAO Chuan-an, JIANG Meng-meng, et al(张航, 姚传安, 蒋梦梦, ). Journal of Triticeae Crops(麦类作物学报), 2019, 39(1): 96. [本文引用:2]
[6] Huang M, He C J, Zhu Q B, et al. Applied Sciences, 2016, 6(6): 183. [本文引用:1]
[7] Xia C, Yang S, Huang M, et al. Infrared Physics & Technology, 2019, 103: 103077. [本文引用:1]
[8] Chivasa W, Mutanga O, Biradar C. Journal of Applied Remote Sensing, 2019, 13(1): 017504. [本文引用:1]
[9] Zhou Q, Huang W Q, Tian X, et al. Journal of the Science of Food and Agriculture, 2021, 101(11): 4532. [本文引用:1]
[10] Sun H, Zhang L, Li H, et al. Journal of Food Process Engineering, 2021, 44(8): 13769. [本文引用:1]
[11] Singh T, Garg N M, Iyengar S R S. Journal of Food Process Engineering, 2021, 44(10): 13821. [本文引用:1]
[12] SHAO Qi, CHEN Yun-hao, YANG Shu-ting, et al(邵琦, 陈云浩, 杨淑婷, ). Geography and Geo-Information Science(地理与地理信息科学), 2019, 35(5): 34. [本文引用:1]
[13] WU Xiang, ZHANG Wei-zheng, LU Jiang-feng, et al(吴翔, 张卫正, 陆江锋, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(2): 511. [本文引用:1]
[14] HUANG Min, ZHU Xiao, ZHU Qi-bing, et al(黄敏, 朱晓, 朱启兵, ). Journal of Data Acquisition and Processing(数据采集与处理), 2013, 28(3): 289. [本文引用:1]
[15] HUANG Min, XIA Chao, ZHU Qi-bing, et al(黄敏, 夏超, 朱启兵, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2021, 37(18): 153. [本文引用:1]
[16] WU Yong-qing, LI Ming, HE Yuan-yuan, et al(吴永清, 李明, 贺媛媛, ). Journal of the Chinese Cereals and Oils Association(中国粮油学报), 2021, 36(4): 133. [本文引用:1]
[17] DENG Xiao-qin, ZHU Qi-bing, HUANG Min(邓小琴, 朱启兵, 黄敏). Laser & Optoelectronics Progress(激光与光电子学进展), 2015, 52(2): 021001. [本文引用:1]
[18] Wu J, Mohamed D, Dowhanik S, et al. Plant Cell, 2020, 32(6): 1886. [本文引用:1]