作者简介: 叶文超, 1996年生, 华南农业大学电子工程学院(人工智能学院)硕士研究生 e-mail: 1299870652@qq.com
随着杂交水稻育种技术的快速发展, 杂交水稻品种日益繁多, 品质与价格也千差万别, 利用智能化手段对杂交水稻种子进行快速分类、 分级和品质检测成为杂交水稻研究领域的热点。 首先研究了不同预处理方式对基于近红外光谱的一维卷积神经网络分类模型对杂交水稻种子的分类效果的影响, 研究结果表明利用Savitzky-Golay卷积平滑算法预处理后的一维卷积神经网络分类模型可获得最佳的分类效果, 其验证集与测试集的分类精度为95.4%和92.9%。 利用随机森林特征波长选择算法选取3个最重要的特征波长分别构建基于单波长灰度图像数据集和基于3波长重构的伪彩色图像数据集, 研究了基于图像数据集的卷积神经网络VGG和残差网络ResNet的杂交水稻种子分类模型, 其研究结果表明基于伪彩色图像数据集的VGG卷积神经网络模型能够获得最优的分类效果, 其验证集与测试集的分类精度分别为92.8%和92.8%, 相比基于伪彩色图像数据集的ResNet分类模型, 其验证集提升3.6%, 测试集提升4.9%。 为了进一步提高分类的精度, 提出了一种图像信息与光谱信息融合的杂交水稻种子分类方法, 该方法利用1D-CNN网络分支提取种子的光谱特征, 利用2D-CNN网络分支提取种子图像的空间维度特征, 最终构建基于图谱融合的2Branch-CNN卷积神经网络分类模型, 其验证集与测试集的分类精度都得到明显改善, 分别达到98%和96.7%。 并利用混淆矩阵评估了2Branch-CNN分类模型对于各个种类的杂交水稻种子的分类效果。 研究结果表明通过图谱融合能有效提升卷积神经网络模型的分类精度, 构建基于光谱与图像数据融合的二分支卷积神经网络模型将为杂交品种的种子快速筛选与分级提供新思路。
With the rapid development of hybrid rice breeding technology, hybrid rice varieties are becoming increasingly diverse, and their quality and price vary widely. The use of intelligent means for rapid classification, grading and quality detection of hybrid rice seeds has become a hot spot in hybrid rice research. In this paper, we first investigate the effect of different preprocessing methods on the accuracy of a 1D Convolutional Neural Network (1D-CNN) classification model constructed based on the near-infrared spectra of 10 hybrid rice seeds. The results show that the overall validation and prediction accuracy can be up to 95.4% and 92.9% respectively when the near-infrared spectra are preprocessed with the Savitzky-Golay convolution smoothing algorithm (SG). Secondly, the three most important feature wavelengths were selected by the random forest feature wavelength selection algorithm to build a single-wavelength grayscale image dataset and a 3-wavelength reconstructed pseudo-color image dataset, and the hybrid rice seed classification model based on the convolutional neural network VGG and the residual network ResNet of the image dataset was constructed and studied. The results show that the VGG model based on the pseudo-color image dataset can obtain the optimal classification effect, and the classification accuracies of its validation set and test set are 92.8% and 92.8%, respectively. Compared with the ResNet classification model based on the pseudo-color image dataset, an improved value of 3.6% is achievedin the validation set and 4.9% in the test set. In order to further improve the classification accuracy, a hybrid rice seed classification method based on the fusion of image information and spectral information is proposed. This methodextracts spectral features using the 1D-CNN network branch and extracts dimensionalspatial features using the 2D-CNN network branch. 2Branches-CNN model is then constructed based on the fusion of image and spectral features, and the classification accuracy reaches high values of 98% and 96.7% for the validation set and test set. The classification effect of the 2Branch-CNN model for each type of hybrid rice seeds is also evaluated by calculating the confusion matrix. The results of this paper show that the classification accuracy of the convolutional neural network model can be effectively improved by image-spectrum fusion, and the construction of a two-branch convolutional neural network model based on image-spectrum fusion will provide new ideas for rapid screening and classification of hybrid seed varieties.
水稻是我国主要粮食作物之一, 日益增长的粮食需求促进了杂交水稻技术的快速发展。 由于目前市场上的杂交水稻种子品种繁多, 质量参差不齐, 其品质将直接影响我国水稻产量[1, 2], 如何有效的对杂交水稻种子进行品质鉴定、 分级成为目前水稻产业领域急需解决的关键技术问题。 目前我国对于杂交水稻品种的分类没有明确的检测标准, 农业人员常通过目测等传统方法进行识别, 而科研人员通常采用化学成分检测等方法进行分类[3], 这些分类方法不仅费时费力、 分类精度低而且只能用于少量样品检测, 无法得到广泛的应用。 以多光谱及高光谱为代表的近红外光谱技术作为一种检测方法具有快速、 无损、 检测精度高等特点[4, 5, 6], 在农作物品质检测、 病虫害早期诊断与识别、 农田肥度检测以及农药残留等方面得到了广泛的应用[7, 8]。 Zhang等利用高光谱成像技术结合判别分析模型对6类不同玉米种子的光谱信息进行分类鉴别, 其分类精度可达到98.89%[9]。 杨思成等采集5种不同稻谷种子高光谱图像作为研究对象, 利用PCA方法选取特定波长下的图像信息, 基于纹理特征和形态特征等图像特征参数建立了ANN分类模型, 其分类正确率可达98%[10]。 Li等采集不同年龄段陈皮的近红外光谱数据, 利用主成分分析(PCA)结合不同光谱预处理方法构建Fisher线性判别分类模型, 对不同年龄陈皮的分类精度可达100%[11]。 王承琨等利用Segnet与BIGD方法提取树木的图像信息与光谱信息, 并构建基于SVM分类模型实现对树木品种的分类, 其最高正确率可达98%[12]。
通过上述研究发现, 基于光谱信息和图像信息均可以构建精度较高的分类模型, 然而对于外形相似度极高的杂交水稻种子的分类还鲜有报道[13, 14]。 针对上述研究均采用单一特征(光谱或者图像)来建立分类模型这一问题, 本论文结合基于光谱的1D-CNN和基于图像的2D-CNN, 构建图谱融合的二分支卷积神经网络(2Branch-CNN)分类模型, 实现对杂交水稻种子的分类, 利用多特征融合来提高杂交水稻种子的分类精度。
采用的高光谱成像系统如图1所示。 为了避免外部环境光对光谱测量的干扰, 整套光谱采集设备置于封闭的暗箱内。 其中, 高光谱相机为四川双利合普公司生产的近红外高光谱相机(型号: GaiaField-N17E), 该相机内置微型计算机, 通过外置推扫获取样品的高光谱图像数据。 在光谱采集过程中, 高光谱相机的采集参数设定为: 单帧光谱图像包含350× 320像素, 光谱拍摄波长范围为900~1 700 nm, 光谱采样间隔为5 nm。
用于分类的杂交水稻种子样品均为籼型三系杂交水稻, 具体包括: 荃两优0861(qly0861)、 优华占(yhz)、 晶两优1212(jly1212)、 两优821(ly821)、 两优887(ly887)、 两优898(ly898)、 两优8601(ly8601)、 荃两优1606(qly1606)、 荃两优1822(qly1822)、 荃两优851(qly851)共10个品种。
为提高数据采集效率, 在采集图像前, 将水稻种子按照55的阵列规则摆放在样品台上, 相邻样本间留有一定间隔, 以便在后期数据处理过程中能够通过图像分割的方法得到每个样本的光谱信息。 实验中, 每一品种杂交水稻种子的数量均为250粒, 总共获取了2 500粒杂交水稻种子的高光谱图像, 采集样品的高光谱图像如图2所示。 针对某一特定波长高光谱图像, 采用阈值分割法获取水稻种子在图像中对应的像素区域(ROI区域)。 将选取的ROI区域映射到所有波长对应的灰度图, 然后计算每个波长ROI区域内所有像素的反射率的平均值, 将计算得到的平均光谱定义为每粒杂交水稻种子的反射率光谱。
高光谱相机采集到的原始光谱数据不仅包含光源光谱特征, 而且包含微弱环境光及暗电流等噪声, 无法真实反应待测样品的反射光谱。 在样品测试之前, 分别采集了白板和黑板的反射光谱, 用以消除光源光谱特征、 微弱环境光及暗电流等噪声对样品光谱的影响, 其校正公式如式(1)
式(1)中, R为校正后的反射率, Iraw为原始光谱, Iwhite为白板反射谱, Iblack为黑板反射光谱。
对校正后的散射光谱进行预处理能够进一步抑制背景噪声等对光谱数据的影响, 并改善模型的分类精度。 采用Savitzky-Golay(SG)平滑算法[15]、 多元散射校正(MSC)[16]以及两种算法结合(SG+MSC)三种预处理方法对光谱数据进行预处理。
对于特征波长下图像数据集的构建, 首先利用随机森林(FR)算法对光谱数据中所有波长的重要性进行评分(variable importance measures, VTM), 然后按重要性评分来排序, 通过排序即可选取重要性最高的特征波长[17, 18, 19, 20]。 波长重要性评分的计算方法如下:
假设采集的数据样本有m个特征x1, x2, x3, …, xm, 先计算每个特征的Gini指数, 最后通过VI
式(2)中, k值表示类别, pmk为在节点m中类别k所占的比例, 也可以看作随机从节点m中抽取两个样本, 其类别标记不一致的概率。
特征xj在节点m的重要性VI
式(3)中, Ginil和Ginir分别表示随机森林节点m分支后两个新节点的Gini指数。
如果特征xj在决策树i中出现的节点且在集合M之中, 那么在xj第i颗树的重要性VI
假设该特征波长xj在随机森林中共有n颗树, 其最终的重要性评估计算公式为式(5)
最后, 将计算得的所有特征波长重要性评分做归一化处理并排序。
对于水稻种子的近红外光谱数据集, 采用一维卷积神经网络(1D-CNN)[21, 22]构建分类模型; 针对单波长图像数据集和3波长伪彩色图像数据集, 分别采用卷积神经网络VGG[23, 24]和残差网络ResNet[25, 26]构建分类模型, 并比较两者的分类精确度。 为进一步改善模型分类精度, 提出基于图谱融合的分类模型, 将光谱维度与空间维度的特征进行融合, 构建2Branch-CNN 分类模型(如图3所示)。 该算法中, 1D-CNN用于提取光谱特征, 二维卷积神经网络(2D-CNN)用于提取空间维度特征, 最后将获得的特征数据连接融合后送入分类器进行分类。 神经网络模型的损失函数均采用交叉熵损失函数, 其函数计算公式为
式(6)中, K为杂交水稻种子种类数量, y为标签, i指代的是类别的序号, 即当类别为i时yi=1, 否则为yi=0; Out是卷积神经网络每个样本的类别概率, 即类别为i的概率。
由于近红外探测器在测量波长范围的短波边和长波边响应度不高, 容易受到背景噪声的影响。 为此, 在数据预处理之前先截去背景噪声影响明显的波段, 剩下光谱数据的波长范围为950.9~1 527.1 nm, 总共180个波长的光谱数据, 10个品种的杂交水稻种子的平均反射光谱如图4所示。 由图4可知, 10类杂交水稻种子的光谱趋势相同, 其波峰、 波谷位置基本一致, 但不同种类水稻种子间反射率大小不同, 这可能由于不同水稻种子的化学成分以及分子结构差异所造成的。 在950.9~1 527.1 nm波长范围, 包含多数有机物分子中含氢基团X— H(X为N、 O、 C、 S等)的光谱信息, 包括N— H基团(1 000及1 400~1 800 nm附近)以及C— H基团(1 050~1 200 nm附近; 1 300~1 500 nm附近)等光谱信息, 可有效反映不同品种间水稻种子光谱信息差异。 在分类过程中, 使用Sklearn库中的随机划分方法将2 500粒杂交水稻种子的图像数据与光谱数据按8:1:1的比例划分为训练集、 验证集和测试集, 即训练集样本数量为2 000个, 验证集样本数量为250个, 测试集样本数量为250个。
对校正过的散射光谱进行预处理能够进一步抑制背景噪声对光谱数据的影响, 并改善模型的分类精度。 用SG平滑, MSC和SG+MSC三种方法预处理后的光谱曲线如图5(a— d)所示。 通过比较可以看出, SG平滑算法可以有效减少对采集的光谱数据中的随机噪声, 如图5(b)所示。 利用MSC算法进行预处理可以消除散射对光谱的影响, 提高了光谱数据的信噪比, 此外, 通过图5(c)可以看出MSC预处理方法能够有效地抑制光谱基线漂移和背景噪声干扰, 能提高光谱的分辨率。 通过图5(d)可以看出, SG+MSC方法结合了SG和MSC的优点, 在抑制背景噪声影响和光谱数据信噪比等方面都有明显的提升。
2.2.1 不同预处理方法对1D-CNN模型分类效果的影响
表1为近红外光谱数据经不同预处理方法后采用1D-CNN模型进行分类的结果。 由表1可以看出, 未经过预处理的原始光谱数据验证集与测试集精度分别为70%与63%。 而采用MSC、 SG与SG+MSC 3种方法对原始光谱进行预处理之后, 1D-CNN模型的分类精度都获得不同程度的提升。 其中采用SG平滑预处理后, 模型的分类效果最佳, 验证集与测试集精度分别提升至95.4%和92.9%。 采用MSC预处理后, 1D-CNN模型的分类效果没有明显的改善, 进一步采用SG和MSC两种算法同时对数据进行预处理, 模型验证集和测试集的精度可增加到85.2%和78.4%, 但其结果仍低于单独采用SG算法预处理后的精度。 因此利用MSC预处理方法对1D-CNN分类模型精度提高有限, 将采用SG算法对高光谱数据进行预处理。
![]() | 表1 不同预处理方法下1D-CNN模型的分类精度 Table 1 Classification accuracy of 1D-CNN model with different preprocessing method |
为了进一步探讨其内在机制, 采用基于T分布的随机近邻嵌入算法(T-distributed stochastic neighbor embedding, T-SNE)对不同预处理方法下的光谱数据集进行可视化降维, 结果如图6(a— d)所示。 通过比较不同预处理方法下的T-SNE图可以明显看到, 采用SG平滑预处方法比MSC具有更好的区分度, 如图6(b)和(c)所示。 而SG+MSC预处理方法的区分效果次之[见图6(d)]。 该结果表明, 利用SG平滑预处理能够有效的改善样本的区分度, 而采用SG+MSC两种预处理方法对数据集进行多次预处理并没有获得更优的样本区分度。
2.2.2 基于波长重构图像数据集的分类
采用随机森林(random forest, RF)特征选择算法对180个特征波长的重要性评分进行排序, 只展示了重要性评分最高的9个特征波长, 其重要性评分排序如图7所示。 为了比较特征波长个数对模型分类效果的影响, 选择重要性评分最高的特征波长(950.9 nm)构建单一特征波长下10种杂交水稻样品的灰度图像数据集以及选择重要性评分最高的3个特征波长(950.9、 976.5、 966.9 nm)构建3特征波长伪彩色图像数据集。
为了比较不同模型的分类效果, 分别采用VGG和ResNet模型对10种杂交水稻种子进行分类。 考虑到网络层数对模型分类精度的影响, 还比较了上述两种模型在不同网络层数下的分类效果, 各种模型的分类结果如表2所示。 通过比较可以看出, 无论是基于单波长的灰度图像数据集还是基于3波长的伪彩图数据集, VGG模型的分类精确度都优于ResNet模型。 相对于单波长灰度图像数据集, 采用基于3波长重构的伪彩图像数据集来进行分类不仅具有更优的分类效果, 还能有效地抑制分类模型的过拟合现象。 对于VGG模型, 网络层数为11, 13, 16, 19时, 对于3波长重构的伪彩图像数据集的分类都能获得较好的分类精度, 当网络层数为16时, VGG模型分类效果最佳, 验证集与测试集的精度分别达到92.8%和92.8%。 而对于ResNet网络模型, 为了避免过高的网络层数对模型分类精度的影响, 只给出了该模型的最佳网络层数, 即网络层数为18时的分类效果, 其验证集与测试集的分类精度分别为89.2%和87.2%, 分类效果要低于VGG模型。
![]() | 表2 基于图像数据的分类模型分类精度 Table 2 Classification accuracy based on the reconstructed image data with VGG and ResNet model |
2.2.3 基于光谱与图像数据融合的分类模型
通过上述基于特征波长重构的图像数据集的分类效果可以看出, 将多个特征进行(3个特征波长)融合能够有效提高模型的分类精确度, 其内在机制是多特征(3波长)相对于单一特征(单波长)而言能够进一步提高样本间的差异, 从根本上提升模型的分类效果。 为了进一步提高精度, 在基于3波长图像数据集的基础再融入光谱维数据, 构建基于图谱融合的2Branch-CNN分类模型, 该模型的分类结果如表3所示。 为了获得最优的分类效果, 对图像数据集分支网络, 分别采用了VGG模型和ResNet模型, 并调整了网络层数。 通过表3可以看出, 无论是采用VGG模型还是ResNet模型, 利用图谱融合后模型的分类效果都获得了不同程度的提升。 对于VGG+1DCNN二分支网络模型, 当VGG模型的网络层数增加到16层时, 二分支网络获得最优分类结果, 其验证集与测试集的分类精度为98%和96.7%。 相比于1D-CNN分类模型的最优分类效果, 验证集与测试集的分类精度分别提升了2.6%和3.8%; 相对于基于3波长重构伪彩图数据集的VGG模型的最佳分类精度, 验证集与测试集分类精度分别提升了5.2%和3.9%。 而对于由ResNet+1DCNN构成的二分支网络-模型的分类精度能够获得更显著的提升, 其验证集与测试集的分类精度分别达到96.5%和94.7%, 相对于基于3波长重构的图像数据集的ResNet模型的最佳分类效果, 验证集和测试集的分类精度分别提升7.3%和6.8%。
![]() | 表3 基于光谱与图像数据融合的2branch-CNN模型分类精度 Table 3 Classification accuracy based on the spectrum and image fusion with 2branch-CNN model |
以上讨论了基于图谱融合的分类模型对10种杂交水稻种子的整体分类效果。 而不同种类被错误分类的概率也是衡量分类模型有效性的重要指标, 为进一步验证2branch-CNN分类模型对不同种类杂交水稻种子的分类效果, 本文构建混淆矩阵(confusion matrix)对样本的真实类别和预测结果进行验证, 结果如图8所示。 从图8可以看出对于图谱融合的2branch-CNN分类模型, 杂交水稻品种ly898、 qly1822的测试集分类精度相对较低, 分别93%和88%, 而对于其他水稻品种, 其验证集和测试集的分类精度均可以达到95%以上。 该结果不仅再次表明光谱数据与图像信息融合能够进一步提高大部分种类杂交水稻种子间区分度, 进而提升模型的整体分类精度, 而且直接证明本论文提出的2Branch-CNN网络具有更好的泛化能力与分类效果。
在基于光谱数据集的1D-CNN和图像数据集的2D-CNN的基础上, 构建基于光谱与图像融合的2Branch-CNN模型。 研究结果表明, 通过光谱与图像数据融合能够有效提升模型的分类精度, 其验证集和测试集的分类精度分别达到98%和96.7%, 与基于光谱数据集的1D-CNN相比, 验证集和测试集的分类精度分别提高了2.6%和3.8%, 与基于图像数据集的2D-CNN分类模型相比, 验证集和测试集的分类精度分别提高了5.2%和3.9%。 本研究结果表明, 构建图谱信息融合的分类模型, 能够有效提升对杂交水稻种子品种的分类精度, 该研究方法对农业育种中的种子快速筛选及分级具有重要的参考价值。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|