基于高光谱技术融合图像信息的脱绒棉种品种分类检测研究
黄蒂云, 李景彬*, 尤佳, 坎杂
石河子大学机械电气工程学院, 新疆 石河子 832000
*通讯联系人  e-mail: ljb8095@163.com

作者简介: 黄蒂云, 1992年生, 石河子大学机械电气工程学院硕士研究生 e-mail: hdyshz@163.com

摘要

开展种子品种的识别研究是保证种子质量的重要手段。 利用高光谱图像技术融合图像特征信息对脱绒棉种的品种进行判别分析。 采集4个品种共240粒脱绒棉种样本的高光谱图像数据(400~1 000 nm), 提取样本的光谱信息及长、 宽、 面积、 圆形度、 等12个形态特征。 采用连续投影算法(SPA)选出11个特征波段作为输入结合偏最小二乘判别分析法(PLS-DA)、 软独立模式识别法(SIMCA)、 最邻近节点算法(KNN)、 主成分分析结合线性判别(PCA-LDA)及二次判别(PCA-QDA)进行建模分析, 得出PLS-DA建模集和预测集的总体识别率分别为93%和90%。 利用图像信息进行建模分析, 模型整体的识别率均不高, 说明单独使用高光谱图像的形态特征进行分类效果不佳。 将特征波段的光谱和形态特征信息进行融合作为输入, 建立基于PLS-DA, SIMCA, KNN, PCA-LDA及PCA-QDA的信息融合模型, 其精度均比基于光谱或形态信息模型高, 其中PLS-DA模型识别效果最好, 建模集和预测集总体识别率分别为98%和97%。 表明融合高光谱图像的光谱与图像信息可以在少量波段情况下有效的提高脱绒棉种品种的分类检测精度。

关键词: 高光谱成像; 脱绒棉种; 分类; 信息融合
中图分类号:S561 文献标志码:A
The Classification of Delinted Cottonseeds Varieties by Fusing Image Information Based on Hyperspectral Image Technology
HUANG Di-yun, LI Jing-bin*, YOU Jia, KAN Za
College of Mechanical and Electrical Engineering, Shihezi University, Shihezi 832000, China
*Corresponding author
Abstract

Study on identification of seed varieties is an important means of ensuring seed quality. The paper uses hyperspectral image technology and fusing image feature to identify different varieties of delinted cottonseeds. Hyperspectral image data (400~1000nm) of 4 types a total of 240 delinted cottonseeds samples were acquired. In addition, the spectral information and 12 morphological characteristics such as length width area,and circularity were extracted. Moreover, 11 effective wave-lengths(EWs) were to be selected by successive projection algorithm(SPA). And then 11 EWs of the calibration set were used as input to build a partial least quares discriminant analysis(PLS-DA),soft independent modeling of class analogy(SIMCA),K-nearest neighbor algorithm(KNN),principal component analysis was combined with linear discriminant analysis (PCA-LDA) and quadratic discriminant analysis (PCA-QDA) were used to build models. The results showed that the total identification rate of the PLS-DA model were 93% for the calibration set and 90% for the prediction set, respectively. When using image information modeling analysis,the overall recognition rate of the model is not high,which showed that the effect of classification is not good when only using morphological characteristics of hyperspectral images. Then,we fused the spectral and morphological information of the feature band as input,and established the data fusion model based on the analysis of PLS-DA,SIMCA,KNN,PCA-LDA and PCA-QDA. It suggested that the data fusion model showed better performance than the individual image model and spectral model,PLS-DA model had the best recognition effect,the overall recognition rate of calibration set and prediction set was 98% and 97% respectively. The experimental results indicated that fusing the spectral and image information of hyperspectral images could effectively improved discrimination accuracy for delinted cottonseeds at the case of a small amount of wavebands.

Keyword: Hyperspectral image; Delinted cottonseeds; Classification; Data fusion
引 言

我国棉花种植面积比较大, 杂交种发展迅速, 品种层出不穷, 多、 乱、 杂的现象十分普遍。 混合多品种的棉花加工, 会导致皮棉一致性差, 对纺织企业的影响较大, 从而给棉农和棉花生产商带来严重的经济损失。 传统的农作物种子检测法如幼苗鉴定法、 田间小区鉴定法、 蛋白质电泳法及DNA分子标记法[1]等有鉴别时间较长、 工序复杂及费用高等缺点[2], 因此急需研究出一种安全、 高效的脱绒棉种品种鉴别方法。

机器视觉技术是随着信息技术的发展而产生的一种检测方法, 已被逐渐运用到农产品品质检测中。 邵鲁浩等[3]使用机器视觉技术提取出脱绒棉种的14个形态特征实现了脱绒棉种的品种判别。 然而随着棉花品种的不断增多, 导致种子之间的外观性状特征差异缩小, 仅利用棉种的外观特性很难将种子区分开来。

商连光等[4]利用近红外光谱技术对棉籽的含油量进行测定, 徐鹏等[5]使用近红外光谱对棉籽中的油粉和蛋白质含量进行预测。 但该技术, 有受样品均匀性、 环境影响较大的缺点, 对水及温度的变化较敏感, 适用于特定条件下的样品性质分析, 所建模型受环境的影响大, 稳健性较差。

高光谱成像技术是近些年发展起来的新技术, 它涵盖了光谱技术和图像技术两种检测方法。 目前该技术在种子品质无损检测方面应用十分广泛, Barbedo等[6]利用高光谱成像技术对赤霉病的小麦籽粒进行检测; Singh等[7]则对小麦籽粒内的吸浆虫进行检测; Han等[8]对大豆种子中高油酸的含量进行测定; Tan等[9]对大豆种子进行分类检测; Hai[10]和Deng[11]对水稻品种进行分类研究; Huang等[12, 13]对玉米的产地和品种进行识别研究。 上述研究结果表明, 利用高光谱对种子进行分类研究是可行的。

本文使用高光谱成像技术, 比较了光谱特征及形态特征对分类精度的影响, 采用光谱和形态特征融合法对脱绒棉种的品种进行识别。 主要研究内容有: (1)建立基于光谱特征信息的分类模型; (2)建立基于形态特征信息的分类模型; (3)建立基于光谱和形态信息融合的分类模型。

1 实验部分
1.1 样本

实验样本采用石河子天佐种子机械有限公司提供的710、 新陆早41、 新陆早50及新陆早57。 选取形态相似, 外部无缺陷的种子作为样本, 每个品种选60粒, 共240粒。

1.2 高光图像采集与校正

高光谱采集系统如图1所示, 主要由光源(150 W)、 相机、 镜头、 光谱仪、 电移平台控制器、 和电移平台、 暗箱, 高光谱采集软件、 计算机等组成。 高光谱采集的波长范围为400~1 000 nm共953个波段, 光谱分辨率为2.8 nm。 经多次调试, 设置曝光时间为12.5 ms, 物距为30 cm, 平台推移速度为1.25 mm· s-1

图1 高光谱图像采集系统Fig.1 Hyperspectral image acquisition system

为减小采集过程中光源分布不均及镜头中暗电流造成的噪声影响, 故在采集图像前进行黑白校正[14], 公式如下

I=I0-BW-B×100%(1)

其中W全白反射标定图像, B为全黑标定图像, I0为原始采集的图像, I为标定后的图像, 图2为710棉种在459, 549及639 nm波段下采集的高光谱图像。

图2 710在459, 549及639 nm波段下的高光谱图像Fig.2 The hyperspectral images of 710 at wavebands 459, 549 and 639 nm

1.3 光谱特征参数的提取及预处理

采用ENVI4.6对单粒棉种样本进行感兴趣区域(ROI)的提取, 共提取出240个ROI, ROI内所有像素点光谱平均值为其光谱反射值。 将提取出的光谱数据保存在240× 953的矩阵中(240为样本数, 953为波段数), 进而对脱绒棉种的光谱特征曲线进行分析, 去除棉种光谱中噪声明显的波段, 选择450~1 000 nm(波段70~953)的数据进行分析, 对450~1 000 nm的光谱数据采用SG卷积平滑(七点二次)进行预处理, 平滑后的曲线如图3所示。

图3 SG平滑后的光谱曲线Fig.3 Spectral curves after SG smoothing

1.4 图像特征参数的提取

基于区域的主动轮廓模型主要利用曲线演化和水平集方法, 把二维的演化曲线表示成三维的水平集函数, 水平集函数在演化方程的控制下, 直到演化曲线到达目标边界为止。 该算法有不受光照和噪音影响的优势, 对在多目标、 弱边界等复杂的图像有较好的分类效果[17]。 本文采用基于区域主动轮廓模型结合水平集的方法来实现棉种的背景分割。

图4是710棉种在459, 549及639 nm波段下经过400次迭代获得的棉种轮廓图像。 由图4可知主动轮廓模型可以较好的分割出棉种的轮廓曲线, 为后续棉种的形态特征参数的提取提供了保证。

图4 710在459, 549及639 nm波段下分割的图像Fig.4 Segmentation images of 710 at 459, 549, 693 nm

由于脱绒棉种表皮比较光滑, 纹理特征不显著, 故主要提取棉种的形态特征。 利用数字图像处理方法根据棉种的分割图(图4)提取出每粒棉种的长轴、 短轴、 面积、 周长、 离心率、 当量直径、 长宽比、 圆形度、 矩形度、 内切圆半径、 离散度和紧凑度等12个形态特征参数[16]

1.5 特征波段的选取

由于实验采集的高光谱反射图像波段数目较多, 波段之间的相关性及冗余程度较大, 为保证模型的预测速度和精度, 需进行光谱特征变量的筛选。 采用连续投影算法(SPA)对光谱变量进行特征波段的选取, 该算法可有效的筛选出重要的波长点, 以提高模型的效率和精度。

1.6 分类建模方法

采用偏最小二乘判别分析法(PLS-DA)、 主成分判别分析法(PCA-DA)、 软独立模式识别法(SIMCA)及最邻近节点算法(KNN)建立脱绒棉种的分类识别模型。 在使用PLS-DA建模分析时, 根据交互验证选取隐含变量个数。 在采用SIMCA进行建模分类时, 每个PCA分类子模型的最佳主成分数可通过交叉验证技术以预测残差平方和(prediction error sum of squares, PRESS)进行判断, 即选取预测残差平方和(PRESS)不再显著降低时对应的主成分数目。 在进行建模分析时, 将240粒棉种, 按2:1比例随机选取建模集和预测集, 建模集共160粒, 每类40粒, 预测集共80粒每类20粒。

2 结果与讨论
2.1 基于光谱特征信息的脱绒棉种品种分类

对4类样本的建模集光谱数据进行主成分分析(PCA), 得出PC1的贡献率为88.89%, PC2的贡献率为8.45%, PC1和PC2的累积贡献率为97.3%, 能够解释绝大部分的变量, 图5为 PC1和PC2的得分分布图。 由图5可知, 新陆早41和新陆早57, 能够很清楚的区分开来, 新陆早50和新陆早41及新陆早57均有部分交叉, 710分布的较散乱, 和其他3类均有交叉, 很难将其完全区分, 故需对棉种的光谱数据做进一步处理, 以准确识别出棉种品种。

图5 PC1和PC2的得分散点图Fig.5 Scores scatter plot of PC1 and PC2

使用4类棉种全光谱数据(450~1 000 nm)及特征波段下的数据进行建模分析, 建立基于光谱特征信息的脱绒棉种品种分类模型。 特征波段的选取采用SPA算法, 设置SPA算法选择特征波长数的范围为5~30, 根据RMSE最小原则选取特征波长集合。 RMSE结果如图6所示, 当波段数目为11时, 曲线已经趋于水平, 此时RMSE=0.476 73接近最小值。 选取11个特征波长, 按其贡献率依次排为: 1 011, 995, 909, 846, 1 012, 982, 646, 740, 694, 1 002, 483 nm。

图6 SPA选出的特征波段数Fig.6 The number of EWs selected by SPA

对全部光谱数据进行建模分析, 采用PLS-DA, SIMCA, KNN, PCA-LDA及PCA-QDA建立判别模型, 模型的识别效果如表1所示。

表1 全波段下模型的判别结果 Table 1 Discriminant results of the models using full spectra

PLS-DA模型的隐含变量数(latent varibles, LVs)为9, KNN采用10折交互, PCA-LDA及PCA-QDA模型均采用前9个主成分进行判别分析。 其中PCA-QDA模型取得了最佳的识别效果, 建模集的正确识别率为97%, 预测集的正确识别率为96%。 其次是PLS-DA模型, KNN的分类效果较差, 是因为样本的空间复杂性高, 单个样本太少, 容易发生误分。

对特征波段下的光谱数据进行建模分析, 模型的识别效果如表2所示。

表2 用特征波长的模型判别结果 Table 2 Discriminant results of the models using EWs information

在用特征波长的光谱数据进行建模时, 比全光谱数据模型的正确识别率略有下降, 但总体差别不大, 说明特征波段中包含了大量、 有效的光谱信息, 其中SIMCA和KNN模型的识别率有所提高, 说明特征波长与主成分的相关性增强。 以上结果表明利用高光谱的光谱特征信息对棉种品种进行判别是可行的。

2.2 基于形态特征信息的脱绒棉种品种分类

为了探究高光谱图像中种子形态特征对棉种品种分类的影响, 对提取出的形态特征参数进行分析。

图7和图8分别是710和新陆早50棉种的面积分布图, 及710和新陆早57棉种的长宽比分布图, 由图可知, 710比新陆早50籽粒的个头要小, 外形比新陆早57籽粒要细长, 710与新陆早3类在外观形态上有一定的差异。

图7 710和新陆早50的面积分布图Fig.7 Area distributions of 710 and Xin Luzao 50

图8 710和新陆早57的长宽比分布图Fig.8 Aspect ratio distributions of 710 and Xin Luzao 57

图9和图10分别是新陆早41、 新陆早57及新陆早50籽粒的面积分布图及籽粒的长宽比的分布图, 由图可知新陆早系列3类在籽粒的面积及长宽比方面重叠的较多, 在外观形态方面差异不大。 因此在仅使用棉种的外观形态对新陆早3类进行分类时, 分类效果可能不太理想。

图9 新陆早3类的面积分布图Fig.9 Area distributions of three kinds of Xin Luzao

图10 新陆早3类的长宽比布图Fig.10 Aspect ratio distributions of three kinds of of Xin Luzao three classes

对棉种的12个形态特征参数进行建模分析, 模型识别效果如表3所示。

表3 形态特征下模型的判别结果 Table 3 Discriminant results of the models using morphological characteristics

表3可知在仅使用棉种的外观形态数据进行建模分析时, 模型的分类精度比使用光谱数据建模时均有下降, 原因是由于对4类棉种进行判别分析时, 新陆早3类棉种之间的外观形态差异较小, 影响了模型的分类精度。 以上结果表明高光谱的图像特征信息中包含一部分可用信息, 对棉种的分类有一定的影响, 但单一使用图像信息时分类效果不佳。

2.3 基于光谱和图像信息融合的脱绒棉种品种分类

将棉种11个特征波长下的平均反射光谱值与12个形态特征参数进行融合, 融合前对光谱和形状特征参数进行归一化处理, 以融合后的23维特征参数作为输入数据进行建模分析, 模型的识别效果如表4所示。

表4 特征融合下模型的判别结果 Table 4 Discriminant results of the models using feature fusion

表4可知在融合光谱及图像信息进行建模分析时, 模型的整体识别率均有提升, 这是由于在仅使用棉种的光谱特征信息时, 710与新陆早3类棉种信息交叉较大, 影响了模型的分类效果。 棉种的图像特征正好可以弥补空间信息的不足, 因此分类效果均有所提升。 单一的使用棉种的光谱或图像信息均不能达到较好的分类效果。 在上述模型中PLS-DA的分类效果最好, 训练集及预测集可达98%和97%, 说明融合棉种的光谱与图像特征在棉种品种识别方面是可行的。

3 结 论

基于高光谱成像技术, 利用高光谱的光谱及图像信息对脱绒棉种的品种进行识别研究, 融合光谱及图像信息结合特征波段, 建立了基于信息融合的棉种分类识别模型。 采集4类脱绒棉种的高光谱图像, 利用 SPA 算法选出11个特征波段, 采用基于主动轮廓模型提取出脱绒棉种的形态特征, 分别以全光谱、 特征光谱、 形态特征及光谱和形态的融合信息建立不同的判别分析模型。 结果表明: (1)单一的特征信息无法全面的反映不同品种性状间的差异, 不能较好的实现品种分类, 融合样本的光谱和图像信息可以提高模型的识别精度。 (2)特征波段结合图像信息可以有效提升提模型的识别率, 使用特征波段的光谱数据进行建模分析时, 得出PLS-DA模型的建模集和预测集的识别精度为93%及90%, 将其结合样本的形态特征信息进行建模分析, 得到PLS-DA模型的建模集和预测集的识别精度为98%及97%, 模型识别的速度与精度均有显著提升。 (3)由于本文采用400~1 000 nm的可见短波近红外高光谱图像, 光谱范围较小。 后续可对中长波近红外光谱进行研究, 以扩大光谱的研究范围; 仅采用了4类脱绒棉种, 品种类别较少, 今后可采用更多类型的品种。 在使用图像信息时, 仅利用了图像的形态信息, 未使用图像的颜色信息, 后续可挖掘更多的图像信息加以研究和利用。

The authors have declared that no competing interests exist.

参考文献
[1] WANG Li-jun(王立军). Seed Storage Processing and Inspection(种子贮藏加工与检验). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2009, 181. [本文引用:1]
[2] Wang L, Sun D W, Pu H, et al. Food Analytical Methods, 2016, 9(1): 1. [本文引用:1]
[3] SHAO Lu-hao, KAN Za, LI Jing-bin, et al(邵鲁浩, 坎杂, 李景彬, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2011, 27(S2): 86. [本文引用:1]
[4] SHANG Lian-guang, LI Jun-hui, WANG Yu-mei, et al(商连光, 李军会, 王玉美, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(3): 609. [本文引用:1]
[5] XU Peng, GUO Ting-ting, ZHANG Gui-xiang, et al(徐鹏, 郭婷婷, 张桂香, ). China Cotton(中国棉花), 2010, 37(1): 17. [本文引用:1]
[6] Barbedo J G A, Tibola C S, Fernand es J M C. Biosystems Engineering, 2015, (131): 65. [本文引用:1]
[7] Singh C B, Jayas D S, Paliwal J, et al. Journal of Stored Products Research, 2009, 45(3): 151. [本文引用:1]
[8] Han S I, Chae J H, Bilyeu K, et al. Journal of the American Oil Chemists’ Society, 2014, 91(2): 229. [本文引用:1]
[9] Tan K, Chai Y, Song W, et al. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(9): 235. [本文引用:1]
[10] Hai V, Tachtatzis C, Murray P, et al. Rich Seed Varietal Purity Inspection Using Hyperspectral Imaging, Hyperspectral Imaging and Applications Conference, Coventry, United Kingdom, 2016. [本文引用:1]
[11] Deng X, Zhu Q, Huang M. Laser & Optoelectronics Progress, 2015, (2): 122. [本文引用:1]
[12] Wang Q, Huang M, Zhu Q, et al. Journal of Food Science & Biotechnology, 2014, 33(2): 163. [本文引用:1]
[13] Yang S, Zhu Q B, Huang M, et al. Food Analytical Methods, 2017, 10(2): 424. [本文引用:1]
[14] SUN Jun, JIN Xia-ming, MAO Han-ping, et al(孙俊, 金夏明, 毛罕平, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2014, 30(10): 167. [本文引用:1]
[15] WEI Zi-fu, BI Du-yan, MA Shi-ping(危自福, 毕笃彦, 马时平). Journal of Data Acquisition and Processing(数据采集与处理), 2010, 25(3): 347. [本文引用:1]
[16] Majumdar S, Jayas D S. Transactions of the ASAE, 2000, 43(6): 1681. [本文引用:1]