高光谱成像技术结合机器学习的稻米霉变检测
李斌, 苏成涛, 殷海, 刘燕德*
华东交通大学智能机电装备创新研究院, 江西 南昌 330013
*通讯作者 e-mail: jxliuyd@163.com

作者简介: 李 斌, 1989年生, 华东交通大学智能机电装备创新研究院讲师 e-mail: libingioe@126.com

摘要

稻米霉变会引起营养物质流失, 同时产生有毒物质, 不仅降低其自身品质, 还会感染其他正常稻米。 为减少霉变引起的稻米损耗, 需及时分离霉变稻米。 高光谱技术具有快速、 无损的特点, 因此, 尝试利用高光谱技术对稻米霉变情况进行检测。 发芽稻米与发霉稻米具有相似的光谱特征, 易被误判为发霉稻米, 影响后续稻米霉变程度的检测, 因此, 提出利用高光谱技术结合多种预处理及判别模型区分发芽稻米与发霉稻米, 并对不同霉变程度的稻米进行判别。 将正常、 发芽、 发霉和发芽发霉的稻米样本建立模型进行区分检测, 并对轻度、 中度、 重度和完全发霉的稻米样本进行判别。 利用高光谱采集仪器对正常、 发芽、 发霉和发霉发芽的稻米样本进行光谱图像采集, 提取采集图像感兴趣区域(ROI)的光谱, 以ROI内光谱的平均反射率作为稻米样本的光谱特征。 对提取的光谱数据进行SNV、 Normalize和MSC等预处理; 利用KS算法将样本以1:3的比例均匀地划分为用于验证模型效果的预测集和建立光谱与样本关系的建模集; 分别建立PLSR、 SVM和RF模型, 以3种模型的预测集正确率评价各模型预测效果, 挑选出效果最优的判别模型。 在正常、 发芽、 发霉和发芽发霉稻米的检测中, 得到最优的判别模型为基线校正法预处理后的随机森林(Baseline-RF)模型, Baseline-RF模型的预测集判别准确率为100%; 在稻米霉变程度的检测中, 通过对不同模型的预测结果进行比较得出, SNV-RF模型的预测集中未出现误判样本, 表现出最优的判别效果。 为简化模型, 在冗长的原始光谱中提取特征波长, 以特征波长光谱建立SNV-RF模型, 结果显示利用CARS算法挑选后的特征波长具有较好的判别能力, 整体的判别准确率为97.5%。 实验结果显示高光谱技术结合CARS-SNV-RF模型能够快速准确地判别稻米的霉变程度, 为霉变稻米的快速判别提供一定的理论基础和实验参考, 对提高稻米品质、 减少稻米浪费具有重要意义。

关键词: 高光谱技术; 波段筛选; 稻米霉变; 快速检测
中图分类号:O433.4 文献标志码:A
Hyperspectral Imaging Technology Combined With Machine Learning for Detection of Moldy Rice
LI Bin, SU Cheng-tao, YIN Hai, LIU Yan-de*
School of Intelligent Electromechanical Equipment Innovation Research Institute, East China Jiaotong University, Nanchang 330013, China
*Corresponding author
Abstract

Rice mold can cause nutrient loss and produce toxic substances that reduce its quality and infect other normal rice. In order to reduce the loss of rice caused by mold, moldy rice needs to be separated promptly. Hyperspectral technology is fast and nondestructive, so an attempt was made to detect rice mold using hyperspectral technology. Germinated rice and moldy rice have similar spectral characteristics and are easily misidentified as moldy rice, which affects the subsequent detection of rice mold degree. Therefore, it is proposed to use hyperspectral techniques combined with various pre-processing and discrimination models to distinguish germinated rice from moldy rice and to discriminate rice with different mold degrees. Sound, sprouted, moldy and germinated moldy rice samples were modeled to differentiate and detect mild, moderate, heavy and completely moldy rice samples. The spectral images of sound, germinated, moldy and mildewed rice samples were acquired using a hyperspectral acquisition instrument to extract the spectra in the region of interest (ROI) of the acquired images, and the average reflectance of the spectra within the ROI was used as the spectral characteristics of the rice samples. Pretreatment of the extracted spectral data with SNV, Normalize and MSC. The KS algorithm is used to divide the samples evenly in a ratio of 1:3, into a prediction set for validating the effect of the model and a modeling set for establishing the relationship between the spectra and the samples. The PLSR, SVM and RF models were developed respectively, and the prediction effect of each model was evaluated by the prediction set correctness of the three models, and the discriminative model with the best effect was selected. In detecting sound, germinated, moldy and germinated moldy rice, the optimal discriminatory model was obtained as a random forest (Baseline-RF) model after pre-treatment by the baseline correction method. The discriminatory accuracy of the prediction set of the Baseline-RF model was 100%. In detecting rice mold degree, a comparison of the prediction results of different models showed that the SNV-RF model showed the optimal discriminative effect with no misclassified samples in the prediction set. The characteristic wavelengths were extracted from the lengthy original spectra to simplify the model, and the SNV-RF model was established with the spectra under the characteristic wavelengths. The results showed that the characteristic wavelengths selected using the CARS algorithm had good discriminative ability, and the overall discriminative accuracy was 97.5%. The experimental results show that the hyperspectral technique combined with the CARS-SNV-RF model can quickly and accurately discriminate the degree of moldy rice, which provides a certain theoretical basis and experimental reference for the rapid discrimination of moldy rice and is of great significance for improving the quality of rice and reducing the waste of rice.

Keyword: Hyperspectral technology; Waveband selection; Rice moldy; Rapid detection
引言

稻米是我国基本的主食之一, 是解决温饱的保障, 在日常饮食中能为人体提供生命活动所需要的碳水化合物和蛋白质等, 具有极高的营养价值。 科学技术的发展促进稻米产量增加; 由于自然条件等约束, 稻米产量不会无限制增加; 同时, 稻米成熟后会经历收割、 储藏和运输等过程, 其中由于储藏条件不适等原因引起的稻米发霉是造成浪费的一个重要原因[1]。 发霉的稻米不仅损害其自身品质, 还将感染与之一起贮藏的正常稻米, 稻米霉变对稻米的质量和数量所造成的损失都是巨大的。 因此, 将霉变稻米与正常稻米进行判别分选, 以及将不同霉变程度的稻米进行判别, 挑选出的轻度霉变稻米加工制成家禽饲料, 以提升稻米的整体品质, 同时也是响应反对粮食浪费战略的一个重要举措[2]

目前, 针对稻米品质的检测方法中, 主流的检测方法为人工分选。 依靠人工感官进行判别挑选的方法误差大、 效率低, 尤其是霉变早期的稻米与正常稻米未表现出显著差异, 使得分辨难度加大。 近年来, 多种检测技术被应用于农产品的快速检测, Li[3]等利用太赫兹(tera hertz, THz)技术对稻米样本进行检测, 建立支持向量机模型区分掺假稻米, 在预测集中达到97.33%的预测准确率; 谷航[4]等通过基于主成分分析(pricipal component analysis, PCA)算法的气相-离子迁移谱联用技术(gas chromatography-ion mobility spectrometry, GC-IMS)对大米霉变程度进行区分, 结果显示GC-IMS联用技术在大米不同霉变程度的检测中具有一定的可行性; Alessandra Biancolillo等[5]通过基于偏最小二乘判别分析(PLS-DA)的近红外光谱技术对大米虫害现象进行了有效的识别和预测; 谢为俊[6]等利用机器视觉技术对不同品质的胡萝卜进行分选, 分选的总体识别率为94.91%, 具有较好的分选效果。 上述技术在实现快速检测的同时存在诸多缺点, 太赫兹设备价格昂贵, 检测时间长, 受温度, 湿度等环境因素影响较大[7]。 GC-IMS技术无法直接进行定量分析, 需要对检测样品的信号与已知的纯样品信号进行校正, 缺乏详尽的GC-IMS数据库, 操作难度大、 要求高; 近红外光谱技术检测准确率较低, 灵敏度较差, 建模难度大[8]

高光谱技术逐渐被应用于农产品的品质检测, 并表现出了更高效、 准确等优点。 Jiang[9]等利用高光谱检测草莓的炭疽病和灰霉病, 对病变早期的草莓具有较好的识别效果; 康丽[10]等通过高光谱成像技术对水稻的稻瘟病进行检测, 并建立CARS-PCA-SVM模型, 结果显示高光谱技术在水稻的稻瘟病检测中具有良好的判别效果; Debnath[11]等利用高光谱提取到的平均反射率等特征建立支持向量机(SVM)分析模型, 成功识别出健康和缺乏营养的葡萄叶片。 以上研究方法及实验结果表明高光谱技术以其高效、 准确的特点应用到霉变稻米的快速判别具有一定的可行性[12, 13]

在进行稻米的霉变检测时, 发芽稻米的存在将对检测准确率产生影响。 因此, 利用高光谱对稻米霉变进行检测, 必须排除发芽稻米对判别结果的影响。 采用不同预处理及分类模型, 通过预测集准确率确定最优的判别模型, 以期为高光谱应用于稻米霉变的快速检测提供一定的理论参考。

1 实验部分
1.1 仪器

稻米样本的高光谱图像用盖亚(Gaia Sorter)高光谱仪器采集, 该仪器由双利合谱公司生产, 其成像系统如图1所示。 调整镜头与样本之间的距离, 使得能够获得清晰的图像。 图像采集系统置于暗箱内, 以减少外部光源对实验结果产生的不利影响, 稻米样本放置于载物台, 在传送带的带动下, 匀速穿过图像采集区域, 高光谱采集仪持续的采集图像, 最终获得一个包含光谱和图像信息的三维数据体。

图1 高光谱采集装置Fig.1 Structure of hyperspectral imaging system

1.2 样本制备

实验所用的稻米品种为南粳2728号, 是一种粳型常规稻米, 产自江苏省淮北地区。 挑选大小均匀, 颗粒饱满的稻米, 取部分样本放入30 ℃恒温浴仪器中保存。 待稻米发芽后, 取部分发芽稻米制成发芽样本, 将剩余发芽的稻米进行发霉培养。 同时取剩余部分的稻米放入烧杯中, 用浸湿的棉纱布将烧杯杯口裹住后进行恒温水浴, 并且每间隔12 h将棉纱布重新浸湿一次, 保证稻米发生霉变所需要的湿度, 以促进稻米的霉变过程。 对发芽后的稻米采取上述操作方法制备发芽发霉样本。

在霉变培养过程中, 稻米的表面发生一系列变化: 第2天, 稻米的表面出现黑斑; 第4天, 稻米表面开始出现细长绒毛; 第8天, 稻米开始出现霉变迹象; 第10天, 稻米完全霉变。 由直观观测得出, 随着发霉时间的增加, 稻米霉变程度逐渐加重。 以稻米发霉的天数描述发霉程度, 发霉第2、 4、 8和10天的稻米分别定义为轻度、 中度、 重度和完全霉变。 样本制备过程: 将培养完成的稻米放在烘干箱中烘干, 时间设置为4 h; 将烘干后的稻米粉碎、 研磨, 使其能够通过200目的细筛; 将得到的细粉末继续烘干2 h; 称取150 mg稻米细粉末, 通过1.5T手动液压机进行压制30 s, 制成直径为10 mm的圆形稻米样本。 正常、 发芽、 发霉和发芽发霉稻米样本, 轻度、 中度、 重度和完全霉变的稻米样本各制备40个。

1.3 图像采集与校正

首先将高光谱仪器预热30 min, 然后进行光谱采集, 以减少由基线漂移引起的采集误差。 将制备好的稻米样本放置于高光谱采集仪的移动平台, 通过SpectralVIEW软件设定曝光时间20 ms, 进给和回退速度为18和20 mm· s-1

校正采集到的高光谱图像以减少由光源分布不均等因素引起的实验误差。 首先调整好高光谱仪器的各项采集参数, 并使之与样品图像采集的参数保持一致, 在高光谱镜头上安装好镜头盖, 采集一张全黑的光谱图像; 采集一张聚四氟乙烯白板的图像, 并利用两张黑白图像对实验样本的原始图像进行校正, 经过公式计算得到校正后的参比, 校正标定如式(1)。

Rλ=Iλ-HλBλ-Hλ(1)

式(1)中, Rλ 为标定后的样本图像采集数据, Hλ 为全黑色图像采集数据, Bλ 为全白色图像采集数据, Iλ 为原始的样本图像采集数据。

1.4 光谱提取

对光谱图像进行光谱特征提取通过ENVI 4.5软件完成, 首先载入真彩色图像, 然后在真彩色图像中选取25× 25像素的矩形区域为感兴趣区域(ROI), 最后选择ROI内光谱的平均反射率作为该样本的光谱特征。 正常、 发芽、 发霉和发霉发芽稻米样本共获得160个实验样本的光谱数据; 轻度、 中度、 重度和完全霉变的稻米样本, 共得到160个稻米不同霉变程度的光谱数据。

1.5 光谱预处理

光谱采集时的杂散光、 背景光和电磁噪声等因素会使采集到的光谱出现异常波动, 加大实验误差, 因此在建立模型之前, 对数据进行预处理是必要和有效的。 光谱预处理的基本思想是将原始光谱进行标准化或者均值化, 减小无效和噪声信息对实验结果造成的误差。 预处理的方法包括基线校正(Baseline)、 标准归一化变量(SNV)、 归一化处理(Normalize)、 多元散射校正(MSC)和SG平滑(SG)。

1.6 光谱数据处理及特征筛选

将预处理过后的光谱数据利用Kennard-Stone(KS)算法进行分类, KS算法的基本思想是实验样本在特征空间中基于变量间的欧式距离均匀的被选取。 选取时, 将每种类别的样本按照1:3的比例划分为用于验证建模效果的预测集和用于训练模型的建模集。

全波段光谱中冗杂的光谱信息限制了模型判别的速度, 利用原始光谱中挑选出来的特征波长建立简化分析模型, 以实现快速检测的思想。 本研究采用连续投影(SPA)与竞争性自适应重加权采样(CARS)两种算法挑选特征波长并评价挑选效果。

2 结果与讨论
2.1 发霉稻米的判别分析

2.1.1 样本的光谱特征

高光谱图像的平均反射率如图2所示, 正常和霉变稻米反射率平均值的变化具有相似的趋势。 正常与发霉稻米样本的光谱反射率存在差异, 由图2可知, 正常样本具有最高的反射率, 其次是发霉样本, 最后是发霉发芽样本和发芽样本。 反射率不同可能是由稻米中蛋白质含量的差异[14]。 稻米发芽会造成谷蛋白质的含量随着稻米发芽程度增加而降低, 从而稻米的品质受到严重影响[15]; 稻米发霉是由于受到细菌或真菌的影响, 产生黄曲霉毒素等有毒物质, 同时稻米蛋白质的含量也会随霉变时间的加长而降低, 与实验结果较为吻合。

图2 正常、 发芽、 发霉和发霉发芽稻米的光谱对比图Fig.2 Spectral reflectances of normal, sprouting, moldy and moldy sprouting rice samples

2.1.2 光谱建模结果评价

利用原始光谱以及SNV、 Normalize、 Baseline、 SG平滑和MSC预处理后的光谱分别建立PLSR、 SVM和RF模型。 如表1所示, 基于原始光谱数据建立的PLSR、 SVM和RF模型, PLSR模型的预测正确率为75%, SVM模型与RF模型的预测正确率为90%, 显示出了较好的判别效果, 但是三种模型仍存在错误判断的情况; 经过SNV、 Normalize、 MSC、 SG平滑、 Baseline预处理后建立的PLSR、 SVM和RF模型, 预测准确率均有所提高。

表1 PLSR、 SVM和RF模型对霉变稻米预测的正确率(%) Table 1 Prediction correctness of PLSR, SVM and RF models for moldy rice samples(%)

PLSR、 SVM和RF模型中最优的预测结果如图3所示, 样本1、 2、 3和4分别代表正常、 发芽、 发霉和发芽发霉稻米。 如图3(a)所示, PLSR模型对正常稻米有3例误判, 对发芽稻米有2例误判; 如图3(b)所示, SVM模型对正常稻米有2例误判, 对发霉稻米有3例误判; 如图3(c)所示, 使用Baseline方法预处理后建立的RF预测模型误判的个例为0, 表现出优秀的判别能力。 长春理工大学物理学院张瀚文等利高光谱技术对4个产地、 3种品质的大米进行泛化可视判别, 结果显示预测集精度为94.84%。

图3 (a), (b), (c)分别为PLSR、 SVM和RF模型最优预测结果图Fig.3 (a), (b), (c) are the optimal prediction results of PLSR, SVM and RF models

相较原始光谱建立的模型, 光谱预处理之后建立的模型稳健性和预测能力都有了明显提高。 RF模型整体具有较高的预测正确率, 通过对RF模型的建模原理分析可知, 以输入的160个样本构建RF模型, 在训练样本时, 进行有放回的抽样检测, 抽取120次作为建模集。 选择39个特征数目, 用于确定一个节点的结果, 然后利用未抽到的40个样本作为预测集。 RF模型进行数据处理时的精确度可以不受样本数量限制, 并且在处理类别区分时, RF模型可以平衡误差, 能够对一般化后的样本误差做一个无偏差的估计。

2.2 稻米霉变天数的定性分析

2.2.1 稻米样本的光谱特征

不同霉变天数稻米的高光谱反射率的平均值图像如图4所示。 轻度、 中度、 重度和完全霉稻米的光谱反射率最大值依次降低, 原因可能是随着霉变的加剧, 稻米本身的蛋白质持续消耗减少。

图4 不同霉变天数下稻米的光谱对比Fig.4 Spectra of rice samples moldedfor different days

2.2.2 全波段光谱特征建模结果

将获得的原始光谱分别进行SNV、 Normalize、 SG平滑和MSC预处理, 然后建立的PLSR、 SVM和RF模型对稻米轻度、 中度、 重度和完全霉变预测准确率如表2所示, RF模型表现出较好的预测效果, 基于SNV预处理的RF模型在判别中出现误判的个数为0, 预测集准确率为100%, 表现出了最佳的判别能力。

表2 不同程度霉变稻米PLSR、 SVM和RF预测准确率(%) Table 2 Prediction accuracy of PLSR, SVM and RF for rice samples with different moldy degrees(%)

其中, 不同预处理后PLSR、 SVM和RF模型中最优的判别结果如图5所示, 类别1、 2、 3和4分别代表轻度、 中度、 重度和完全霉变。 如图5(a)所示, PLSR模型在轻度、 中度、 重度和完全霉变中分别出现4、 2、 2和2个误判样本; 如图5(b)所示, SVM模型在轻度、 中度、 重度和完全霉变中分别出现2、 6、 2和0个误判样本; 如图5(c)所示, RF模型未出现误判样本。

图5 (a)、 (b)、 (c)分别为不同霉变程度稻米的PLSR、 SVM和RF最优判别结果Fig.5 (a), (b) and (c) are the optimal discrimination results of PLSR, SVM and RF for rice samples with different moldy levels, respectively

2.2.3 特征波长建模结果

CARS算法提取光谱的特征波长是基于最小交互均方根误差(RMSECV), 在RMSECV为最小值0.411 9时, 采样次数为213次, 此时对应挑选特征波长的数量为26个。 SPA算法基于不同样本子集的多元线性回归模型的交互均方根误差(RMSECV)对原始光谱提取特征波长; 通过SPA和CARS算法, 分别挑选出了18个和26个特征波长, 得到的特征波长如表3所示。

表3 基于SPA和CARS的特征波长(nm) Table 3 Characteristic wavelengths selected by SPA and CARS (nm)

2.2.4 特征波长建模及评价

特征波长建立的SPA-RF和CARS-RF简化模型预测准确率如表4所示。 基于SPA特征波长建立的RF模型对轻度和中度霉变稻米判别的正确率为50%, 整体判别率仅为65%, 判别准确率较低。 基于CARS算法挑选的特征波长建立的RF模型对轻度霉变稻米的判别正确率为90%, 整体判别准确率为97.5%, 显示模型具有较高的判别准确率。

表4 特征波长建立的RF模型预测准确率(%) Table 4 Prediction accuracy of RF models based on characteristic wavelengths(%)

利用CARS算法挑选的特征波长建立RF模型, CARS-RF模型判别结果如图6所示, 仅在轻度霉变稻米的判别中出现1例误判, 误判为中度稻米, 中度、 重度和完全霉变稻米均未出现误判, 显示出较好的判别效果。 通过CARS-RF模型预测准确率的结果可知, 基于CARS筛选后的特征波长基本保留了样本的关键信息, 进行分析建模的光谱仅占原始光谱的16.3%, 建模分析的速度得到提高。

图6 CARS-RF建模预测集结果Fig.6 Prediction results of CARS-RF modeling set

3 结论

获得了正常稻米、 发芽稻米及不同霉变程度稻米的高光谱数据, 并提取不同样本的光谱反射率, 最后利用原始光谱及特征波长筛选后的光谱建立PLSR、 SVM和RF判别模型, 判别正常稻米、 发芽稻米和不同霉变程度的稻米。 通过对3种模型的判别结果分析得知: (1)在鉴别正常与发霉稻米的检测中, 进行Baseline预处理后的光谱建立的RF模型, 结果正确率由90%提升至100%, 具有最佳的判别效果。 (2)对不同霉变程度的稻米判别中, SNV-RF模型显示出了最佳的判别能力; 为提高模型分析速度, 利用CARS挑选的特征波长建立SNV-RF模型, 对稻米霉变程度的预测正确率为97.5%, 显示出较好的判别能力。 由各模型的预测效果可知, RF模型对稻米的霉变检测具有更好的判别效果, 基于高光谱技术对正常、 发霉、 发芽、 发霉发芽稻米进行区分和对不同霉变程度的稻米进行判别具有一定的可行性, 为霉变稻米的快速检测提供了一定的理论基础和实验参考。

参考文献
[1] SHI Shao-long(石少龙)). China Rice(中国稻米), 2020, 26(1): 6. [本文引用:1]
[2] YANG Dong-xia, HAN Jie, WANG Qiao, et al(杨东霞, 韩洁, 王俏, ). World Agriculture(世界农业), 2021, (6): 62. [本文引用:1]
[3] Li Chao, Li Bin, Ye Dapeng. IEEE Access, 2020, 8: 26839. [本文引用:1]
[4] GU Hang, CHEN Tong, CHEN Ming-jie, et al(谷航, 陈通, 陈明杰, ). Journal of the Chinese Cereals and Oils Association(中国粮油学报), 2019, 34(9): 118. [本文引用:1]
[5] Biancolillo A, Firmani P, Bucci R, et al. Microchemical Journal, 2019, 145: 252. [本文引用:1]
[6] XIE Wei-jun, WEI Shuo, WANG Feng-he, et al(谢为俊, 魏硕, 王凤贺, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2020, 51(S1): 450. [本文引用:1]
[7] Hwang Y H, Noh Y H, Seo D, et al. Bulletin of the Korean Chemical Society, 2015, 36(3): 891. [本文引用:1]
[8] CHU Xiao-li, CHEN Pu, LI Jing-yan, et al(褚小立, 陈瀑, 李敬岩, ). Journal of Instrumental Analysis(分析测试学报), 2020, 39(10): 1181. [本文引用:1]
[9] Jiang Qiyou, Wu Gangshan, Tian Chongfeng, et al. Infrared Physics and Technology, 2021, 118: 103898. [本文引用:1]
[10] KANG Li, YUAN Jian-qing, GAO Rui, et al(康丽, 袁建清, 高睿, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(3): 898. [本文引用:1]
[11] Debnath Sourabhi, Paul Manoranjan, Motiur Rahaman D M, et al. Remote Sensing, 2021, 13(16): 3317. [本文引用:1]
[12] HE Fu-xian, MENG Qing-hua, TANG Liu, et al(何馥娴, 蒙庆华, 唐柳, ). Journal of Fruit Science(果树学报), 2021, 38(9): 1590. [本文引用:1]
[13] WU Yong-qing, LI Ming, ZHANG Bo, et al(吴永清, 李明, 张波, ). Journal of the Chinese Cereals and Oils Association(中国粮油学报), 2021, 36(5): 165. [本文引用:1]
[14] SUN Jun, JIN Hai-tao, LU Bing, et al(孙俊, 靳海涛, 芦兵, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2019, 35(15): 295. [本文引用:1]
[15] QIU Shi, WEI Ping-yang, WEI Hai-yan, et al(裘实, 卫平洋, 魏海燕, ). Jiangsu Journal of Agricultural Sciences(江苏农业学报), 2019, 35(3): 523. [本文引用:1]