高光谱图像特征结合光谱特征用于毛桃碰伤时间分类
欧阳爱国, 刘昊辰, 成龙, 姜小刚, 李雄, 胡宣
华东交通大学机电与车辆工程学院, 水果智能光电检测技术与装备国家地方联合工程研究中心, 江西 南昌 330013

作者简介: 欧阳爱国, 1968年生, 华东交通大学机电与车辆工程学院教授 e-mail: ouyang1968711@163.com

摘要

毛桃从果树上成熟到最后到达消费者手中, 中间需要经过采摘、 包装、 运输等一系列过程, 在每一个过程中都有可能产生碰伤果。 因此查看哪一个过程产生的碰伤果最多, 从而对加工过程进行针对性地改进就显得尤为重要。 纵观国内外高光谱技术在检测水果碰伤方面的应用, 绝大多数都是忽略图像特征而只使用了光谱特征, 基于图像特征结合光谱特征建模的少之又少。 其次在水果碰伤时间定性判别方面, 多以天数为间隔, 时间间隔较大意味着水果碰伤时间越久, 其变化越明显, 检测准确率也就越高, 目前尚缺乏有效方法对于碰伤时间较短的水果进行碰伤时间分类。 以90个模拟表面碰伤的毛桃为实验样本, 分别采集毛桃碰伤12, 24, 36和48 h后的高光谱图像。 毛桃样品的光谱特征提取是采用感兴趣区域的100个像素点的平均光谱以防止单个像素点的光谱信息与整体光谱信息差距较大; 通过主成分分析(PCA)对毛桃图像进行降维后选取最能体现毛桃碰伤的PC1图像, 在 PC1图像的权重系数曲线中波峰波谷处挑选出4个特征波长点(512, 571, 693和853 nm)作为特征图像, 特征图像灰度化操作后计算得到平均灰度值作为毛桃碰伤图像特征。 最后基于最小二乘支持向量机(LS-SVM)算法分别建立毛桃碰伤时间的光谱特征模型、 图像特征模型以及图像特征结合光谱特征模型共三种判别模型, 并且根据其分类准确率来判断模型的性能。 结果表明: 三种毛桃碰伤模型的分类准确率都随碰伤时间的增加而增加; 基于径向基核函数(RBF_kernel)建立的图像特征结合光谱特征的模型预测效果最好, 对碰伤12, 24, 36和48 h的毛桃样品识别正确率分别为83.33%, 96.67%, 100%和100%, 这可能是由于具有非线性特点的径向基核函数所建立的模型更加适合用于毛桃碰伤时间的分类。 图像特征结合光谱特征的模型能够较好地实现对水果碰伤时间的估计, 可为水果外部品质分选提供一定的参考和依据, 并对水果销售和深加工企业具有一定的借鉴意义。

关键词: 高光谱成像; 图像特征; 光谱特征; 最小二乘支持向量机; 毛桃; 碰伤时间
中图分类号:O657.3 文献标志码:A
Hyperspectral Image Features Combined With Spectral Features Used to Classify the Bruising Time of Peach
OUYANG Ai-guo, LIU Hao-chen, CHENG Long, JIANG Xiao-gang, LI Xiong, HU Xuan
School of Mechatronics & Vehicle Engineering, East China JiaoTong University, National and Local Joint Engineering Research Center of Fruit Intelligent Photoelectric Detection Technology and Equipment, Nanchang 330013, China
Abstract

From the ripening of the fruit tree to reaching the consumers, the peaches need to go through a series of processes such as picking, packaging, and transportation. In each process, bruised fruit may occur. Therefore, it is particularly important to check which process produces the most bruises and to improve the processing process in a targeted manner. Throughout the application of hyperspectral technology in detecting fruit bumps at home and abroad, most of them ignore image features and only use spectral features. Modeling based on image features combined with spectral features is rare. Secondly, the interval is usually the number of days in terms of the qualitative judgment of fruit bump time. The larger time interval, the longer fruit bump time, and the more obvious change, the higher detection accuracy. There is no effective method of classifying the bump time for the fruits which were bruised in a very short time. In this paper, 90 simulated surface bruises were taken as experimental samples, and hyperspectral images of the bruises 12, 24, 36 and 48 h were collected respectively. The spectral feature extraction of the peach sample uses the average spectrum of 100 pixels in the region of interest to prevent the spectral information of a single-pixel from being significantly different from the overall spectral information; The PC1 image that can best reflect the bruise of the peach is selected after dimensionality reduction by principal component analysis (PCA). In the weight coefficient curve of the PC1 image, 4 characteristic wavelength points (512, 571, 693, 853 nm) at the peak and valley points are selected as the characteristic image. The average gray value which calculates as the characteristic image after graying is used as the feature of the bruised peach image. Finally, based on the least squares support vector machine (LS-SVM) algorithm, three discriminant models, namely the spectral feature model, image feature model and image feature combined with the spectral feature model of the peach bruise time were established, and the performance of models was judged according to their classification accuracy. The research results show that the classification accuracy of the three peach bruise models increases with the increase of bruise time; the model based on the radial basis kernel function (RBF_kernel) combined with the spectral features has the best predictive effect, and it has the best prediction effect on bruises. The recognition accuracy rates of the peach samples at 12, 24, 36 and 48 h were 83.33%, 96.67%, 100% and 100%, respectively. This may be due to the model established by the radial basis kernel function with nonlinear characteristics is more suitable for peach Classification of bump time. The model combining image features with spectral features can better estimate the fruit bump time, and it can provide a certain reference and basis for fruit external quality sorting, which has certain reference significance for fruit sales and deep processing enterprises.

Keyword: Hyperspectral imaging; Image features; Spectral features; Least squares support vector machine; Wild peach; Bruising time
引言

毛桃富含维生素C, 食用可以起到延缓衰老, 提高免疫力的作用, 其极高的药用价值也被唐代名医孙思邈称为“ 肺之果, 肺病宜食之” 。 毛桃从果树上成熟到最后到达消费者手中, 中间需要经过采摘、 储藏、 包装、 运输等一系列过程[1], 每个过程都可能产生碰伤果, 造成极大的经济损失。 因此, 寻求能够得到碰伤果在各过程中出现概率的方法, 从而对容易出现毛桃碰伤的这个过程进行针对性地改进就显得尤为重要。

近年来, 高光谱成像技术凭借着图谱合一的优势[2], 能够同时获取样品的内部信息以及外部图像信息, 在水果无损检测领域[3, 4, 5]发挥着重要作用。 刘燕德等采集黄桃轻微碰伤图像并进行主成分分析(principal component analysis, PCA)降维后选择最佳特征波长的RGB图像, 结合图像掩膜和阈值分割等技术, 判别准确率最高达94.6%(见本刊37卷10期)。 张保华等[6]采集苹果在400~1 000 nm波长范围的轻微碰伤图像, 利用最小噪声分离算法(minimum noise fraction, MNF)对高光谱数据进行降维并挑选特征波段后得到的判别模型精度高达97.1%。 Lopez-Maestresalas等[7]采集了可见近红外和短波近红外两种波长范围内的马铃薯碰伤图像, 基于短波近红外数据建立的偏最小二乘判别分析模型效果最好, 模型分类准确率达到98.56%, 可以用于检测五小时内的碰伤。 Baranowski等[8]采集苹果碰伤后2, 5, 6, 9, 12和14 d的图像并使用多种建模方法来鉴定反推碰伤时间是可行的, 且模型误判率低于10%。

上述研究中, 大多数学者都是利用高光谱成像技术的光谱特征建模, 很少利用图像特征, 基于图像特征结合光谱特征建模较少。 其次在水果碰伤时间判别方面, 多以天数为间隔, 时间间隔较大, 水果碰伤时间越久, 其变化越明显[9], 因此检测碰伤时间越久的水果, 其准确率越高; 目前尚缺乏有效方法对于碰伤时间较短的水果进行碰伤时间分类。

本研究运用高光谱成像技术分别采集毛桃在碰伤12, 24, 36和48 h后的图像, 提取毛桃的光谱特征及图像特征, 最后利用最小二乘支持向量机(least squares-support vector machine, LS-SVM)算法分别建立毛桃碰伤时间判别的光谱特征模型、 图像特征模型以及图像特征结合光谱特征模型, 通过比较三种模型的分类效果, 选出最优模型用于碰伤时间分类, 通过对发生碰伤较多的时间点进行反推, 就可知道在哪一过程中产生了碰伤, 进而对该过程做出针对性的改进, 能够从源头上减少碰伤的发生, 希望对提高国内水果品质方面起到良好借鉴意义。

1 实验部分
1.1 样品

实验毛桃样品为平谷桃。 为减少其他无关因素对本实验造成影响, 毛桃的大小均为80 mm左右, 且在实验前都经过仔细挑选, 保证样品外观无缺陷, 无机械损伤等。 对于实验中所需要的表面碰伤果, 采用直径20 mm, 质量33 g的金属球在距离毛桃表面160 mm自由落体撞击毛桃赤道附近形成, 以此来模拟现实中的水果碰伤。 毛桃个数为90个, 碰伤后的毛桃在标号后放置于室温24 ℃, 相对湿度RH=65%的环境中, 然后使用高光谱成像系统获取碰伤后12, 24, 36和48 h共计四个时间点的毛桃照片如图1所示, 从左到右依次是碰伤后12, 24, 36和48 h的毛桃高光谱图像。

图1 实验样品高光谱图像Fig.1 Hyperspectral image of experimental samples

1.2 高光谱成像系统

毛桃高光谱图像由盖亚(GaiaSorter)高光谱分选仪采集, 其组成结构示意图如图2所示, 该系统主要由计算机(Intel(R) Core(TM) i7-6700 CPU@3.4GHz 3.4GHz)、 成像光谱仪、 四盏20 W的卤素灯(OSRAM, DECOSTAR51, MR16)、 位移平台、 步进电机等组成。 硬件安装在尺寸为790 mm× 1 024 mm× 1 800 mm暗箱内, 用以消除外部环境中的光线。

图2 高光谱系统示意图Fig.2 Sketch map of hyperspectral system

1.3 图像采集

在进行毛桃高光谱图像采集前先将仪器预热0.5 h左右, 防止仪器在刚启动时状态不稳定, 同时能够起到消除基线漂移影响的作用。 结合经验对参数进行多次优化后, 在SpecVIEW软件中将摄像机曝光时间定为6 ms, 位移平台前进速度设置为1 cm· s-1, 防止前进速度和相机扫描速度不匹配导致采集的图像变形或失真。 通过将位移平台回退时间设置为2.5 cm· s-1, 可以适当地节约每个样品采集时间。 上述参数调整完毕后, 每次在位移平台上放置一个毛桃样品, 通过SpecVIEW控制步进电机带动位移平台进行连续扫描, 完成一个毛桃高光谱图像的采集。

为避免在各波段下分布不均的光源强度以及CCD相机中暗电流[10]对图像采集的干扰, 必须对所获得的毛桃高光谱图像进行黑白标定[11]处理。 与采集毛桃图像相同的参数条件下, 直接在SpecVIEW软件上进行黑白标定, 首先将镜头对准聚四氟乙烯白板, 获取一张白板的图像Rwhite(λ ), 然后拧上镜头盖扫描一张黑板图像Rdark(λ )。 黑白标定的计算公式为

Ixy(λ)=Rxy(λ)-Rdark(λ)Rwhite(λ)-Rdark(λ)(1)

式(1)中, Rxy(λ )为原始图像数据; Rdark(λ )为全黑图像数据; Rwhite(λ )为全白图像数据; Ixy(λ )为校正后的图像数据, 所有原始图像数据黑白标定完后, 即可进行下一步分析。

1.4 主成分分析

主成分分析(PCA)将原始光谱通过数据降维的方式压缩为若干个相互正交的主成分的线性组合[12, 13], 能够在消除光谱变量之间可能存在的多重共线性的同时尽可能在不丢失重要信息的条件下提取出最能表征原始光谱信息的特征因子组合。 计算公式为

Y=t1pT1+t2pT2++tkpTk+E(2)

式(2)中, Y为样品的光谱矩阵, t为得分矩阵, p为载荷向量, E为残差矩阵。

1.5 最小二乘支持向量机

最小二乘支持向量机(LS-SVM)在进行模型判别分析的时候, 其映射函数是非线性的, 在高纬度的空间把光谱变量与特征矩阵进行一一对应, 将优化问题过渡为等式约束条件[14]

LS-SVM用于毛桃碰伤时间定性判别公式为

y(x)=i=1NαiK(x, xi)+b(3)

式(3)中, K(x, xi)是核函数, xi输入向量, α i是拉格朗日算子; b是偏差; N是毛桃样品数量, 通过该公式计算毛桃碰伤时间模型预测值。

2 结果与讨论
2.1 光谱特征的提取与分析

毛桃碰伤区域都选择位于高光谱相机镜头正对的部分。 使用ENVI4.5软件对毛桃碰伤区域选取的100个像素点进行平均光谱的计算, 能够有效避免单个像素点的光谱与样品整体光谱的差异, 并且得到的光谱特征较具代表性。

由图3可知: 不同碰伤时间的毛桃和未碰伤毛桃的光谱波形都相似, 只是反射率大小有所区别。 714和815 nm处存在两个比较明显的吸收峰, 其中714 nm处吸收峰是由C— H键伸缩振动引起的, 815 nm处吸收峰是由N— H键伸缩振动引起。 未碰伤毛桃的吸收峰最高, 并且碰伤毛桃的吸收峰会随碰伤时间的增加而逐渐降低, 一种可能的解释是毛桃碰伤后, 其碰伤部位会和空气中的氧气等发生化学反应, 破坏毛桃果肉细胞中原本完整的细胞壁和细胞膜, 释放部分水分, 且随着毛桃碰伤时间的增加, 释放的水分也更多, 这就导致了未碰伤毛桃和不同碰伤时间毛桃的含水量差异, 造成光谱吸收率的差异, 反应在光谱曲线上就是吸收峰的高低不同[15]。 可以发现, 碰伤时间越久, 其和未碰伤毛桃的光谱差异越大, 这也解释了为何碰伤时间越久的水果, 建模识别率越高, 同时从图像角度而言, 碰伤时间越久的水果, 其碰伤部位颜色变化更加明显, 识别碰伤果也就越容易, 这与光谱曲线得出的结论是相一致的。

图3 未碰伤与不同碰伤时间样品光谱对比图Fig.3 Spectra of samples without bruise and with different bruise time

2.2 图像特征的提取与分析

高光谱成像仪器波长范围为400~1 100 nm, 每个波长对应一张图像, 因此需要采取数据降维的方式从海量的图像数据中寻找出最能表征毛桃碰伤特征波长的图像。

对毛桃图像进行主成分分析后, 选取了前五个主成分图像如图4所示, 从图像中可以看出: PC1图像保留了毛桃的真实信息, 可以较好的反映毛桃的碰伤特征, PC2图像失真严重, PC3图像样品中心处和边缘处差异较大, PC4图像中碰伤部位完全没显示出来, PC5图像虽然显示出碰伤部位, 但是显示不均的原因使得它无法较好的反映样品的真实信息。 对比可知, PC1图像能够更好的反映出毛桃碰伤特征。

图4 主成分分析得到的前5个主成分图像Fig.4 The first five PC images obtained by PCA

根据PC1图像绘制了毛桃碰伤后12, 24, 36及48 h的权重系数曲线如图5所示。 通常来说权重系数曲线的波峰波谷对应的波长对图像贡献率较大, 因此选取了标记在图中箭头处512, 571, 693和853 nm的四个特征波长对应的图像作为特征图像。 图6为不同碰伤时间的所对应的四个特征图像, 从上到下分别碰伤时间为12, 24, 36和48 h。

图5 PC1图像的权重系数图Fig.5 Weight coefficient of PC1 image

图6 不同碰伤时间的特征图像Fig.6 Feature images of samples with different bruising time

对毛桃特征图像进行灰度化操作, 通过将背景图像的灰度值设置为0, 毛桃区域的灰度值保持不变, 从而分离图像中毛桃区域和背景区域。 统计毛桃区域的像素点数, 最后对毛桃区域的灰度值求和并除以总的像素点数得到平均灰度值作为最终的图像特征如图7所示。

图7 灰度直方图统计特征提取流程Fig.7 Gray histogram statistical feature extraction process

2.3 主成分分析(PCA)

对毛桃图像特征及光谱特征进行主成分分析后, 选取前3个主成分因子的得分情况并绘制了如图8所示的得分散点图。 虽然前3个主成分累计贡献率达到98%, 但是并不存在明显聚类现象, 难以将4种碰伤时间的毛桃实验样品进行分类。

图8 所有毛桃前3个主成分得分投影图Fig.8 Score projection of the first three principal components (PCs) of all peaches

2.4 最小二乘支持向量机(LS-SVM)

人为将碰伤后12, 24, 36和48 h的毛桃样本依次定义为1, 2, 3和4, 分别从四种碰伤时间的毛桃样本中各随机选取60个组成240个样本作为建模集, 剩余的120个作为预测集。 使用LS-SVM算法分别建立了光谱特征模型, 图像特征模型, 以及图像特征结合光谱特征模型共计三种定性模型, 采用分类正确率来评价三种模型的好坏。

2.4.1 光谱特征最小二乘支持向量机模型

表1是利用LS-SVM算法基于光谱特征建立的定性判别模型, 可以看出: 两种核函数模型的预测精度都随着碰伤时间的增加而提高, 在对碰伤时间为36和48 h的碰伤果进行预测时, 基于RBF核函数的模型预测正确率都达到100%, 基于Lin核函数的模型在预测碰伤36 h的毛桃时, 误判1个, 预测碰伤48 h的毛桃时, 正确率为100%; 两种核函数在预测碰伤后24 h的毛桃时都进行了1次误判, 且在预测碰伤后12 h毛桃时均存在较高的误判率。

表1 基于光谱特征的最小二乘支持向量机模型结果 Table 1 Results of LS-SVM modeling based on the spectral features

2.4.2 图像特征最小二乘支持向量机模型

表2是利用LS-SVM算法基于图像特征建立的定性判别模型, 可以看出: 图像特征模型的预测精度相比于光谱特征模型而言是较差的, 特别是对碰伤后12和24 h的毛桃进行分类时, 两种核函数模型的误判数都达到十几个。 可能是由于当毛桃碰伤时间较短时, 其碰伤部分的变化不明显, 所提取的平均灰度值特征区别不明显, 从而造成误判数较高。 当碰伤时间达到36和48 h时, 碰伤部位的颜色变化较为明显, 因此其误判数也相对减少。

表2 基于图像特征的最小二乘支持向量机模型结果 Table 2 Results of LS-SVM modeling based on the image features

2.4.3 图像特征结合光谱特征最小二乘支持向量机模型

表3是利用LS-SVM算法基于图像特征结合光谱特征建立的定性判别模型。 由表3可得: 利用归一化后的数据建立的图像特征结合光谱特征模型, 当选择RBF核函数时, 误判率相比于纯光谱特征和图像特征模型是更低的, 能够较为准确的判断出四种碰伤时间的毛桃。 而当选择Lin核函数时, 相比于光谱特征模型而言存在更高的误判率的原因可能是Lin核函数在建立非线性模型时性能略差。

表3 基于图像特征结合光谱特征的最小二乘支持向量机模型结果 Table 3 Results of LS-SVM modeling based on the image features combined with spectral features
3 结论

对毛桃高光谱数据进行主成分分析, 选取最能反映毛桃碰伤特征且相对清晰不失真的PC1图像作为分析图像并进行权重系数曲线的绘制, 在波峰波谷处挑选出四个对PC1图像贡献最大的特征波长(512, 571, 693和853 nm)的图像作为毛桃碰伤特征图像, 并通过灰度化操作分离特征图像中毛桃碰伤区域与背景区域, 从而提取出平均灰度值作为毛桃碰伤的图像特征。 然后在提取毛桃碰伤区域100个像素点的平均光谱作为光谱特征后, 基于LS-SVM算法分别建立了光谱特征模型、 图像特征模型和图像特征结合光谱特征共三种毛桃碰伤时间判别模型, 根据碰伤时间分类准确率判断三种模型的好坏。 三种模型的误判率都随着碰伤时间的增加而逐渐降低, 且基于RBF核函数建立的图像特征结合光谱特征模型效果最好, 对碰伤时间为12, 24, 36和48 h的毛桃分类正确率可达83.33%, 96.67%, 100%和100%。 该研究表明, 高光谱图像特征结合光谱特征所建立的最小二乘支持向量机RBF核函数模型可用于短期碰伤时间的毛桃分类, 从而通过时间反推出容易发生毛桃碰伤的环节并进行后续针对性改进, 具有一定可行性。

参考文献
[1] ZHENG Zheng-zheng, LI Xue-gong(郑铮铮, 李学工). Stand ard Science(标准科学), 2017, (1): 31. [本文引用:1]
[2] ZHANG Hai-liang, GAO Jun-feng, HE Yong(章海亮, 高俊峰, 何勇). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2013, 44(9): 177. [本文引用:1]
[3] Zhou X, Sun J, Tian Y, et al. International Journal of Remote Sensing, 2020, 41(6): 2263. [本文引用:1]
[4] LIU Yan-de, CHENG Meng-jie, HAO Yong(刘燕德, 程梦杰, 郝勇). Journal of East China JiaoTong University(华东交通大学学报), 2018, 35(4): 1. [本文引用:1]
[5] Liu D, Zeng X A, Sun D W. Critical Reviews in Food Science and Nutrition, 2015, 55(12): 1744. [本文引用:1]
[6] ZHANG Bao-hua, HUANG Wen-qian, LI Jiang-bo, et al(张保华, 黄文倩, 李江波, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(5): 1367. [本文引用:1]
[7] López-Maestresalas A, Keresztes J C, Goodarzi M, et al. Food Control, 2016, 70: 229. [本文引用:1]
[8] Baranowski P, Mazurek W, Pastuszka-Wozniak J. Postharvest Biology and Technology, 2013, 86: 249. [本文引用:1]
[9] María Rocío Jiménez, Pilar Rallo, Hava F. Rapoport, María Paz Suárez. Postharvest Biology and Technology, 2016, 111: 117. [本文引用:1]
[10] LIU Ze-xun, WAN Zhi, LI Xian-sheng, et al(刘则洵, 万志, 李宪圣, ). Optics and Precision Engineering(光学精密工程), 2015, 23(7): 1829. [本文引用:1]
[11] Govindarajan Konda Naganathan, Lauren M Grimes, Jeyamkondan Subbiah, et al. Computers and Electronics in Agriculture, 2008, 64(2): 225. [本文引用:1]
[12] LIU Xue-mei, ZHANG Hai-liang(刘雪梅, 章海亮). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2012, 43(9): 160. [本文引用:1]
[13] Chang Y, Chao Y T, Kuang W H, et al. Journal of Food and Drug Analysis, 2013, 21: 268. [本文引用:1]
[14] LIU Yan-de, XIAO Huai-chun, SUN Xu-dong, et al(刘燕德, 肖怀春, 孙旭东, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(3): 180. [本文引用:1]
[15] Sun Y, Wei K, Liu Q, et al. Sensors, 2018, 18(4): 1295. [本文引用:1]