基于太赫兹成像检测技术与特征提取方法结合巴旦木饱满度检测方法研究
胡军1, 吕豪豪1, 乔鹏1, 贺永2, 刘燕德1,*
1.华东交通大学智能机电装备创新研究院, 江西 南昌 330013
2.浙江大学机械工程学院, 浙江 杭州 310027
*通讯作者 e-mail: jxliuyd@163.com

作者简介: 胡 军, 1992年生,华东交通大学机电与车辆工程学院副教授 e-mail: hujun_ecjtu@163.com

摘要

巴旦木是一种营养丰富的坚果, 对巴旦木的品质进行检测具有重要的经济价值和实际意义。 由于巴旦木具有较为坚硬的外壳, 传统的检测手段较难实现内部检测, 因此, 采用新兴的太赫兹透射成像检测技术, 开展巴旦木饱满度的检测研究。 首先采集不同饱满度巴旦木的太赫兹透射图像, 并且从太赫兹图像的感兴趣区域分别提取无样品区域、 空壳区域和满仁区域的太赫兹光谱信息; 为了提高模型的精度, 减少计算量, 采用竞争性自适应重加权算法(CARS)、 无信息变量消除(UVE)、 连续投影算法(SPA)、 蒙特卡罗无信息变量消除法(MCUVE)和遗传算法(GA)对太赫兹光谱信息进行特征提取, 建立对应的最小二乘支持向量机(LS-SVM)、 随机森林(RF)和K-近邻(KNN)定性判别模型, 对巴旦木的饱满和空壳区域进行检测和鉴别。 此外, 对太赫兹特征图像转为JPG格式, 接着转化为RGB格式进行G通道提取和图像二值化分离出外壳和果仁图像, 检测饱满度为太赫兹特征图像的壳仁像素点之比; 对原始图像进行轮廓提取和图像二值化分离出外壳和果仁图像, 实际饱满度为原始图像的壳仁像素点之比。 通过计算检测饱满度和实际饱满度的误差, 证明了太赫兹透射成像技术检测巴旦木饱满度的可行性。 建立的KS-GA-RF模型的鉴别效果最优, 准确率为98.21%; 通过壳仁像素点之比分别计算出对应的检测饱满度和实际饱满度, 误差为16%。 研究验证了采用太赫兹图、 谱相融合的方法, 可以很好地实现对巴旦木内部种仁饱满度可视化检测, 为巴旦木的准确分级提供了新的思路, 也为太赫兹成像技术检测其他坚果饱满度提供了理论参考, 具有重要的应用价值。

关键词: 巴旦木饱满度; 太赫兹透射成像; 特征提取; RF判别模型
中图分类号:O657.3 文献标志码:A
Research on Almond Plumpness Detection Method Based on Terahertz Imaging Technology and Feature Extraction Method
HU Jun1, QIAO Peng1, HE Yong2, LIU Yan-de1,*
1. School of Intelligent Electromechanical Equipment Innovation Research Institute, East China Jiaotong University, Nanchang 330013, China
2. School of Mechanical Engineering, Zhejiang University, Hangzhou 310027, China
*Corresponding author
Abstract

As a kind of nutrient-rich nut, it is of great economic value and practical significance to test the quality of almonds. Because of the almond hard shell, it is difficult for traditional detection methods to realize internal detection.In this paper, the emerging terahertz transmission imaging detection technology is used to study almond plumpness detection. Firstly, the terahertz spectral images of almonds with different fullness are acquired. Secondly, the terahertz spectra of sample free region, empty shell region and full almond region are extracted, respectively. To improve the accuracy of the model and reduce the computational effort, Competitive Adaptive Reweighting Sampling (CARS), Uninformative Variable Elimination (UVE), Successive Projections Algorithm (SPA), Monte Carlo Uninformative Variable Elimination (MCUVE) and Genetic Algorithm (GA) for feature extraction of terahertz spectral information. The corresponding Least squares support vector machine (LS-SVM), Random forest (RF) and K-nearest neighbor (KNN) qualitative discriminant models are established to detect and identify the full and empty regions of almonds.In addition, the terahertz feature image was to jpg format and then to RGB format, the shell image and kernel image were separated by G-channel extraction and image binarization, and the ratio of shell kernel pixels in the terahertz feature image was detected. The image of shell and kernel were separated by contour extraction and image binarization. The actual plumpness was the ratio of shell kernel pixels in the original image. The terahertz transmission imaging technique’s feasibility for detecting the almond’s plumpness was proved by calculating the error between the detection plumpness and the actual plumpness. The established KS-GA-RF model had the best identification effect, with an accuracy of 98.21%. According to the ratio of shell and kernel pixels, the corresponding detection and actual fullness were calculated, respectively, with an error of 16%. This study verified that combining terahertz graph and spectrum could well realize the visual detection of inner kernel plumpness of P. chinensis, providing a new idea for the accurate classification of almonds. It also delivers a theoretical reference for terahertz imaging to detect the plumpness of other nuts and has significant application value.

Keyword: Plumpness of almond; Terahertz transmission imaging; Feature extraction; RF discriminant model
引言

巴旦木与榛子、 核桃、 腰果并称世界四大干果, 既可药用, 也可用于加工多种食品, 具有预防便秘、 保护肌肤、 补脑健脑的功效, 在中国被广大消费者接受和喜爱。 巴旦木大小分级后存在大小相似但质量差异大的问题, 因此巴旦木的选择和分类需要结合多种特征。 质量是一个重要的分级指标。 巴旦木的饱满度过低会影响巴旦木的整体质量, 因此在不破坏巴旦木外壳的情况下无损检测出巴旦木的饱满度对筛选优质巴旦木、 提高巴旦木整体质量有重大意义。

传统的检测坚果饱满度的方法主要是称量法, 缺点是比较依赖人工且费时费力, 而且坚果也分为大中小三个类别, 因此称量法无法较好地表征巴旦木饱满度, 且误差较大。 由于巴旦木具有较为坚硬的外壳, 传统的检测手段较难实现内部检测。 因此, 找到一种无损检测巴旦木饱满度的方法对于巴旦木质量把控具有重要意义。

近年来, 声学分析、 深度学习、 高光谱成像技术、 多光谱技术和X射线等技术也逐渐应用于坚果的品质检测。 有些学者开展了相关研究。 Khakrangin等[1]采用声学分析和模糊逻辑提出模糊模型对全核桃、 半核桃和空核桃进行分类, 分类误差为0.080%。 Sivaranjani等[2]使用CNN结合图像处理实现了腰果等级的优化, 分类准确率97.7%。 Karadağ等[3]采用基于深度学习的目标检测算法分离开壳开心果和闭壳开心果, 开壳开心果和闭壳开心果的检测准确率分别为98%和85%。 Rong等[4]将卷积神经网络应用于核桃仁和核桃壳的异物检测, 能够正确区分95%的外源性核桃异物。 Ríos-Reina等[5]使用长波近红外高光谱成像技术对包装上标注为西班牙语和中文的商业松子进行光谱研究(识别化学分布和成分), 采用基于像素和基于坚果的方法对样本进行分类, 分别获得89%~98%和84%~100%的正确预测。 Xu等[6]用近红外高光谱技术对内部霉变、 外部正常的核桃进行检测, 准确率达87.29% 。 Feng等[7]提出了一种基于二维卷积神经网络(2D CNN)和长短期记忆(LSTM)与高光谱成像相结合的深度学习方法, 用于在像素水平上区分山核桃的壳和核并将其可视化, 以便后续操作去除异物, 识别准确率为99%。 Zheng等[8]采用多光谱成像(MSI)技术结合化学计量学方法对壳内虫害杏仁进行无损检测和分类的可行性进行了研究, 完整、 轻度侵染和严重侵染杏仁校准集的准确度为95.6%, 预测集的准确度为93.3%, 但研究的只是巴旦木果仁的表面缺陷, 透射姓不强。 Gao等[9]采用X射线成像技术建立基于核桃和核仁形状特征参数质量预测模型, 采用竞争性自适应重加权算法(competitive adaptive reweighting sampling, CARS)优化参数后PLS模型和RBF模型的R2均大于0.86, 提高了核桃质量检测模型的精度, 为坚果的分级提供了依据。 虽然X射线具有很强的穿透能力, 但存在有关电离辐射的潜在危害, 难以对坚果这类农产品实现大规模检测。 上述技术依然存在不足, 声学分析得到的只是振动信号, 没有图像清晰直观。 机器视觉只能检测表面缺陷, 无法深度检测坚果内部果仁; 高光谱成像技术和多光谱技术透射性不强, 难以实现对有壳坚果内部进行检测, X射线会产生较大的电离辐射, 存在食品安全隐患。

与传统方法和现有的无损检测方法相比, 太赫兹(Terahertz, THz)技术具有能量低、 穿透力强的特点, 更适合于检测外壳完好但内部果仁有缺陷的全果巴旦木。 THz技术的频率范围为0.1~10 THz, 各种有机分子之间弱相互作用的低频振动吸收频率均位于THz频段, 不仅能反映分子内振动模式, 还能提供分子间振动模式及声子模式。 太赫兹光谱具有透视性、 安全性和高波谱分辨能力的特点, 成为一种新的无损检测技术。

太赫兹光谱分析技术以其无损、 快速、 无污染、 可同时进行分析多组分等特点, 被广泛地应用于农产品和食品等检测分析。 太赫兹波技术在成像、 诊断、 检测、 监控等方面展示了广阔前景。 近几年, 一些学者利用太赫兹成像技术开展了农产品检测相关研究。 Sun等[10]使用太赫兹时域透射成像扫描缺陷和健全向日葵种子, 在0.5~2.0 THz下可以清楚的区分缺陷、 内核和外壳。 Wang等[11]通过比较不同浓度核桃仁和核桃壳的典型吸收光谱来检测核桃仁中的内源性异物, 准确率达95%以上, 有效地鉴别了核桃仁中的壳污染。 Di Girolamo等[12]用太赫兹成像技术在低太赫兹范围检测栗子内部是否含有真菌。 Hu等[13]使用太赫兹成像技术实现了对核桃半果的饱满度检测。 Kubiczek和Balzer[14]验证了神经网络用于太赫兹图像分类检测的可行性。 上述研究表明太赫兹技术结合神经网络在坚果内部检测领域中具有很大的应用前景。

目前, 利用太赫兹成像技术检测巴旦木饱满度的研究还鲜有文献报道。 巴旦木外壳主要成分为纤维素等非极性材料, 在太赫兹波段具有很高的穿透性且THz具有较低的辐射能, 可透过外壳实现巴旦木内部果仁的可视化检测, 利用太赫兹谱、 图结合技术检测巴旦木饱满度具有很大潜力。 因此, 本文尝试利用太赫兹成像技术和图像处理技术实现对巴旦木饱满度的检测计算, 为巴旦木的坚果分级提供思路借鉴。

本文利用太赫兹成像技术, 通过图谱结合的方式对无样品区域、 空壳区域和满仁区域进行检测区分, 通过计算壳仁像素点之比来说明巴旦木饱满度。 首先采集不同饱满度巴旦木的太赫兹光谱图像, 并且分别提取无样品、 空壳和满仁巴旦木感兴趣区域的太赫兹光谱, 经过波段筛选后分别建立最小二乘支持向量机(least squares support vector machine, LS-SVM)、 随机森林(random forest, RF)和K-近邻(K-nearest neighbor, KNN)定性判别模型, 探究较优的无样品区域、 空壳区域和满仁区域定性判别模型。 其次, 对实物样本进行透射成像, 通过对太赫兹透射图像转为JPG格式, 接着转化为RGB格式进行RGB通道分离, 之后进行图像二值化, 通过设置不同的阈值实现巴旦木外壳和果仁的图像分离, 最后通过标记轮廓计算壳仁像素点之比从而实现对单个巴旦木饱满度的快速检测。

1 实验部分
1.1 样品制备

本实验所用巴旦木为市场上购买, 实验中的巴旦木样品包含三类: 饱满的巴旦木、 内部缺损的巴旦木和空壳巴旦木。 选取饱满的巴旦木若干, 饱满的巴旦木无需任何处理, 内部缺损的巴旦木是用小刀截取饱满的巴旦木内部果仁来模拟不同饱满度的巴旦木, 空壳巴旦木是使用小刀和镊子取出饱满的巴旦木内部果仁来制备, 制备的巴旦木样品图片如图1(a)所示, 去除部分外壳巴旦木样品的图片如图1(b)所示。

图1 样品准备
(a): 巴旦木样品图; (b): 去除部分外壳巴旦木样品图
Fig.1 Sample preparation
(a) Picture of almond samples; (b) Picture of almond with partial shell removed

1.2 实验仪器

本实验采用太赫兹成像系统(中国青源峰达太赫兹科技有限公司QT-TO1000)对巴旦木样品进行扫描, 频率范围为0.1~4.0 THz, 最大扫描面积为100 mm×100 mm, 最大检测厚度为50 mm, 成像速度为60像素·s-1 [15]。 图2(a)为QT-TO1000透射成像系统原理图, 飞秒激光器发射的飞秒脉冲经过分束器后分为泵浦光和探测光。 泵浦光入射到太赫兹发射器上以激发太赫兹脉冲。 然后太赫兹脉冲被聚焦并穿过样品。 携带样品信息的太赫兹脉冲与探测光共线, 到达探测器晶体并将信号传输到计算机, 在X-Y二维平移台上按0.2 mm的步长逐点扫描, 完成图像采集。 图2(b)为QT-TO1000仪器测试样品图, QT-TO1000系统在测量样品前需预热30分钟, 环境温度设置为(23± 0.5) ℃, 环境湿度设置为10%以下, 考虑到聚乙烯板(PE板)在THz频段基本无吸收[16], 实验中使用厚度为1 mm的PE板作为样品的承托平台。

图2 QT-TO1000透射成像原理图(a)和仪器测试样品图(b)Fig.2 Transmission imaging schematic diagram (a) and whole machine (b) of QT-TO1000

1.3 光学参数提取

由于提取无样品、 空壳巴旦木和满仁巴旦木感兴趣区域(regions of interest)的THz光谱, 根据Dorney等[17]和Duvillaret等[18]提出的光学参数提取模型。 采用快速傅里叶变换(FFT)获取了THz脉冲在频率上的频谱分布。 可表述为式(1), 其中, A(ω )表示电场幅值, φ (ω )为参考信号和样本信号的相位差, E(t)为太赫兹时域波形。 由式(2)和式(3)得到样品的折射率和吸收系数。

E(ω)=A(ω)e-(ω)=E(t)e-(ω)dt(1)

n(ω)=φ(ω)cωd+1(2)

α(ω)=2k(ω)ωc=2dln4n(ω)ρ(ω)(n(ω)+1)2(3)

其中, ω 是频率, k(ω )为消光系数、 ρ(ω )为幅值比函数, d为样品厚度, c为真空中的光速。

1.4 数据处理流程

数据处理主要包括数据提取、 光谱分析和图像处理三部分, 数据提取是利用QT-TO1000太赫兹系统获取巴旦木的太赫兹光谱图像, 提取感兴趣区域的光谱信息。 光谱分析通过KS算法将光谱按照3∶1比例划分为建模集和预测集, 波段筛选出有效的波段点, 建立定性分析模型。 最后, 利用模型评价指标对所建立的模型进行评价。 利用matlab2018a对光谱数据进行处理和分析。 图像处理是对波段筛选后太赫兹特征图像和原始图像进行图像二值化并计算像素点, 证明太赫兹成像技术对检测巴旦木饱满度的可行性。 数据处理流程图如图3所示。

图3 数据处理流程图Fig.3 Data processing flowchart

1.5 波段筛选算法

太赫兹光谱数据量较大, 若要提高建模效率, 减少计算量, 则需要剔除光谱中的冗余信息, 提取与建模相关性高的特征波长信息。 本文采用的波段筛选算法为CARS、 无信息变量消除(uninformative variable elimination, UVE)、 连续投影算法(successive projections algorithm, SPA)、 蒙特卡罗无信息变量消除法(Monte carlo uninformation variable elimination, MCUVE)和遗传算法(genetic algorithm, GA)。

CARS[19]是通过自适应重加权采样(ARS)技术选择出PLS模型中回归系数绝对值大的波长点, 去掉权重小的波长点, 利用交互验证选出RMSECV值最低的子集, 可有效寻出最优变量组合。

UVE[20]是基于分析PLS回归系数b的算法, 核心是利用噪声的无关变量信息统计去选择光谱自身的特征变量, 得到最优变量组合。

SPA[21]是一种前向循环选择方法, 利用向量的投影分析, 选取含有最少冗余度和最小共线性的有效波长。 连续投影算法对光谱数据进行初步压缩, 将优选出的波长按其对贡献值的大小进一步筛选, 输出按贡献值大小进行排列。

MCUVE[22]是蒙特卡罗采样和无信息变量消除法的结合, 其变量重要性衡量依据是回归系数的稳定性值, 通过设定阈值, 去除稳定性小于阈值的波长。

GA[23]是一种通过模拟进化过程来寻找最优解的算法。 遗传算法的基本原理是模拟自然选择、 遗传和突变等生物进化过程, 通过对种群的不断进化, 不断逼近最优解。

1.6 模型评价

本研究对巴旦木样品所建立的模型通过分析建模集精度和预测集准确率对检测模型进行评价, 检测模型的建模集和预测集准确率越高, 则模型的精度越高。 准确率计算公式如式(4)所示

Accuracy=XY×100%(4)

式(4)中, X为正确分类的光谱条数, Y为总的光谱条数。

饱满度计算原理: 通过计算太赫兹图像壳仁像素点之比来计算巴旦木饱满度。 分为太赫兹图像检测饱满度Pdetection(detected plumpness)和实际饱满度Pactual(actual plumpness):

检测饱满度原理如式(5)所示

Pdetection=AB×100%(5)

式(5)中, A为太赫兹图像中外壳所占的像素点个数, B为太赫兹图像中果仁所占的像素点个数。

实际饱满度原理如式(6)所示

Pactual=CD×100%(6)

式(6)中, C为实际照片中外壳所占的像素点个数, D为实际照片中果仁所占的像素点个数。

2 结果与讨论
2.1 巴旦木太赫兹光谱特征分析

太赫兹光谱的信息十分丰富, 具有透过率、 吸收系数、 消光系数、 折射率、 介电常数、 相位角、 功率等太赫兹光学参数, 可以多维度的反映物质内部信息。 采用太赫兹成像技术采集巴旦木样品THz图像, 为了保证光谱数据的有效性, 分别提取在巴旦木满仁、 空壳和无样品感兴趣区域的时域光谱。 为了提高模型的鲁棒性, 选取的每类感兴趣点尽可能在该类区域图像上均匀分布。 图4(a)为巴旦木样品THz时域信号光谱图, 为了降低噪声干扰, 选择20~28 ps范围内的时域光谱进行分析。 从图4(a)中可以看出, 无样品区域、 巴旦木空壳和满仁区域的时域信号存在一定的时间延迟, 无样品区域的幅值最大, 空壳区域的幅值次之, 满仁区域的幅值最小, 振幅存在明显的衰减。 越厚的样品对太赫兹波的吸收越强, 这也是区分巴旦木满仁和空壳区域的有效依据。

图4 无样品区域、 空壳区域、 满仁区域的THz光谱
(a): 时域信号; (b): 频域信号
Fig.4 Terahertz spectra of the sample free region, empty shell region and full almond region
(a): Time domain signal; (b): Frequency domain signal

时域信号通过FFT(快速傅里叶变换)得到频域信号。 图4(b)为巴旦木样品频域信号光谱图, 在0.3~0.8 THz频率范围内, 幅值强度由高到低依次为: 无样品区域、 巴旦木空壳和满仁区域。 样品厚度越大, 其对太赫兹波的吸收能力越强, 也是从频域上验证了太赫兹技术检测巴旦木空壳区域和满仁区域的可行性。 图4(a)和图4(b)显示, 无论是从时域还是频域, 无样品区域、 巴旦木空壳和满仁区域太赫兹信号都有明显的差异, 文章中主要是通过太赫兹时域光谱中时域信号进行后续的特征波段提取, 这为太赫兹光谱结合模式识别方法对巴旦木的分级和分选提供了理论基础。

2.2 巴旦木太赫兹光谱最小二乘支持向量机(LS-SVM)定性判别模型的建立

最小二乘支持向量机(least squares support vector machine, LS-SVM)[24]是一种高效的有监督学习模型。 该方法适用于小样本、 高维度和非线性的数学问题, 具有较好的预测效果。 分别在太赫兹透射图像中无样品区域、 空壳区域和满仁区域三类感兴趣区域各选取400、 400、 320个像素点, 每个点提取一条太赫兹光谱。 采用KS算法[25]将1120组太赫兹光谱数据按照3∶1的比例分成两组, 分别为建模数据和预测数据, 将无样品区域、 空壳区域和满仁区域光谱数据分别进行编号“1”、 “2”和“3”贴定标签。 为减少计算量, 剔除光谱中的冗余信息, 提取与建模相关性高的特征波长信息, 分别采用无波段筛选、 CARS、 UVE、 SPA、 MCUVE和GA分别建立LS-SVM模型, 表1为LS-SVM判别无样品区域、 空壳区域和满仁区域模型分类结果, 经过MCUVE波段筛选后建立的LS-SVM模型效果最好, 准确率达到99.05%, 但经过MCUVE筛选后波段点个数较多。 研究发现: 综合特征提取后的数据量和建模效果, 经过UVE波段筛选后的波段点个数为50, LS-SVM建模后预测集准确率为98.20%, 效果最好。

表1 LS-SVM判别无样品区域、 空壳区域和满仁区域模型分类结果 Table 1 Classification results of sample free, empty shell and full almond region models by LS-SVM

为了更加直观地评价UVE-LS-SVM模型的预测效果, 通过混淆矩阵对预测集经过UVE特征提取后LS-SVM模型的预测结果进行分析。 如图5所示, 100条无样品区域谱线有2条误判为满仁区域谱线, 100条空壳区域谱线有1条被误判为无样品区域谱线、 1条被误判为满仁区域谱线, 80条满仁区域谱线有1条被误判为空壳区域谱线。 可以看出, 280条谱线中误判了5条光谱, UVE-LS-SVM模型能够有效地鉴别太赫兹图像中无样品区域、 空壳区域和满仁区域。

图5 UVE-LS-SVM模型预测集混淆矩阵图Fig.5 Confusion matrix of the prediction set of UVE-LS-SVM model
Notes: SF=Sample free region; EM=Empty shell region; FU=Full almond region

2.3 巴旦木太赫兹光谱K-最近邻(KNN)分类模型的建立

由于K-最近邻(KNN)[26]是一种没有确定训练阶段的分类方法, KNN算法的核心思想是如果样本在特征空间的k个最相邻的样本中大部分属于某一类, 那么该样本也属于这一类, 并且具有这类样本的特征。 与2.2处理光谱数据方法相同。 分别采用无波段筛选、 CARS、 UVE、 SPA、 MCUVE和GA分别建立KNN模型, 表2为建模结果, 综合对比下, 经过GA筛选后的波段点数为36个, 预测集准确率也为97.85%, 此时KNN模型效果最好。

表2 KNN判别无样品区域、 空壳区域和满仁区域模型分类结果 Table 2 Classification results of sample free, empty shell and full almond region models by KNN

为了更加直观地评价GA-KNN模型的预测效果, 通过混淆矩阵对预测集经过GA特征提取后KNN模型的预测结果进行分析。 如图6所示, 100条无样品区域谱线没有误判, 100条空壳区域谱线有2条被误判为无样品区域谱线、 1条被误判为满仁区域谱线, 80条满仁区域谱线有2条被误判为空壳区域谱线。 可以看出, 280条谱线中误判了5条谱线, 说明GA-KNN模型能够有效地鉴别太赫兹图像中无样品区域、 空壳区域和满仁区域。

图6 GA-KNN模型预测集混淆矩阵图Fig.6 Confusion matrix of the prediction set of GA-KNN model
Notes: SF=Sample free region; EM=Empty shell region; FU=Full almond region

2.4 巴旦木太赫兹光谱随机森林(RF)分类模型的建立

随机森林(random forest)[27]指的是利用多棵树对样本进行训练并预测的分类器, 是一种基于决策树的机器学习算法, 可以用于巴旦木太赫兹图像不同感兴趣区域的定性判别。 与2.2处理光谱数据方法相同。 分别采用无波段筛选CARS、 UVE、 SPA、 MCUVE和GA分别建立RF模型, 结果如表3所示: 综合对比下, 经过GA筛选后的波段点数为36个, 预测集准确率为98.21%, KS-GA-RF也是本文中效果最好的模型。

表3 RF判别无样品区域、 空壳区域和满仁区域模型分类结果 Table 3 Classification results of sample free, empty shell and full almond region models by RF

为了更加直观地评价GA-RF模型的预测效果, 通过混淆矩阵对预测集经过GA特征提取后RF模型的预测结果进行分析。 如图7所示, 100条无样品区域谱线没有误判, 100条空壳区域谱线有1条被误判为无样品区域谱线、 2条被误判为满仁区域谱线, 80条满仁区域谱线有2条被误判为空壳区域谱线。 可以看出, 280条谱线中误判了5条谱线, 说明GA-RF模型能够有效地鉴别太赫兹图像中无样品区域、 空壳区域和满仁区域。

图7 GA-RF模型预测集混淆矩阵图Fig.7 Confusion matrix of the prediction set of GA-RF model
Notes: SF=Sample free region; EM=Empty shell region; FU=Full almond region

2.5 巴旦木太赫兹图像特征提取

巴旦木图像太赫兹光谱全谱共2 250个点, 通过时域光谱区分出20~28 ps的波段点共201个点, 但是成像速度还是较慢, 采用波段筛选算法提取特征波段点, 根据特征波段点形成的图像合成波段筛选图, KS-GA-RF算法建模效果最好, 因此选取经过KS-GA处理后的36个波段点合成图像进行后续的巴旦木饱满度计算, 对应的波段点为27.97、 27.81、 27.61、 27.57、 20.77、 21.45、 22.65、 22.97、 23.01、 24.97、 26.53、 27.89、 20.85、 21.29、 22.25、 24.85、 25.29、 26.01、 26.81、 27.17、 27.21、 21.09、 22.20、 22.77、 22.89、 22.93、 23.13、 24.05、 25.33、 25.37、 25.89、 26.49、 26.57、 27.37、 27.77和27.85 ps。

巴旦木特征图像(图8)是根据GA波段筛选后, 经过36个波段筛选点所对应的特征波段点形成的单点图像叠加形成的, 未去壳的巴旦木经过太赫兹透射成像可以检测出巴旦木内部的饱满程度, 果仁的颜色为深蓝色, 果壳的颜色是浅蓝色, 区别不太明显, 经过特征提取后根据特征波段点合成的太赫兹特征图像可以看出外壳与果仁的轮廓, 通过巴旦木特征图像的壳仁像素点之比得出检测饱满度, 通过去一半壳巴旦木图片的壳仁像素点之比得出实际饱满度, 检测饱满度与实际饱满度相对比可以实现太赫兹成像技术检测巴旦木内部果仁饱满度的可视化检测。

图8 巴旦木特征提取对比图Fig.8 Comparative picture of feature extraction of almond

2.6 巴旦木图像处理和饱满度计算

2.6.1 太赫兹图像计算检测饱满度

波段筛选后的太赫兹特征图像处理包括: 图像截取(伪彩色图转为JPG格式)、 JPG转RGB格式、 G通道分离提取、 图像二值化[28]和计算像素点个数。 本节使用pycharm运行环境下的OpenCV库实现对图像的分析和处理。

外壳的处理是通过轮廓标记的方式将外壳部分与无样品区域区分开来; 仁的处理通过提取RGB图像中的G通道图像进行图像二值化(二值化阈值: 外壳=30; 果仁=40), 实现对巴旦木壳仁的分离。 总体流程如图9所示。

图9 太赫兹特征图像处理过程图Fig.9 Terahertz feature image processing flowchart

接着通过Img.sum函数计算出图像的像素总数值并将数值保存。 仁和壳的二值化图像通过相同的方式进行相加计算, 使用式(5)就可以得出太赫兹图像巴旦木的检测饱满度。 具体每个巴旦木的检测饱满度如表4所示。

表4 太赫兹特征图像巴旦木检测饱满度 Table 4 Detection plumpness of almond in terahertz feature image

2.6.2 原始图像计算实际饱满度

针对原始图像的处理主要经过以下3个步骤: 轮廓标记、 图像二值化和计算像素点个数。 本节使用labelme软件进行人工图像分割, 使用Pycharm平台调用OpenCV函数库, 通过python编程语言实现原始图像的饱满度计算。

巴旦木原始图像的轮廓标记是通过labelme软件实现, 接着图像二值化(二值化阈值: 外壳=30, 果仁=40)和计算像素点个数, 总体流程如图10所示。

图10 原始图像处理过程图Fig.10 Original image processing flowchart

通过计算仁和壳的二值化图像的像素值使用式(6)得出原始图像巴旦木的实际饱满度。 每个巴旦木的实际饱满度如表5所示。

表5 原始图像巴旦木实际饱满度 Table 5 Actual plumpness of almond in original image

2.6.3 饱满度计算结果对比

通过表4检测饱满度和表5的实际饱满度信息, 为方便对比, 将检测饱满度和实际饱满度结果汇总在同一表格里。 如表6所示。

表6 检测饱满度与实际饱满度结果对比 Table 6 Comparison of detection plumpness and actual plumpness results

通过表6可以看出, 6个巴旦木的检测饱满度与实际饱满度相差不超过16%, 由于巴旦木的不规则, 饱满度的误差还是在有效范围内的, 说明了太赫兹成像技术结合图像二值化可以有效计算巴旦木的饱满度。

3 结论

利用太赫兹透射成像检测技术, 通过采集无样品区域、 空壳区域和满仁区域的透射光谱, 经过波段筛选后建立的KS-GA-RF模型进行分类, 将201个波段点筛选为36个波段点, 预测集正确率达到98.21%, 极大的提高了太赫兹成像技术检测巴旦木的成像效率。 对太赫兹图像和原始图像进行轮廓标记、 G通道提取和图像二值化, 成功计算出对应的检测饱满度和实际饱满度, 说明了太赫兹成像技术检测巴旦木饱满度的可行性。 本研究验证了采用太赫兹图、 谱相融合的方法, 可以很好地实现对巴旦木内部果仁饱满度可视化检测, 给巴旦木饱满度快速检测提供了一种新方法, 也为巴旦木的准确分级提供了新的思路, 具有重要的实用价值。

参考文献
[1] Khakrangin R, Mohamadzamani D, Javidan S M. Journal of Nuts, 2021, 12(1): 17. [本文引用:1]
[2] Sivaranjani A, Senthilrani S, Ashok Kumar B, et al. The Journal of Horticultural Science and Biotechnology, 2022, 97(2): 137. [本文引用:1]
[3] KaradağA E, Kılıç A. Postharvest Biology and Technology, 2023, 198: 112229. [本文引用:1]
[4] Rong D, Xie L, Ying Y. Computers and Electronics in Agriculture, 2019, 162: 1001. [本文引用:1]
[5] Ríos-Reina R, Callejón R M, Amigo J M. Food Control, 2021, 130: 108365. [本文引用:1]
[6] Xu J, Xu D, Bai X, et al. Molecules, 2022, 27(20): 6776. [本文引用:1]
[7] Feng Z, Li W, Cui D. International Journal of Agricultural and Biological Engineering, 2022, 15(2): 204. [本文引用:1]
[8] Yu J, Ren S, Liu C, et al. The Journal of Agricultural Science, 2018, 156(9): 1103. [本文引用:1]
[9] Gao T, Zhang S, Sun H, et al. Journal of Food Process Engineering, 2022, 45(8): e14034. [本文引用:1]
[10] Sun X, Liu J. Journal of Infrared, Millimeter, and Terahertz Waves, 2020, 41(3): 307. [本文引用:1]
[11] Wang Q, Hameed S, Xie L, et al. Journal of Food Measurement and Characterization, 2020, 14(5): 2453. [本文引用:1]
[12] Di Girolamo F V, Pagano M, Tredicucci A, et al. Food Control, 2021, 123: 107700. [本文引用:1]
[13] Hu J, Shi H, Zhan C, et al. Foods, 2022, 11(21): 3498. [本文引用:1]
[14] Kubiczek T, Balzer J C. IEEE Access, 2022, 10: 88667. [本文引用:1]
[15] Sun X D, Cui D D, Shen Y, et al. Infrared Physics & Technology, 2022, 121: 104018. [本文引用:1]
[16] Fan W H, Burnett A, Upadhya P C, et al. Applied Spectroscopy, 2007, 61(6): 638. [本文引用:1]
[17] Dorney T D, Baraniuk R G, Mittleman D M. JOSA A, 2001, 18(7): 1562. [本文引用:1]
[18] Duvillaret L, Garet F, Coutaz J L. Applied Optics, 1999, 38(2): 409. [本文引用:1]
[19] Li Q, Huang Y, Song X, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 214: 129. [本文引用:1]
[20] Ong P, Tung I C, Chiu C F, et al. Food Control, 2022, 136: 108886. [本文引用:1]
[21] Pang L, Wang L, Yuan P, et al. Infrared Physics & Technology, 2022, 123: 104143. [本文引用:1]
[22] Li J B, Zhang H L, Zhan B S, et al. Infrared Physics & Technology, 2020, 104: 103154. [本文引用:1]
[23] Zhou J, Hua Z. Applied Soft Computing, 2022, 123: 108964. [本文引用:1]
[24] Deng W, Yao R, Zhao H, et al. Soft Computing, 2019, 23(7): 2445. [本文引用:1]
[25] Jin G, Xu Y, Cui C, et al. Journal of the Science of Food and Agriculture, 2022, 102(13): 6123. [本文引用:1]
[26] Bo C, Lu H, Wang D. Multimedia Tools and Applications, 2018, 77(9): 10419. [本文引用:1]
[27] Poona N K, Van Niekerk A, Nadel R L, et al. Applied Spectroscopy, 2016, 70(2): 322. [本文引用:1]
[28] Kim M, Yeo Y, Shin H. Optics Communications, 2021, 497: 127198. [本文引用:1]