基于高光谱成像技术的油茶果不同成熟阶段判别
袁伟东1,2, 鞠皓2, 姜洪喆1,2, 李兴鹏2, 周宏平1,2,*, 孙梦梦1,2
1.南京林业大学林业资源高效加工利用协同创新中心, 江苏 南京 210037
2.南京林业大学机械电子工程学院, 江苏 南京 210037
*通讯作者 e-mail: hpzhou@njfu.edu.cn

作者简介: 袁伟东, 1997年生, 南京林业大学机械电子工程学院博士研究生 e-mail: yuanwd@njfu.edu.cn

摘要

我国南方丘陵山区大面积种植油茶果, 而目前油茶果的采摘期主要根据节气和经验来判断, 过早和过晚采摘油茶果皆会带来经济损失。 旨在探索高光谱成像技术准确鉴别油茶果成熟度的可行性, 应用波段范围为400~1 000 nm的高光谱成像(HSI)系统采集了不同成熟度油茶果共480个样本的高光谱数据。 基于SNV、 SNV-detrend、 SG、 一阶导和二阶导5种不同预处理建立PLS-DA和PSO-SVM判别模型。 选择最优预处理数据进行特征波长筛选, 发现相比于SPA, CARS筛选特征波长建立的简化模型性能更优, CARS-PLS-DA和CARS-PSO-SVM模型预测集分类准确率为92.5%和89.2%, Kappa系数均超过0.86。 采用颜色矩的方法提取高光谱图像中颜色特征值结合特征波长建立PLS-DA和PSO-SVM组合模型, 发现仍是经CARS筛选特征波长建立的模型性能最优, 其中CARS+颜色-PLS-DA和CARS+颜色-PSO-SVM模型预测集分类准确率分别为94.2%和93.3%。 特征波长融合颜色特征值的组合建模比单一特征波长建模分类效果好, 预测集分类准确率分别提高了1.7%和4.1%。 CARS+颜色-PLS-DA模型显示出最佳预测性能, 其Kappa系数为0.923 1。 研究表明利用高光谱成像技术结合化学计量学方法可用于油茶果成熟度检测, 为实现快速、 无损、 准确鉴别油茶果成熟度提供了科学依据。

关键词: 高光谱成像; 油茶果; 成熟度; 颜色特征值; Kappa系数
中图分类号:O657.3 文献标志码:A
Classification of Different Maturity Stages of Camellia Oleifera Fruit Using Hyperspectral Imaging Technique
YUAN Wei-dong1,2, JU Hao2, JIANG Hong-zhe1,2, LI Xing-peng2, ZHOU Hong-ping1,2,*, SUN Meng-meng1,2
1. Jiangsu Co-Innovation Center of Efficient Processing and Utilization of Forest Resources, Nanjing Forestry University, Nanjing 210037, China
2. College of Mechanical and Electronic Engineering, Nanjing Forestry University, Nanjing 210037, China
*Corresponding author
Abstract

Camellia oleifera fruit is widely planted in hilly and mountainous areas in southern China. The harvest time of Camellia oleifera fruit is currently decided by solar terms and experience, and the prematurity or too late picking will bring economic losses. This study aimed to explore the feasibility of hyperspectral imaging (HSI) technology to identify the maturity stages of Camellia oleifera fruit accurately. The HSI system with a spectral range of 400~1 000 nm was applied to collect hyperspectral images of 480 Camellia oleifera fruit samples at different maturity stages. PLS-DA and PSO-SVM models were individually developed based on spectra preprocessed with five different pretreatments including SNV, SNV-detrend, SG, first-order derivative and second-order derivative. The optimal preprocessing method was selected and further used in feature wavelength screening. Consequently, it was found that the simplified model built by feature wavelengths selected using CARS gave better performance compared to SPA. The classification accuracies of CARS-PLS-DA and CARS-PSO-SVM models in the prediction set were 92.5% and 89.2%, respectively, and the kappa coefficients were above 0.86. Furthermore, color features were extracted from the hyperspectral images by color moment approach, and PLS-DA and PSO-SVM models were built based on the combination of color features and feature wavelengths. Then, the performance of the models built by feature wavelengths screened by CARS was still found to be the best with classification accuracies of 94.2% and 93.3% for CARS+color-PLS-DA and CARS+color-PSO-SVM models in the prediction set, respectively. The models developed by combination features showed better classification results than models based on wavelengths alone, and the classification accuracies were improved by 1.7% and 4.1% in the prediction set, respectively. The optimal CARS+color-PLS-DA model gave the best predicted performance with its Kappa coefficient of 0.923 1. As a result, our work indicates that the application of HSI technology combined with chemometric methods can be used to identify the maturity stages of Camellia oleifera fruit, which provides a rapid, nondestructive and accurate way in Camellia oleifera fruit maturity detection.

Keyword: Hyperspectral imaging; Camellia oleifera fruit; Maturity; Color features; Kappa coefficient
引言

油茶(Camellia oleifera Abel.)是我国特有的木本油料树种, 茶油是油茶的主要产品, 被誉为“ 东方橄榄油” [1]。 茶油具有丰富的营养物质, 可以提高人体免疫力、 养生保健等功效。 每年的9月— 10月是有机物和油脂累积的高峰期, 在果实过熟前油茶果的含油率随着采摘时间推移而递增[2]。 过早的采摘油茶果将降低茶油的产量, 且茶油的品质较差, 而当油茶果过熟时会发生开裂、 果仁散落难以收集, 会对茶农造成一定的经济损失。 因此迫切需要一种方法能够准确鉴别油茶果成熟度以便正确把握采摘时机, 这不仅与民生息息相关, 也与国家大力支持油茶产业化的政策保持一致[3]

国内外研究人员利用农产品的声学特性和高效液相色谱法测定主要化学物质含量等传统的检测方法来鉴别其成熟度, 这些方法操作繁琐、 费时费力且对样品有破坏性。 高光谱成像是图像与光谱相结合, 具有无损、 快速、 准确等特点, 近年来已广泛用于农产品成熟度鉴别[4, 5], 表明用于无损检测农产品成熟度具有较大的潜力。 孙静涛等[6]利用高光谱技术结合化学计量学方法判别哈密瓜成熟度, 基于全光谱建立的SNV-SVM模型准确率达94.0%, 并采用主成分分析(principal component analysis, PCA)对CARS(competitive adaptive reweighted sampling, CARS)筛选哈密瓜的可溶性固形物和硬度的特征波长进行处理, 建立CARS-PCA-SVM模型测试集准确率达94.0%。 Zhang等[7]使用PCA筛选最佳波长(光谱范围441.1~1 013.97 nm)结合纹理特征建立SVM(support vector machine, SVM)草莓成熟度鉴别模型, 取得较好的分类效果, 准确率达95.0%。 胡逸磊等[2]采用曲率校正对光谱图像进行预处理, 通过颜色直方图提取油茶果图像中的颜色特征, 光谱信息融合颜色特征建立的SVM模型最佳测试集正确率为93%。 这些研究结果为高光谱技术检测油茶果成熟度提供了重要的科学依据。

以油茶果为研究对象, 利用不同预处理的全光谱数据建立PLS-DA(partial least squares regression discriminant analysis, PLS-DA)和PSO-SVM(particle swarm optimization, PSO)模型。 基于最优预处理利用SPA(succesive projections algorithm, SPA)和CARS进行特征波长筛选; 基于特征波长、 特征波长融合颜色特征建立定性分析模型并对比结果。 最终的研究目的是通过高光谱技术结合化学计量学方法实现对油茶果成熟度的快速、 无损检测, 为处于不同成熟阶段油茶果的在线判别提供有效的科学依据。

1 实验部分
1.1 样品

油茶果样本采集自江苏省南京市江宁区金航油茶专业合作社, 采集的油茶果品种均属于霜降籽, 果实成熟期在霜降节前后。 本课题组于2020年10月13日— 2020年11月10日期间共采摘5批油茶果, 用于高光谱检测油茶果成熟度的样本[2]。 为将研究进一步深入, 于2021年9月30日— 2021年11月10日期间共采摘5批不同成熟度的油茶果(油茶果采摘期为10月份; 11月14号油茶树上已几乎没有完整的油茶果, 基本采摘完毕, 因为果实过熟导致果壳开裂、 果仁脱落), 每批采摘的油茶果均形状大小相似, 且无病虫害等缺陷。 样品采摘后立即封装运回实验室。 5批采摘油茶果个数依次为100、 100、 100、 100和80, 共计480个样本。 按照不同采摘的时间将油茶果的成熟度分为5类, 使用Kennard Stone对不同类别油茶果样本按照3∶ 1划分为训练集和测试集, 训练集和测试集数据分布如表1所示。

表1 不同成熟度油茶果样本的划分情况 Table 1 Classification of camellia oleifera fruit samples with different maturities
1.2 高光谱图像采集与校正

采用南京林业大学生物质包装无损检测实验室搭建的高光谱成像无损检测平台, 如图1所示, 主要包括成像光谱仪(GaiaField-V10E-AZ4, 400~1 000 nm)、 sCMOS相机、 载物台系统、 卤素灯、 计算机和电机等。 其中成像光谱仪的光谱分辨率为5 nm, 被测样本置于传送带(依靠电机驱动)的载物台上。 高光谱图像数据采集软件为Specview。 在采集油茶果光谱图像之前将高光谱仪器预热30 min。 为避免采集到的光谱图像失真, 在采集数据时需要对设备参数进行调试, 经过多次预实验确定最佳设备参数如下: 光谱仪(400~1 000 nm)曝光物距为300 mm, 曝光时间为1.4 ms, 位移扫描速度为6 mm· s-1

图1 高光谱成像系统
1: 计算机; 2: sCMOS 相机; 3: 光谱仪(400~1 000 nm); 4: 卤素灯; 5: 样本; 6: 载物台系统; 7: 电机
Fig.1 Hyperspectral imaging system
1: Computer; 2: sCMOS camera; 3: Spectrometer (400~1 000 nm); 4: Halogen lamp; 5: Sample; 6: Carrier system; 7: Motor

由于高光谱图像采集过程中存在相机的暗电流和环境因素影响, 需要对原始图像进行黑白校正[8], 校正公式如式(1)

R=Iraw-IdarkIwhite-Idark(1)

式(1)中, Iraw为原始样本的漫反射光谱图像数据; R为校正后的漫反射光谱图像数据; Idark为暗图像数据; Iwhite为白板的漫反射图像数据。

1.3 感兴趣区域选择

原始高光谱图像包含油茶果和背景信息, 因此需要去除背景提取纯油茶果的光谱信息。 利用ENVI Vision5.3软件(Research Systems Inc., Boulder, CO, USA)通过阈值分割将整个油茶果样本作为感兴趣区域(region of interest, ROI)。 如图2所示, ROI的提取步骤如下:

图2 光谱信息提取过程Fig.2 Spectral information extraction process

(1) 对比发现在815.8 nm波长处图像中的油茶果样本和背景反射率差异最大;

(2) 对图像进行阈值分割获得灰度图像;

(3) 以反射值0.2作为分割图像中油茶果样本与背景的最小阈值;

(4) 提取150个波长的光谱信息, 取平均反射率作为样本的原始光谱, 即可得到波长反射率曲线;

(5) 提取出480条高光谱图像曲线。

1.4 光谱数据预处理

光谱仪在采集光谱信息过程中易产生大量的噪声和干扰信息, 因此需要将噪声和干扰信息剔除进一步提高光谱信息的鲁棒性和准确性[9]。 使用五种常见有效的预处理方法对原始光谱信息进行处理, 即标准正态变量变换法(standard normal variate transformation, SNV)、 SNV结合去趋势(detrending)、 SG卷积平滑法(savitzky-golay smoothing, SG)、 一阶导(窗口宽度为3)和二阶导(窗口宽度为3)。

1.5 特征变量选取方法

高光谱数据中包含大量的冗余信息, 需要提取出最小冗余新变量来消除数据间的共线性和重叠问题[10]。 采用两种不同的变量选择方法:

(1) 连续投影算法是一种为特征变量选择而设计的前向迭代选择方法, 利用投影分析法将变量投影到其他变量上, 通过比较投影向量的大小, 选取投影向量最大的变量并结合校正模型的最小均方根误差(root mean square error, RMSE)选取特征变量[11]

(2) 竞争性自适应重加权采样算法是一种结合蒙特卡洛采样与偏最小二乘回归(PLSR)绝对系数(RC)的特征变量选择方法。 CARS的原理是通过自适应重加权采样方法和指数衰减函数去除掉偏最小二乘回归系数中绝对值权重较小的波长, 经多次计算选择PLSR模型中交叉验证RMSE最小的变量子集作为特征变量[12]

1.6 判别模型建立与评价

偏最小二乘判别分析是基于PLSR提出的一种判别分析方法, 在频谱建模中表现出良好的分类性能[13]。 在PLS-DA中Y值为预测每个样本的类别, 类别标签采用二进制编码, 需设定阈值与模型实际值和预测值之差对比判别分类。 PLS-DA模型采用10折交叉验证得到最小预测误差确定最优潜在变量(latent variable, LV)的数量。

支持向量机是机器学习中经典的监督学习算法, 适用于解决样本量小、 非线性和高维模式识别问题[11]。 核函数的选择是SVM的关键, 径向基函数(RBF)被广泛用作谱分析中的核函数, 具有很强的处理非线性问题能力。 粒子群优化算法是一种进化算法, 采用PSO迭代优化SVM的惩罚因子(c)和核参数(g), 在PSO-SVM模型中, 采用10折交叉验证, 种群规模设置为20, 迭代次数为100, 学习因子C1和C2分别为1.5和1.7[14]

考察模型的性能效果采用分类准确率(correct classification rate, CCR)、 灵敏度(sensitivity)、 特异性(specificity)和Kappa系数来评估, 各数值越高表明模型性能越好, 其计算公式如式(2)— 式(4)

分类准确率=TP+TNTP+FN+FP+TN(2)

灵敏度=TPTP+FN(3)

特异性=TNTN+FP(4)

式中: TPTNFNFP是混淆矩阵划分的四个指标, TP(真阳性)为阳性油茶果被识别为阳性的数量; TN(真阴性)为阴性油茶果被识别为阴性的数量; FN(假阴性)为阴性油茶果被误分为阳性油茶果的数量; FP(假阳性)为阳性油茶果被误分类阴性油茶果的数量, 这里的阳性油茶果表示某一类油茶果, 剩余类别的油茶果皆为阴性。

1.7 提取颜色特征值

果实的外部颜色是人们判别其成熟度的重要标准之一, 处于不同成熟度等级的果实在颜色上具有一定的差异。 薛建新等[5]基于RGB模型提取了沙金杏的颜色特征值, 使用光谱融合颜色特征建立的ELM(extreme learning machine, ELM)模型优于纯光谱模型, 准确率达93.3%。 由此可见, 光谱信息融合颜色特征增强了模型的判别效果。 故而亦基于RGB模型, 采用颜色矩方法提取油茶果样本图像的颜色特征值, 由于颜色信息主要作为低阶矩分布, 因此一阶矩、 二阶矩和三阶矩足以表达图像的颜色分布[15]。 其中, 一阶矩表示颜色分量的平均强度, 二阶矩表示待测区域的颜色方差, 三阶矩表示颜色分量的偏斜度。 其计算公式如式(5)— 式(7)

${{\mu }_{i}}=\frac{1}{N}\overset{N}{\mathop{\underset{j=1}{\mathop \sum }\, }}\, {{P}_{ij}}$ (5)

${{\sigma }_{i}}=\sqrt{\frac{1}{N}\overset{N}{\mathop{\underset{j=1}{\mathop \sum }\, }}\, {{({{P}_{ij}}-{{\mu }_{i}})}^{2}}}$(6)

${{s}_{i}}=\sqrt[3]{\frac{1}{N}\overset{N}{\mathop{\underset{j=1}{\mathop \sum }\, }}\, {{({{P}_{ij}}-{{\mu }_{i}})}^{3}}}$(7)

式中, μ iσ isi分别为图像的一阶矩、 二阶矩和三阶矩, Pij为图像中第j个像素点的第i个颜色分量, N为像素点数。

基于RGB颜色空间将图像R、 G、 B三个分量的一阶矩、 二阶矩和三阶矩组成一个9维的颜色特征向量, 该颜色特征值为[μ R, μ G, μ B, σ R, σ G, σ B, sR, sG, sB]。

2 结果与讨论
2.1 不同成熟度油茶果光谱特征分析

去除首尾噪声波段, 对416.6~994.9 nm内115个波段进行光谱特征分析。 480个油茶果样本的原始光谱曲线如图3(a)所示, 图3(b)为不同成熟度油茶果带有标准差的平均光谱图, 两幅图变化趋势基本一致。 光谱中的主要吸收带归因于强泛音和含氢基团的组合吸收, 如O— H(来自于水中)、 C— H(来自于脂肪和油)[16]。 430.89 nm附近的吸收峰主要与邵氏带有关[17], 672 nm附近的吸收峰与样本外壳叶绿素和“ 红边” 效应有关[18], 957.5 nm附近的吸收峰主要与油茶果内部水分的O— H拉伸态和弯曲态的二阶泛音有关[18]

图3 油茶果样本光谱曲线
(a): 480个样本的原始光谱曲线; (b): 不同成熟度油茶果带有标准差的平均光谱图
Fig.3 Spectra of camellia oleifera samples
(a): Raw spectral curves of 480 samples; (b): Average spectral curves with standard deviation of camellia oleifera samples with different maturities

2.2 基于全光谱判别模型

将5种不同成熟度的油茶果样本赋予1、 2、 3、 4、 5类别标签, 基于全光谱(416.6~994.9 nm)和预处理后的全光谱建立了PLS-DA和PSO-SVM判别模型。 共采用5种不同的预处理方法, 包括SNV、 SNV-detrend、 SG、 一阶导和二阶导, 通过参数寻优基于最优参数下建立定性分析模型, 其判别结果和最优参数如表2所示。 结果表明, 预处理后模型的分类准确率普遍优于未预处理模型, 因为预处理可以减少散射效应或背景噪声从而提高模型的鲁棒性。 对比发现经一阶导预处理后模型性能最优, PLS-DA和PSO-SVM最优模型训练集、 交叉验证集和测试集的准确率分别为96.6%、 93.8%、 92.2%和97.2%、 94.2%、 90.0%。 因此, 选取一阶导预处理的全光谱做进一步分析。

表2 不同预处理方式全光谱PLS-DA和PSO-SVM模型性能比较 Table 2 Performance comparison of PLS-DA and PSO-SVM models using whole-spectrum preprocessed with different methods
2.3 基于特征波长判别模型

为了保证建模的准确性, 提高模型的计算速度, 经预处理后的全光谱仍存在大量的冗余信息, 可能会带来过拟合、 噪声和非线性的风险, 且大都数情况下全光谱范围内仅有少数波长与待测物质有关。 因此, 使用SPA和CARS对一阶导预处理后的全光谱(416.6~994.9 nm, 115个波长)进行特征波长筛选。 根据经验将SPA特征波长分析最佳特征变量数范围定为5~30[13]。 如图4(a)所示RMSE值最小时对应26个特征波长, 图4(b)为26个特征波长在全波长中的分布情况。 在CARS分析中, 将蒙特卡洛采样次数设置为1 000, 设置每次运行选择的训练集和测试集样本为3∶ 1, 对于RMSECV采用10折交叉验证, 蒙特卡洛采样运行次数为50, 参数设置均凭以往经验[19]。 如图4(c)第一个子图所示, 随着蒙特卡洛采样次数的增加, 特征变量的数量呈指数下降; 在第二个子图中, 使用交叉验证中的RMSECV值作为采样运行次数的评估指标, 基于最小RMSECV值筛选出28个特征波长, 分布情况如图4(d)所示。 具体波长信息如表3所示。

图4 应用SPA和CARS算法选择特征波长
(a): RMSE随特征变量数的变化; (b): SPA筛选特征变量在光谱曲线上的分布; (c): CARS筛选特征变量的结果; (d): CARS筛选特征变量在光谱曲线上的分布
Fig.4 Applications of SPA and CARS to select the characteristic wavelength
(a): Variation of RMSE with the number of eigenvariables; (b): Distribution of SPA screening eigenvariables; (c): Results of CARS screening eigenvariables; (d): Distribution of CARS screening eigenvariables

表3 基于一阶导预处理光谱SPA和CARS选取波长 Table 3 Wavelength selections based on first-derivative spectra by SPA and CARS

表4列出了基于全光谱判别模型以及SPA和CARS简化模型的分类结果, 简化后的模型性能略低于全光谱模型, 但仍取得较好的分类效果, 且建模效率大大提升。 研究结果显示, 采用CARS选定波长建模测试集准确率均高于SPA模型测试集准确率, CARS-PLS-DA和CARS-PSO-SVM模型预测集准确率分别为92.5%和89.2%。 为了进一步比较模型的分类情况, 表5汇总了CARS-PLS-DA和CARS-PSO-SVM模型预测集的混淆矩阵、 灵敏度和特异性以及Kappa系数计算结果, Kappa系数用于评估分类效果具有较好的一致性和可信度, 系数越高, 分类模型越可靠[20]。 CARS-PLS-DA和CARS-PSO-SVM模型对成熟度Ⅲ 、 Ⅳ 、 Ⅴ 灵敏度值相对较低, 主要原因是此时油茶果样本皆已成熟, 已进入采摘期, 光谱差异性相对较小, 但两个定性分析模型的特异性值均超过0.91, Kappa系数均超过0.86, 具有极高的一致性, 对于分类识别任务具有优异的性能。 CARS-PLS-DA模型的Kappa系数值和预测集分类准确率均高于CARS-PSO-SVM模型, 综合来看CARS-PLS-DA模型识别油茶果成熟度性能更加优越。

表4 基于不同方法选定波长PLS-DA和PSO-SVM模型性能比较 Table 4 Performance comparison of PLS-DA and PSO-SVM models using characteristic wavelengths selected by different methods
表5 最优简化模型预测集混淆矩阵 Table 5 Confusion matrix of optimal simplified model for prediction set confusion matrix of optimal simplified model for prediction set
2.4 基于特征波长融合颜色特征判别模型

融合油茶果高光谱图像第64(641.8 nm, R)、 46(522.3 nm, G)、 27(459.8 nm, B)三个通道生成RGB图像, 然后与掩膜图像相乘得到油茶果样本的RGB图像, 具体流程如图2所示。 使用颜色矩的方法提取RGB图像在R、 G、 B三个分量上的均值、 方差和偏斜度, 并组成一个9维的颜色特征向量作为图像的颜色特征, 样本平均颜色特征值如表6所示。 可以看出颜色特征值量级较小, 但不同成熟度之间有一定差异, 因此使用归一化(Normalization)将颜色特征值转化为[-1, 1]之间, 增强数据之间的差异性, 提高模型的可比性。 将颜色特征值融入特征波长分别建立PLS-DA和PSO-SVM组合模型, 如表7所示使用SPA+颜色和CARS+颜色特征建立的PLS-DA模型测试集准确率依次为91.2%、 94.2%, 使用SPA+颜色和CARS+颜色特征建立的PSO-SVM模型测试集准确率依次为92.7%、 93.3%。 进一步发现在PLS-DA和PSO-SVM模型中SPA+颜色特征建模比单一SPA特征建模分类准确率分别提高了0.4%、 4.4%, 使用CARS+颜色特征建模比单一CARS特征建模分类准确率分别提高了1.7%、 4.1%。 基于CARS+颜色特征建立的PLS-DA和PSO-SVM组合模型测试集准确率分别为94.2%、 93.3%, 综合研究显示CARS+颜色特征建模比SPA+颜色特征建模效果优异, 体现了模型性能最优化。

表6 RGB模型提取得到的样本平均颜色特征值 Table 6 Average color features values of samples extracted by RGB model
表7 光谱特征融合颜色特征PLS-DA和PSO-SVM模型性能比较 Table 7 Performance comparison of PLS-DA and PSO-SVM models based on spectral-color features fusion

为了进一步评估模型的性能, 表8汇总了光谱特征融合颜色特征最优模型预测集混淆矩阵, 研究结果显示成熟度Ⅴ 更容易发生误判, 主要原因是成熟度Ⅴ 早已经成熟, 且在成熟后与成熟度Ⅲ 、 Ⅳ 光谱信息和颜色特征变化差异降低。 在CARS+颜色-PLS-DA模型中将2个成熟度Ⅴ 的油茶果样本误判给了成熟度Ⅳ ; 在CARS+颜色-PSO-SVM模型中将1个成熟度Ⅴ 的油茶果样本误判给了成熟度Ⅲ , 3个成熟度Ⅴ 的油茶果样本误判给了成熟度Ⅳ 。 特征波长融合颜色特征后Kappa系数比单一特征波长分别提高了0.016 9、 0.052 4, 且CARS+颜色-PLS-DA模型Kappa系数最高, 为0.923 1, 预测集分类准确率高达94.2%, 该模型为本研究中最优模型。

表8 光谱特征融合颜色特征最优模型预测集混淆矩阵 Table 8 Confusion matrix of the optimal model for prediction set based on spectral-color features fusion

综上说明颜色特征对光谱信息分类模型起到了增益作用, 将油茶果样本生长过程中的颜色差异性融入模型中, 使得定性分析模型更加全面、 稳健。 CARS+颜色-PLS-DA模型在识别油茶果成熟度分类无损检测技术方面具有巨大的潜力。

3 结论

基于高光谱成像技术结合化学计量学方法对光谱信息、 图像颜色特征融合光谱信息进行处理, 从而对油茶果成熟度进行鉴别, 主要的研究结论如下:

(1) 使用SNV、 SNV-detrend、 SG、 一阶导和二阶导5种不同预处理方法对原始光谱处理, 并建立PLS-DA和PSO-SVM模型, 一阶导+PLS-DA测试集分类准确率最高, 达到92.2%。

(2) 基于一阶导预处理光谱利用SPA和CARS进行特征波长筛选, 筛选出的波长数量分别为26、 28, 并建立SPA-PLS-DA、 CARS-PLS-DA、 SPA-PSO-SVM和CARS-PSO-SVM定性分析模型, 其测试集分类准确率依次为90.8%、 92.5%、 88.3%和89.2%。 结合混淆矩阵对简化最优模型进行了深入分析, CARS-PLS-DA和CARS-PSO-SVM模型的Kappa系数均超过0.86。

(3) 基于高光谱图像采用颜色矩的方法提取图像中颜色特征值, 光谱特征波长融合颜色特征值建立定性分析模型, 充分利用了高光谱成像技术“ 图谱合一” 的特点, 4个模型测试集分类准确率均高于91%, CARS+颜色-PLS-DA模型性能最佳测试集分类准确率为94.2%, Kappa系数为0.923 1, 一致性分类效果极好。

为油茶果成熟度鉴别提供了一种快速无损的光谱检测方法, 在未来的工作中仍需进一步提升简化模型的准确性和应用性, 比如结合深度学习使用自动编码器提取特征变量建立卷积神经网络模型等, 为更好地维护木本粮油安全提供强有力的保障。

参考文献
[1] WANG Jin-feng, TAN Xin-jian, WU Xi-chang, et al(王金凤, 谭新建, 吴喜昌, 等). World Forestry Research(世界林业研究), 2020, 33(6): 80. [本文引用:1]
[2] HU Yi-lei, JIANG Hong-zhe, ZHOU Hong-ping, et al(胡逸磊, 姜洪喆, 周宏平, 等). Food Science(食品科学), 2022, 43(16): 324. [本文引用:3]
[3] ZHANG Li-wei, WANG Liao-wei(张立伟, 王辽卫). China Oils and Fats(中国油脂), 2021, 46(6): 6. [本文引用:1]
[4] SHAO Yuan-yuan, WANG Yong-xian, XUAN Guan-tao, et al(邵园园, 王永贤, 玄冠涛, 等). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2020, 51(8): 344. [本文引用:1]
[5] XUE Jian-xin, ZHANG Shu-juan, ZHANG Jing-jing(薛建新, 张淑娟, 张晶晶). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2015, 31(11): 300. [本文引用:2]
[6] SUN Jing-tao, MA Ben-xue, DONG Juan, et al(孙静涛, 马本学, 董娟, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(7): 2184. [本文引用:1]
[7] Zhang C, Guo C, Liu F, et al. Journal of Food Engineering, 2016, 179: 11. [本文引用:1]
[8] ZHAO Mao-cheng, WU Ze-ben, WANG Xi-wei, et al(赵茂程, 吴泽本, 汪希伟, 等). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2022, 53(3): 412. [本文引用:1]
[9] ZHAO Mao-cheng, YANG Jun-rong, LU Dan-dan, et al(赵茂程, 杨君荣, 陆丹丹, 等). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2017, 48(9): 318. [本文引用:1]
[10] Wu D, Sun D W. Innovative Food Science & Emerging Technologies, 2013, 19: 1. [本文引用:1]
[11] HE Yong, LIU Fei, LI Xiao-li, et al(何勇, 刘飞, 李晓丽, 等). Application of Spectroscopy and Imaging Technology in Agriculture(光谱及成像技术在农业中的应用). Beijing: Science Press(北京: 科学出版社), 2016. [本文引用:2]
[12] Li H, Liang Y, Xu Q, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[13] Jiang H, Ye L, LI X, et al. Applied Sciences, 2021, 11(19): 9124. [本文引用:2]
[14] Chen Q, Zhao J, Fang C H, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2007, 66(3): 568. [本文引用:1]
[15] LI Li-li, WANG Bin, ZHANG Xue-hao, et al(李丽丽, 王斌, 张学豪, 等). Modern Food Science and Technology(现代食品科技), 2017, 33(12): 228. [本文引用:1]
[16] Jin H, Ma Y, Li L, et al. Food Analytical Methods, 2016, 9(7): 2060. [本文引用:1]
[17] Jiang H, Jiang X, Ru Y, et al. Infrared Physics & Technology, 2020, 110: 103467. [本文引用:1]
[18] Siedliska A, Baranowski P, Zubik M, et al. Postharvest Biologyand Technology, 2018, 139: 115. [本文引用:2]
[19] Li X, Jiang H, Jiang X, et al. Agriculture, 2021, 11(12): 1274. [本文引用:1]
[20] JIANG Hong-zhe, YANG Xue-song, LI Xing-peng, et al(姜洪喆, 杨雪松, 李兴鹏, 等). Food Science(食品科学), 2023, 44(4): 272. [本文引用:1]