基于SG-CARS-IBP的圣女果可溶性固形物可见/近红外光谱无损检测
张伏1,2,3, 曹炜桦1, 崔夏华1, 王新月1, 付三玲4,*, 张亚坤1
1.河南科技大学农业装备工程学院, 河南 洛阳 471003
2.机械装备先进制造河南省协同创新中心, 河南 洛阳 471003
3.江苏大学现代农业装备与技术教育部重点实验室, 江苏 镇江 212013
4.河南科技大学物理工程学院, 河南 洛阳 471023
*通讯作者 e-mail: fusanling@126.com

作者简介: 张 伏, 1978年生, 河南科技大学农业装备工程学院教授 e-mail: zhangfu30@126.com

摘要

圣女果可溶性固形物(SSC)含量对圣女果内部品质影响至关重要, 但基于高光谱成像及介电性质特征的SSC检测技术存在局限性, 且目前鲜见圣女果SSC无损检测模型。 为实现圣女果SSC的无损检测, 提出基于圣女果可见/近红外光谱特征的SCC预测模型构建, 及改进的BP神经网络算法研究, 以期解决圣女果内部品质的快速无损检测。 以圣女果为研究对象, 试验样本188个, 将其划分为训练集150个和测试集38个, 采用可见/近红外光谱采集系统获取350~1 000 nm范围内的圣女果表面反射强度, 经光谱校正得样本反射率, 为增强信噪比, 截取481.15~800.03 nm范围内的光谱波段作为有效波段进行分析。 通过对比三种预处理模型, 对有效波段进行SG平滑(Savitzky-Golay Smoothing)预处理, 建立BP神经网络预测模型, 测试集决定系数( R2)和均方根误差(RMSE)分别为0.578 5和0.563 9; 在此基础上, 对BP神经网络的网络结构进行改进, 寻求BP神经网络最优预测结构, 计算输出层与期望值间误差, 调整网络结构参数, 将隐含层学习率和神经元个数分别设置为0.01和5, 建立改进的BP神经网络模型(SG-IBP), 测试集 R2和RMSE分别为0.981 2和0.102 3; 通过竞争自适应重加权采样算法(CARS)筛选出18个特征波段, 测试集 R2和RMSE分别为0.997 8和0.047 9, 同时检测速度显著提升。 研究结果表明: 经过改进的BP神经网络模型性能明显提高, 通过CARS提取特征波段后, 测试集 R2提高了0.419 3, RMSE降低了0.516, 检测速度明显提升。 采用CARS提取特征波段的改进BP神经网络模型(SG-CARS-IBP)具有明显的优越性, SG-CARS-IBP模型较为适合圣女果SSC无损检测研究。 该研究可为圣女果SCC的高效无损检测提供参考。

关键词: 可见/近红外光谱; 圣女果; 改进BP神经网络模型; 竞争自适应重加权采样算法
中图分类号:O433.4 文献标志码:A
Non-Destructive Detection of Soluble Solids in Cherry Tomatoes by Visible/Near Infrared Spectroscopy Based on SG-CARS-IBP
ZHANG Fu1,2,3, CAO Wei-hua1, CUI Xia-hua1, WANG Xin-yue1, FU San-ling4,*, ZHANG Ya-kun1
1. College of Agricultural Equipment Engineering, Henan University of Science and Technology, Luoyang 471003, China
2. Collaborative Innovation Center of Machinery Equipment Advanced Manufacturing of Henan Province, Luoyang 471003, China
3. Key Laboratory of Modern Agricultural Equipment and Technology, Ministry of Education, Jiangsu University, Zhenjiang 212013, China
4. College of Physical Engineering, Henan University of Science and Technology, Luoyang 471023, China
*Corresponding author
Abstract

The content of soluble solids (SSC) plays an essential role in the internal quality of cherry tomatoes. However, SSC detection has some problems based on hyperspectral imaging and dielectric properties. There are few SSC non-destructive testing models for cherry tomatoes currently. Therefore, in order to realize the non-destructive detection of SSC in cherry tomatoes, a prediction model of internal quality based on the spectral characteristics of cherry tomatoes and an improved BP neural network algorithm were proposed to solve the problem of rapid non-destructive detection of cherry tomatoes’ internal quality. In this study, cherry tomatoes were selected as the research object, and there were 188 test samples divided into a training set of 150 and a testing set of 38. The cherry tomatoes’ reflective intensity in 350~1 000 nm was obtained using the visible/near-infrared spectral acquisition system, and corrected sample reflectivity was obtained and analyzed. The practical information of the cherry tomatoes’ spectral in 481.15~800.03 nm was intercepted to enhance the signal-to-noise ratio. A BP neural network prediction model was established by comparing the effective wavelengths treated by Savitzky-Golay smoothing (SG). The coefficient of determination ( R2) and root mean square error (RMSE) for the test set were 0.578 5 and 0.563 9. On this basis, the network structure of the BP neural network was improved to seek the optimal prediction structure of the BP neural network. The error between the output layer and the expected value was calculated. The network structure parameters were adjusted, and the learning rate and the number of neurons were set to 0.01 and 5 to establish BP neural network model (SG-IBP). The R2 and RMSE of the test set were 0.981 2 and 0.102 3. While the R2 and RMSE of the test set were 0.997 8 and 0.047 9, with 18 feature lengths screened by the competitive adaptive reweighted sampling algorithm (CARS). Meanwhile, the speed was greatly improved. The results showed that the performance of the improved BP neural network model was significantly improved. After feature lengths were extracted by CARS, R2 of the test set was increased by 0.419 3, and RMSE was reduced by 0.516.The speed was also significantly improved. Therefore, the improved BP neural network model, which used CARS to extract characteristic lengths (SG-CARS-IBP), had apparent advantages, and the SG-CARS-IBP model was more suitable for studying cherry tomatoes’ SSC non-destructive detection. This study can provide a reference for efficient non-destructive detection of cherry tomatoes.

Keyword: Visible/near-infrared spectroscopy; Cherry tomato; Improved BP neural network model; Competitive adaptive reweighted sampling algorithm
引言

圣女果可溶性固形物含量(SSC), 直接反映了圣女果内外部品质及成熟度[1, 2, 3], 是圣女果口感风味和品质重要指标, 对圣女果SSC无损检测具有重要的研究意义和应用价值。

目前对果蔬品质检测多采用高光谱成像检测、 介电性质检测及可见/近红外光谱检测技术。 高光谱成像检测技术结合果蔬的图像特征和光谱特性, 充分反映果蔬的外观、 颜色、 成分含量等内外部品质, 是当代果蔬品质检测热点技术之一。 姜凤利等[4]采用双孢蘑菇的光谱和纹理信息进行建模, 判别模型识别正确率达95.56%。 Zhang等[5]采用高光谱成像技术对苹果SSC检测, 其PLSR和SVM模型的R2分别为0.907和0.917。 高光谱成像检测技术作为当前较热门的品质检测技术, 得到广泛应用, 但在高光谱的穿透深度、 入射光源的合理使用、 图像信息处理效率等方面仍存在众多不足[6]。 介电性质检测方法, 利用果蔬内部电场分布和电场强度变化, 对品质参数和介电性质参数建立预测模型[7], 目前该技术主要应用于对果蔬内部品质的检测。 王若琳等[8]结合多种分类模型分析苹果在不同频率处电学特征值, 采用主成分分析判别好果与病果, 为水心病果品检测提供新方法。 唐玉荣等[9]研究基于介电性质的库尔勒香梨SSC, 在0.1 kHz频率下, 验证香梨SSC与硬度相关性。 果蔬的介电性质虽与其品质有明显相关性, 但在其介电性质检测时仍会受频率等因素影响, 不可控因素较多, 存在技术局限性。 可见/近红外光谱技术根据果蔬在不同波长光线照射下所具有的光学特性而建立的与果蔬品质评价指标之间的关系。 Mishra等[10]在对梨的可见/近红外光谱检测中发现, 709~759和789~999 nm处信息为SSC重要光谱区域。 Nordey等[11]基于可见/近红外光谱技术对芒果SSC进行研究, 采用PLSR模型训练得出其RMSE为0.6。 徐赛等[12]采用400~1 100 nm处光谱信息实现菠萝水心病无损检测, 正确率达91.18%。

上述研究表明, 圣女果内部品质可见/近红外光谱快速无损检测技术具有可行性和应用前景, 可避免高光谱成像技术对光源和测量环境的高要求, 也可有效减少介电性质检测中不可控因素的影响, 具有简单易用、 稳定性高等优点。 本研究基于可见/近红外光谱技术展开对圣女果可溶性固形物含量的检测。

1 实验部分
1.1 材料

试验所用圣女果样本来自河南省洛阳市某采摘园, 试验采集样本均满足果实完整、 无裂痕、 外观颜色相近等要求。 对样本表面擦洗干净并依次编号, 便于试验检测精准, 如图1。

图1 圣女果样本Fig.1 Cherry tomato samples

1.2 仪器

试验采用的可见/近红外光谱采集系统包括微型光纤光谱仪(USB4000-VIS-NIR-ES, Ocean Optics, USA)、 光源(HL-2000, Ocean Optics, USA)、 光学光纤(SMA 905-VISNIR, Ocean Optics, USA)、 数显折光仪和计算机等, 如图2(a, b, c)所示。 光谱仪扫描范围为350~1 000 nm, 光学分辨率为1.5~2.3 nm FWHM。 采用光谱仪配套的Spectrasuite软件获取处理光谱数据。 数显折光仪的测量范围是0~55%, 分辨率0.1%, 精度± 0.2%, 采用数显折光仪测量圣女果SSC值。 试验数据分析软件为The Unscrambler X10.4、 Excel 2019、 Origin 2018、 MatlabR2018a。

图2 试验仪器与设备
(a): 光谱仪; (b): 数显折光仪; (c): 检测系统结构示意图
Fig.2 Test instruments and equipment
(a): Spectrometer; (b): Digital display refractometer; (c): Schematic diagram of detection system structure

1.3 光谱采集

采集系统预热30 min后采集暗光谱和参考光谱进行校正, 为避免杂光干扰, 测量时处在黑暗环境中, 在不损坏样本情况下, 光纤探头紧贴样本表面, 每个果实测量最大横径处两个点的光谱反射强度, 如图3, 即每个果实有二组数据, 取二组数据平均值作为该样本光谱反射强度测试值。

图3 采集位置示意图Fig.3 Schematic diagram of acquisition location

通过Spectrasuite软件把采集的光谱数据导入计算机并对其分析, 处理后得到345.89~1 040.49 nm波长范围的平均光谱反射强度曲线, 如图4。 为提高光谱测量精度, 增强光谱信噪比, 剔除345.89~480.94和800.21~1 040.49 nm两段光谱信号噪声较大的区域, 故本研究实际有效波长范围是481.15~800.03 nm。 通过式(1)计算果实反射率值。

R=I-IANICK-IAN(1)

式(1)中, R为果实反射率; I为果实反射强度; IAN为暗光谱; ICK为参考光谱。

图4 原始光谱平均反射率曲线图Fig.4 Average reflectivity curves of the original spectral

测量过程中, 每隔10 min采集一次暗光谱和参考光谱重新进行校正, 以确保测量准确性。 另外, 在试验操作过程中, 操作人员穿深色衣服, 最大限度地有助于减少操作员衣服光线反射干扰而产生误差。

1.4 建模方法和模型评价标准

1.4.1 BP神经网络预测模型

BP(back propagation)神经网络算法[13]是一种多层前馈神经网络, 其隐含层可有一层或多层, 各层之间全连接, 同层之间无连接, 如图5。 BP激励函数g(x)为式(2)

g(x)=11+e-x(2)

图5 BP神经网络模型Fig.5 BP neural network model

BP神经网络隐含层输出Hj

Hj=gi=1nwijxi+aj(3)

式(3)中, n为输入层的节点个数; wij为输入层到隐含层的权重。

输出层输出Ok

Ok=j=1lHjwjk+bk(4)

式(4)中, l为隐含层的节点个数; wjk为隐含层到输出层的权重; bk为隐含层到输出层的偏置。

1.4.2 竞争性自适应重加权算法

竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)[14]是一种波长选择算法, 选择PLS模型中回归系数绝对值大的波长点, 去掉权重小的波长点, 采用交叉验证选出预测均方根误差(RMSECV)值最低的子集, 可有效寻出最优变量组合。

CARS算法利用蒙特卡洛(MCS)与指数衰减函数(EDF)

选出绝对值大的回归系数相应波长, 选出波长对应数据进行自适应重加权采样(ARS)并建立PLS模型, 计算其交叉验证均方根误差(RMSECV)。 重复上述步骤, 将剩余波长组成的新子集代入计算, 选取RMSECV最小的波长子集为最优波长。

1.4.3 模型评价标准

预测模型精度评价由决定系数R2和决定系数RMSE值确定, R2值越大, RMSE值越小, 说明拟合效果越好, 模型精确度及稳定性越好。 计算方法见式(5)和式(6)

R2=1-i=1n(yi-y^i)2i=1n(yi-y-)2(5)

RMSE=1ni=1n(yi-y^i)2(6)

式中, y^i为第i个研究样本的预测值; yi为第i个研究样本的真实值; y-为所有研究样本的平均值; n为样本个数。

2 结果与讨论
2.1 训练集与测试集划分

将采集到的188个满足试验要求的圣女果样本表面擦洗干净, 并依次编号, 通过数显折光仪测量圣女果样本的可溶性固形物含量, 所测的SSC值统计结果如表1

表1 圣女果SSC实测值统计表/Brix Table 1 Cherry tomato SSC measured value statistical table/Brix

从全部样本中选取150个作为训练集和38个作为测试集, 对圣女果样本SSC值预测模型进行分析, 并通过R2和RMSE对预测模型进行评价, 找到最优预测模型, 以此提高圣女果SCC检测精度。

2.2 光谱数据预处理

由于光谱仪获取的光谱数据除含被测样本成分信息外, 还易受杂散光、 基线漂移、 噪声、 样本背景等信息干扰, 从而影响建模效果[15], 故在建立模型前先对光谱数据预处理, 以此降低各种非目标因素对检测信息的影响, 以期提高模型精度, 建立更稳定可靠的数学模型。

本研究采用SG平滑、 归一化(normalization)、 标准正态变量变换(standard normal variate, SNV)对光谱数据进行预处理。 其中SG平滑可有效降低高频噪声的影响, 归一化可提高模型寻优的稳定性, SNV可消除许多因素对光谱的影响。 在全波段数据基础上, 建立圣女果SSC的BP神经网络预测模型, 通过模型评价来确定最佳预处理方法。 在试验所设定范围内, 不同预处理方法与BP建模结果如图6(a, b, c), R2与RMSE结果如表2

图6 不同预处理方法与BP建模结果
(a): SG-BP预测模型; (b): NOR-BP预测模型; (c): SNV-BP预测模型
Fig.6 Results of different pretreatment methods with BP model
(a): SG-BP prediction model; (b): NOR-BP prediction model; (c): SNV-BP prediction model

表2 圣女果SSC不同预处理方法与BP建模结果 Table 2 Different pretreatment methods with BP model results of cherry tomatoes SSC

三种预处理方法中经SG平滑预处理后的光谱数据预测模型最优。 经SG平滑预处理后的光谱数据图如图7。

图7 SG平滑预处理后光谱平均反射率曲线图Fig.7 Spectral average reflectivity curves of Savitzky-Golay smoothing

2.3 模型分析

2.3.1 IBP神经网络预测模型建立

本研究提出IBP(improved BP), 即改进的BP神经网络, 通过计算输出层与期望值之间的误差来调整网络结构参数, 从而使误差变小, 隐含层神经元个数设置为5。 IBP神经网络模型如图8。

图8 IBP神经网络模型Fig.8 IBP neural network model

由于学习率太小或太大可能造成模型收敛速度过慢或不收敛, 通过模型计算, 将学习率设置为0.01。 式(7)是一种自适应学习速率的调整公式

Δηk=+aC1k-k-1C2k0else(7)

式(7)中, η 为学习速率; k为训练次数; a> 0; b> 0, 条件C1(k)和C2(k)分别定义为:

C1(k): BP网络前i次迭代的平方误差函数梯度值Δ E(k-i)< 0;

C2(k): BP网络前i次迭代的平方误差函数梯度值Δ E(k-i)> 0。

IBP神经网络通过修改上述超参数使得模型表现得更好。 SG-IBP预测模型的R2和RMSE分别为0.981 2和0.102 3, SG-IBP网络预测模型如图9。

图9 SG-IBP预测模型Fig.9 SG-IBP prediction model

2.3.2 CARS降维

CARS算法提取特征参数过程如图10, 由图10(a)易见, 在筛选变量时逐渐由采样早期的“ 粗略筛选” 过渡为“ 精细筛选” , 极大提升算法效率, 减少有效变量个数。 由图10(b)可知, 采样次数为34时达到最小值, 表明在第1~33次采样运算中, 可见/近红外光谱中与圣女果SSC值预测大量无关信息被去除, 40次采样后RMSECV值开始递增, 表明某些关键信息被剔除导致模型性能变差。 图10(c)中“ * ” 线标示出最小RMSECV值所对应采样次数。

图10 通过CARS选择特征波长
(a): 波长变量数目变化图; (b): RMSECV变化图; (c): 变量回归系数路径图
Fig.10 Key variables selection by CARS
(a): Diagram of the number of wavelength variables; (b): RMSECV variation; (c): Path diagram of variables regression coefficients

基于第34、 35次采样中获得的变量子集建立的PLS模型交叉验证RMSECV最小, 因此, 该子集被定义为关键变量子集, 提取的变量子集在图11中513.98~794.28 nm间的18个变量, 分别为第160, 165, 330, 331, 918, 919, 1 109, 1 110, 1 111, 1 112, 1 417, 1 467, 1 468, 1 569, 1 575, 1 576, 1 588和1 590变量, 即对应513.98, 515.01, 548.74 , 548.95, 665.91, 666.11, 703.21, 703.41, 703.60, 703.79, 761.93, 771.33, 771.51, 790.38, 791.49, 791.68, 793.91和794.28 nm处的波长。

图11 CARS选择特征波长后的光谱平均反射率曲线Fig.11 Spectral average reflectivity curves after CARS selected characteristic wavelengths

SG-CARS-IBP预测模型的R2和RMSE分别为0.997 8和0.047 9, SG-CARS-IBP网络预测模型如图12。

图12 SG-CARS-IBP预测模型Fig.12 SG-CARS-IBP prediction model

2.4 讨论

SG-BP, SG-IBP和SG-CARS-IBP预测分析模型的R2和RMSE结果如表3。 由表3可见, 经SG平滑预处理后的光谱数据在IBP预测分析模型下的R2相较于原始BP模型提高了0.402 7, RMSE降低了0.461 6, SG-IBP模型预测效果明显优于SG-BP模型。 基于CARS提取特征变量, 得到18个有效变量, 对18个变量建立IBP模型, 发现R2和RMSE分别为0.997 8和0.047 9, SG-CARS-IBP预测分析模型下的R2相比于原始SG-IBP模型提高了0.016 6, RMSE降低了0.054 4, SG-CARS-IBP模型预测效果优于SG-IBP模型, 可能是由于经过有效信息的提取, 与圣女果SSC值强相关变量被保留, 弱相关变量均被剔除。 经过CARS进行特征波长提取后输入变量数量由1621个减少为18个。 综合考虑R2与RMSE, 认为SG-CARS-IBP是圣女果无损检测的较优模型。

表3 圣女果SSC不同预测分析模型结果 Table 3 Results of different prediction analysis models for cherry tomatoes SSC
3 结论

为实现圣女果内部品质的无损检测, 对圣女果可溶性固形物(SSC)进行了试验研究和分析。

(1)采用SG平滑法对所采集的光谱数据进行平滑去噪预处理, 确定481.15~800.03 nm波段的光谱数据为有效光谱。

(2)采用BP神经网络算法对预处理后的光谱数据进行预测分析, R2和RMSE分别为0.578 5和0.563 9。 对BP进行改进, 隐含层神经元个数设置为5; 学习率设置为0.01, 建立IBP预测模型, 测试集R2和RMSE分别为0.981 2和0.102 3。

(3)CARS提取特征波长后的18个特征作为输入变量建立IBP模型, 最终测试集R2和RMSE分别达到0.997 8和0.047 9, 速度得到明显提升。

研究结果表明经CARS提取特征波长后的IBP算法可明显提高BP神经网络的预测性能, 实现圣女果SSC无损检测。 本研究为圣女果SCC的高效无损检测提供新思路和方法。

参考文献
[1] FENG Yan, LI Chao-ping, ZHU Long-ying, et al(冯岩, 李朝平, 朱龙英, ). Molecular Plant Breeding(分子植物育种), 2022, 20(15): 5158. [本文引用:1]
[2] TIAN Hua, WANG Jin-ping, WANG Yuan(田华, 汪金萍, 王远). Food Research and Development(食品研究与开发), 2018, 39(11): 204. [本文引用:1]
[3] YANG Sheng-bao, TANG Ya-ping, YANG Tao, et al(杨生保, 唐亚萍, 杨涛, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2017, 33(18): 285. [本文引用:1]
[4] JIANG Feng-li, SHEN Dian-zhao, YANG Lei, et al(姜凤利, 沈殿昭, 杨磊, ). Food Science(食品科学), 2022, 43(22): 353. [本文引用:1]
[5] Zhang D, Xu Y, Huang W, et al. Infrared Physics & Technology, 2019, 98: 297. [本文引用:1]
[6] SHEN Ya-qi, LI Song-lin, HE Jie, et al(申亚其, 李松林, 何杰, ). Forestry Machinery & Woodworking Equipment(林业机械与木工设备), 2021, 49(3): 4. [本文引用:1]
[7] LIU Yan, ZHOU Xin-qi, YU Xiao-feng, et al(刘妍, 周新奇, 俞晓峰, ). Journal of Zhejiang University·Agric. & Life Sci. (浙江大学学报·农业与生命科学版). 2020, 46(1): 27. [本文引用:1]
[8] WANG Ruo-lin, WANG Dong, REN Xiao-lin, et al(王若琳, 王栋, 任小林, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(5): 129. [本文引用:1]
[9] TANG Yu-rong, ZHANG Hong, CAO Xin-xin, et al(唐玉荣, 张宏, 曹昕昕, ). Journal of Henan Agricultural Sciences(河南农业科学), 2017, 46(3): 148. [本文引用:1]
[10] Mishra P, Woltering E, Brouwer B, et al. Postharvest Biology and Technology, 2021, 171: 1. [本文引用:1]
[11] Nordey T, Joas J, Davrieux F, et al. Scientia Horticulturae, 2017, 216: 51. [本文引用:1]
[12] XU Sai, LU Hua-zhong, WANG Xu, et al(徐赛, 陆华忠, 王旭, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2021, 37(21): 287. [本文引用:1]
[13] XU Xin, MA Zhao-wu, XIONG Shu-ping, et al(许鑫, 马兆务, 熊淑萍, ). Journal of Agricultural Science and Technology(中国农业科技导报), 2022, 24(2): 136. [本文引用:1]
[14] WANG Nai-xiao, WANG Xi-lin, TAN Xin-ran, et al(王乃啸, 王希林, 覃歆然, ). Proceedings of the CSEE(中国电机工程学报), 2020, 40(4): 1378. [本文引用:1]
[15] DING Zhen, CHANG Bo-shen(丁震, 常博深). Industry and Mine Automation(工矿自动化), 2021, 47(12): 93. [本文引用:1]