基于近红外在线装置苹果糖度模型参数优化研究
姜小刚1, 朱明旺1, 姚金良1, 李斌1, 廖军1, 刘燕德1,*, 张剑一2, 景寒松2
1. 华东交通大学智能机电装备创新研究院, 江西 南昌 330013
2. 浙江德菲洛智能机械制造有限公司, 浙江 金华 321000
*通讯作者 e-mail: jxliuyd@163.com

作者简介: 姜小刚, 1985年生,华东交通大学机电与车辆工程学院博士研究生 e-mail: jxg_ecjtu@163.com

摘要

糖度(SSC)是苹果内部品质主要评价指标之一, 近红外光谱技术是预测苹果SSC的首选技术, 优化近红外光谱采集装置的参数, 可以提升模型的性能。 采用本课题组自主研发的动态在线设备采集苹果的近红外光谱(350~1 150 nm), 研究不同参数条件下(运动速度、 积分时间和光照强度)对近红外光谱预测苹果糖度模型的影响, 优化动态在线装置的参数。 210个红富士苹果被分为两批, 第一批90个苹果样品, 经过Kennard-Stone算法(K-S)算法分为建模集和预测集, 用于研究不同运动速度、 不同积分时间对苹果SSC含量在线预测模型的影响。 在0.3和0.5 m·s-1两种运动速度下, 使用多元散射校正(MSC)、 小波变换(WT)、 标准正态变量变换(SNV)对采集到的光谱进行预处理, 对不同移动速度的光谱构建糖度的偏最小二乘回归模型(PLS), 结果表明: 装置的运动速度为0.5 m·s-1所建立的预测模型性能较优, 在四种不同积分时间中, 积分时间为120 ms时, 经SNV预处理所建立的模型性能最优, 其预测集的相关系数和均方根误差分别为0.968和0.331。 第二批苹果120个, 经K-S分为建模集和预测集, 选择运动速度为0.5 m·s-1, 积分时间为120 ms的装置参数进行不同光照强度对苹果SSC预测模型影响的研究, 结果发现: 在光照强度为4.5 A时, 采集到的光谱相对其他光照强度组有较大的变化, 光谱在640和800 nm处的波峰基本消失。 在光照强度为6.5 A时, 经SNV预处理后建立的模型性能最优。 再使用竞争性自适应重加权算法(CARS)、 连续投影算法(SPA)对采集的光谱数据进行波长筛选后, 建立苹果SSC模型, 结果表明: CARS-PLS所建立的模型性能较好, 其预测集的相关系数和均方根误差分别为0.991和0.149, 同时简化了模型, 提高了模型的稳定性。 研究表明: 对动态在线设备进行参数优化, 有助于提高苹果模型的预测精度, 该研究有助于对苹果品质在线分选提供技术支持。

关键词: 近红外光谱分析技术; 动态在线装置; 光照强度; 波长筛选; 参数优化
中图分类号:O657.3 文献标识码:A
Research on Parameter Optimization of Apple Sugar Model Based on Near-Infrared On-Line Device
JIANG Xiao-gang1, ZHU Ming-wang1, YAO Jin-liang1, LI Bin1, LIAO Jun1, LIU Yan-de1,*, ZHANG Jian-yi2, JING Han-song2
1. School of Intelligent Electromechanical Equipment Innovation Research Institute, East China Jiaotong University, Nanchang 330013, China
2. Zhejiang Dekfeller Intelligent Machinery Manufacturing Co., Ltd., Jinhua 321000, China
*Corresponding author
Abstract

Soluble solids content is one of the leading evaluation indicators for internal apple quality. NIR spectroscopy is the first choice for predicting apple soluble solids. Optimizing the parameters of near-infrared spectroscopy collection devices can improve the model's performance. In this paper, the near-infrared spectrum (350~1 150 nm) of apples was collected by the dynamic online equipment independently developed by our research group, and the effects of different parameters (movement speed, integration time, and light intensity) on the apple quality prediction model by near-infrared spectrum were studied, the parameters of the dynamic online equipment were optimized. The 210 Fuji apples were divided into two batches. The first batch of 90 apple samples was divided into a modeling set and a prediction set by the K-S algorithm, which was used to study the effect of the online prediction model on the solid soluble content of apples with different movement speeds and different integration times. At two moving speeds of 0.3 and 0.5 m·s-1, multiple scattering correction (MSC) and wavelet transform (WT) are used to preprocess the collected spectra, and the SSC model is built for the spectra with different moving speeds. The results show that the prediction model built with amoving speed of 0.5 m·s-1 performs better. Among the four different integration times, the best performance of the model built by SNV preprocessing was achieved at an integration time of 120 ms. The second batch of 120 apples was divided into modeling and prediction sets by the K-S algorithm. The influence of different light intensities on the apple's SSC prediction model was studied using device parameters with a moving speed of 0.5 m·s-1 and integration time of 120ms. The results showed that when the light intensity was 4.5 A, the collected spectrum changed significantly compared with other light intensity groups, and the peaks at 640 and 800 nm of the spectrum disappeared. When the light intensity is 6.5A, the model after SNV pretreatment has the best performance. Competitive Adaptive Reweighting Algorithm (CARS) and Successive Projections Algorithm (SPA) were used to screen the wavelength of the collected spectral data to establish the apple SSC model. The results show that the model-based on CARS-PLS has good performance and the correlation coefficient and root mean square error of its prediction set are 0.991 and 0.149, respectively. At the same time, the model is simplified, and the stability of the model is improved. The research shows that parameter optimization of dynamic online equipment is helpful in improving the prediction accuracy of the apple model. This research is beneficial in providing technical support for online apple quality sorting.

Key words: Near-infrared spectrum; Dynamic on-line; Light intensity; Wavelength screening; Parameters optimization
引言

苹果内部富含多种维生素和酸类物质, 多吃苹果可以缓解疲劳, 提高大脑活力。 近红外动态在线装置作为一种快速、 无损的绿色检测装备, 已应用在检测苹果、 草莓、 柑橘、 梨、 西瓜[1, 2, 3, 4]等品质。 近红外光谱采集装置的参数如: 运动速度、 积分时间和光照强度等会影响所建立的糖度模型的性能, 运动速度过快、 积分时间越长和光照强度越大在获得充足的光线的同时也将带入许多杂散光, 导致其糖度预测模型性能不佳, 因此, 对近红外光谱采集装置进行参数优化是非常重要的。

国内外学者应用近红外光谱检测水果内部品质做了很多研究: 郭志明等[5]利用近红外透射法建立了苹果腐心病的在线检测系统, 建立的预测模型的相关系数为0.92。 Liu等[6]建立了脐橙SSC含量的近红外漫反射检测模型, 预测相关系数为0.90。 李龙等[7]利用近红外光谱建立了苹果在线无损检测装备, 并对苹果SSC含量建立了预测模型, 其相关系数达到0.949, 预测集均方根误差为0.449。 韩东海等[8, 9]使用可见/近红外透射光谱结合波段筛选方法对苹果的两种病害进行判别, 其判别模型准确率达到95.7%。 郭成等[10]采用无信息变量消除(UVE)方法挑选出与SSC相关的特征波长, 并应用PLS方法建立SSC的在线预测模型, 其预测相关系数0.89, RMSEP为0.63° Brix。 Xu等[11]比较了单点和双点检测对苹果SSC检测精度的影响, 使用双分支光纤的系统证明了较优的鲁棒性, 而使用单分支光纤的系统证明了卓越的准确性。 其预测集决定系数为0.63。 以上研究都未考虑所使用装置的参数优化, 建立的模型性能较低。 崔丰娟等[12]研究了近红外光谱在线采集装置的移动速度对所建立的模型性能的影响, 基于两种运动速度, 建立了混合运动速度模型, 其预测集相关系数为0.94, 均方根误差为0.289。 McGlone等[13]采用了两种漫透射近红外光谱系统, 建立了苹果内部组织褐变百分比预测模型, 其决定系数达到0.9, 预测集均方根误差为0.041。 Sun等[14]利用近红外动态在线检测装备, 研究了装置不同运动速度对建立的翠冠梨糖度模型的影响, 结果发现, 当运动速度为0.3 m· s-1时, 所建立的糖度模型的性能较好。 上述学者的研究只考虑了单一装置参数对模型性能的影响, 忽略了多参数的影响。 本工作应用了近红外动态在线光谱采集系统, 采集不同参数条件下的苹果光谱, 分别建立不同参数条件下的苹果糖度预测模型, 对设备的多个参数进行了优化, 同时采用不同预处理方法和波段筛选方法建立了苹果可溶性的预测模型, 选出了最佳预测模型, 有助于对苹果品质在线分选提供技术支持。

1 实验部分
1.1 样品

苹果样品品种为红富士, 共计210个, 分为两批, 第一批90个用于不同运动速度和积分时间的对苹果SSC预测模型的研究, 第二批120个用于不同光照强度对预测模型的研究。 第一批苹果样品共90个, 经K-S算法分类后, 其中建模集67个, 用于建立SSC模型, 预测集23个, 用于对建立的模型性能进行评判。 第二批苹果样品共120个, 经K-S算法分类后, 其中建模集90个, 预测集30个。

1.2 装置与光谱采集

近红外光谱采集装置是本课题组自主研发的动态在线漫透射检测装置, 如图1所示, 图1中的光源为两排卤素灯, 一排5个, 共计10个, 卤素灯的参数为12 V, 100 W, 为漫透射方式采集光谱信息提供光源。 苹果经链条传输至暗箱中, 被卤素灯照射, 透过苹果内部的光被光纤接收并通过光谱仪传输至电脑。 光谱仪的波长范围为350~1 150 nm。 光谱采集前装置预热30 min, 卤素灯光照强度由另一电流电压可调节的直流供电箱控制。 第一批实验分为五组, 五组实验数据均在卤素灯工作在6.5 A的电流下测得, 实验装置的运动速度和积分时间为: 第一组0.3 m· s-1、 100 ms, 第二组0.5 m· s-1、 100 ms, 第三组0.5 m· s-1、 70 ms、 第四组0.5 m· s-1、 120 ms, 第五组0.5 m· s-1、 150 ms。 第二批实验分为四组, 四组的实验数据在0.5 m· s-1的运动速度和120 ms的积分时间下测得, 四组的卤素灯的光照强度分别为: 4.5, 5.5, 6.5和7.5 A。

图1 近红外漫透射在线检测装置Fig.1 Schmatic diagram of NIR diffuse transmittance detection device

1.3 SSC含量测定

苹果样品的SSC含量采用折射式数字糖度仪(PR-101a, 日本)测量, 测量过程为: 用水果刀切下四个面中光谱采集部位的部分果肉, 将果肉挤出果汁, 滴在糖度仪的测量位置, 测量苹果四个面的糖度值。 取四个面的平均糖度值作为该苹果样品的糖度值。

1.4 数据处理

首先应用K-S算法将采集到的苹果样本进行分类, 使用Unscrambler软件导入采集到的光谱数据, 建立苹果的SSC模型, 采用相关系数R和均方根误差值(RMSEC)对模型的性能进行评判。

2 结果与讨论
2.1 苹果SSC和测量结果分析

第一批90个苹果和第二批120个苹果分别使用K-S算法进行建模集与预测集的分类结果各为67:23和90:30。 苹果的SSC测量值如表1所示。 建模集的SSC含量范围较广, 大于预测集的SSC含量范围, 可以对苹果样本取得较好的预测效果。

表1 苹果SSC统计结果 Table 1 The statistical results of soluble solids content of apple
2.2 不同参数条件下测得的光谱对比分析

2.2.1 不同运动速度的光谱对比

取第一批实验组中同一实验样品, 比较两种不同运动速度的光谱, 如图2所示, 两种不同运动速度所采集到光谱波形基本相同, 波峰位于640, 710和800 nm处, 波谷位于675和755 nm。 但0.3 m· s-1的运行速度下采集的光谱能量高于0.5 m· s-1, 造成此现象的原因是0.3 m· s-1的运动速度, 样品的曝光时间长, 透过样品的光能量较多, 探测器接受的光谱能量值较高。

图2 不同运动速度下的苹果近红外光谱Fig.2 NIR spectra of apples at different moving speeds

2.2.2 不同积分时间光谱对比

取第一批实验组的同一实验样品, 比较两种不同积分时间的光谱, 如图3所示, 整体光谱能量强弱关系是: 150 ms> 120 ms> 100 ms> 70 ms, 四种积分时间所采集到光谱波形基本相同, 在640, 710和800 nm附近存在波峰, 波谷位于675和755 nm附近, 积分时间越长, 光谱的能量值越高。

图3 不同积分时间下的苹果近红外光谱Fig.3 NIR spectra of apples with different integration times

2.2.3 不同光照强度光谱对比

取第二批实验组同一实验样品, 比较四种不同光照强度下获得的光谱, 光照强度可由一电流电压可调节的直流供电箱进行控制, 设置供电箱的电流分别为4.5, 5.5, 6.5和7.5 A。 四组不同电流测得的光谱如图4所示, 由图4可知, 整体光谱能量强弱关系是: 7.5 A> 6.5 A> 5.5 A> 4.5 A, 产生此现象的原因是随着电流的增大, 卤素灯的光照强度变强, 透过实验样品的光能量变多, 接收器接收到的光信号增多, 光谱能量值也变大。 但4.5 A的光照强度采集的光谱在640和800 nm处的波峰基本消失, 在675和755 nm处的波谷也不明显, 光谱的能量值处于400以下, 光谱能量值较低。

图4 不同光照强度下的苹果近红外光谱Fig.4 NIR spectra of apples with different light intensities

2.3 苹果糖度的预测模型

2.3.1 预处理

使用PLS建立苹果糖度预测模型, 为防止模型过拟合或欠拟合, LVs的数量设定为1~20。 根据划分好的建模集和预测集建立苹果的PLS模型, 并使用多种预处理方法对光谱进行处理, 第一组实验样本处理结果见表2

表2 第一批苹果光谱不同预处理方法下糖度模型对比 Table 2 Comparison of sugar content models of the first batch of apples using different pretreatment methods

在全光谱范围内建立苹果的糖度检测模型, 采用不同的预处理方法对比模型效果, 在不同运动速度的实验中, 当实验装置的运动速度为0.5 m· s-1时, 经MSC预处理后所建立的模型性能较优。 其RP为0.966, RMSEP为0.295。 在不同积分时间的实验中, 120 ms的积分时间所建立的模型普遍优于其他积分时间建立的模型, 其RP达到0.959, RMSEP为0.323。

表2知, 在实验装置的运动速度为0.5 m· s-1, 积分时间为120 ms时, 苹果糖度预测模型性能较其他运动速度和积分时间组相比较优, 再使用PLS对第二批样本进行建模, 并对模型使用多种预处理方法, 结果见表3

表3 第二批苹果光谱不同预处理方法下糖度模型对比 Table 3 Comparison of sugar content models of the second batch of apples using different pretreatment methods

表3可以看出, 卤素灯的电流为6.5 A时所产生的光照强度对应的糖度预测模型相比于其他光照强度组较优, 经过SNV预处理后的模型最优, 其预测集相关性系数达到0.968, 预测集均方根误差值为0.289。 5.5 A光照强度组的模型性能优于4.5 A组, 但是7.5 A的光照强度组却不如6.5 A的光照强度组。 分析原因是因为当光照强度较低时, 随着光强的增加, 光谱仪探测器接受到的苹果内部信息变多, 所建立的苹果SSC预测模型性能变好。 但是当光照强度超过一定值时, 随着卤素灯的光照强度增加, 会导致更多的杂散光被带入光谱仪探测器, 所建立的苹果SSC预测模型性能也随之变差。

2.3.2 特征波长选择

为了消除无用变量, 进一步优化预测模型的性能, 提高模型的检测速度。 由表2表3知, 运动速度为0.5 m· s-1, 积分时间为120 ms时, 卤素灯的光照强度为6.5 A时, 苹果糖度预测模型性能较其他运动速度、 积分时间和光照强度组相比较优, 所以特征波长的选择在运动速度为0.5 m· s-1, 积分时间120 ms, 光照强度为6.5 A的实验组进行, 采用SPA和CARS两种波长选择算法对光谱变量进行筛选, 选取有效变量建立PLS模型。

SPA在挑选变量时, 分别设置最小、 最大变量数为10和40, 通过计算模型的最小的均方根误差值来确定所选变量的数量。 SPA挑选的波长如图5所示, 挑选的波长涵盖了模型大部分的有效信息, 可以简化模型, 波长选择后, 将挑选的波长用于建立PLS模型, 模型效果见表4

图5 SPA挑选的波长分布Fig.5 Distribution of wavelengths selected by SPA

表4 两种波长选择算法的PLS模型 Table 4 PLS models of two wavelength selection algorithms

表4为用特征波长建立的PLS模型结果, 可以看到, 使用SPA筛选出的波段建立的糖度模型性能较差, 产生此现象的原因是: 糖度在光谱上有多重表征, 进行波长选择后, 去掉了很多的有用信息, 从而导致模型的效果变差。 其中, SPA-PLS的RP为0.941, RMSEP为0.406。

图6为使用CARS算法提取出的特征波长图。 采用PLS对CARS选中的波长变量进行建模, 结果如表4所示, 与SNV预处理的模型相比, 其建模集相关系数RC由0.984提高至0.997, 建模集均方根误差值RMSEC由0.221下降至0.102, 预测集相关系数RP由0.968提高至0.991, 预测集均方根误差由0.331下降至0.149。 此外, 模型所用波长变量数由1 044个下降至83个, 有效地简化模型, 提高模型的稳定性。

图6 CARS挑选的波长分布Fig.6 Distribution of wavelengths selected by CARS

2.4 SSC最佳模型的建立与预测

通过以上对比分析, 装置的运动速度为0.5 m· s-1, 积分时间为120 ms, 光照强度为6.5 A的实验参数组预测效果最佳。 采用CARS进行波段筛选后, 建立了苹果SSC的偏最小二乘回归模型, 采用预测集对苹果SSC的预测模型进行检验。 SSC的预测值与真实值散点图如图7所示, 图中建模集拟合曲线与预测集拟合曲线的斜率接近于1, 预测效果较好。

图7 CARS-PLS模型建模散点图Fig.7 Modeling scatter plot of CARS-PLS

3 结论

采用动态在线检测装备, 采集三种实验参数下的九组光谱, 对比了在不同的运动速度、 积分时间和光照强度所建立的苹果SSC预测模型性能的优劣, 优化实验装置的参数。 结果表明: 在两种不同的移动速度下, 移动速度为0.5 m· s-1建立的SSC预测模型优于0.3 m· s-1。 在四种不同的积分时间下, 积分时间为120 ms建立的SSC预测模型优于其他积分时间组。 最后, 在运动速度为0.5 m· s-1, 积分时间为120 ms的实验参数下, 探究四种不同光照强度所建立的苹果SSC预测模型性能的优劣, 采用了多种预处理和波段筛选方法进行对比, 结果发现: 光照强度为6.5 A时所建立的苹果糖度预测模型的性能普遍优于其他光照强度组, 这是因为当光照强度较低时, 随着光强的增加, 光谱仪探测器接受到的苹果内部信息变多, 所建立的苹果SSC预测模型性能变好, 但是当光照强度超过一定值时, 会导致更多的杂散光被带入光谱仪探测器, 所建立的苹果SSC预测模型性能也随之变差。 采用CARS波段筛选方法对光照强度6.5 A的实验组进行波段选择, 从1 044个光谱中筛选出83个变量所建立的CARS-PLS模型最优, 其RP和RMSEP分别为0.991和0.149。

研究了动态在线装置不同参数条件下对苹果SSC预测模型的影响, 为优化装置参数, 提高模型性能提供了技术支持。 未来的研究将采用多品种果种, 研究多种参数对建立的苹果品质预测模型的影响, 深化分析, 以获得更准确的和稳健的模型。

参考文献
[1] Xu X, Xu H, Xie L, et al. Journal of Food Measurement and Characterization, 2018, 13(5): 506. [本文引用:1]
[2] Chen H, Liu Z, Cai K, et al. Vibrational Spectroscopy, 2017, 94: 7. [本文引用:1]
[3] Lee H, Kim M S, Lim H S, et al. Biosystems Engineering, 2016, 148: 138. [本文引用:1]
[4] SUN Tong, MO Xin-xin, LIU Mu-hua(孙通, 莫欣欣, 刘木华). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(5): 1406. [本文引用:1]
[5] GUO Zhi-ming, HUANG Wen-qian, CHEN Quan-sheng, et al(郭志明, 黄文倩, 陈全胜, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(6): 283. [本文引用:1]
[6] Liu Y, Sun X, Ouyang A. LWT—Food Science and Technology, 2010, 43(4): 602. [本文引用:1]
[7] LI Long, PENG Yan-kun, LI Yong-yu, et al(李龙, 彭彦昆, 李永玉, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(9): 275. [本文引用:1]
[8] HAN Dong-hai, LIU Xin-xin, LU Chao, et al(韩东海, 刘新鑫, 鲁超, 等). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2006, 37(6): 86. [本文引用:1]
[9] LIU Xin-xin, HAN Dong-hai, TU Run-lin, et al(刘新鑫, 韩东海, 涂润林, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2004, 20(1): 211. [本文引用:1]
[10] GUO Cheng, LIANG Meng-xing, JIANG Ming-zhu, et al(郭成, 梁梦醒, 江明珠, 等). Journal of Jiangsu University of Science and Technology(江苏科技大学学报), 2018, 32(2): 285. [本文引用:1]
[11] Xu Xiao, Mo Jiancan, Xie Lijuan, et al. Food Analytical Methods, 2019, 12(9): 2078. [本文引用:1]
[12] CUI Feng-juan, ZHA Jian-wen(崔丰娟, 闸建文). Journal of Agricultural Mechanization(农机化研究), 2010, (11): 170. [本文引用:1]
[13] McGlone V A, Martinsen P J, Clark C J, et al. Postharvest Biology and Technology, 2005, 37(2): 142. [本文引用:1]
[14] Sun T, Lin H, Xu H, et al. Postharvest Biology and Technology, 2009, 51(1): 86. [本文引用:1]