不同速度对近红外光谱预测库尔勒香梨品质模型的影响
陈东杰1,2, 姜沛宏1,2, 郭风军1,2, 张玉华1,2,*, 张长峰1,2
1. 国家农产品现代物流工程技术研究中心, 山东 济南 250103
2. 山东省农产品贮运保鲜技术重点实验室, 山东 济南 250103
*通讯联系人 e-mail: zllf@163.com

作者简介: 陈东杰, 1988年生, 国家农产品现代物流工程技术研究中心工程师 e-mail: dongjie613@163.com

摘要

针对目前库尔勒香梨品质在线分级检测系统存在价格昂贵、 结构复杂等问题, 设计了库勒尔香梨内部品质在线无损检测分级系统。 基于该系统研究了不同移动速度(0.3和0.5 m·s-1)对库尔勒香梨的可溶性固形物含量(solid soluble contents, SSC)和硬度在线预测模型的影响。 不同移动速度下, 采集样品相同部位的信息, 所采集光谱存在差异。 由于采集的光谱存在差异性, 采用SG-平滑(Savitzky-Golay smooth)、 SG卷积导数、 多元散射校正(MSC)、 标准正态能量变换(SNV)、 归一化(Normalization)等多种光谱预处理方法进行处理, 基于偏最小二乘法(partial least squares, PLS), 建立移动速度为0.3 m·s-1 (S1)和0.5 m·s-1 (S2)下库尔勒香梨的SSC和硬度模型。 结果表明: 移动速度为0.5 m·s-1下, 采用SG-DER(Savitzky-Golay Derivative)处理光谱图建立SSC模型优于0.3 m·s-1, 其预测集相关系数和预测均方根误差为0.880 2和0.391 5°Bri。 而在移动速度为0.3 m·s-1下的结果, 采用SGS(Savitzky-Golay smooth)处理光谱图建立的SSC模型优于0.5 m·s-1下的结果, 其预测集相关系数和预测均方根误差分别为0.820 2和0.470 8 N。 后建立两个速度混合模型, 采用竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)和连续投影算法(successive projections algorithm, SPA)筛选特征变量, 后采用PLS, 建立混合速度下硬度和SSC预测模型。 从建模效果来看SPA和CARS都可以有效减少建模所用变量数、 提高库尔勒香梨在线SSC和硬度检测模型的预测能力和运算速度, 增强模型的稳健性等。 采用CARS方法, 从501个光谱中筛选出24个变量, 建立了CARS-PLS模型, 建立的SSC模型较好, 其预测集相关系数和预测均方根误差分别为0.915 0和0.371 9°Bri。 采用SPA方法, 从501个光谱中筛选出32个变量, 建立硬度模型较好, 其预测集相关系数和预测均方根误差分别为0.821 0和0.492 0 N。 混合速度建立预测品质模型比单一速度建立模型稳健一些。 研究表明: 不同移动速度对建立果品品质预测模型产生不同影响, 该研究有助于果品品质在线分选提供技术支持。

关键词: 近红外光谱; 库尔勒香梨; 不同移动速度; 在线检测
中图分类号:TS207.3 文献标志码:A
Effects of Prediction Model of Kolar Pear Based on NIR Diffuse Transmission under Different Moving Speed on Online
CHEN Dong-jie1,2, JIANG Pei-hong1,2, GUO Feng-jun1,2, ZHANG Yu-hua1,2,*, ZHANG Chang-feng1,2
1. National Engineering Research Center for Agricultural Products Logistics, Ji’nan 250103, China
2. Shandong Key Laboratory of Storage and Transportation Technology of Agricultural Products, Ji’nan 250103, China
*Corresponding author
Abstract

With the aim of solving problems related to cost, and the complicated structure of the online grading and inspection system for detecting the quality of pears, the online non-destructive system was designed for inspecting and classification of the internal quality of pears. Based on the system, the effects of prediction models on the Soluble Solids Content (SSC) and firmness of pears were researched under the different moving speeds (0.3 and 0.5 m·s-1) . Collected spectra from the same position of the pear were discrepancy at different moving speeds. Due to the discrepancy in the collected spectra, adapting spectral pre-processing methods, as SG-smoothing, SG-convolution derivative, multiple scattering correction (MSC), standard normal energy transformation (SNV), Normalization, was to eliminate differences. Adopt Partial Least Squares (PLS), prediction models of SSC and hardness for Korla Pears were established at moving speeds of 0.3 m·s-1 (S1) and 0.5 m·s-1 (S2). The results showed that the established SSC prediction model at 0.5 m·s-1 was more effective than 0.3 m·s-1 by using SG-DER (Savitzky-Golay Derivative) processing spectrogram. The correlation coefficient of the prediction set, and the root mean square errors of prediction were to be 0.880 2 and 0.391 5°Brix respectively. However, when the moving speed was 0.3 m·s-1, established the SSC model, by adapting SGS (Savitzky-Golay Smooth) processing spectrogram, was more robust than at 0.5 m·s-1. Its correlation coefficient of the prediction set, and the root mean square errors of prediction were to be 0.820 2 and 0.470 8 N respectively . Afterwards two speed hybrid prediction models were established. Competitive adaptive re-weighted sampling (CARS) and Successive projections algorithm (SPA) were used to select the characteristic variables, and PLS was used to establish hardness and SSC prediction models at mixed speeds. In view of the perspective of the model effect, SPA and CARS effectively reduced the number of variables, improving the online prediction ability and processing data speed, and enhancing the robustness of the model. Using CARS to select 24 variables from a total of 501, then which established the CARS-PLS model. Establishing the SSC prediction model was more efficient, and its correlation coefficient of the prediction set and root mean square errors of prediction were calculated as 0.915 0 and 0.371 9°Brix respectively. Using SPA to select, 32 variables were selected from a set of 501, and a firmness model was established. The correlation coefficient of the prediction set and the root mean square errors of prediction were ascertained as 0.821 0 and 0.492 0 N respectively. Establishing predictive quality model at the mixing speed is more robust than at the single speed. The research showed that the different moving speeds have different effects on the fruit quality prediction models. The research provides technical support for on-line classification of fruit quality.

Keyword: Near-infrared spectroscopy; Korla pear; Different movement speeds; On-line inspection
引言

库尔勒香梨(Pyrus sinkiangensis Yü )为新疆特色优质果品, 因肉质清脆, 香味独特, 口感合适深受国内外消费者的喜爱。 库尔勒香梨外部形状的多样化, 增加了库尔勒香梨商业化分选的难度。 传统的人工分级方法远远不能满足果农的要求。 其近红外光谱已应用在检测苹果、 草莓、 柑桔、 梨、 西瓜[1, 2, 3, 4]等的品质, 是一种很有效经济的分选方法。 国内外学者对近红外红光谱在线检测做了很多研究: 李龙等[5]利用近红外光谱和机器视觉搭建了苹果在线无损检测分级系统, 苹果内部可溶性固形物含量所建立模型的校正集相关系数为0.950 8, 校正集均方根误差为0.347%, 预测集相关系数为0.949, 预测集均方根误差为0.449%。 单个苹果的检测时间为0.71 s。 McGlone[6]等采用2种近红外光谱系统, 采用漫透射, 分别获取运动速度0.5 m·s-1 苹果光谱, 建立干物质含量的预测模型。 Sun[7]等采用近红外光谱在线分析技术, 研究速度对翠冠梨可溶性固形物的影响, 发现运行速度为0.3 m·s-1的预测效果最好。

针对目前存在这些问题, 与北京伟创英图科技有限公司联合研制可见光-近红外光谱可移动式果品在线快速分选系统, 该系统自动化程度高, 可移动且体积小, 对库尔勒香梨内外品质快速在线检测分选集成化高, 可满足果农日常分选的需要。 基于该系统研究不同运行速度对库尔勒香梨SSC和硬度预测模型影响, 并建立一种速度补偿模型, 以降低移动速度对库尔勒香梨SSC和硬度在线检测的影响, 建立混合速度的SSC和硬度预测模型。

1 实验部分
1.1 样品

库尔勒香梨由济南堤口集团有限责任公司提供, 共选取122个库尔勒香梨, 从冷库取出后, 置于室温下24 h, 待样品与室温一致, 沿着果品赤道部位进行标记, 手动将库尔勒香梨放置于果托上(图3), 对标记区域进行光谱采集, 每个样品采集3次, 其平均光谱用于后续的数据处理分析。

1.2 在线采集系统与光谱采集

如图1所示, 在线动态检测系统主要包括光谱采集单元、 机器视觉系统、 数据采集单元、 品级分选单元及系统主控单元。 本试验只采集库尔勒香梨光谱, 并不进行图像采集。 近红外光谱系统采用海洋光学(Ocean Optics Inc., USA)USB2000+光纤光谱仪, 波长范围600~1 000 nm, 配有SMA905标准光纤接口, 通过USB接口与计算机相连, 光源为12 V/50 W卤素灯, 共有4个, 分别位于近红外检查箱内部的四个角; 光谱仪光纤探头固定于传动链条的下方, 采取水平照射底部测量模式, 光源水平照射果品; 果品置于果托之上, 果托中心呈2 cm空心圆洞(如图3), 近红外测量探头置于下方, 有效避免果品非测量部位造成的漫反射光干扰(如图2)。

图1 库尔勒香梨在线检测系统示意图Fig.1 Pear quality inspection and classification online system diagram

图2 近红外光谱检测模块结构图
1: 光源; 2: 传感器; 3: 光纤传感器; 4: 光谱仪
Fig.2 NIR inspection module structure diagram
1: Light; 2: Sensor; 3: Optical fiber Sensor; 4: Spectrometer

图3 光源套件实物及效果图Fig.3 Diagram and rendering of light source modules

1.3 理化指标测定

1.3.1 硬度测定

采用TA5探头在质构仪TMS-PRO(美国, FTC)上进TPA测试。 沿着标记区域进行测试, 设置测前速率1 mm·s-1; 测中及测后速率1 mm·s-1; 压缩程度25%, 起始力1 N。

1.3.2 可溶性固形物(soluble solids content, SSC)测定

按照NY/T585—2002库尔勒香梨进行测定。 采集完光谱后, 将库尔勒香梨放入研钵中研磨成匀浆, 用纱布滤后得到滤液后滴在Atago(日本, Atago)数显糖度计上, 记录读数, 测定3次, 取平均值为库尔勒香梨的SSC值。

1.3.3 质量测定

将采集光谱的库尔勒香梨, 放置于梅特勒电子天平ME204/02(美国, METTLER TOLEDO)进行称量, 测定三次, 取平均值。

1.4 光谱处理与建模方法

采集的近红外原始光谱除含有样品信息外, 还包含随机噪声、 基线漂移及测定环境背景等干扰因素, 为提高模型的稳健性和适用能力, 获得高信噪比, 降低背景干扰, 降低模型复杂度, 需对原始光谱进行预处理。 采用SG-平滑(Savitzky-Golay smooth)(窗口宽度为5点、 拟合3次)、 SG卷积导数(窗口宽度为5点、 拟合3次)、 多元散射校正(MSC)、 标准正态能量变换(SNV)、 归一化(normalization)等多种光谱预处理方法对600~1 000 nm波长范围的光谱进行预处理, 消除或减弱噪声, 以提高预测库尔勒香梨品质的精度和使用能力。 后采用偏最小二乘回归法(partial least squares regression, PLSR)建立库尔勒香梨品质的PLS预测模型。 所建立预测模型采用校正集相关系数(correlation coefficient of calibration, rc)、 验证集相关系数(correlation coefficient of validation, rp)、 校正集均方根误差(root mean square error of calibration, RMSEC)和验证集均方根误差(root mean square error of validation, RMSEP)进行评定, 相关系数越高, 均方根误差越低, 建立的预测模型越好。

图谱处理采用北京伟创英图科技有限公司ChemoStudio2018 化学计量学软件和matlab8.0对光谱图进行预处理、 完成模型导入自行搭架建的近红外光谱系统中, 采集光谱前调用已建立好的预测模型, 实现对库尔勒香梨无损快速分级。

2 结果与讨论
2.1 光谱最佳积分时间的确定

在采集库尔勒香梨光谱前, 确定果品品质在线无损检测系统最佳采集参数。 将库尔勒香梨置于果托上, 设置样品积分时间40 ms, 在最高速度下(0.5 m·s-1), 分别设置参比积分时间为20, 10和5 ms, 采集3次库尔勒香梨的近红外光谱, 采集的光谱如图4所示。 设置参比积分时间不同, 其光谱的吸光度也不同, 产生能量也不同。 由图5可知, 当参比积分时间设置为20和10 ms时, 在波长680~840 nm范围, 参比能量已饱和, 而参比积分为5 ms, 参比能量值低于饱和值, 故此选设置参比积分时间为5 ms。

图4 不同参比积分时间下采集光谱Fig.4 Collecting spectra under different reference integral time

图5 不同参比积分时间下参比能量图Fig.5 The reference energy under different reference integral time

2.2 库尔勒香梨质量参数的测量结果分析

利用自行搭建的在线动态检测系统采集库尔香梨光谱, 共采集122张光谱图, 采用Kennard-Stone分类方法对采集的光谱进行按照3:1进行分类, 校正光谱为85张, 验证光谱为37张; 库尔勒香梨的SSC和硬度校正集和验证集的统计分布如表1所示。 校准集和预测集的SSC在11.2~15.0° Bri和12.0~15.0° Bri, 硬度的校正集和预测集为4.27~7.65和4.05~7.50 N之间, 为了消除苹果的大小及重量影响, 校准集的重量范围为113.26~138.55 g与预测集的108.56~140.80 g。

表1 库尔勒香梨物理参数的校正与预测集统计 Table 1 Statistics of physical parameters of pear samples in calibration and prediction sets

采集库尔勒香梨的波长范围为600~1 000 nm, 所有的光谱为漫透射光谱。 图6是分别在S1(0.3 m·s-1)和S2(0.5 m·s-1)采集的平均光谱图, 在移动速度为S1和S2下, 光谱在680 nm处有最大吸收峰, 在725 nm处有波谷, 说明不同运行速度并未改变其光谱的吸收峰和波谷的位置。 但低速S1运行速度下采集光谱的吸光度高于S2, 说明不同移动速度下, 采集样品相同部位的信息, 所采集光谱存在差异。 由于不同速度下的光谱存在的差异性, 采取预处理方法去除或者减小这些差异是十分必要的。

图6 S1和S2速度下样品的平均光谱Fig.6 Average spectra of samples under S1, S2

2.3 库尔勒香梨SSC在线检测模型的建立

表2可知, 不同移动速度下, 采用不同预处理方法, 用PLS建立的模型预测性能也不一样。 与其他预处理方法相比, 移动速度为0.3 m·s-1下, 采用SG-DER预处理效果建立模型效果最好, 其校正集和验证集相关系数分别为0.895 1和0.875 6, 均方根误差分别为0.393 2° Bri和0.413 1° Bri。 移动速度为0.5 m·s-1下, 同样采用SG-DER预处理建立模型效果最好。 其校正集和验证集相关系数分别为0.901 4和0.880 2均方根误差分别为0.380 2° Bri和0.391 5° Bri。 从建模效果来看, 速度0.5 m·s-1下建立模型略优于0.3 m·s-1下建立的SSC预测模型; 预处理方法采用SG-DER, 在两种速度下建立SCC模型都最好, 故此后续采用其他算法建立预测模型, 其预处理方法采用SG-DER。

表2 采用不同预处理方法建立PLS模型预测库尔勒香梨的SSC Table 2 Prediction results of SSC of pear samples by PLS model using different preprocessing methods

图7 CARS-PLS库尔勒香梨SSC的预测值和实际值散点图Fig.7 Plots of actual versus predicted values of pear SSC obtained with CARS-PLS

2.4 库尔勒香梨硬度在线检测模型的建立

表3可知, 在移动速度为0.3和0.5 m·s-1下, 采用SGS处理建立模型效果最好。 移动速度为0.3 m·s-1下, 其校正集和验证集相关系数分别为0.820 2和0.801 0, 均方根误差分别为0.450 8和0.470 8 N。 移动速度为0.5 m·s-1的校正集和验证集相关系数分别为0.792 3和0.780 1, 均方根误差分别为0.486 2和0.505 6 N。 速度0.3 m·s-1的模型略优于0.5 m·s-1的硬度预测模型, 而在两种速度下采用预处理SGS, 建立模型都最好, 故此后续库尔勒香梨硬度预测模型采用SGS预处理方法。

表3 采用不同预处理方法建立PLS模型预测库尔勒香梨的硬度 Table 3 Prediction firmness values of samples by PLS model using different preprocessing methods

图8 SPA-PLS库尔勒香梨硬度的预测值和实际值散点图Fig.8 Plots of actual versus predicted values of pear firmness obtained with SPA-PLS

表2可知, 在同一波段范围, 采用相同预处理方法, 用PLS建立的SCC预测模型, 移动速度为0.5 m·s-1建立模型更为稳定。 由表3可知, 采用相同预处理方法用PLS建立的硬度预测模型, 移动速度为0.3 m·s-1下建立模型更好。 说明移动速度对建立库尔勒香梨预测模型产生影响。 为了减少不同移动速度对库尔勒香梨的SSC和硬度预测模型的影响, 建立混合速度(S3)预测模型。 随机挑选S1和S2采集的光谱图, 用于预测集各43条, 用于校正集各18条。 分别采用竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)[8, 9]、 连续投影算法(successive projections algorithm, SPA)[10, 11]筛选特征波长, 再进行PLS建模, 比较PLS, CARS-PLS和SPA-PLS 3种建模方法对库尔勒香梨的SSC和硬度预测效果影响。

2.5 不同建模方法库尔勒香梨SSC、 硬度在线检测模型的影响

表4可知, 混合速度模型下, 采用CARS和SPA算法建立的SSC和硬度预测模型与原始相比, 都可以降低参与建模的主因子数(如图10), 而且采用CARS和SPA算法使得建模的波长数量大大降低, 说明这两种方法都可剔除噪声过大和去除不相关变量的变量, 这与郭志明和刘燕德的研究类似[12, 13]。 不同品质指标, 采用相同的算法, 所选的特征变量不相同。 对于SSC预测模型, 采用CARS对库尔勒香梨近红外光谱数据进行特征变量选取, 其中从全波长401个光谱中筛选出24个变量, 建立了SSC CARS-PLS模型, 从全波长401个光谱中筛选出38个变量, 建立了硬度CARS-PLS模型。 其rp和RMSEP分别为0.915 0, 0.371 9和0.801 3, 0.502 3。 采用SPA对库尔勒香梨近红外光谱数据进行特征变量选取, 从全波长401个光谱中筛选出26个变量, 建立了SSC SPA-PLS模型, 从全波长401个光谱中筛选出32个特整变量, 其rp和RMSEP和0.900 2, 0.381 5和0.821 0, 0.492 0。

表4 可溶性固形物建模效果比较 Table 4 Comparison of different soluble solids content models

图9 CARS选择的特征光谱变量Fig.9 Distribution of selected from the global model by CARS for prediction of SSC using the full spectra

图10 SPA选择的特征光谱变量Fig.10 Spectral variables of selected by SPA for prediction of firmness using the full spectra

采用CARS和SPA建立的SSC和硬度模型优于用全波长建立的预测模型, 其中SSC模型中以CARS-PLS模型更优, 其rp和RMSEP为0.915 0和0.371 9, 硬度模型以SPA-PLS模型更优, 其rp和RMSEP为0.821 0和0.492 0。 由图10可知, SSC模型采用CARS选取24个特征变量为606, 669, 690, 697, 706, 711, 719, 726, 735, 745, 749, 773, 784, 792, 854, 867, 879, 886, 893, 906, 920, 931, 941和951 nm。 由图11可知, 硬度模型采用SPA选取32特征变量611, 620, 633, 641, 654, 672, 680, 689, 704, 719, 730, 741, 750, 755, 763, 775, 780, 788, 802, 811, 820, 834, 840, 903, 910, 917, 923, 927, 932, 937, 942和946 nm。

图11 SSC模型主因子数Fig.11 Principal componet factor of SSC model

图12 硬度模型主因子数Fig.12 Principal componet factor of firmness model

3 结论

设计了可用于检测库尔勒香梨内部品质的在线无损检测系统, 该系统主要由光谱采集单元、 数据采集单元、 品级分选单元及系统主控单元组成。 基于该系统, 利用可见光近红外漫透射技术研究不同移动速度对在线检测库尔勒香梨品质影响。 采用不同预处理方法对两种不同速度下采集光谱进行处理, 采用PLS建立库尔勒香梨SSC和硬度模型, 结果表明: 用SG-DER方法、 SGS预处理建立SSC预测模型、 硬度模型更为稳健。 在两种不同移动速度下, 移动速度为0.5 m·s-1建立SSC预测模型优于0.3 m·s-1, 而在0.3 m·s-1建立的硬度模型优于0.5 m·s-1。 说明不同移动速度对库尔勒香梨品质预测产生影响。 建立混合速度(S3)模型, 采用CARS方法, 从501个光谱中筛选出24个变量, 建立了SCAR-PLS模型, 其中建立的SSC模型较好, 其rp和RMSEP分别为0.915 0和0.371 9。 采用SPA方法, 从501个光谱中筛选出26个变量, 建立硬度模型较好, 其rp和RMSEP分别为0.821 0和0.492 0。

本文研究了在线移动速度对库尔勒香梨品质检测的影响, 为研制升级在线分选系统提供基础, 未来的研究将采用品种果品, 研究多种不同移动速度对建立果品品质预测模型的影响。 进一步分析, 以实现更准确的和稳健模型。

参考文献
[1] Xu X, Xu H, Xie L, et al. Journal of Food Measurement and Characterization, 2018, 13(5): 506. [本文引用:1]
[2] Chen H, Liu Z, Cai K, et al. Vibrational Spectroscopy, 2017, 94: 7. [本文引用:1]
[3] Lee H, Kim M S, Lim H S, et al. Biosystems Engineering, 2016, 148: 138. [本文引用:1]
[4] SUN Tong, MO Xin-xin, LIU Mu-hua(孙通, 莫欣欣, 刘木华). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(5): 1406. [本文引用:1]
[5] LI Long, PENG Yan-kun, LI Yong-yu, et al(李龙, 彭彦昆, 李永玉, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(9): 275. [本文引用:1]
[6] McGlone V A, Martinsen P J. Journal of Nea Infrared Spectroscopy, 2004, 12(1): 37. [本文引用:1]
[7] Sun T, Lin H, Xu H, et al. Postharvest Biology and Technology, 2009, 51(1): 86. [本文引用:1]
[8] Xie C, Xu N, Shao Y, et al. Spectrochimica Acta Part A: Molecular & Biomolecular Spectroscopy, 2015, 149: 971. [本文引用:1]
[9] Fan S, Guo Z, Zhang B, et al. Food Analytical Methods, 2016, 9(5): 1333. [本文引用:1]
[10] Yu X, Lu H, Di W. Postharvest Biology & Technology, 2018, 141: 39. [本文引用:1]
[11] Huang Y P, Lu R F, Chen K J. Journal of Food Engineering, 2018, (222): 185. [本文引用:1]
[12] GUO Zhi-ming, HUANG Wen-qian, CHEN Quan-sheng, et al(郭志明, 黄文倩, 陈全胜, ). Modern Food Science & Technology(现代食品科技), 2016(9): 147. [本文引用:1]
[13] LIU Yan-de, SHI Yu, CAI Li-jun, et al(刘燕德, 施宇, 蔡丽君, ). Transactions of the Chinese Society of Agricultural Engineering(农业机械学报), 2013, 44(9): 138. [本文引用:1]