基于全透射近红外光谱的西瓜不同部位可溶性固形物含量在线检测研究
严忠伟1,2,3, 田喜2,3, 张艺飞2,3, 李廉洁2,3, 刘三庆1,2,3, 黄文倩2,3,*
1. 广西大学机械工程学院, 广西 南宁 530004
2. 北京市农林科学院智能装备技术研究中心, 北京 100097
3. 国家农业智能装备工程技术研究中心, 北京 100097
*通讯作者 e-mail: huangwq@nercita.org.cn

作者简介: 严忠伟, 1995年生, 广西大学机械工程学院硕士研究生 e-mail: 2011391115@st.gxu.edu.cn

摘要

可溶性固形物含量(SSC)是评价西瓜果肉品质优劣的关键指标。 西瓜SSC在线检测模型的建立, 可以实现西瓜品质按其SSC进行在线分级, 满足不同人群需求, 提高市场竞争力。 以160个京美2K西瓜为研究对象, 通过实验室自主研发的在线检测设备, 采集了西瓜两种姿态的可见近红外全透射光谱数据, 分别与西瓜不同部位SSC建立偏最小二乘回归(PLSR)预测模型, 探究西瓜SSC在线检测的最佳姿态和检测部位。 首先, 分别定义西瓜不同部位SSC测量值为瓜蒂糖、 中心糖、 瓜脐糖和整果糖, 在线检测的两种姿态分别定义为T1姿态和T2姿态。 其次对比西瓜不同部位SSC, 探讨西瓜SSC评价标准。 然后去除光谱透射强度值较低且频率较高, 包含大量噪声和无用信息的光谱数据, 最终选取波长范围(671~1 116 nm)的光谱进行分析。 采用卷积平滑(SGS)算法分别与多元散射校正(MSC)、 单位矢量归一化(UVN)和标准正态变量变换(SNV)这3种算法相结合对两种姿态下的光谱数据进行预处理, 随后对应西瓜不同部位SSC分别建立预测模型。 通过对比不同模型的预测结果发现: 使用SGS和MSC组合对T1姿态采集的光谱数据预处理效果最好, 而对于T2姿态的光谱数据使用SGS与UVN结合预处理效果最好; T1姿态明显比T2姿态的光谱数据所建模型的预测效果好; 对西瓜瓜蒂糖和整果糖的预测结果较好, 瓜脐糖次之, 中心糖最差。 最后采用竞争性自适应重加权算法(CARS)分别对预测瓜蒂糖和整果糖的模型进行优化。 其中, 共挑选出81个波长点用于建立预测瓜蒂糖模型, 106个波长点用于建立预测整果糖模型, 两模型的预测集相关系数分别为0.881 0和0.875 8, 均方根误差分别为0.866 7%和0.758 9%, 不仅模型得到了简化, 还提高了模型的预测精度。 研究结果表明, 西瓜不同姿态和对不同部位SSC预测的差异, 会影响西瓜SSC在线检测和品质评价分级结果, 应根据用户的实际需求进行模型选取和优化; 为此, 提出了糖度评价指数, 为进一步开发西瓜SSC在线检测设备提供了技术支撑。

关键词: 近红外光谱; 西瓜; 可溶性固形物含量; 在线检测; 模型优化
中图分类号:O657.3 文献标志码:A
Online Detection of Soluble Solids Content in Different Parts of Watermelons Based on Full Transmission Near Infrared Spectroscopy
YAN Zhong-wei1,2,3, TIAN Xi2,3, ZHANG Yi-fei2,3, LI Lian-jie2,3, LIU San-qing1,2,3, HUANG Wen-qian2,3,*
1. School of Mechanical Engineering, Guangxi University, Nanning 530004, China
2. Intelligent Equipment Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
3. National Research Center of Intelligent Equipment for Agriculture, Beijing 100097, China
*Corresponding author
Abstract

Soluble solids content (SSC) is the key indicator to evaluate the quality of watermelon pulp. In order to meet the needs of different groups of people and improve market competitiveness, an online detection model of watermelon SSC is established, which can realize the online grading of watermelon quality according to its SSC. In this paper, the 160 Jingmei2K watermelons are used as the research object, and the visible near-infrared full transmission spectrum data of the two postures of watermelons are collected using the online detection equipment independently developed by our laboratory. The partial least squares regression (PLSR) prediction model is established with the SSC of different parts of the watermelon to explore the best posture and part of online detection of watermelon SSC.Firstly, the SSC measurements of different parts of watermelon were defined as Pedicel Sugar, Central Sugar, Melon Navel Sugar and Average Sugar, and the two postures detected online were defined as T1 posture and T2 posture, respectively.Secondly, comparing the SSC of different parts of watermelon, the evaluation standard of watermelon SSC was discussed. Then, the spectral data with low transmission intensity and high frequency containing much noise and useless information were removed. Finally, the spectrum with a wavelength range (671~1 116 nm) was selected for analysis. The Savitzky-Golay smoothing (SGS) algorithm is combined with multiplicative scatter correction (MSC), unit vector normalization (UVN) and standard normal variate transformation (SNV) to preprocess the spectral data under two postures. Then the prediction model is established for the SSC of different parts of watermelon. By comparing the prediction results of different models, it is found that the combination of SGS and MSC has the best preprocessing effect for T1 posture spectral data, while The spectral data of T2 posturehas better performance using SGS combined with UVN preprocessing methods. The prediction effect of the T1 pose is better than that of the T2 posture spectral data. The prediction results of Pedicel Sugar and Average Sugar are better than that of Melon Navel Sugar, and Central Sugar is the worst. Finally, competitive adaptive reweighted sampling (CARS) was used to optimize the prediction models of Pedicel Sugar and Average Sugar. 81 and 106 wavelength points were selected to establish the prediction model of Pedicel Sugar and Average Sugar, respectively. The correlation coefficients of the prediction sets of the two models are 0.881 0 and 0.875 8, and the root mean square errors are 0.866 7% and 0.758 9%, respectively, simplifying the model and improving the prediction accuracy.The results showed that different postures and SSC prediction of different parts of a watermelon affected the results of online detection and quality evaluation. The model should be selected and optimized according to the actual needs of users. This paper, proposes an evaluation index for the online watermelon SCC detection, which provides a technical basis for further development of watermelon SSC online detection equipment.

Keyword: Near infrared spectroscopy; Watermelon; Soluble solids content; Online detection; Model optimization
引言

西瓜是我国产量最大的水果品种之一, 近年来年产量均超过6 000万吨, 远高于其他水果的产量[1]。 由于西瓜口感爽脆, 清甜多汁可以解暑, 是夏季人们最喜欢吃的水果之一。 西瓜糖度是指其果肉中可溶性固形物含量(soluble solid content, SSC), 是评价西瓜内部品质优劣的关键指标[2]。 多年来, 人们通过观察西瓜的形状、 颜色以及瓜脐大小来判断西瓜的内部品质, 这些传统方法主要依靠经验, 可操作性差, 准确度不高[3]。 采用无损检测技术能够对西瓜SSC进行准确预测, 实现西瓜按其内部品质分级, 满足市场需求, 提升我国西瓜在水果市场上的竞争力[4]

目前, 科研人员主要通过采集西瓜的近红外光谱去预测西瓜SSC[5]。 由于西瓜皮较厚且反射光谱穿透深度有限[6], 获取携带西瓜果肉信息的反射光谱难度较大。 此外, 由于镜面反射产生的杂散光难以消除, 采用漫反射光谱检测技术很难准确预测西瓜果肉的品质[7]。 因此, 多数研究者选择采集西瓜漫透射光谱去预测西瓜SSC[8, 9, 10, 11]。 李雄[11]等采用在线检测装置采集西瓜的漫透射光谱预测西瓜不同部位的SSC, 发现模型对距西瓜皮2 cm处的果肉SSC的预测精度最高。 漫透射模式可以采集到大量西瓜果肉浅层的光谱信息, 却很难获得果肉中心部位的光谱信息。 由于西瓜浅层部位的果肉SSC容易受到温度变化和光照条件的影响(如西瓜生长的过程受光不均匀产生阴阳面), 仅仅凭借西瓜浅层的SSC不能完整地评价西瓜SSC差异。 有些研究者认为应该依据中心部位SSC作为西瓜SSC的评价标准, 但是西瓜内部SSC分布不均匀, 有些西瓜中心部位SSC很高, 而边缘部位的SSC却很低, 无法保证整果SSC。 因此, 应该综合考虑西瓜各部位SSC去评价西瓜糖度。

西瓜体积大且皮厚, 获取携带中心部位果肉信息的透射光谱难度较大。 通常为了更全面地获取西瓜果肉光谱信息, 传统的光谱采集方式采用较长的积分时间和较强的光源。 Jie[10]等采集西瓜漫透射光谱的积分时间是200 ms, 光源为15个100 W卤素灯; 李雄[11]等使用西瓜漫透射在线检测设备设置的积分时间是100 ms和150 ms, 光源为2个100 W卤钨灯。 虽然均可以获取西瓜果肉光谱信息, 但是光源较强积分时间较长, 透射光的能量大, 可能会影响西瓜内部品质。 本研究采用自主研发的西瓜全透射在线检测设备, 积分时间为10 ms, 光源为一个150 W卤素灯, 透射光的能量较低。 与长积分时间采集模式相比, 短积分时间采集模式是一种新型的光谱采集方法, 以很短的间隔时间连续采集水果不同位置的透射光谱。 待测水果位于光源和光谱仪之间, 可以完全遮挡光源的光线, 有利于控制杂散光。 相比于漫透射方式, 采用全透射方式能够采集到水果的多点透射光谱, 较全面地获取果肉光谱信息, 而且可以对不同姿态的水果进行在线快速检测。 相关研究表明, 全透射光谱在线检测水果内部品质取得了较好的预测效果[12, 13], 而对于西瓜SSC的预测相关研究却很少。

本研究的目标是采用全透射光谱检测技术建立西瓜SSC在线检测的最佳模型。 主要目标是: (1)讨论西瓜SSC评价标准。 (2)对比分析采集西瓜不同姿态的全透射光谱曲线的特征及对模型的影响。 (3)探究不同光谱预处理算法相结合对西瓜SSC预测模型的影响。 (4)比较西瓜不同部位SSC所建模型的预测结果, 并选择最佳模型进行优化。

1 实验部分
1.1 样品

小型早熟吊秧西瓜京美2K, 成熟后单果重约1.5~2.5 kg, 果皮厚度约5 mm。 2021年6月9日至21日, 共计采购160个成熟的西瓜样品。 所有西瓜样本均产于北京市大兴区庞各庄, 采摘当天运到实验室, 分别做好编号。 实验中所有西瓜样本被随机按照3∶ 1的比例划分为校正集和预测集。 在25 ℃室温下, 放置1 d, 使西瓜内部温度保持一致, 避免因样品温度差异对光谱采集和SSC测定产生影响。

1.2 设备及光谱采集

自主研发的全透射光谱在线检测装置OnlineNIR® 如图1所示, 该装置由七个部分组成: (1)用于输送西瓜的传动单元; (2)防止西瓜破损, 保持西瓜姿态, 利于分级的自由果托; (3)消除杂光, 避免外界光源干扰的暗箱; (4)一个卤素灯(FUJI, JCR, 150 W, 15 V)光源; (5)一个高灵敏度光谱仪(OnlineNIR 711), 采集样品光谱范围565~1 116 nm, 间隔0.5 nm, 用于采集西瓜全透射光谱; (6)光电传感器用于获取西瓜的位置, 发送信号给控制系统, 确定光谱仪的开关时间; (7)用于整个检测装置的工业控制计算机[Advantech 610H, Intel (R) Core (TM) i5-2400 CPU@3.10 GHz, RAM 8 GB]。

图1 全透射光谱在线检测装置示意图Fig.1 Schematic diagram of the online full-transmittance detection equipment

实验中将西瓜放在自由果托上, 传送带输送西瓜以0.5 m· s-1的恒定速度移动。 当西瓜通过遮光帘完全进入左侧第一个暗箱时, 遮光帘关闭, 避免了外界光源的干扰。 当西瓜移动至光电传感器的位置时, 控制系统启动光谱仪和光源。 当西瓜移动到光谱仪位置时, 透过西瓜内部的透射光被记录为透射光谱数据。 随着西瓜的移动, 光谱仪会连续采集西瓜不同位置的光谱数据, 积分时间为10 ms。 本研究共采集西瓜2种姿态(T1和T2)的光谱数据, 采用西瓜校正集样本的平均光谱(每一个西瓜共采集了多条光谱, 对其求平均得出一条平均光谱)进行建模, 探究不同检测方位对西瓜SSC预测准确度的影响。 如图2(a, b, c)所示, T1: 西瓜轴线垂直传送带所在平面, 卤素灯照射西瓜赤道位置, 正对面用光谱仪采集光谱数据; T2: 西瓜轴线与传送带所在平面平行, 卤素灯照射西瓜轴线位置, 正对面用光谱仪采集光谱数据。 每一个西瓜样品在T1姿态下大约采集了33条全透射光谱数据, 在T2姿态下大约采集43条全透射光谱数据。

图2 西瓜2种姿态下多点采集光谱数据示意图
T1: 西瓜轴线垂直传送带所在平面; T2: 西瓜轴线与传送带所在平面平行(a): 不同姿态在线检测示意图; (b): 光谱采集部位示意图; (c): 多点采集西瓜样品原始光谱
Fig.2 Schematic diagram of spectral data of watermelon under two postures were collected at multiple points
T1: Watermelon axis is vertical to conveyor belt; T2: Watermelon axis is parallel to conveyor belt(a): Schematic diagram of online detection of different postures; (b): Schematic diagram of spectral collection parts; (c): Original spectra of a watermelon sample were collected at multiple points

1.3 SSC含量测定

如图3所示, 西瓜不同部位SSC测量值被分别定义为瓜蒂糖、 中心糖、 瓜脐糖和整果糖, 其中整果糖由不同部位SSC测量完剩余的果汁和余下所有的果肉榨汁后混合摇匀测量得到。 西瓜SSC测量过程: 将西瓜沿瓜脐瓜蒂轴线切成两半, 分别取两半西瓜的瓜蒂部位、 中心部位、 瓜脐部位和整果的果肉, 使用手动榨汁机将果汁挤压到对应标签的干净烧杯中。 用玻璃棒搅拌均匀后, 用胶头滴管吸取果汁滴在数字折光仪(PAL-1, ATAGO, 日本, 分辨率0.1%, 精度± 0.2%)上测量SSC。 为了提高SSC测量值的准确性, 每次测量完先用蒸馏水清洗, 再用待测样品冲洗数字折光仪, 取测量三次的平均值作为西瓜每个部位SSC的最终值。

图3 西瓜SSC测量部位示意图Fig.3 Sketches of SSC detection in different parts of a watermelon

1.4 数据预处理及波段筛选

选取适当的预处理方法能够有效消除基线漂移, 降低噪声并减少外界因素的干扰, 提高模型的预测精度和适用性。 使用Unscrambler X 10.4(CAMO公司, 挪威)软件对西瓜光谱数据进行预处理, 共选用了4种预处理方法, 分别为卷积平滑(Savitzky-Golay smoothing, SGS)、 多元散射校正(multiplicative scatter correction, MSC)、 单位矢量归一化(unit vector normalization, UVN)、 标准正态变量变换(standard normal variate, SNV)。 SGS可以降低光谱数据中的噪声, MSC能够减小光散射的影响, UVN可消除样品和设备变化带来的随机噪声, SNV能很好地去除颗粒大小不均匀引起的光散射现象。

全波段光谱数据维度较高且包含了大量的不相关和共线性信息, 通过挑选特征波长可以有效剔除无用信息, 降低数据维度, 简化模型, 还能够提高模型的可靠性和抗干扰能力。 本研究使用竞争性自适应重加权算法[14](competitive adaptive reweighted sampling, CARS)挑选光谱特征波长, 蒙特卡罗采样运行的次数设为50次, 最终筛选的波长数由10折交叉验证确定。

1.5 偏最小二乘回归

偏最小二乘回归(PLSR)可以同时分解光谱矩阵X和浓度矩阵Y, 并建立和强化两者之间的关系。 在计算主成分时, 保证主成分与浓度最大程度相关的同时能够最大限度地提取光谱中的有用信息, 从而获得最佳的校正模型。 其模型为

Y=βX+b(1)

式(1)中, β 为回归系数, b为模型残差。

在使用PLSR建立校正模型时, 为了避免出现欠拟合或过拟合现象, 选取参与建模的最佳潜变量(latent variables, LVs)数。 本研究采用交叉验证方法, 依据预测残差平方和(prediction residual error sum of squares, PRESS)达到最小值时对应的LVs为最优主成分数。 使用MATLAB R2019a(The MathWorks Inc., 美国)建立PLSR西瓜SSC预测模型。

1.6 模型评价

通过相关系数(R)和均方根误差(RMSE)评价光谱数据与西瓜SSC建立的回归模型的预测效果。 校正集的相关系数(RC)和预测集的相关系数(RP)越大, 表明线性相关性越强, 预测结果越好。 校正集的均方根误差(RMSEC)和预测集的均方根误差(RMSEP)越小, 说明所建模型预测精度越高。 各评价参数公式如式(2)和式(3)

RC,  RP=i=1n(ypi-y̅)2i=1n(ymi-y̅)2(2)

RMSEC,  RMSEP=1ni=1n(ypi-ymi)2(3)

式(2)和(3)中, ypiymi分别表示样本集中第i个样本的预测值和实测值, y̅表示样本集中实测值的平均值, n表示样本集中样本的个数。

2 结果与讨论
2.1 西瓜糖度评价标准

由于西瓜不同部位SSC有显著差异, 仅依据某一个局部区域的SSC作为西瓜糖度的评价标准是不完整的。 图4为随机选取的30个西瓜样本不同部位SSC的曲线, 如图4所示, 西瓜中心部位糖度最高, 瓜脐糖、 瓜蒂糖和整果糖相差不大。 其中, 所有西瓜样本的中心、 瓜脐、 瓜蒂和整果糖度的平均值分别为11.39、 10.42、 10.33和10.19° Brix, 进一步反映了西瓜不同部位SSC的差异性。

图4 西瓜样本不同部位SSC实测值Fig.4 Measured SSC in different parts of watermelon samples

如图4中西瓜样本6和26, 这两个西瓜的中心部位SSC都特别高, 而整果SSC却不是很高, 说明这两个西瓜中心与边缘部位含糖量差异特别大, 所以这种西瓜的品质不是很好或者成熟度不足。 由于西瓜中心部位SSC比较大, 而且有些西瓜中心SSC特别高, 但是其他部位SSC值比较低, 所以仅以西瓜中心SSC作为西瓜甜度品质的评价标准不能得到客观的结果。 然而, 西瓜整果SSC高, 那么局部SSC自然不会太低, 但是有些人对西瓜局部SSC有一定的要求, 因此本研究认为应该综合考虑西瓜整果SSC和局部SSC去评价西瓜的品质。

2.2 全透射光谱的曲线特征

由于波长范围(565~670 nm)所对应的光谱透射强度值较低, 强度较小且频率较高, 包含大量噪声和无用信息, 故选取波长范围(671~1 116 nm)的光谱数据进行分析。 在2种姿态下, 采集西瓜样品全透射平均光谱曲线如图5所示。 光谱曲线特征基本一致, 主要是吸收强度有所差别, T1姿态光谱吸收强度低于T2姿态, 可能由于光源与西瓜外表面轮廓形成的入射角度不一样, 导致光的透射率不同。 在波长919 nm附近观察到光谱曲线的吸收峰, 吸收峰比较突出且覆盖波段范围比较大。 很可能是因为西瓜果肉含有多种有机化合物和大量水分, 为不同物质官能团的特征谱带重叠而形成。 其中, C— H基团的三级倍频伸缩振动出现在900~950 nm, O— H基团的二级倍频伸缩振动区间在960~980 nm, 因此这个宽吸收峰可能由多种化合物的官能团形成[15]

图5 西瓜两种姿态的平均光谱Fig.5 The average spectra of watermelon under two postures

2.3 光谱预处理

原始光谱数据不仅包含待测样品内部各种化学成分的相关信息, 还包括随机噪声、 杂散光、 基线漂移等干扰信息。 因此, 在利用近红外光谱建立校正模型之前, 对原始光谱进行预处理十分必要。 通过对西瓜光谱数据进行建模分析(建模结果如表1所示), 发现使用SGS(拟合二次多项式, 窗口宽度7)分别结合UVN、 MSC和SNV可以获得很好的效果。 对于T1姿态下采集的西瓜光谱, 使用SGS和MSC组合可以获得最佳的效果, 预处理后的光谱曲线如图6(a)所示。 相比于其他预处理算法而言, 使用SGS结合UVN对T2姿态下采集的光谱数据进行处理效果较好, 预处理后的光谱如图6(b)所示。

表1 西瓜不同部位SSC模型预测结果 Table 1 prediction results of SSC in different parts of watermelons

图6 预处理后的光谱
(a): 对T1进行(SGS+MSC)预处理后的光谱; (b): 对T2进行(SGS+UVN)预处理后的光谱
Fig.6 Spectra after pretreatment
(a): Spectra after pretreatment (SGS+MSC) of T1; (b): Spectra after pretreatment (SGS+UVN) of T2

2.4 基于全波段光谱的西瓜SSC定量预测模型

采用西瓜两种姿态的光谱数据分别与西瓜不同部位的SSC建立PLSR模型, 发现不同的检测姿态和检测部位对模型的预测结果均有显著影响。 根据校正集和预测集的相关系数、 均方根误差, 综合考量所建模型的预测效果。 通过对比分析不同检测姿态和检测部位的预测结果, 探究西瓜在线检测的最佳姿态和最优检测部位。

2.4.1 西瓜局部SSC预测模型

西瓜局部SSC模型预测结果如表1所示。 通过对比分析模型预测结果发现, 采用西瓜T1姿态的光谱数据对西瓜不同部位的SSC进行预测, 效果明显好于T2姿态采集的光谱数据预测的结果。 分析认为T1姿态下, 获取西瓜样本的每一条光谱都携带了西瓜不同部位的光谱信息。 而T2姿态下, 西瓜样本的光谱数据是由不同部位光谱信息逐个累加而成的[如图2(b)所示]。 在T1姿态下, 对西瓜不同部位SSC进行检测, 中心部位的SSC预测效果最差(RCRP分别为0.913 2和0.821 0, RMSEC和RMSEP分别为1.111 5%和0.952 2%), 瓜脐部位模型的预测效果较好(RCRP分别为0.922 0和0.843 9, RMSEC和RMSEP分别为0.917 0%和0.966 3%), 瓜蒂部位的SSC预测效果最好(RCRP分别为0.888 0和0.865 0, RMSEC和RMSEP分别为0.959 1%和0.910 4%)。 在T2姿态下, 西瓜不同部位SSC预测结果与T1姿态的预测结果相似, 也是瓜蒂部位的SSC预测效果最佳(RCRP分别为0.872 0和0.830 5, RMSEC和RMSEP分别为0.923 2%和1.031 5%), 瓜脐部位次之(RCRC分别为0.864 0和0.805 4, RMSEC和RMSEP分别为0.907 5%和1.046 8%), 中心部位的SSC预测效果最差(RCRP分别为0.837 4和0.775 8, RMSEC和RMSEP分别为0.990 5%和1.035 6%)。 分析认为西瓜不同部位光谱透射的直径不一样, 直径越大, 光谱透射强度越弱, 进而影响了预测精度。 对比实验结果, 在T1姿态下, 经过SGS和MSC预处理后, 建立西瓜瓜蒂部位的SSC模型预测效果最好, 后续对其进行优化。

2.4.2 西瓜整果SSC预测模型

采用PLSR算法分别建立西瓜不同姿态的光谱数据与西瓜整果SSC的预测模型, 并比较模型的预测效果, 具体结果如表2所示。 与西瓜局部SSC预测结果相似, 对西瓜整果SSC进行预测也同样是T1姿态的预测结果要明显好于T2姿态的预测结果。 在T1姿态下, 经过SGS和MSC预处理后, 模型的预测效果最好(RCRP分别为0.920 0和0.859 8, RMSEC和RMSEP分别为0.806 6%和0.779 0%)。 在T2姿态下, 经过SGS和UVN预处理后, 模型的预测效果最佳(RCRP分别为0.866 9和0.830 3, RMSEC和RMSEP分别为0.741 5%和0.828 3%)。 比较模型预测结果, 在T1姿态下, 建立西瓜整果SSC模型预测效果最好, 后续对其进行优化。

表2 西瓜整果糖模型预测结果 Table 2 The prediction results of Average Sugar of watermelons

通过对比西瓜局部和整果SSC预测模型, 发现模型预测整果SSC的校正集和预测集的均方根误差较小。 可能由于采集西瓜全透射光谱几乎包含了完整西瓜全部的果肉信息, 因此PLSR模型预测整果SSC误差较小。

2.5 模型优化

为了进一步简化模型, 提高模型稳定性和预测性能, 采用CARS算法挑选特征波长的过程如图7所示。 从图7(a)中可以看出, 随着采样次数的增加, 指数衰减函数会自动剔除回归系数值较小的波段。 采样波长的数量在开始阶段先快速下降, 然后缓慢下降, 说明在CARS中进行了快速精准的变量筛选。 从图7(b)中可知, 通过每次采样挑选出的变量子集建立PLSR模型, 当采样次数为N时, 模型的交叉验证均方差(root mean square error of cross validation, RMSECV)最小, 此时的变量子集为CARS筛选的最优波段。 在图7(c)中, 每条曲线表示每个波长在不同采样运行时的回归系数, 用星号表示的垂直虚线标记交叉验证均方差取最小值时对应的最佳变量子集。 通过CARS计算, 挑选出81个波长变量作为预测瓜蒂糖的特征波段, 共选出106个波长变量作为预测整果糖的特征波段。 将这些优选的波段与对应的SSC矩阵分别建立PLSR模型, 预测结果如表3所示。

图7 CARS筛选最优变量数过程图
(E): 筛选瓜蒂糖光谱信息的过程图; (F): 筛选整果糖光谱信息的过程图(a): 采样变量数变化趋势; (b): 交叉验证均方差变化; (c): 各波长点回归系数值
Fig.7 Process diagram of CARS screening optimal variable number
(E): Process diagram for screening spectral information of Pedicle Sugar; (F): Process diagram for screening spectral information of Average Sugar(a): Variation trend of sampling variables; (b): RMSECV values variables; (c): regression coefficients of each wavelength

表3 基于特征波段所建模型的预测结果 Table 3 Prediction results of the model based on the characteristic bands

表3可知, 相比于全波段模型, 通过使用CARS算法挑选特征波段得到了预测效果更好的PLSR模型。 对于特征波段所建预测瓜蒂模型, 建模变量由1 648个波长点减至81个, 仅占全波段的4.9%, 模型的预测精度为RCRP分别是0.916 3和0.881 0, RMSEC和RMSEP分别是0.955 3%和0.866 7%。 对于特征波长所建预测整果糖的模型, 建模变量由1 648个波长变量减到106个, 占全波段的6.4%, 模型的预测结果为RCRP分别是0.898 6和0.875 8, RMSEC和RMSEP分别是0.819 1%和0.758 9%。 两个不同的PLSR模型对西瓜SSC的预测值与实测值之间的散点图分别如图8(a, b)所示。

图8 基于特征波段所建模型的散点图
(a): 预测瓜梗糖的散点图; (b): 预测整果糖的散点图
Fig.8 Scatter diagram of model based on characteristic bands
(a): Scatter plot for predicting Pedicle Sugar; (b): Scatter plot for predicting Average Sugar

采用实验室自主研发的在线检测设备, 采集了西瓜两种姿态的可见近红外全透射光谱数据, 通过与西瓜不同部位SSC建立预测模型, 可以实现西瓜瓜蒂、 中心糖、 瓜脐和整果SSC的在线无损检测, 如何有效利用这些检测结果对西瓜的糖度整体品质进行评判是需要进一步探讨的问题。 一般一个品质好的西瓜, SSC分布应该比较均匀, 即中心糖、 瓜蒂糖和瓜脐糖应该差异较小, 且整果糖较高。 因此, 在实际检测中, 应该采用这4个部位的SSC值进行综合评价, 除了考虑整果SSC的大小之外, 还应考虑瓜蒂、 中心糖、 瓜脐糖的差异。 因此提出一个SSC评价指数, 用于西瓜糖度的评价, 如式(4)

SSC评价指数=整果糖-0.1×(中心糖-瓜蒂糖)-0.2×(中心糖-瓜脐糖)(4)

在式(4)中, 相关参数要根据实际检测的西瓜不同部位SSC差异程度而定。 采用式(4), 能够有效降低图4中西瓜样本6和26这种不同部位SSC差异较大的西瓜的SSC评价指数, 避免了品质不好的西瓜被划分为高等级果。 根据本实验样本的验证结果, 该指数能够较为全面地反映西瓜整体糖度的差异。 由于在线无损检测技术的进步, 目前已经可以做到西瓜不同部位SSC的快速无损检测, 为西瓜的种植和育种提供技术支撑。 期待能够进一步完善, 共同提高西瓜的品质, 增强西瓜行业的市场竞争力。

3 结论

通过在线采集西瓜不同姿态的全透射光谱数据, 对西瓜不同部位SSC进行预测, 探讨西瓜SSC的评价标准, 对比分析在不同姿态下检测西瓜对模型预测精度的影响, 探究检测西瓜SSC的最佳部位, 最后筛选波段, 建立最佳的西瓜SSC在线检测模型。 结论如下:

(1)使用两种姿态的光谱数据建立PLSR模型, 对西瓜不同部位SSC进行预测, 结果显示无论对西瓜哪个部位进行预测, T1姿态明显比T2姿态的建模效果好。 说明采集西瓜不同姿态的光谱数据, 对预测西瓜SSC有一定的影响。

(2)比较了SGS+UVN、 SGS+MSC和SGS+SNV这3种预处理方法对模型的预测效果的影响, 结果发现, 使用SGS+MSC对T1姿态的光谱数据预处理效果最好, 使用SGS+UVN对T2姿态的光谱数据预处理效果最佳。 说明采集相同西瓜样本不同姿态的光谱数据, 需要使用不同的预处理方法才能得到最好的预处理效果。

(3)采用CARS算法分别筛选出106个波段和81个波段, 用于建立预测西瓜整果糖和瓜蒂糖的PLSR模型。 其中, 预测整果糖的结果: RP和RMSEP分别为0.875 8%和0.758 9%; 预测瓜蒂糖的结果: RP和RMSEP分别为0.881 0%和0.866 7%。 相比于全波段模型, CARS算法可以根据西瓜不同部位SSC, 准确筛选出相关性较强的波段。 基于特征波段建立模型不仅可以简化模型, 而且还可以提高模型的稳定性、 预测能力。

(4)提出了SSC综合评价指标, 以整果糖为主, 综合考虑了中心糖与瓜蒂糖和瓜脐糖之间差异, 为西瓜SSC的在线检测提供参考依据。

本研究表明, 采用可见近红外全透射光谱, 可以实现对西瓜不同部位SSC进行在线准确预测, 为西瓜在线分选设备的研发提供了一定的参考。

参考文献
[1] National Bureau of Statistics of China(中华人民共和国国家统计局). China Statistical Yearbook(中国统计年鉴), 2020. [本文引用:1]
[2] Mendoza F, Lu R, Ariana D, et al. Postharvest Biology & Technology, 2011, 62(2): 149. [本文引用:1]
[3] WANG Di-song, PU Hong-jie, LI Zhen-feng, et al(汪迪松, 浦宏杰, 李臻峰, ). Acta Agriculturae Shanghai(上海农业学报), 2017, 33(2): 6. [本文引用:1]
[4] Tong S, Huang K, Xu H, et al. Journal of Food Engineering, 2010, 99(4): 569. [本文引用:1]
[5] Jie D, Xuan W. Computers & Electronics in Agriculture, 2018, 151: 156. [本文引用:1]
[6] Lammertyn J, Peirs A, Baer De Maeker J D, et al. Postharvest Biology & Technology, 2000, 18(2): 121. [本文引用:1]
[7] Jiang B, He J, Yang S, et al. Artificial Intelligence in Agriculture, 2019, (1): 8. [本文引用:1]
[8] HAN Dong-hai, CHANG Dong, SONG Shu-hui, et al(韩东海, 常东, 宋曙辉, ). Transcations of the Chinese Society of Agricultural Machinery(农业机械学报), 2013, 44(7): 174. [本文引用:1]
[9] JIE Deng-fei, CHEN Meng, XIE Li-juan, et al(介邓飞, 陈猛, 谢丽娟, ). Transcations of the Chinese Society of Agricultural Engineering(农业工程学报), 2014, 30(9): 229. [本文引用:1]
[10] Jie D, Xie L, Rao X, et al. Postharvest Biology & Technology, 2014, 90: 1. [本文引用:2]
[11] LI Xiong, LIU Yan-de, SUN Xu-dong, et al(李雄, 刘燕德, 孙旭东, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(10): 6. [本文引用:3]
[12] Huang Y, Dong W, Chen Y, et al. Chemometrics and Intelligent Laboratory Systems, 2021(8): 104243. [本文引用:1]
[13] Tian X, Fan S, Li J, et al. Biosystems Engineering, 2020, 197: 64. [本文引用:1]
[14] Li H D, Liang Y Z, Xu B Q, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[15] CHU Xiao-li(褚小立). Molecular Spectroscopy Analytical Technology Combined With Chemometrics and Its Applications(化学计量学方法与分子光谱分析技术). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2011. 4. [本文引用:1]