手持式近红外光谱仪测定梨三种品质指标通用模型建模方法研究
毛欣然, 夏静静, 徐惟馨, 韦芸, 陈玥瑶, 陈月飞, 闵顺耕, 熊艳梅*
中国农业大学理学院, 北京 100193
*通讯作者 e-mail: xiongym@cau.edu.cn

作者简介: 毛欣然, 女, 1998 年生, 中国农业大学理学院硕士研究生 e-mail: mxr532392814@163.com

摘要

梨是生活中非常常见的水果, 梨的糖度、 酸度(pH)、 硬度是评价梨品质的重要指标。 近红外光谱技术因快速、 无损和高效等优点, 广泛应用于检测水果品质指标。 手持式近红外光谱仪可以应用于现场无损检测梨品质, 梨的大小不同会对梨的光谱和建模产生一定影响。 因此, 采集大小不同的5个品种梨果(雪梨、 红香酥、 蜜梨、 红肖梨、 酸梨)的近红外光谱, 最大的雪梨平均赤道周长27.64 cm, 重量为362.84 g, 最小的蜜梨平均赤道周长18.35 cm, 重量为112.67 g, 共197个样品。 光谱范围为900~1 700 cm-1, 并在梨的赤道上选取三个点测量梨果的可溶性固形物、 酸度(pH)与硬度三个化学指标。 采集光谱发现, 小梨吸光度较大, 而大梨吸光度较小。 采用三点平均光谱代表样品光谱和一阶导预处理, 改善了光谱的一致性, 解决了样品不均匀性、 不同梨大小不同等因素的影响。 线性回归模型PLS可溶性固形物、 酸度(pH)和硬度的校正集决定系数依次为0.739 4、 0.933 5、 0.886 6, 预测集决定系数依次为0.755 9、 0.873 4、 0.787 4, 校正集RMSEC依次为0.550 4、 0.194 1、 0.518 1。 预测集RMSEP依次为0.656 4、 0.242 0、 0.669 2。 非线性回归 LSSVM模型可溶性固形物、 酸度(pH)和硬度的校正集决定系数依次为0.976 3、 0.999 9、 0.996 0, 预测集决定系数依次为0.923 4、 0.977 7、 0.939 4, 校正集RMSEC依次为0.194 9、 0.003 3、 0.089 4。 预测集RMSEP依次为0.316 9、 0.108 9、 0.361 3。 对比线性算法和非线性算法, LS-SVM建模效果明显优于PLS, LS-SVM算法适用于更多的品种、 更宽的品质指标范围的样品预测, 模型的准确度和稳定性有了显著提高, 可以建立不同品种大小的梨的通用模型。 手持式近红外光谱仪可用于梨果的糖度、 硬度和pH值的快速无损高效检测, 并摆脱了实验室的限制, 可以实现现场快速检测。

关键词: 手持式近红外仪; ; 偏最小二乘法; 最小二乘支持向量机
中图分类号:O657.3 文献标志码:A
Study on Modeling Method of General Model for Measuring Three Quality Indexes of Pear by Handheld Near-Infrared Spectrometer
MAO Xin-ran, XIA Jing-jing, XU Wei-xin, WEI Yun, CHEN Yue-yao, CHEN Yue-fei, MIN Shun-geng, XIONG Yan-mei*
College of Science, China Agricultural University, Beijing 100193, China
*Corresponding author
Abstract

Pear is a very common fruit in life and one of the three major fruits in China. The sugar content, acidity (pH) and hardness of the pear are important indexes to evaluate the quality of the pear. Near infrared spectroscopy (NIR) is widely used to detect the quality of fruits because of its fast, non-destructive and high efficiency advantages. The hand-held near-infrared spectrometer can be applied to the on-site nondestructive testing of pear quality. Different pear sizes will have a certain impact on the spectrum and modeling of pears. The near-infrared spectra of five pear varieties (Sydney, Hongxiangsu, Honey pear, Hongxiao pear and Sour pear) with different sizes are collected. The largest pear, Sydney has an average equatorial circumference of 27.64 cm and a weight of 362.84 g. The smallest pear has an average equatorial circumference of 18.35 cm and a weight of 112.67 g. A total of 197 samples. The spectral range is 900~1 700 cm-1, three points were selected on the equator of the pear to measure the three chemical indexes of the pear fruit: soluble solids, acidity (PH) and hardness. It was found that the absorbance of small pear was higher than that of large pears. The three-point average spectrum is used to represent the spectrum of the sample and the first-order derivative pretreatment, which improves the consistency of the spectrum, and solves the influence of factors such as sample heterogeneity and different pear sizes. The determination coefficients of the correction set of the linear regression model PLS for soluble solids, acidity (pH) and hardness were 0.739 4, 0.933 5, 0.886 6, 0.755 9, 0.873 4, 0.787 4, and 0.550 4, 0.194 1, 0.518 1, respectively. The RMSEP of the prediction set is 0.656 4, 0.242 0 and 0.669 2 respectively. The determination coefficients of the calibration set of the nonlinear regression model LSSVM for soluble solids, acidity (pH) and hardness are 0.976 3, 0.999 9 and 0.996 0 respectively, the determination coefficients of the prediction set are 0.923 4, 0.977 7 and 0.939 4 respectively, and the RMSEC of the calibration set is 0.194 9, 0.003 3 and 0.089 4 respectively. The RMSEP of the prediction set is 0.316 9, 0.108 9 and 0.361 3 in order. Compare linear algorithm with the nonlinear algorithm; the LS-SVM modeling effect is better than PLS. The LS-SVM algorithm ensures that the model is applicable to the prediction of more varieties and a wider quality index range. The accuracy and stability of the model have been significantly improved. It can establish a general model for pears of different varieties and sizes. The handheld near-infrared spectrometer can be used for the rapid, non-destructive and efficient detection of sugar, hardness and pH value of pear fruits, and it has got rid of the limitations of the laboratory. It can realize on-site rapid detection.

Keyword: Portable near-infrared spectrometer; Pear; Partial least square; Least squares-support vector machine
引言

我国是梨子属植物的重要起源地之一, 在全球25个梨子属品种中, 我国有14种。 梨是我国三大水果之一, 是生活中常见的水果。 梨果脆甜多汁, 但仅感官很难分辨出它的品质, 可溶性固形物(soluble solids content, SSC)、 酸度(pH)、 硬度(hardness, HR)是评价其内在品质的重要理化指标, 通常采用湿化学方法进行测定, 存在步骤繁琐、 耗时长、 损耗样品等缺点, 无法满足水果收购、 流通、 质量监管中大批量样品品质现场检测要求。 因此, 找到一种快速、 无损检测水果品质方法对提高梨果的分选效率、 落实优质优价、 提高消费者的满意度具有重要的意义。

近红外光谱(near-infrared spectroscopy, NIR) 技术是一种简便快速、 无损检测技术, 已广泛应用于食品与农产品品质分析, 在梨、 苹果、 脐橙品质指标(SSC、 PH、 VC等)检测中有许多文献报道。 章海亮等[1]采用近红外漫反射法无损检测3个品种梨果糖度、 pH值; 李东华等[2]采用近红外技术对鞍山、 海城两产区南果梨果实硬度建立了PLS模型, 模型校正集相关系数为0.970, 校正均方根误差为0.124; Alex Goke等[3]采用近红外光谱结合PLS法预测Bartlett梨果糖含量; 罗亚琼等[4]设计了梨糖度无损检测红外光谱系统, 实现了对梨糖度快速检测。 Lee[5]等采用近红外漫反射光谱对韩国梨含糖量进行了无损分析。 Yuan等[6]利用Vis-NIR技术结合偏差融合建模方法对“ 云和” 梨糖度进行无损分析; Xia[7]等利用Vis/NIR在线半透射技术建立梨(Pyrus bretschneideri “ Ya” ) SSC含量的多因素融合模型。 Li等[8]采用可见-近红外仪器(波长范围350~1 800 nm)建立3种梨子SSC(9.5%~13%)、 pH(4.5~5.25)、 HR(3.5~13.5)指标的LS-SVM模型, 模型RMSEP分别为0.25%、 0.058、 0.62; 韩东海[9]等采用近红外法检测苹果的SSC, 找到了消除果实大小影响的方法。 上述研究对梨的品质检测研究主要是对单一品种的梨建立模型, 由于不同品种梨的大小、 SSC、 pH、 HR、 色泽等均有较大差异, 对光谱有很大的影响, 适用不同品种梨品质检测的通用模型研发存在一定的困难。

采用手持式数字阵列微镜(DMD)近红外光谱仪, 建立了外形大小差异显著的5个品种梨可溶性固形物(SSC)、 酸度、 硬度三个品质指标的近红外光谱定量模型, 比较偏最小二乘法PLS和最小二乘支持向量机回归LS-SVM模型性能优劣, 消除梨的大小对建模结果的影响, 建立了梨三种品质指标通用模型, 为实现现场快速测定梨品质提供了新的途径。

1 实验部分
1.1 样品采集

采集了五个品种梨子样品共197个, 分别是平谷的雪梨(41个)、 红肖梨(47个)、 红香酥(33个)、 蜜梨(49个)、 酸梨(27个), 其中最大的雪梨平均赤道周长27.64 cm, 重量为362.84 g, 最小的蜜梨平均赤道周长18.35 cm, 重量为112.67 g, 具体数据统计结果见表1

表1 五个品种梨的理化数据统计结果 Table 1 Statistics of physicochemical values of five varieties of pears
1.2 仪器与试剂

数字阵列微镜手持近红外光谱仪(IAS3125, 迅杰光远仪器有限公司, 中国), 配套光谱数据处理软件IAS Tool-Box;

WYA-2WA阿贝折射仪(上海申光公司); testo pH计(德国德图); GY-4硬度计(浙江温州艾德堡)。

蒸馏水、 无水乙醇(分析纯, 国药集团化学试剂有限公司)。

偏最小二乘法PLS算法软件为Unscrambler 9 .5和LS-SVM算法软件为matlabR2021a自编程序。

1.3 仪器参数与光谱采集

手持式近红外仪的光谱采集范围900~1 700 cm-1, 光学分辨率为12~15 nm, 采样点间隔1 nm, 扫描次数32次; 用仪器对梨赤道线120° 等间隔采集3个区域光谱, 为避免小梨或者形状不规则的梨漏光干扰, 采集光谱时用黑色橡胶圈套住光源, 并尽可能避免病斑、 伤疤等表面缺陷部位, 以三个区域光谱的平均光谱代表该梨样品光谱。

1.4 品质指标化学测定

梨的SSC、 pH、 HR测定: 用针在每个梨上划出3个区域, 测量该区域光谱后, 再用硬度计测量该区域的HR。 因为不同梨的大小不同, 而梨不同的深度硬度也不同, 所以每一个品种, 选择一个固定的深度测定HR, 依据标准NY/T 2009— 2011《水果硬度的测定》测量; 然后将3个区域的梨肉挖出, 分别榨汁; 用pH计依据标准GB/T10468— 1989《水果和蔬菜产品pH值的测定方法》测量3个区域的pH; 依据标准NY/T2637— 2014《水果和蔬菜可溶性固形物含量的测定》测量3个区域样品的SSC指标。

所有样品化学值理化数据统计结果如表2所示。

表2 五个品种的梨的三个点的化学值统计 Table 2 Statistics of physicochemical indicators of three points of five varieties of pears
1.5 建模方法与模型评价

所有光谱均采用一阶导数进行预处理, 按样品号顺序, 采用4∶ 1比例进行分集[10], 确定校正集样品143个与验证集47个, 分别采用偏最小二乘法PLS与最小二乘支持向量机法LS-SVM建模, 模型评价指标为决定系数(R2)、 校正集均方根误差(RMSEC)和预测集均方根误差(RMSEP); R2值越大、 RMSEP越小, 则表明模型预测能力越强。

1.5.1 最小二乘支持向量机LS-SVM模型

考虑到光谱采集时, 梨的尺寸大小及曲面影响光谱采集的重现性, 导致了模型误差, 为了拟合并扣除这些因素对模型的影响, 还采用了非线性算法LS-SVM方法建立梨平均光谱与品质指标测定的数学模型。

LS-SVM最小二乘支持向量机是一种新型支持向量机方法, 它能够处理线性和非线性多元分析, 采用最小二乘线性系统作为损失函数, 代替传统的支持向量机采用的二次规划方法, 基于结构风险最小化原则, LS-SVM优化以下问题

minJ(w, e)=12λk=1Nek2(1)

式(1)中, λ 是正则化参数, 起到权衡拟合精度与模型复杂度的作用。 回归模型可描述为

y(x)=i=1nαk(x, xi)+b(2)

式(2)中, xi为输入向量, α k为拉格朗日乘子, 称为支持值, b为偏置核函数。 K(x, xi)定义了从原始变量所在的低维度空间向高维度空间做非线性映射的方式。 目前支持向量机研究中对于核函数的选择并无固定的方法, 但从核函数紧致性和计算复杂度来评价, 径向基核函数RBF更具优势, 有

K(x, xk)=exp(-x-xk2/σ2)(3)

式(3)中, σ 2是RBF核函数宽度。

正则化参数λ 优化、 核函数K(x, xi)选择和核函数参数优化是LS-SVM的三个关键问题。 选用RBF核函数, 用单纯型搜索、 十折交叉验证优化参数λ σ 2, 这两个参数决定了LS-SVM的学习能力、 预测能力和泛化能力。

2 结果与讨论
2.1 光谱特征与异常样品判别

2.1.1 梨子光谱特征

梨样品的光谱如图1所示, 波长范围为900~1 628 nm, 960 nm为O— H的三倍频吸收, 1 190和1 450 nm分别为C— H的二倍频弯曲振动吸收和O— H的一倍频弯曲振动吸收。 从图1可以看出, 不同的梨吸光度差异较大, 但特征峰一致。 雪梨在波长为900 nm处吸光度为0.03~0.2左右, 在波长1 450 nm处吸光度在0.6~0.85, 结果见图1(b); 蜜梨在波长为900 nm处吸光度为0.1~0.35, 在波长1 450 nm处吸光度在0.75~1, 结果见图1(c)。 所以, 小梨吸光度较大, 而大梨吸光度较小。 采用一阶导数消除样品大小差异对光谱的影响。 以平均光谱的基线点(波长1 100 nm)和一阶导数峰位置(波长1 400 nm)进行光谱测定重复性分析, 1 100 nm处所有样品光谱的平均值为0.219, 标准偏差为0.074 5, 平均值除以标准偏差为6.37; 所有样品一阶导数光谱平均值为0.000 568, 标准偏差0.000 089 2, 平均值除以标准偏差得到信噪比为9.25。 1 400 nm处所有样品光谱的平均值为0.679, 标准偏差0.087 6, 平均值除以标准偏差为7.76; 所有样品一阶导数光谱平均值为0.007 89, 标准偏差为0.000 753, 平均值除以标准偏差为10.48; 可以看出, 经过一阶导处理后, 平均光谱值与光谱变化标准差比值明显增高, 说明经过一阶导数处理后光谱基线波动性减小, 即梨子大小对光谱影响明显减少。

图1 梨的光谱
(a): 所有梨样品的光谱; (b): 雪梨光谱; (c): 蜜梨光谱; (d): 梨一阶导数光谱结果
Fig.1 Spectra of all pear samples
(a): Spectra of pears; (b): Spectra of Sydney; (c): Spectra of honey pear samples; (d): First derivative spectra of pear samples

2.1.2 异常值判断

为了保证建模成功, 异常样品处理是必要的步骤。 采用主成分分析得分图进行异常值分析如图2所示, 从得分图中判定红香酥-15, 蜜梨-33为异常样本; Hotelling's T2统计量与杠杆率呈线性关系, 其临界极限基于F检验, 红线为临界值, 超过红线样本为异常样本, Hotelling's T2检验图见图7, 判断红香酥-2、 红香酥-15、 红香酥-27、 红香酥-33、 蜜梨-10、蜜梨-33、 雪梨-42、 红肖梨-44为异常样本, 建模前对所有异常样本进行剔除。

图2 样本得分图与Hotelling's T2检验剔除异常值图Fig.2 Score plot and elimination of outliers by Hotelling's T2 test

2.2 建立偏最小二乘法PLS模型

采用偏最小二乘法建立可溶性固形物(SSC)、 酸度(pH)和硬度(HR)的近红外模型, 平均光谱与一阶导数光谱得到模型结果如表3所示, 三个化学值的一阶导PLS的建模结果如图3所示。

表3 PLS模型结果 Table 3 PLS modeling results

图3 三个化学值的一阶导PLS的建模结果
(a): 糖度; (b): pH; (c): 硬度
Fig.3 Modeling results of first-order derivative pls of three chemical values
(a): Sugar content; (b): pH; (c): Hardnes

一阶导数预处理后, 三个指标定量模型性能有了显著提高。 SSC、 pH、 HR预测值与化学值相关关系见图3。 SSC值、 pH、 HR值模型预测集标准差RMSEP依次分别为0.66%、 0.24、 0.23; 一阶导数处理后, 预测集SSC值、 pH、 HR值模型标准差RMSEP依次降低了20%、 41%、 74%。

2.3 建立最小二乘支持向量机LS-SVM模型

与偏最小二乘算法相同分集方法, 建立可溶性固形物(SSC)、 酸度(pH)和硬度(HR)的偏最小二乘支持向量机回归LS-SVM模型, 平均光谱与一阶导数光谱建模结果见表4。 一阶导数光谱LS-SVM模型如图4、 图5和图6所示。

表4 LS-SVM模型结果 Table 4 Modeling results of LS-SVM

图4 一阶导数光谱LS-SVM模型糖度预测值与化学值相关关系图Fig.4 First order derivative LSSVM model of pear sugar degree

图5 梨酸度的一阶导数LSSVM模型预测值与化学值相关关系图Fig.5 First order derivative LSSVM model of pear pH

图6 梨硬度的一阶导数LSSVM模型Fig.6 First order derivative LSSVM model of pear hardness

从模型结果看, 一阶导数预处理后, 三个指标定量模型性能有了显著提高。 SSC、 pH、 HR值模型预测集标准差RMSEP依次分别为0.32%、 0.11%、 0.36%; 一阶导数处理后, 预测集SSC值、 pH、 HR值模型标准差RMSEP依次降低了37%、 56%、 48%。

2.4 讨论

模型适用于5个品种梨子SSC、 酸度和硬度指标的快速预测, 三项品质指标范围分别是: SSC为8.2%~14%, 酸度(pH值)为2.4~5.4, 硬度为1.4~7.8 bPa。 对比PLS模型与LS-SVM模型结果, SSC、 酸度、 硬度预测模型决定系数R2分别从0.739 5、 0.933 5、 0.886 6提高到0.976 3、 0.999 9、 0.996 0; 糖度、 酸度、 硬度模型预测集RMSEP从0.59、 0.19、 0.52降低到0.32、 0.11、 0.36; 三个模型的决定系数R2值有明显的提高, 同时RMSEP值也有一定程度的下降, 非线性LS-SVM模型性能比线性PLS模型有了大幅度的提高。 分析具体可能有下列原因:

(1)梨子大小影响: 本研究采用5个品种梨子, 果形最大的雪梨重量362.84 g, 果形最小的蜜梨重量在90 g; 最大的雪梨平均赤道周长27.64 cm, 最小的蜜梨平均赤道周长18.35 cm。 果形差异导致赤道位置曲率差异明显, 采集光谱有明显不同, 图7(a)、 (b)为雪梨和蜜梨的光谱。 为了解决果形大小对光谱的影响, 文献[9]采用等吸收点校正方法和导数法扣除果形大小影响。 本工作采用导数法扣除, 扣除结果见图7(c)、 (d), 从图中可以看出, 一阶导数光谱处理后光谱一致性明显改善, 但未完全扣除。 因此, 尽管5个品种梨子的样品个体大小差异很大, 采用非线性算法将部分拟合扣除了因果形大小带来的误差, 提高了模型预测能力。

图7 雪梨与蜜梨的光谱
(a): 雪梨光谱; (b): 蜜梨光谱; (c): 雪梨一阶导光谱; (d): 蜜梨一阶导数光谱
Fig.7 Spectra of Sydney and honey pear
(a): Spectra of Sydney; (b): Spectra of honey pear; (c): First derivative spectra of Sydney; (d): First derivative spectra of honey pear

(2)仪器光斑入射角度影响: 尽管测量时采用黑色密封垫避免外界光的影响, 但由于手持仪器采集光谱时对准样品的角度差异, 加上非平面果形漫反射影响, 使得每次测得光谱存在一定的差异, 采用多次采集光谱进行平均是降低这个因素影响的方法之一, 因此, 采用在赤道测定三个位置光谱进行光谱平均的方法, 部分解决了测定重复性的问题, 一定程度上也解决了梨子不同部位曲率不同、 品质不均匀性的影响。 另外, 非线性模型也拟合了这些因素的影响, 提高了模型的预测效果。

(3)不同品种梨的酸度与硬度差异较大, 酸梨的酸度在3以下, 蜜梨在4左右, 雪梨在5左右; 酸梨的硬度范围在5~7左右, 蜜梨的硬度在3~4, 雪梨的硬度在1~3左右。 而不同品种的梨的糖度差异较小, 除了酸梨的糖度最高在13左右; 这就要求建立的模型需要有比较宽预测范围, 非线性算法在解决宽范围模型具有一定的优势。

从上述讨论中可以得出, 采用非线性LS-SVM算法保证了本模型适用于大小不同的更多的品种、 更宽的品质指标范围的样品预测, 模型的准确度和稳定性有了显著提高。

3 结论

采用数字阵列微镜型便携式近红外光谱仪对5个品种梨的可溶性固形物(SSC)、 酸度(pH)、 硬度进行了PLS、 LSSVM建模, 采用三点平均光谱代表样品光谱和一阶导预处理, 解决了样品不均匀性、 不同梨大小不同等因素的影响, 结果表明: LSSVM建模效果明显优于PLS, LSSVM模型糖度(SSC)、 酸度(pH)和硬度(HR)的校正集决定系数依次为0.976 3、 0.999 9、 0.996 0, 预测集决定系数依次为0.923 4、 0.977 7、 0.939 4, 预测集RMSEP依次为0.316 9、 0.108 9、 0.361 3; 模型RPD依次为6.10、 222.38、 16.95。

综上, 手持式近红外仪器可以实现无损检测梨的糖度、 酸度、 硬度, 检测的结果可以实现测量不同大小品种的梨, 建立梨的通用模型。 满足果园管理、 果品销售及市场监管需要, 为实现不同品种大小梨的品质指标的无损现场快速检测提供了新的途径。

参考文献
[1] ZHANG Hai-liang, SUN Xu-dong, HAO Yong, et al(章海亮, 孙旭东, 郝勇, ). Journal of Northwest A&F University (Nature Science Edition)[西北农林科技大学学报(自然科学版)], 2010, 38(4): 128. [本文引用:1]
[2] LI Dong-hua, JI Shu-juan (李东华, 纪淑娟). Science and Technology of Food Industry(食品工业科技), 2012, 33(21): 312. [本文引用:1]
[3] Goke A, Serra S, Musacchi S. Hortscience, 2018, 53(5): 669. [本文引用:1]
[4] LUO Ya-qiong, YU Guo-long, LI Huai-xu, et al(罗亚琼, 于国龙, 李怀旭, ). Wireless Internet Technology(无线互联科技), 2021, 18(11): 48. [本文引用:1]
[5] Lee Y H, Han S H. Bulletin of the Korean Chemical Society, 2016, 37(2): 166. [本文引用:1]
[6] Yuan L M, Mao F, Li L M. Postharvest Biology and Technology, 2020, (160): 111067. [本文引用:1]
[7] Xia Y, Fan S X, Tian X, et al. Infrared Physics & Technology, 2020, 110: 103443. [本文引用:1]
[8] Li J B, Huang W Q, Zhao C J, et al. Journal of Food Engineering, 2013, 11(2): 324. [本文引用:1]
[9] HAN Dong-hai, WANG Jia-hua (韩东海, 王加华). Chinese Journal of Lasers(中国激光), 2008, 35(8): 1123. [本文引用:2]
[10] LIU Wei, ZHAO Zhong, YUAN Hong-fu, et al(刘伟, 赵众, 袁洪福, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(4): 947. [本文引用:1]