基于BP-ANN和PLS的近红外光谱无损检测李果实品质的研究
赵志磊1,2,3,4, 王雪妹1,2,3, 刘冬冬1,2,3, 王艳伟1,2,3, 顾玉红5, 滕佳鑫1, 牛晓颖1,2,3,4,*
1. 河北大学质量技术监督学院, 河北 保定 071002
2. 计量仪器与系统国家地方联合工程研究中心, 河北 保定 071002
3. 河北省能源计量与安全检测技术重点实验室, 河北 保定 071002
4. 河北大学地理标志研究院, 河北 保定 071002
5. 河北农业大学生命科学学院, 河北 保定 071002
*通讯作者 e-mail: 408643620@qq.com

作者简介: 赵志磊, 1977年生, 河北大学质量技术监督学院教授 e-mail: 15930721279@163.com

摘要

可溶性固形物(SSC)和可滴定总酸(TA)含量是影响李果实品质的重要指标, 经典的破坏性检测方法不适用于果实按品质分级, 近红外光谱(NIRS)检测方法具有速度快、 操作简便、 可无损检测果实品质。 为实现NIRS无损快速检测安哥诺李果实可溶性固形物和可滴定总酸含量, 利用NIRS采集李果实的漫反射光谱, 同时采用糖度计测定安哥诺李果实的SSC, 采用滴定法测定了李果实TA含量, 使用杠杆值和F概率值剔除异常样品, 采用软件优化结合人工筛选光谱波段, 使用了消除常数偏移量、 减去一条直线、 矢量归一化(SNV)、 最大-最小归一化、 多元散射校正(MSC)、 一阶和二阶导数结合平滑处理、 一阶导数结合减去一条直线和平滑处理、 以及一阶导数结合SNV或MSC校正等光谱预处理方法, 分别采用偏最小二乘法(PLS)和主成分分析结合反向传播人工神经网络(BP-ANN)建立李果实SSC、 TA的定量分析模型。 结果表明, 李果实SSC和TA的最佳PLS建模效果波段范围分别为4 000~8 852和4 605~6 523 cm-1。 SSC的PLS模型的最佳光谱预处理方法为MSC校正, 最佳模型校正相关系数( Rc)为0.914 4, 预测相关系数( Rp)为0.878 5, 校正均方根误差(RMSEC)为0.91, 预测均方根误差(RMSEP)为1.00。 经一阶微分结合SNV和9点平滑的方法预处理后, TA的PLS模型效果最佳, Rc, Rp, RMSEC, RMSEP分别为0.860 3, 0.819 6, 0.80和0.86。 提取了李果实SSC和TA光谱数据的主成分, 并基于前10个主成分得分建立了李果实SSC和TA最佳BP-ANN定量分析模型, 其 Rc, Rp, RMSEC和RMSEP分别为0.976 7, 0.889 7, 0.75和0.99; TA的BP-ANN模型的相应参数值依次为0.974 3, 0.897 7, 0.62和0.83, 与采用PLS算法建立的定量模型相比较, BP-ANN模型具有较高的 Rc, Rp和较低的RMSEC, RMSEP, 因此BP-ANN模型对SSC和TA指标的定量分析结果更佳。

关键词: 李果实; 偏最小二乘法; 反向传播人工神经网络; 近红外光谱
中图分类号:O657.33 文献标志码:A
Quantitative Analysis of Soluble Solids and Titratable Acidity Content in Angeleno Plum by Near-Infrared Spectroscopy With BP-ANN and PLS
ZHAO Zhi-lei1,2,3,4, WANG Xue-mei1,2,3, LIU Dong-dong1,2,3, WANG Yan-wei1,2,3, GU Yu-hong5, TENG Jia-xin1, NIU Xiao-ying1,2,3,4,*
1. College of Quality and Technical Supervision, Hebei University, Baoding 071002, China
2. National & Local Joint Engineering Research Center of Metrology Instrument and System, Hebei University, Baoding 071002, China;
3. Hebei Key Laboratory of Energy Metering and Safety Testing Technology, Hebei University, Baoding 071002, China
4. Institute of Geographical Indications, Hebei University, Baoding 071002, China
5. College of Life Science, Hebei Agricultural University, Baoding 071002, China
*Corresponding author
Abstract

Soluble solid content (SSC) and titratable acidity (TA) are important indexes affecting the fruit quality and the fruit quality grading. Classical destructive detection methods are not suitable for fruit classification by quality. NIRS detection method is fast, easy to operate and can detect fruit quality without damage. In order to achieve non-destructive and rapid determination of SSC and TA in Angeleno plum fruits by near-infrared spectroscopy (NIR), diffuse reflectance spectra of plum fruits were collected by NIR spectrometer, SSC was measured by saccharometer, and TA content was determined by titration. Using leverage and F probability value to eliminate abnormal samples and software optimization combined with a manual screening of spectral bands, eliminating constant offset, subtracting a straight line, standard normal variate (SNV), max-minimum normalization, and multiplicative scatter correction (MSC), first and the second derivative combined smoothing, the first derivative combined minus a straight line and smoothing, and the first derivative combined with SNV or MSC correction. Partial least squares (PLS) and back propagation artificial neural network (BP-ANN) were used to establish the quantitative models of SSC and TA of plum fruit. Results indicated that the best Band ranges of plum fruit SSC and TA are 4 000~8 852 and 4 605~6 523 cm-1 respectively. The best spectral preprocessing method of the PLS model of SSC was MSC correction. The best model correction correlation coefficient ( Rc) was 0.914 4, the prediction correlation coefficient ( Rp) was 0.878 5, the correction root means square error (RMSEC) was 0.91, and the prediction root means square error (RMSEP) was 1.00. After the first order differential combined with SNV and 9-point smoothing, the PLS model of TA was the best, and the Rc, Rp, RMSEC and RMSEP were 0.860 3, 0.819 6, 0.80 and 0.86. The principal components of SSC and TA spectral data of plum fruits were extracted, and the optimal BP-ANN quantitative analysis model of SSC and TA were established based on the first 10 principal component scores. The SSC BP-ANN model’s Rc, Rp, RMSEC and RMSEP were 0.976 7, 0.889 7, 0.75 and 0.99. The corresponding parameter values of the BP-ANN model of TA were 0.974 3, 0.897 7, 0.62 and 0.83, respectively. Compared with the quantitative model established by the PLS algorithm, the BP-ANN model has higher Rc and Rp and lower RMSEC and RMSEP than that of the PLS algorithm, so the quantitative analysis results from the BP-ANN model were better than that of the PLS algorithm for SSC and TA indicators.

Keyword: Plum fruit; PLS; BP - ANN; Near-infrared spectrum
引言

“ 安哥诺” 李是李中极晚熟品种, 色香味美, 品质极佳。 随着李果实产量和消费量的增加, 消费者在选购李果实时除了关注其大小、 形状、 颜色等外观品质, 对于内在品质也越来越重视, 其中糖、 酸含量是决定果实口感的主要因素, 直接影响消费者的购买意愿。 因此实现李果实糖度和酸度的快速无损检测以品质分级实现优质优价显得尤为重要。 糖、 酸含量的传统检测方法均属有损检测, 无法满足对大批量果实进行快速分级筛选的需求, 急需建立一种快速无损检测李果实糖、 酸含量的方法。

近红外光谱(near infrared spectroscopy, NIRS)分析技术作为一种无损、 快速及同时测定多种组分的检测手段已在多种水果的无损检测方面得到广泛应用。 近些年来, 国内外众多学者采用近红外光谱分析技术相继开展了对苹果[1]、 梨[2]、 芒果[3]、 桃[4]、 灵武长枣[5]、 猕猴桃[6]、 橙子[7]、 山楂[8]、 柿子[9]、 西瓜、 樱桃[10]等水果的可溶性固形物(soluble solids content, SSC)含量、 可滴定总酸(titratable acidity, TA)和硬度等品质的无损检测研究。 与其他果实相比, 李果实表面光洁且果皮较薄, 尤其适用于NIRS漫反射光谱信息采集果实品质信息。 Paz等获取了9个品种李果实样品的近红外光谱, 并建立了评估李果实SSC含量和硬度度的校正模型, 用以对不同品种的李果实进行分类, 预测结果得出SSC的交叉验证的标准误差和决定系数分别为0.77, 0.83[11]。 Louw等建立了波长为800~2 700 nm范围内的傅里叶变换近红外反射模型对李果实SSC和TA及糖酸比指标进行预测, 也取得了较好的结果[12]。 白凤华等使用偏最小二乘法结合近红外光谱定量检测了李果实的坚实度, 其模型校正相关系数、 校正和预测均方根误差分别为0.878 1, 1.22和1.51 kg· cm-2 [13]。 上述研究为近红外光谱无损预测“ 安哥诺” 李果实内部品质的提供了重要参考。

本研究提出一种使用杠杆值和F概率值进行异常样品剔除、 人工筛结合软件自动优化比较不同波段和不同光谱预处理方法优化分析模型, 采用偏最小二乘法、 主成分分析结合反向传播人工神经网络两种算法建模, 通过实验对比寻求最佳建模方案, 建立了适用于“ 安哥诺” 李果实SSC和TA的定量分析模型, 为实现快速无损检测“ 安哥诺” 李品质提供技术支撑。

1 实验部分
1.1 材料

“ 安哥诺” 李采摘自河北省保定市易县独乐村商品李果园。 对采摘以后的李果实清洗晾干, 挑选果形正常、 色泽一致且无机械损伤的李果实样品, 用于测定SSC的样品数目为583个、 TA的样品数目为402个并对其标记。

1.2 近红外光谱采集

使用MPA近红外光谱仪及漫反射附件(Bruker, 德国)采集李果实的漫反射光谱, 光谱采集范围为4 000~12 500 cm-1, 分辨率设定为8 cm-1, 扫描次数32, 仪器光源为20 W钨卤灯, 检测器为PbS, 所使用的光谱采集软件为布鲁克公司的OPUS 6.5。

以仪器内置的金背景作为背景光谱, 对李果实样品赤道部位每隔120° 进行1次光谱扫描, 共得到3条扫描光谱, 而后取其平均光谱作为该样品的原始光谱用于分析。

1.3 可溶性固形物和总酸测定方法

采集李果实样品的近红外光谱后, 取光谱采集点处的果肉挤压果汁, 使用PAL-1型数显糖量计(Atago, 日本)测量SSC含量。

总酸含量的分析则依据GB/T 12456— 2008进行。 精确称取5.00 g李果实样品置于研钵中, 充分研磨至果浆状后完全转移至10 mL离心管中, 经超声振荡30 min及离心10 min后, 取上清液于锥形瓶中作为待测溶液。 以酚酞作为指示剂, 使用0.10 mol· L-1的氢氧化钠溶液滴定至待测液呈微红色且30 s内不褪色为终点。 计算出可滴定酸的数值。

1.4 数据处理

使用杠杆值和F概率值进行异常样品剔除及偏最小二乘法(partial least squares, PLS)建模和优化均使用OPUS 6.5软件, 使用消除常数偏移量、 减去一条直线、 矢量归一化(standard normal variate, SNV)、 最大-最小归一化、 多元散射校正(multiplicative scatter correction, MSC)、 一阶和二阶导数结合平滑处理、 一阶导数结合减去一条直线和平滑处理、 以及一阶导数结合SNV或MSC校正等光谱预处理方法[14]。 用MATLAB 7.0软件提取样品全光谱数据的主成分, 并进行神经网络的建模和优化。

2 结果与讨论
2.1 安哥诺李果实近红外光谱分析

安哥诺李果实的近红外光谱的图如图1所示。 在9 000~12 500 cm-1波段范围内, 李果实光谱包含较多的噪声, 而4 000~9 000 cm-1光谱波段中所包含的光谱噪声则相对较少, 且在波数7 134, 5 264和4 463 cm-1附近有较为明显的吸收峰, 可能是由于李果实中的SSC和TA等成分所包含的基团(C— H, O— H, N— H)对近红外光谱吸收不同所导致, 可为光谱与SSC和TA建立关系提供理论基础。 其中, 7 134 cm-1附近的吸收峰可能与O— H键伸缩振动的一级倍频吸收有关, 5 264 cm-1附近的吸收峰与水中O— H键的伸缩和变形振动的吸收相关, 而4 463 cm-1附近的吸收峰则可能与NH3基团的变形振动和N— H键伸缩振动吸收有关[14]

图1 李果实的近红外光谱Fig.1 Raw spectra of plum fruit

2.2 可溶性固形物和可滴定酸含量分析

在对李果实品质进行定量分析过程中, 建模样品的各指标浓度的检测精度、 分布情况和覆盖范围对所建模型的性能优劣具有一定的影响。 图2(a, b)分别为李果实样品的SSC、 TA两个指标含量的频率分布图。 由图2可知, 各指标浓度数据的分布情况均大体呈现正态分布的趋势, 说明本实验所获得的李果实样品的SSC、 TA两个指标的浓度值具有一定的代表性, 可用于对李果实SSC、 TA进行分析。

图2 李果实样品SSC (a)和TA (b)含量频率分布图Fig.2 The probability distribution of SSC (a) and TA (b) content for plum samples

2.3 近红外定量分析SSC和TA

2.3.1 有效波段筛选及样品集分配

(1)有效波段筛选

由图1可知, 李果实的近红外光谱在9 000~12 500 cm-1范围内没有较为明显的吸收峰且包含的噪音也相对较多。 因此, 将该范围的光谱除去, 对剩余波段中包含明显吸收峰的光谱范围进行手动选取和组合, 结合软件自动优化, 分别进行SSC、 TA的定量建模, 并比较不同波段的建模效果, 如表1

表1 不同波段建模效果比较 Table 1 Comparison on performance of different model bands

表1可以看出, 对于SSC的最佳波段范围为4 000~8 852 cm-1, 在剔除完10个异常样品后, 该模型的相关系数较高, 且校正集和交叉验证的标准误差都有所下降, 模型性能趋于稳定。 TA指标的最优波段覆盖范围为4 605~6 523 cm-1, 因而最终选取该波段用于定量建模分析。

(2)样品集数据统计

对有效波段进行筛选后, SSC、 TA指标的剩余样品数分别为573个、 397个。 根据SSC、 TA的数值大小分别对各指标所对应的全部样品进行排序, 并将最大值和最小值样品归入校正集, 其余样品则按照大约2∶ 1的比例随机分为校正集和预测集。 李果实各指标的校正集和预测集样品的数据统计数据如表2所示。

表2 李果实SSC、 TA校正集和预测集样品统计数据 Table 2 Statistics of SSC, TA in plum for calibration set and prediction set

2.3.2 定量模型的建立和优化

(1)偏最小二乘法

在各指标的最佳光谱范围内, 比较了不同的光谱预处理方法对各预测模型的影响, 表3表5分别列出了结合不同光谱预处理方法的SSC、 TA含量的建模效果。

表3 不同光谱预处理方法下SSC建模性能比较 Table 3 Performance comparison with the SSC model of different spectral pretreatment methods
表4 不同光谱预处理方法下TA建模性能比较 Table 4 Performance comparison with the TA model of different spectral pretreatment methods
表5 李果实SSC、 TA的 BP-ANN定量模型的参数 Table 5 Parameters of the BP-ANN models for SSC, TA in plums

表3可知, SSC含量的定量模型在经过最大-最小归一化、 一阶微分(平滑点数: 17)和二阶微分(平滑点数: 17和25)等光谱预处理方法处理后, 原始光谱的模型性能无论是校正集还是预测集均有所下降; 尽管平滑点数为5和25的一阶微分处理方法能够略微提高模型预测集的性能, 但其校正集性能却变差, 从而影响了模型的整体性能; 而消除常数偏移量、 减去一条直线、 SNV、 MSC校正、 一阶微分结合减去一条直线(平滑点数: 5)、 一阶微分分别结合SNV和MSC校正(平滑点数: 25)等方法则使原始光谱的模型性能有所改善, 尤其是经过MSC校正方法预处理后, 原始光谱的模型性能改善情况相对较为明显。 因此, 基于4 000~8 852 cm-1波段范围结合MSC校正的预处理方法建立了李果实SSC近红外定量检测模型, 最佳模型的定量结果如图3(a)所示。

图3 PLS模型对李果实(a)SSC、 (b)TA的定量结果Fig.3 Quantitative results of PLS model for (a) SSC and (b) TA in plum samples

表4可知, SNV、 MSC校正、 一阶微分(平滑点数: 17)以及一阶微分结合SNV(平滑点数: 9和25)等预处理方法均能够改善李果实TA原始光谱模型的相关性和预测精度, 且由表4数据可知, 经一阶微分结合SNV和9点平滑方法处理后的TA模型效果最佳, 其校正集和预测集的相关系数都得到提升且误差均有所下降; 最大-最小归一化、 一阶微分结合25点平滑以及二阶微分结合17点平滑等方法达不到从总体上提高模型性能的效果; 而消除常数偏移量、 减去一条直线、 二阶微分结合25点平滑、 一阶微分结合减去一条直线(平滑点数: 5)以及一阶微分结合MSC校正(平滑点数: 25)等预处理方法则使TA原始光谱模型的性能变差。 即TA的最佳PLS模型是经一阶微分结合SNV和9点平滑处理后得到的, 见图3(b)。

(2)神经网络

采用反向传播人工神经网络(back propagating artificial neutral net, BP-ANN)建模算法对李果实各品质指标进行定量分析。 首先使用MATLAB软件提取李果实所有样品全波段光谱数据的主成分, SSC、 TA前10主成分得分的累积百分比分别达到99.686%和98.614%。 因而, 采用这两个指标的前10主成分代替原始光谱建模是可行的。 将各指标的前10主成分得分作为BP-ANN模型的输入变量, 建立各自的近红外定量分析模型。

构建一个三层的BP神经网络, 用以建立李果实SSC、 TA的定量模型。 由于将前10主成分得分作为BP-ANN模型的输入变量, 因而各模型的输入层节点数均设为10, 输出层节点数为1, 其他各项参数见表5

表6表7分别比较了不同隐含层节点数所对应的李果实SSC、 TA的BP-ANN定量模型的性能。 由表7表8可以看出, 当SSC和TA指标的隐含层节点数分别设为18和19时, 其BP-ANN模型的性能达到最优。 其中, SSC和TA最佳BP-ANN模型校正集和预测集的R分别为0.976 7, 0.889 7和0.974 3, 0.897 7; 二者的校正和预测均方根误差分别是0.75, 0.99和0.62, 0.83。 其最佳定量模型分别如图4(a, b)所示。 李果实SSC、 TA的PLS和BP-ANN定量分析模型的结果比较如表8所示。 与PLS定量模型结果相比, BP-ANN模型性能均有较大的改善, 即BP-ANN模型对SSC和TA指标的定量分析结果更精准可靠。

表6 不同隐层节点数对李果实SSC定量模型的影响 Table 6 Influence of nodes in hidden layer on quantitative results of SSC in plum
表7 不同隐层节点数对李果实TA定量模型的影响 Table 7 Influence of nodes in hidden layer on quantitative results of TA in plum
表8 李果实SSC、 TA的PLS和BP-ANN模型的定量结果 Table 8 Quantitative results of the established models using PLS and BP-ANN methods for SSC, TA in plum

图4 BP-ANN模型对李果实(a)SSC和(b)TA的定量结果Fig.4 Quantitative results of BP-ANN model for (a) SSC and (b) TA in plum samples

3 结论

建立并优化了基于PLS和BP-ANN算法的李果实的SSC、 TA的定量分析模型。

(1)比较了李果实SSC、 TA指标的不同波段的PLS建模效果, 最终确定各指标的最佳波段范围分别为4 000~8 852和4 605~6 523 cm-1。 采用PLS法分别建立这两个指标的定量分析模型, 通过比较不同的光谱预处理方法得出, SSC的PLS模型的最佳光谱预处理方法均为MSC校正, 经该方法处理后, SSC最佳PLS模型校正集与预测集的R和均方根误差分别为0.914 4, 0.878 5和0.91, 1.00。 采用一阶微分结合SNV和9点平滑的方法预处理后, TA指标的PLS模型效果较佳, 校正集的R和均方根误差分别为0.860 3和0.80, 预测集的分别为0.819 6和0.86。

(2)提取了李果实SSC、 TA样品光谱数据主成分, 并基于前10主成分得分建立这两个指标的BP-ANN定量分析模型。 经对不同隐含层节点数进行比较后确定各指标的最佳BP-ANN模型。 其中, SSC最优BP-ANN模型校正集和预测集的R分别为0.976 7和0.889 7, RMSEC和RMSEP依次为0.75和0.99; TA的BP-ANN模型的相应参数值依次为0.974 3, 0.897 7, 0.62, 0.83。 与采用PLS算法建立的定量模型相比较, BP-ANN模型具有较高的Rc, Rp和较低的RMSEC, RMSEP, 因此BP-ANN模型对SSC和TA指标的定量分析结果更佳。

本研究采用PLS和BP-ANN两种算法分别建立了安哥诺李果实主要品质指标的定量分析模型, 并取得了良好的结果, 证实了近红外光谱分析技术无损快速检测李果实品质的可行性, 同时也为近红外技术在其他果实检测分析的应用提供参考。

参考文献
[1] Lan Weijie, Jaillais B, Leca A, et al. Food Chemistry, 2020, 310: 125944. [本文引用:1]
[2] Wang J, Wang J, Chen Z, et al. Postharvest Biology and Technology, 2017, 129: 143. [本文引用:1]
[3] Shah S, Zeb A, Qureshi W S, et al. Infrared Physics & Technology, 2021, 103639. [本文引用:1]
[4] Paloma Andrade Martins Nascimento, et al. Postharvest Biology and Technology, 2016, 111: 345. [本文引用:1]
[5] QIANG Feng, WANG Qin-zhi, HE Jian-guo, et al(强锋, 王芹志, 何建国, ). Modern Food Science & Technology(现代食品科技), 2017, 212(4): 283. [本文引用:1]
[6] Cicooritti R, Paliotta M, Tiziana A, et al. Scientia Horticulturae, 2019, 257. [本文引用:1]
[7] JIANG Shui-quan, SUN Tong(江水泉, 孙通). Food & Machinery(食品与机械), 2020, 36(2): 89. [本文引用:1]
[8] Maniwara P, Nakano K, Ohashi S, et al. Scientia Horticulturae, 2019, 257. [本文引用:1]
[9] Ar N H, Purwanto Y A, Budiastra I W, et al. IOP Conference Series: Materials Science and Engineering, 2019, 557(1): 9. [本文引用:1]
[10] WANG Dong, SUN Jun-peng, YU Shi-feng, et al(王冬, 孙俊鹏, 于世锋, ). Journal of Food Safety & Quality(食品安全质量检测学报), 2021, 12(18): 7222. [本文引用:1]
[11] Paz P, Sanchez Maria-Teresa, Pérez-Marín D, et al. Journal of Agricultural and Food Chemistry, 2008, 56(8): 2565. [本文引用:1]
[12] Louw E D, Theron K I. Postharvest Biology and Technology, 2010, 58: 176. [本文引用:1]
[13] BAI Feng-hua, ZHANG Xiao-yu, WANG Yan-wei, et al(白凤华, 张晓瑜, 王艳伟, ). Food Industry(食品工业), 2018, 39(6): 175. [本文引用:1]
[14] Workman J, Weyer J L. Practical Guide to Interpretive Near-Infrared Spectroscopy(近红外光谱解析实用指南). Translated by CHU Xiao-li, XU Yu-peng, TIAN Gao-you(褚小立, 许育鹏, 田高友, 译). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2009. 19. [本文引用:2]