作者简介: 康明月, 女, 1997年生, 北京市农林科学院信息技术研究中心与中国地质大学(北京)数理学院硕士研究生 e-mail: 774404711@qq.com
基于近红外光谱技术与统计方法, 提出了一种樱桃番茄内部品质快速、 无损检测方法。 首先采集样品的近红外光谱, 采用多元散射校正(MSC)、 Savitzky-Golay卷积平滑(SG)、 Savitzky-Golay卷积一阶导数(SG 1st)、 去趋势化(De-trending)、 变量标准化(SNV)5种预处理方法消除光谱干扰, 筛选出最佳预处理方法; 然后采用连续投影算法(SPA)、 稳定性竞争性自适应重加权算法(SCARS)、 遗传算法(GA), 以及引入自动有序预测因子选择算法进行改进的遗传算法(IGA)4种特征波长提取方法减少变量冗余, 选择最优特征波长提取方法; 最后结合回归方法——将冯诺依曼拓扑结构、 轮盘赌选择、 锦标赛选择和自适应权重与鲸鱼算法相结合来对算法进行改进, 采用改进的鲸鱼算法优化最小二乘支持向量机方法(IWOA-LSSVM), 与基于粒子群算法优化的BP神经网络方法(PSO-BPNN)和基于鲸鱼算法优化的最小二乘支持向量机方法(WOA-LSSVM)进行对比, 分别建立樱桃番茄内部品质含量的预测模型。 结果表明: 樱桃番茄内部品质中的可溶性固形物(SSC)含量使用De-trending-IGA-IWOA-LSSVM模型效果最佳, 其中校正集决定系数和预测集决定系数分别是0.917 2和0.866 7, 校正均方根误差和预测均方根误差为0.542 3和0.768 2, 预测相对误差达到2.592 9; 维生素C(VC)含量使用SG-IGA-IWOA-LSSVM模型预测效果最准确, 其中校正集决定系数和预测集决定系数分别为0.857 6和0.821 6, 校正均方根误差和预测均方根误差分别是0.661 4和0.634 2, 预测相对误差达到2.078 5。 以上结果表明, 采用近红外光谱技术与统计方法结合可实现对樱桃番茄内部品质的快速无损预测分析。
Based on near-infrared spectroscopy and statistical methods, a rapid and non-destructive testing method for the internal quality of cherry tomatoes was proposed. First, the near-infrared spectrum of the sample was collected, and five preprocessing methods, Multiplicative Scatter Correction, Savitzky-Golay convolution smoothing, Savitzky-Golay convolution first derivative, De-trending, Standard Normal Variate, and SNV were used to eliminate spectral interference and screen out the best preprocessing method; then use the Successive Projections Algorithm, Stability Competitive Adaptive Reweighted Sampling, Genetic Algorithm, and the introduction of automatic ordered predictor selection algorithm for Improved Genetic Algorithm Four characteristic wavelength extraction methods reduce variable redundancy and select the optimal characteristic wavelength extraction. Method; finally, combined regression method-combining von Neumann topology, roulette selection, tournament selection and adaptive weights with whale algorithm to improve the algorithm, using the Improved Whale Optimization Algorithm, and based on Particle Swarm Optimization-BP Neural Network was compared with the Whale Optimization Algorithm-Least Squares Support Vector Machine, and the prediction models for the internal quality content of cherry tomatoes were established respectively. The results showed that the De-trending-IGA-IWOA-LSSVM model was used for the best soluble solid content in the internal quality of cherry tomatoes, where the coefficient of determination of the calibration set and prediction set were 0.917 2 and 0.866 7, respectively, the corrected root mean square error and the predicted mean square The root error was 0.542 3 and 0.768 2, and the relative error of prediction reached 2.592 9; the SG-IGA-IWOA-LSSVM model was used to predict the Vitamins C content the most accurate, and the coefficient of determination of the calibration set and prediction set were 0.857 6 and 0.821 6, respectively, and the corrected root mean square The error and prediction root mean square error are 0.661 4 and 0.634 2, respectively, and the prediction relative error reaches 2.078 5. The above results show that the combination of near-infrared spectroscopy and statistical methods can achieve rapid and non-destructive prediction and analysis of the internal quality of cherry tomatoes.
樱桃番茄外形美观、 口感鲜甜、 营养丰富, 深受广大消费者的欢迎。 随着人们生活条件的提升, 对于果蔬的口感, 营养价值等内部品质有了更高的要求。 番茄中可溶性固形物(soluble solid content, SSC)是评价番茄风味品质的重要指标之一[1]。 维生素C(vitamins C, VC)又名抗坏血酸, 是植物和大多数动物体内合成的一类己糖内酯化合物[2]。 具有水果蔬菜之称的番茄含有丰富的人体所需营养物质, 尤其是VC含量极高[3]。 通过对不同类型番茄SSC和VC的测定, 来综合评价樱桃番茄的内部品质, 旨在为樱桃番茄品质鉴定和优良品种选育提供理论依据。
蔬果内部品质的传统测量方法多采用化学方法, 检测精度高, 但是会破坏样品原有的状态, 为有损检测, 而且所需化学试剂繁多, 样品处理流程复杂, 检测效率低。 近年来, 近红外光谱技术因无损、 分析速度快、 操作简单的特点在食品、 医药、 化工等行业得到了广泛应用[4, 5, 6, 7]。 潘牧等[8]应用偏最小二乘法建立预测红薯淀粉及全粉粉丝中薯粉含量的定量模型, 2个模型相关系数分别为0.987 5和0.989 2, 交叉验证均方根误差分别为1.23和1.13, 校正后预测相对分析偏差分别为6.83和7.42。 表明采用近红外光谱技术对贵州红薯粉丝中淀粉及薯粉含量的快速无损检测可行。 杨宝华等[9]用光谱和机器学习算法结合测定鲜桃SSC含量, 提出了一种基于堆栈自动编码器-粒子群优化支持向量回归模型, 该模型预测效果最好, 其R2为0.873 3, 均方根误差为0.645 1。 因此, 将光谱技术和机器学习算法结合, 可提高鲜桃SSC含量的估计精度。 李鸿强等[10]基于可见/短波近红外光谱检测结球甘蓝VC含量, 采用多元线性回归进行建模, 得到校正集R2平均为0.78, 内部交叉验证均方差平均为3.760 9 mg· (100 g)-1, 验证集R2平均为0.73, 均方根误差平均为2.879 2 mg· (100 g)-1。 李俊杰等[11]运用近红外光谱探究塔罗科血橙的内在品质, 采用偏最小二乘法建立预测模型, 得到SSC、 可滴定酸及VC预测值与实测值的相关系数分别是0.833、 0.699、 0.925, 结果表明近红外光谱技术有与化学法近似的准确度, 可以应用在果品内部品质检测中。
随着市场需求量的增大, 樱桃番茄内部品质的无损快速检测对提高其市场价值具有重要意义。 基于近红外光谱分析技术提出了一种融合的特征波长提取方法, 筛选出有效的变量, 并改进优化建模方法, 使得模型预测结果更加准确, 更有利于开展樱桃番茄内部品质含量的检测研究, 为樱桃番茄内部品质含量的预测提供有力的技术支撑。
樱桃番茄光谱测定使用型号为团队自主研发BIO-NIRONE-HEM的手持式近红外光谱仪。 该光谱仪具有快速、 便携、 精确和非破坏的优点, 还可以根据用户的实际需要, 在前端可配置不同类型的传感器, 系统具有智能散热功能, 可保证检测结果不受环境温度影响。 该手持式近红外光谱仪测量参数为吸光度, 使用MEMS-FPI-Shortcut软件, 可以将BIO-NIRONE-HEM采集的光谱数据方便地导出。
试验所用樱桃番茄为在超市选购, 有千禧果、 粉圆圣女果、 荷兰小番茄和极星农业红色串装小番茄四个樱桃番茄品种, 每个品种选取了30个, 共计120个样本。
樱桃番茄的光谱采集时将手持式设备前端检测区域对准待测样本, 保证完全接触不漏光后, 点击扫描样本按键, 实现样本扫描, 扫描时间预计9 s。 设置波长采集范围为1 350~1 800 nm, 波长间隔为1.5 nm。 在室温(25 ℃)下将编号完成的四个品种依次进行光谱采集, 选择底部和在赤道相对的两个部位共3点, 并对这3个点光谱曲线做平均, 作为该样品的分析光谱。 测量过程及原始光谱如图1(a, b)所示。
1.3.1 可溶性固形物测定
根据行标NY/T 2637— 2014— 折射仪法[12]SSC的测定, 将光谱采集完成的样品去掉不可食用部分后, 其余部分榨汁, 在棱镜表面用柔软绒布擦干后, 取2~3滴样液在2WA-J阿贝折射仪中央, 闭合上下两块棱镜, 调节旋钮, 读取示数, 从而获得样品的SSC含量。 每个样品测量3次, 取其平均值作为该样品SSC含量实际测量值。
1.3.2 维生素C测定
根据国标GB 5009.86— 2016[13]食品中抗坏血酸的测定, 称取樱桃番茄样品5 g, 配置1%草酸溶液、 2%草酸溶液、 0.01% 2, 6-二氯酚靛酚溶液和标准抗坏血酸溶液, 利用2, 6-二氯酚靛酚滴定法测定。 对每个样品测量3次, 取其平均值作为该样品VC含量实际测量值。
按照化学方法进行测定后, 采用三倍标准差对异常值进行剔除, 最后得到千禧果样本24个、 粉圆圣女果样本23个、 荷兰小番茄样本24个和极星农业红色串装小番茄样本29个。 建模过程中样本集的划分对模型性能有直接影响, 因此采用Kennard-Stone(K-S)分类算法[14]将樱桃番茄样本按3∶ 1的比例划分为校正集和预测集。 该算法可使校正集样品更具定代表性。 表1即是利用K-S算法划分样品的统计结果。
用优化的机器学习算法将樱桃番茄的实际化学测定值与近红外光谱相关联, 建立樱桃番茄内部品质的近红外光谱模型。 对模型内部进行优化, 从中选择最佳预处理与特征波长选取方式。 预测效果根据校正集决定系数(
近红外光谱存在人为操作误差、 仪器产生的随机噪声或者光谱变化, 这些因素可能会导致结果出现偏差, 因此将光谱预处理应用于样本数据可以有效提高数据精度。 采用的光谱预处理方法包含多元散射校正(multiplicative scatter correction, MSC)[15]、 Savitzky-Golay卷积平滑(SG)[16]、 Savitzky-Golay卷积一阶导数(SG 1st)[17]、 去趋势化(De-trending)[18]和变量标准化(standard normal variate, SNV)[19]。
将原始光谱及多种方法预处理后的光谱数据作为输入变量, 樱桃番茄内部品质化学值作为目标变量, 建立内部品质含量的偏最小二乘回归(PLS)模型。 对输入的光谱变量进行主成分分析, 采用10折交叉验证法确定出最佳主成分数, 最后根据最佳主成分数进行模型的构建, 具体结果如表2所示。
由表2结果可知, 不同光谱预处理方法建立的樱桃番茄SSC含量预测模型各不相同, 除了SG预处理方法外, 所建模型的
采用SG预处理方法建立的樱桃番茄VC含量PLS预测模型, 用4个主成分数,
每个近红外光谱均由大量谱带组成, 存在多重共线性, 选择重要变量来构建更简明和稳健的回归模型是必要的。 将采用连续投影算法(successive projections algorithm, SPA)[20]、 稳定性竞争性自适应重加权算法(stability competitive adaptive reweighted sampling, SCARS)[21]、 遗传算法(genetic algorithm, GA)[22]和改进的遗传算法(improved genetic algorithm, IGA)与机器学习算法相结合, 从而选择最优特征波长提取方法。 其中前三种特征波长提取方法都较为常见且有效, 最后的IGA是基于GA的改进算法。 GA算法是依据遗传学的有效搜索方法, 但在其运行过程中, 输入变量不宜超过200个, 因为这会增加过拟合的风险。 这种风险可通过“ 先验” 去除变量来降低, 但该方法包含主观判断, 结果不精确。 因此, 在进行变量输入前, 先对变量进行自动有序预测因子选择(auto ordered predictors selection, Auto OPS)[23], Auto OPS是这种使用自动执行变量选择的方法, 通过信息向量及其组合, 提供最好的变量选择结果。 再将输出结果进行GA选择, 最终结果作为建模的输入变量。
图2和图3分别为SSC和VC含量在Auto OPS方法下选择的变量, 图4和图5分别为SSC和VC含量在Auto OPS和GA融合方法下选择的变量情况。
由图4可知, 运用IGA方法选择的变量主要集中在1 350~1 440、 1 459~1 600和1 647~1 783 nm。 SSC含量主要基团是由C— H和O— H组成, 1 430 nm为O— H的二倍频, 1 720 nm为C— H的二倍频。 因此该波段可以作为预测SSC含量的依据。 根据图5所示, 改进的方法选择变量主要集中在1 422~1 535.5、 1 459.5~1 549.5和1 632~1 633 nm。 VC的分子式是C6H8O6, 1 430 nm为O— H的二倍频。 由此, 该方法下选择的近红外光谱变量可以充分反映樱桃番茄内部品质含量的结构和组成信息。
基于SPA、 SCARS、 GA和IGA特征变量算法提取的特征变量建立的樱桃番茄内部品质含量基于粒子群算法优化的BP神经网络方法(particle swarm optimization-BP neural network, PSO-BPNN)[24]预测模型如表3所示。 PSO-BPNN建模时, 隐含层神经元个数由经验公式[25]来确定, 迭代次数为100次。
由表3可知, PSO-BPNN作为机器学习算法的一种, 应用于樱桃番茄内部品质SSC含量测定时, RPD介于1.2与1.6之间, 预测精度相对一般。 其中IGA算法相比其余三种方法
应用于樱桃番茄VC含量测定时, IGA算法的
鲸鱼算法是一种模仿座头鲸的狩猎行为而提出的一种新型启发式优化算法。 采用SPA算法、 SCARS算法、 GA算法和IGA算法选择的特征变量作为自变量, 樱桃番茄内部品质含量作为因变量, 分别建立鲸鱼算法优化的最小二乘支持向量机方法(whale optimization algorithm-least squares support vector machine, WOA-LSSVM)预测模型[26]。 在WOA-LSSVM建模中, 初始种群设为30, 迭代次数为100次, γ 和σ 2两个参数的搜索范围设置为0~1 000, 搜索后确立γ 和σ 2的最优值。 基于不同特征变量选取方法建立的樱桃番茄内部品质含量WOA-LSSVM 预测模型的结果如表4所示。
由表4所示, 不同特征变量选择方法建立的樱桃番茄SSC含量预测模型效果不同。 综合来看, 采用WOA-LSSVM建模时, IGA算法是樱桃番茄SSC含量最佳特征变量选择方法, 该算法将全波长变量由301个减少到45个, 变量个数减少了超过85%, 在决定系数R2上有明显优势。
构建的樱桃番茄VC含量WOA-LSSVM模型时, 与基于SPA、 SCARS和GA三种算法建立的WOA-LSSVM模型相比, 基于IGA算法选出的特征变量所建立的模型预测性能有明显提高。 因此, 应用在De-trending-IGA-WOA-LSSVM建立的樱桃番茄预测模型为最佳, 对应的
由于WOA算法有收敛速度慢和精度低等问题, 因此将冯诺依曼拓扑结构[27]、 轮盘赌选择[28]、 锦标赛选择[29]和自适应权重相结合引入WOA算法进行改进。 为加强算法的局部搜索能力, 加入冯诺依曼拓扑结构, 增强鲸鱼间信息交互。 为了选择合适的算子, 引入了轮盘赌选择和锦标赛选择来提高精度, 最后引入自适应权重, 加快收敛速度。 该算法流程图如图6所示。
应用特征波长选取方法后的数据作为改进的鲸鱼算法优化最小二乘支持向量机方法(improved whale optimization algorithm, IWOA-LSSVM)的输入, 樱桃番茄的内部品质含量为目标输出。 预测模型结果如表5所示。 不同特征变量选择方法建立的樱桃番茄SSC含量预测模型效果不同。
综合来看, 采用IWOA-LSSVM建模时, IGA算法是樱桃番茄SSC含量最佳特征变量选择方法, 其
基于4种变量选择方法建立的樱桃番茄VC含量模型均能有效减少无关信息, 从而达到简化模型的效果。 其中SG-IGA-IWOA-LSSVM模型效果最佳, 该模型
图7— 图9展示了基于特征变量建模过程中, 针对不同建模方式分别挑选的最优方法所对应的樱桃番茄SSC含量预测结果。 其中红色实线代表实际测量值, 黑色的点代表经过模型拟合的预测值, 当点与线越接近时, 预测效果越好。
由图9可知, IWOA-LSSVM模型, 在红线周围最密集, 效果即为最佳。 采用IGA算法选出的45个特征变变量建立的樱桃番茄SSC含量De-trending-IGA-IWOA-LSSVM预测模型最优, 说明在识别和选择有价值的信息变量时, 采用IGA所选出的特征变量结合LSSVM模型能够替代全波长变量进行樱桃番茄SSC的无损检测, 其预测集决定系数为0.866 7, 表明近红外光谱技术对樱桃番茄SSC含量的检测是可行的。
真实值(true value)表示的是樱桃番茄SSC含量的化学值, 预测值(predictive value)表示应用最优方法建模后的预测结果。 樱桃番茄SSC含量最优预测模型— — De-trending-IGA-IWOA-LSSVM的校正集和预测集拟合情况如图10和图11所示。 可看出估计值和参考值之间拟合较好。
图12列举了基于全波长及特征变量建模过程中, 针对不同建模方式分别挑选的最优方法所对应的樱桃番茄VC含量预测结果。
综合对比三种最优建模方法可知, SG-IGA-IWOA-LSSVM模型建立的樱桃番茄VC含量预测性能最优, SG-IGA-WOA-LSSVM模型次之, De-trending-IGA-PSO-BPNN模型最差。 与SG-IGA-PSO-BPNN和SG-IGA-IWOA-LSSVM模型相比, SG-IGA-IWOA-LSSVM模型的
三种建模方法在不同特征波长提取方法下迭代变化曲线如图13所示, 其中紫色, 绿色和蓝色的线分别代表PSO-BPNN, WOA-LSSVM和IWOA-LSSM模型迭代情况, 适应度函数均为均方差, 均方差越小, 则模型效果越好。 由图13可知, 改进的鲸鱼算法的迭代具有稳定性, 因此可以减小迭代次数, 进一步缩短运行时间。
采用近红外光谱技术采集四个不同品种的樱桃番茄光谱, 并对光谱数据进行预处理和特征变量提取, 筛选出最佳的预处理方法和特征波长提取方法, 最后结合优化的机器学习模型建立了樱桃番茄内部品质含量预测模型。 结果表明: 融合的特征波长提取方法IGA可有效的提取重要变量, 基于改进的鲸鱼算法优化最小二乘支持向量机模型具有更好的预测效果。 其中, 樱桃番茄内部品质指标SSC含量使用De-trending-IGA-IWOA-LSSVM模型达到最优预测,