不同颜色冬枣可溶性固形物可见-近红外光谱分析模型构建
郝勇1, 杜娇君1, 张书敏2, 王起明1
1.华东交通大学机电与车辆工程学院, 江西 南昌 330013
2.南昌海关技术中心, 江西 南昌 330013

作者简介: 郝 勇, 1978年生, 华东交通大学机电与车辆工程学院副教授 e-mail: haonm@163.com

摘要

冬枣品质受其品种和生长环境等因素的影响, 引起采后化转红指数不同, 导致果实的颜色差异较大, 从而影响其可溶性固形物(SSC)检测模型的分析精度。 采用可见-近红外(Vis-NIR)光谱结合Norris-Williams平滑(NWS)、 连续小波导数(CWD)、 多元散射校正(MSC)、 标准正态变量变换(SNV)和NWS-MSC五种光谱预处理方法构建不同颜色(红绿相间MJ, 绿色GJ和红色RJ)冬枣SSC的偏最小二乘(PLS)定量分析模型, 分别采用MJ, GJ, RJ, MJ-GJ和MJ-GJ-RJ五个样品集合建立冬枣SSC的定量分析模型, 并采用由MJ-GJ-RJ三种颜色冬枣样品组成的测试集进行模型的评价; 以不同建模样品集(校正集)的校正相关系数( Rc)和交互验证均方根误差(RMSECV)作为构建最优模型的评价指标; 测试集的预测相关系数( Rp)和预测均方根误差(RMSEP)用于模型预测精度的评价。 研究结果表明: 分别采用MJ, GJ和RJ的独立样品集进行建模时, 模型仅对具有相同颜色的冬枣样品的SSC实现了较好的预测; 分别在MJ样品中加入GJ和GJ-RJ样品进行MJ-GJ和MJ-GJ-RJ两个混合样品集的定量模型的构建时, MJ-GJ模型对MJ和GJ样品的SSC具有较好的预测效果, 其RMSECV, Rc, RMSEP, Rp分别为1.108, 0.698, 0.980, 0.724和1.108, 0.698, 0.983, 0.822, 而对RJ样品的预测误差较大, 模型的RMSECV, Rc, RMSEP, Rp为1.108, 0.698, 1.928, 0.597; 而MJ-GJ-RJ模型对三种颜色的冬枣SSC均有较好的预测结果: MJ-GJ-RJ模型对MJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 1.077, 0.668; 对GJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 0.881, 0.861; 对RJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 1.140, 0.841; 采用蒙特卡罗无信息变量消除(MCUVE)方法进一步对MJ-GJ-RJ样品集光谱的特征变量进行优选后, 模型的 Rc Rp分别由原来的0.796和0.864提高到0.884和0.922, 模型的RMSECV和RMSEP分别由1.158和0.946减小到0.886和0.721, 模型具有较好的分析精度。 采用可见-近红外光谱对不同颜色冬枣的SSC进行分析时, 当建模集样品与测试集样品颜色属性相似或选择性质相似的建模变量进行模型构建时, 模型具有更好的通用性。

关键词: 可见-近红外光谱; 偏最小二乘; 冬枣; 可溶性固形物; 蒙特卡罗无信息变量消除
中图分类号:O657 文献标志码:A
Research on Construction of Visible-Near Infrared Spectroscopy Analysis Model for Soluble Solid Content in Different Colors of Jujube
HAO Yong1, DU Jiao-jun1, ZHANG Shu-min2, WANG Qi-ming1
1. School of Mechatronics & Vehicle Engineering, East China Jiaotong University, Nanchang 330013, China
2. Nanchang Customs Technology Center, Nanchang 330013, China
Abstract

The quality of jujube is susceptible to factors such as the environment, causing changes in its post-harvest redness index, leading to large differences in fruit color, which affects the analysis accuracy of its soluble solids content (SSC) detection model. Visible-near infrared spectroscopy (Vis-NIRs) combined with spectral preprocessing methods including Norris-Williams smoothing (NWS), continuous wavelet derivative (CWD), multiplicative scattering correction (MSC), standard normal variate (SNV) and NWS-MSC were used to build the partial least squares (PLS), quantitative analysis models of the SSC of jujube, with different colors (red and green-MJ, green-GJ and red-RJ). Five independent sample sets, including MJ, GJ, RJ, MJ-GJ and MJ-GJ-RJ, were used to establish the quantitative analysis models of SSC for jujube, and test set samples MJ-GJ-RJ were used for model evaluation. The correlation coefficient of calibration set ( Rc) and the root mean square error of cross-validation (RMSECV) were used to evaluate model accuracy. The correlation coefficients of prediction ( Rp) and the root mean square error for prediction (RMSEP) were used to evaluate model prediction accuracy. The research results showed that when the independent sample sets of MJ, GJ and RJ were used for modeling, the models only achieved a better prediction for the SSC of jujube samples with the same color, respectively. When adding GJ and GJ-RJ samples to the MJ samples to construct the quantitative model of the two mixed sample sets, including MJ-GJ and MJ-GJ-RJ. The MJ-GJ model had better prediction results of SSC for MJ and GJ jujube samples, the model’s RMSECV, Rc, RMSEP, and Rp were 1.108, 0.698, 0.980, 0.724 and 1.108, 0.698, 0.983, 0.822, respectively, but the effect of RJ samples was relatively larger, the model’s RMSECV, Rc, RMSEP, Rp were 1.108, 0.698, 1.928, 0.597. The MJ-GJ-RJ model obtained good prediction results of SSC for the three colors jujube: for the SSC model of MJ, the RMSECV, Rc, RMSEP, Rp of the MJ-GJ-RJ model were 1.158, 0.796, 1.077, 0.668; for the SSC model of GJ, the model’s RMSECV, Rc, RMSEP, Rp were 1.158, 0.796, 0.881, 0.861; for the SSC model of RJ, the model’s RMSECV, Rc, RMSEP, Rp were 1.158, 0.796, 1.140, 0.841. After using the Monte Carlo uninformative variable elimination (MCUVE) method to optimize the variables of the MJ-GJ-RJ model further, the Rc and Rp were increased from 0.796 and 0.864 to 0.884 and 0.922, respectively. The RMSECV and RMSEP were reduced from 1.158 and 0.946 to 0.886 and 0.721, respectively. The model has better analysis accuracy. When the SSC of different color jujube was analyzed using near-infrared spectroscopy, similar sample set properties for calibration and prediction or modeling variables are required to construct universality models.

Keyword: Visible-near infrared spectroscopy; Partial least squares; Jujube; Soluble solids content; Monte Carlo uninformative variable elimination
引言

冬枣又名冻枣、 雁来红或苹果枣, 是目前公认的鲜食优质栽培品种。 冬枣营养极其丰富, 含有天门冬氨酸、 苏氨酸、 丝氨酸等19种人体必需的氨基酸, 且维生素C的含量尤其丰富, 有“ 活维生素丸” 之美誉, 营养价值为百果之冠[1]。 冬枣的可溶性固形物(soluble solids content, SSC)是其重要的内部品质和成熟度评价指标。 冬枣生长环境的温度、 水分、 光照、 风和土壤等因素均会对其采后转红指数产生影响, 造成冬枣颜色和SSC差异, 而消费者常会将颜色与其SSC进行关联来判断冬枣的口感。 因此, 对于不同颜色冬枣SSC含量的研究是非常必要的。

SSC含量的测定方法主要分为折射法和光谱分析法, 折射法的主要缺点是需破坏被测样品; 而可见-近红外(visible and near-infrared spectroscopy, Vis-NIR)光谱技术是一种快速、 无损、 绿色的现代检测技术, 根据全波段或者特征波长给出的信息与样品属性或含量间的相关关系对样品进行定性和定量分析。 然而, 由于Vis-NIR光谱常含有较多冗余信息及干扰, 影响了模型的精度和稳定性, 因此, 需要进行光谱预处理及变量筛选, 实现对干扰信息的抑制或滤除, 从而提高后续模型的分析精度。 李勇等讨论了油菜籽样品颜色对波长为700~2 500 nm谱区的近红外光谱分析准确度的影响, 认为样品表面颜色越深, 吸光度越大, 在短波处最为明显[2]; 姚鑫淼等研究了玉米子粒颜色对850~1 050 nm的光谱波段的淀粉含量的影响, 结果表明样品的外观颜色是影响其分析精度的因素之一, 采用平滑求导等光谱预处理方法可提高模型的预测性能[3]。 郭成等采用无信息变量消除(UVE)方法对无花果SSC的PLS模型建模变量进行优选, 其预测相关系数可达到0.89[4]。 Tian等采用光谱预处理和随机森林变量选择方法对苹果SSC在线预测模型进行优化, 变量减少为原始变量的86%, 而RMSEP减小了17%[5]

本工作采用Vis-NIR光谱结合Norris-Williams平滑(Norris-Williams smoothing, NWS)、 连续小波导数(continuous wavelet derivative, CWD)、 多元散射校正(multiplicative scattering correction, MSC)、 标准正态变量变换(standard normal variate, SNV)和NWS-MSC五种预处理方法[6, 7, 8]和蒙特卡罗无信息变量消除(Monte Carlo uninformative variable elimination, MCUVE)方法[8]对不同颜色(红绿相间MJ, 绿色GJ和红色RJ)冬枣样品的SSC进行偏最小二乘(partial least squares, PLS)定量分析模型的构建和优化, 以期实现不同颜色冬枣SSC的准确分析[9]

1 实验部分
1.1 材料

样品(大荔冬枣)来源于陕西某枣园, 冬枣样品如图1所示。 采集了同一批次、 取大小均等且表皮颜色不同的三种冬枣(红绿相间MJ, 绿色GJ和红色RJ)各45个样品, 共计135个。 采用冷库保鲜处理, 用蓄冷箱送至实验室。

图1 不同颜色大荔冬枣样品Fig.1 Samples of Dali jujube with different colours

1.2 光谱采集

光谱采集装置如图2所示, 采用透射方式进行光谱的采集, Ocean Optics USB2000 Vis-NIR光谱仪(中国海洋光学公司)用于冬枣光谱的检测, 2盏100 W的飞利浦卤素灯作为光源, 光谱范围为340~1 027 nm, 光谱分辨率约为0.4 nm。

图2 光谱采集装置示意图Fig.2 Schematic diagram of spectrum acquisition device

光谱采集前, 将三种颜色的冬枣样品从冷藏室取出并置于室温下8 h, 相对湿度为25%~30%; 采集距离为10 cm, 随机翻转冬枣位置5次进行光谱的采集, 5次测量的平均光谱作为最终的分析光谱。 采用SpectraSuite软件进行光谱数据的采集和存储。

三种颜色冬枣样品原始光谱的平均光谱如图3所示, 从图中可知, 不同颜色的冬枣样品光谱谱形相似, 主要不同之处在于光谱响应强度间的差异。 此外, 光谱图不仅包含其组分信息, 还包括光谱仪相关器件引入的噪声、 杂散光和样品背景、 颜色等干扰信息引起的光谱反射率的变化, 因此, 需要对光谱进行预处理, 以提高后续模型的分析精度。

图3 冬枣样品平均光谱图Fig.3 Average spectra of jujube samples

1.3 模型的建立与评价

每个冬枣样品均匀地选择5个点进行SSC的测试, 其平均值作为该样品的最终SSC的标准参考值。 采用SSC均匀分布的方式将样品集划分为校正集和测试集, 每种颜色冬枣样品校正集和测试集样品数量比为2:1, 即每种颜色的45个冬枣样品中, 30个样品用于建模, 15个样品用于模型的测试。

为研究不同颜色冬枣SSC构建的PLS模型的分析精度, 分别建立不同颜色冬枣SSC的单一模型和混合模型。 单一模型即单种颜色冬枣SSC建模, 混合模型即两种或三种颜色冬枣SSC混合建模。 为了描述方便, 单一模型校正集MJc, GJc和RJc分别表示建模样品集是为红绿相间冬枣、 绿色冬枣和红色冬枣; 混合模型校正集MJc-GJc和MJc-GJc-RJc分别表示建模样品是由红绿相间冬枣-绿色冬枣和三种颜色的冬枣组成; MJv, GJv, RJv和MJv-GJv-RJv分别表示测试样品集是由红绿相间冬枣、 绿色冬枣、 红色冬枣和三种颜色冬枣组成; 冬枣样品SSC的统计信息如表1所示。

表1 冬枣样品及其SSC含量统计信息 Table 1 Statistics of SSC contents in jujube samples

采用模型的校正相关系数(correlation coefficient of calibration set, Rc)和交叉验证均方根误差(root mean square error of cross-validation, RMSECV)作为评价指标对光谱的预处理方法和变量进行优选, 采用测试集的预测相关系数(correlation coefficient of prediction set, Rp)和预测均方根误差(root mean square error of prediction, RMSEP)作为模型预测精度的评价指标。 其中Rc越大, RMSECV越小, 模型的精度越高; Rp越大, RMSEP越小, 模型的预测能力越好。 Matlab R2018a用于光谱数据的预处理、 变量优选以及PLS模型的建立。

2 结果与讨论
2.1 不同预处理方法对冬枣SSC模型精度的影响

样品光谱采集时易受光谱仪噪声和杂散光等因素的干扰, 引起光谱反射率的变化。 因此, 需要对样品光谱进行预处理, 抑制或滤除干扰信息以提高模型的分析精度。 为了研究不同预处理方法对冬枣SSC模型精度的影响, 分别采用NWS, CWD, MSC, SNV和NWS-MSC五种预处理方法对光谱进行信息变换和提取, 并计算其Rc和RMSECV对模型精度进行评价, PLS模型的校正结果如表2所示。 由表可知, 校正集为MJc, GJc, RJc, MJc-GJc, MJc-GJc-RJc建立的五种PLS模型分别选用NWS, CWD, NWS, NWS-MSC和SNV方法进行预处理时, 模型的精度均有明显提升。

表2 不同预处理方法的冬枣可溶性固形物PLS模型的校正结果 Table 2 Modelling results of PLS models for jujube SSC with different pretreatment methods

光谱的吸收主要反映了有机物中C—H, O—H和N—H等含氢基团信息, 而SSC主要是指可溶性糖类, 包含重要的—OH基团信息。 在冬枣样品Vis-NIR光谱中, 波长725 nm处具有明显的由于O—H键伸缩振动产生的吸收峰。 图4(a)为采集的三种颜色共135个冬枣样品的原始可见-近红外光谱图, 图4(b)为采用优选的SNV方法进行预处理后的光谱图。 由图可知, 预处理后在一定程度上消除了原始光谱中的背景噪声及其他影响。

图4 冬枣样品的可见-近红外光谱图与SNV预处理后的光谱图
(a): 原始可见-近红外光谱; (b): SNV预处理后可见-近红外光谱
Fig.4 Original Vis-NIR spectra of Jujube samples and spectra after pretreatment with SNV
(a): Original Vis-NIR spectra; (b): Spectra after pretreatment with SNV

2.2 建模样品集组成对冬枣SSC的PLS模型预测精度的影响分析

2.2.1 单一颜色冬枣SSC模型分析

由于三种颜色的冬枣样品光谱谱形相似, 可用不同颜色冬枣样品的预测集对冬枣SSC模型进行评价。 分别对MJc, GJc和RJc样品集进行建模, 采用MJv, GJv和RJv三个测试集样品对模型的预测能力进行评价。 单一颜色冬枣样品SSC的PLS模型的预测结果如表3所示。

表3 单一颜色冬枣样品SSC的PLS模型的预测结果 Table 3 Predicted results of PLS models for SSC of single color jujube

表3可知, 对于单一颜色冬枣的PLS模型, 当预测集样品与建模集样品的颜色性质相同时, 其模型的预测结果较好, 即校正集MJc中, MJv为预测集时预测结果最佳; 校正集GJc中, GJv为预测集时预测结果最佳; 校正集RJc中, RJv为预测集时预测结果最佳。

2.2.2 混合颜色冬枣SSC模型分析

分别对混合颜色MJc-GJc和MJc-GJc-RJc样品集进行建模, 采用MJv, GJv, RJv和MJv-GJv-RJv四个测试集样品对模型的预测能力进行评价。 混合颜色冬枣样品SSC的PLS模型的预测结果如表4所示。

表4 混合颜色冬枣样品SSC的PLS模型的预测结果 Table 4 Predicted results of PLS models for SSC of mixed color jujube samples

表4可知, 当预测集中只含有与校正集相同颜色的样品时, 其预测结果较好, 即校正集为MJc-GJc时, 模型对MJv和GJv的预测精度较RJv的好; 用预测集为MJv-GJv-RJv评价模型时, 虽然校正集MJc-GJc中含有红绿相间和绿色冬枣样品, 但无红色冬枣样品, 因此, 预测精度较差; 当在MJc-GJc中增加RJc组成MJc-GJc-RJc建模集, 模型对MJv-GJv-RJv的预测误差由1.378减小到0.946。

图5所示为采用不同颜色的冬枣样品组成的五个校正集建立冬枣SSC的PLS模型对由三种颜色冬枣样品组成的测试集进行预测的RMSEP变化图, 由图中可知, 当建模集样品与测试集样品性质相同时, 模型均得到较好的预测结果, RMSEP均比较小。

图5 不同颜色样品建模集建立的冬枣SSC的PLS模型的RMSEP变化图Fig.5 RMSEP variation diagram of PLS models for jujube SSC established by samples with different colours for modeling sets

2.3 变量筛选方法对模型预测精度的影响分析

通过对校正集MJc, GJc和RJc的单一模型, 及MJc-GJc, MJc-GJc-RJc的混合模型经预处理方法优选后采用PLS建模分析可知, 当测试集样品与校正集样品性质相似时, 模型具有更好的预测能力。 为了进一步对模型进行优化, 采用MCUVE方法进行变量选择后, 应用所筛选的特征变量建立PLS模型的结果如表5所示[10]

表5 变量优选后模型的分析结果 Table 5 Analysis results of the models with modelling variables optimization

表5中可知, 冬枣样品的Vis-NIR光谱包含有2 048个建模变量, 选用MCUVE变量筛选后, 模型的建模变量均减少, 且精度得到不同程度的提高。 对于冬枣校正集为MJc-GJc-RJc模型, 优化后的模型保留了200个有效建模变量。 图6是校正集为MJc-GJc-RJc时样品经过MCUVE选择的波长信息, 选择的变量主要集中于近红外短波光谱区域(770~1 100 nm), 剔除大部分位于可见光谱区域(390~770 nm)的样本点, 从而减少了表面颜色对分析模型的影响, 大大提高了不同颜色冬枣混合建模时变量的相似性, 从而使模型的精度及预测能力得以提高, 模型的RMSECV从1.158降低到0.886, RMSEP从0.946降低到0.721。

图6 MCUVE方法选择变量的分布Fig.6 Distribution of selected variables by MCUVE method

2.4 冬枣SSC最优光谱分析模型

不同颜色的冬枣样品进行混合建模时, 通过光谱预处理和变量优选方法可以得到预测精度较高的分析模型。 图7所示为利用优选变量建立的混合冬枣PLS模型的RMSECV和RMSEP随主成分数的变化图, 从图中可以, 两者相差较小且变化规律具有较好的一致性, 表明模型拟合的较合理[11]

图7 混合冬枣模型的RMSECV和RMSEP随PLS因子数变化图Fig.7 Variations of RMSECV and RMSEP of mixed jujube model with PLS factors

最优混合模型对测试集样品SSC的预测值和参考值的相关关系如图8所示。 由图可知, 冬枣SSC的参考值和模型预测值之间存在较好的相关关系, 预测样品集的Rp和RMSEP分别为0.922和0.721。

图8 SSC实测值与模型预测值的相关关系Fig.8 Correlation of SSC measured value and model predicted value

3 结论

对不同颜色冬枣SSC的Vis-NIR光谱分析模型构建进行研究, 采用不同的光谱预处理方法和MCUVE变量筛选方法对冬枣SSC的PLS定量分析模型进行优化, 以期实现不同颜色冬枣SSC含量准确分析的通用模型的构建。 结果表明, 分别采用MJ, GJ和RJ的独立样品集进行建模时, 模型仅仅对具有相同颜色的冬枣样品的SSC实现了较好的预测; 分别在MJ样品中加入GJ和GJ-RJ样品进行MJ-GJ和MJ-GJ-RJ两个混合样品集的定量模型的构建时, MJ-GJ模型对MJ和GJ样品的SSC具有较好的预测效果, 而对RJ样品的预测误差较大; MJ-GJ-RJ模型对三种颜色的冬枣SSC均有较好的预测结果; 采用Vis-NIR光谱对不同颜色冬枣的SSC进行分析时, 当校正集样品与测试集样品颜色属性相似进行模型构建时, 模型具有更好的通用性和分析精度。 采用MCUVE方法对模型进行变量优选后, 模型的各项评价指标均得到改善。

参考文献
[1] CHEN Chong, LUO Hua-ping, SUO Yu-ting, et al(陈冲, 罗华平, 索玉婷, ). Agriculture and Technology(农业与技术), 2019, 39(5): 1. [本文引用:1]
[2] LI Yong, WEI Yi-min, WANG Feng(李勇, 魏益民, 王锋). Journal of Nuclear Agriculture(核农学报), 2005, (3): 236. [本文引用:1]
[3] YAO Xin-miao, LU Shu-wen, XIE Tie-min, et al(姚鑫淼, 卢淑雯, 解铁民, ). Corn Science(玉米科学), 2013, 21(4): 153. [本文引用:1]
[4] CAO Yong, JIAO Xue-jun, JIANG Jin, et al(曹勇, 焦学军, 姜劲, ). Acta Optica Sinica(光学学报), 2018, 38(3): 369. [本文引用:1]
[5] Tian Xi, Fan Shuxiang, Li Jiangbo, et al. Infrared Physics &. Technology, 2019, 102: 979. [本文引用:1]
[6] ZHANG Li-juan, XIA Qi-le, CHEN Jian-bing, et al(张丽娟, 夏其乐, 陈剑兵, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(7): 2246. [本文引用:1]
[7] LI Zhuang-zhuang, WU Qiang-shui, HUANG Sha. Science Technology and Engineering(科学技术与工程), 2020, 20(10): 4061. [本文引用:1]
[8] HAO Yong, WU Wen-hui, SHANG Qing-yuan, et al(郝勇, 吴文辉, 商庆园, ). Acta Optica Sinica(光学学报), 2019, 39(9): 0930004. [本文引用:2]
[9] Mao Zhiyi, Shan Ruifeng, Wang Jiajun, et al. Pubmed, 2014, 128: 711. [本文引用:1]
[10] ZHANG He-dong, WU Jing-zhu, HAN Ping, et al(张鹤冬, 吴静珠, 韩平, ). Journal of Food Safety and Quality Inspection(食品安全质量检测学报), 2019, 10(1): 209. [本文引用:1]
[11] Parichat Theanjumpol, Kumpon Wongzeewasakun, Nadthawat Muenmanee, et al. Elsevier B. V. , 2019, 153: 257. [本文引用:1]