高光谱结合二维相关光谱检测灵武长枣中半纤维素的含量
李月1, 刘贵珊1,*, 樊奈昀1,*, 何建国1, 李燕1, 孙有瑞1, 蒲芳宁2
1.宁夏大学食品与葡萄酒学院, 宁夏 银川 750021
2.宁夏大学物理与电子电气工程学院, 宁夏 银川 750021
*通讯作者 e-mail: liugs@163.com; fny0606@163.com

作者简介: 李 月, 女, 1994年生, 宁夏大学食品与葡萄酒学院硕士研究生 e-mail: YueLi_20210701@163.com

摘要

利用高光谱成像技术与二维相关光谱(2D-COS)结合化学计量学检测灵武长枣半纤维素含量。 采用定量瘀伤装置获得0, Ⅰ, Ⅱ, Ⅲ, Ⅳ级瘀伤长枣模型, 通过高光谱和分光光度计分别获得样品高光谱图像和半纤维素含量。 蒙特卡洛异常值检测法剔除异常样本后, 分别用随机划分法(RS), Kennard-Stone法(KS)、 光谱-理化值共生距离法(SPXY)和3:1比例法对样本集划分校正预测。 采用基线校准(Baseline)、 去趋势(De-trending)和标准化(Normalize)对长枣原始光谱预处理后建立偏最小二乘回归模型(PLSR), 优选最佳样本集划分及预处理方法。 利用2D-COS将光谱信号扩展到第2维, 在全光谱范围内寻找与半纤维素含量相关的敏感波段区间。 采用竞争性自适应加权算法(CARS)、 引导软收缩(BOSS)、 区间变量迭代空间收缩方法(iVISSA)、 变量组合集群分析法(VCPA)以及iVISSA+BOSS, iVISSA+CARS和iVISSA+VCPA方法在2D-COS敏感波段区间进行特征波长提取, 并建立基于特征波长的PLSR模型。 结果表明, 样本集经3:1划分和Baseline预处理后建立的基于全波段的PLSR模型最优, 故最佳样本集划分方法为3:1, 预处理方法为Baseline, 用于后续特征波长提取。 通过2D-COS分析发现3个与半纤维素相关的自相关峰(401, 641和752 nm); 在2D-COS敏感区域(401~752 nm范围内), 采用BOSS, CARS, iVISSA, VCPA, iVISS+BOSS, iVISS+CARS, iVISS+VCPA分别提取了14, 26, 39, 12, 15, 22和11个对应的特征波长, 占总波长的18.9%, 35.1%, 52.7%, 16.2%, 20.2%, 29.7%和14.8%。 对比2D-COS和特征波建立的PLSR模型, 2D-COS+iVISSA-PLSR模型效果较好, 其RC2=0.747 9, RP2=0.604 7, RMSEC=0.043 8, RMSEP=0.060 3。 研究表明, 利用高光谱成像技术结合2D-COS可实现灵武长枣半纤维素含量的快速检测。

关键词: 灵武长枣; 半纤维素; 高光谱; 二维相关光谱; 化学计量学
中图分类号:TS255 文献标识码:A
A Combination of Hyperspectral Imaging With Two-Dimensional Correlation Spectroscopy for Monitoring the Hemicellulose Content in Lingwu Long Jujube
LI Yue1, LIU Gui-shan1,*, FAN Nai-yun1,*, HE Jian-guo1, LI Yan1, SUN You-rui1, PU Fang-ning2
1. School of Agriculture Department of Food, Ningxia University, Yingchuan 750021, China
2. School of Physics and Electronic Engineering, Ningxia University, Yingchuan 750021, China
*Corresponding authors
Abstract

In this paper, hemicellulose content in Lingwu long jujube was determined by hyperspectral imaging and two-dimensional correlation spectroscopy (2D-COS) combined with stoichiometry. A quantitative bruising device was used to obtain the level 0, Ⅰ, Ⅱ, Ⅲ and Ⅳbruising model of jujube. Hyperspectral images and hemicellulose content of samples were obtained by hyperspectral and spectrophotometer, respectively. After the outliers were eliminated by the Monte Carlo cross-validation method, sample sets were divided into corrected and prediction sets by random sampling (RS), kennard-stone method (KS), sample set partitioning based on joint X-Y distances (SPXY) and 3:1 partitioning method, respectively. The original spectrum of long jujube was preprocessed by baseline calibration, de-trending and normalising, and then a partial least square regression model was established to determine the optimal sample set division method and spectral pretreatment method.The spectral signal was extended to the second dimension by 2D-COS, and sensitive wavelength areas related to hemicellulose content were searched in the full spectral range. Competitive adaptive reweighted sampling (CARS), bootstrapping soft shrinkage (BOSS), interval variable iterative space shrinkage approach (iVISSA), variables combination population analysis (VCPA), iVISSA+BOSS, iVISSA+CARS and iVISSA+VCPA combination methods were used to extract characteristic wavelengths in the 2D-COS sensitive wavelength areas, and establish PLSR model based on characteristic wavelengths.The results showed that the PLSR model of full band established after the sample set was divided by 3:1 and Baseline preprocessed was optimal. Therefore, the optimal sample set division method is 3:1, and the spectral pretreatment method is Baseline, which isused for the subsequent characteristic wavelength modeling. Three autocorrelation peaks containing 401, 641 and 752 nm were found by 2D-COS analysis, respectively. The BOSS, CARS, iVISSA, VCPA, iVISSA+BOSS, iVISSA+CARS, iVISSA+VCPA methods were applied to selected 14, 26, 39, 12, 15, 22 and 11 corresponding characteristic wavelengths from 2D-COS spectra, accounting for 18.9%, 35.1%, 52.7%, 16.2%, 20.2%, 29.7%, 14.8% of the total wavelength, respectively. Comparedwith the PLSR model established by 2D-COS and characteristic waves, the 2D-COS+iVISSA-PLSR model had the best performance, with RC2=0.747 9, RP2=0.604 7, RMSEC=0.043 8, RMSEP=0.060 3. The results showed that hyperspectral imaging technology combined with 2D-COS could be used to detect hemicellulose content in Lingwu long jujube quickly.

Key words: Lingwu long jujube; Hemicellulose; Hyperspectral; Two-dimensional correlation spectroscopy; Chemometrics approaches
引言

灵武长枣, 是宁夏特色枣果, 因其口感香脆、 果肉丰富而受到消费者青睐。 完好长枣细胞壁的网状结构是由半纤维素、 果胶及纤维素相互交联形成, 共同维持长枣组织的完整性, 但人为或机械碰撞等因素会造成不同程度瘀伤使枣中半纤维素降解及分子结构变化而影响细胞壁结构, 造成长枣质地软化, 缩短货架期[1]。 因此, 半纤维素是衡量果品品质重要评估指标之一。 常规半纤维素测定方法有HCl水解法、 差重法等[2]。 然而, 这些方法具有破坏性强, 耗时长等缺点。 因此, 需寻找一种测定果品中半纤维素含量快速无损检测方法。

高光谱成像将数字图像与光谱集成在一个系统中, 获得评估果实质量的空间和光谱信息, 已被用于鉴定果品的可溶性固形物[3]、 硬度[4]、 早期瘀伤[5]和成熟度[6]等。 二维相关光谱将光谱信号扩展到第2维, 为确定光谱特征细微变化和识别与扰动相关敏感变量提供了一种新思路[7]

以灵武长枣为研究对象, 探索高光谱成像结合二维相关光谱对灵武长枣中半纤维素含量快速无损检测的可行性。

1 实验部分
1.1 样本采集与瘀伤实验

从宁夏灵武某果园中采摘无瘀伤、 颜色全红、 大小均一的长枣249个, 经保鲜袋包装后贮藏在(0± 2) ℃的冰箱中备用。

图1为构建灵武长枣瘀伤等级装置, 参照Yuan[8]的方法并稍作修改来构建瘀伤态灵武长枣。 完整枣定义为0级瘀伤, 冲击1次定义为Ⅰ 级瘀伤, 冲击2次为Ⅱ 级瘀伤, 依次获得Ⅰ , Ⅱ , Ⅲ 和Ⅳ 级瘀伤态长枣模型。

图1 灵武长枣定量瘀伤装置
1: 摆臂; 2: 铁球; 3: 测试平台; 4: 灵武长枣; 5: 57° 臂角; 6: 支架
Fig.1 Schematics of Damage experimental device of Lingwu long jujubes
(1): Pendulum arm; (2): Ball; (3): Test platform; (4): Lingwu long jujube; (5): 57° arm angle; (6): Bracket

1.2 高光谱图像采集

高光谱成像系统(400~1 000 nm)主要由光谱仪、 CCD相机、 卤素灯、 电控位移平台和计算机组成[9]。 采集光谱信息之前, 先将系统预热30 min, 通过黑白校正消除暗电流, 光源不均匀等影响图像质量的不良因素[10]

1.3 半纤维素含量测定

参照Wang[11]等的方法测定半纤维素含量。

1.4 数据处理

为建立校正模型, 需对样本数据集进行划分, 采用随机划分法(random sampling, RS), Kennard-Stone法(KS)、 光谱-理化值共生距离法(sample set partitioning based on joint X-Y distances, SPXY)和3:1比例四种方法来优选最合适划分的方法。 为减少原始光谱中背景和噪音的干扰, 增强光谱有用信息, 提高模型预测性能; 利用Baseline, De-trending和Normalize对原始光谱进行预处理。 通过二维相关光谱(two-dimensional correlation spectroscopy, 2D-COS)分析光谱信号的变化, 在全光谱范围内寻找与半纤维素含量相关的敏感区域, 减少全波段光谱数据的冗余。 同时, 为在2D-COS敏感波段区间提取有效信息, 采用竞争性自适应加权算法(competitive adaptive reweighted sampling, CARS)、 引导软收缩(bootstrapping soft shrinkage, BOSS)、 区间变量迭代空间收缩方法(interval variable iterative space shrinkage approach, iVISSA)、 变量组合集群分析法(variables combination population analysis, VCPA)四种算法和iVISS+BOSS, iVISS+CARS及iVISS+VCPA三种组合算法进行特征波长选择。 偏最小二乘回归模型(partial least square regression, PLSR)作为一种经典的线性多元统计方法, 常用于建立光谱模型, 利用原始光谱、 预处理光谱、 2D-COS敏感波段和选择的特征变量建立PLSR模型。

2 结果与讨论
2.1 样本集的划分

采用蒙特卡洛异常值检测法检测出10个异常样本, 剔除后采用SPXY, KS, RS和3:1划分法将剩余239个样本划分为179个校正集和60个预测集。 由表1可知, 按3:1方法划分后建立的PLSR模型R2最大且RMSE值最小。 通常, R2值越高, RMSE值越低, 说明模型性能较好[12, 13]。 综上, 后续数据分析采用3:1方法划分样本集。

表1 不同样本划分结果 Table 1 Modeling results of different sample partitioning methods
2.2 光谱分析

图2为不同瘀伤等级灵武长枣的平均光谱反射曲线。 从图中可看出, 5条曲线呈现相同变化趋势, 0和Ⅰ 级瘀伤长枣光谱反射率高于Ⅱ , Ⅲ , Ⅳ 级, 说明不同程度瘀伤会影响枣中半纤维素降解的快慢, 从而导致其半纤维素含量不同[1]。 曲线在502, 670和977 nm处出现波谷, 在641和881 nm处出现波峰, 前者可能是由于吸水率不同引起[14], 后者可能与长枣表皮的叶绿素吸收有关[15]

图2 不同瘀伤等级灵武长枣的平均反射光谱Fig.2 The average spectra of Lingwu long jujube at different bruise grades

2.3 光谱预处理

原始光谱及预处理光谱曲线如图3所示, 建模结果如表2所示。 结果显示, Baseline预处理后建立的PLSR校正模型交叉验证效果较优, 稳健性较好, 其 RC2=0.732 3, RMSECV=0.054 9, 且经Baseline预处理后的原始光谱曲线更光滑。

图3 反射光谱
(a): 原始光谱; (b): Normalize预处理光谱; (c): De-trending预处理光谱; (d): Baseline预处理光谱
Fig.3 Reflectance spectra
(a): Raw spectra; (b): Pretreated by Normalize; (c): Pretreated by De-trending; (d): Pretreated by Baseline

表2 半纤维素含量经不同预处理方法后的PLSR模型 Table 2 PLSR models of hemicellulose contents after different pretreatment methods
2.4 二维相关光谱

二维相关光谱由同步和异步光谱组成, 视半纤维素含量为外部干扰, 通过二维相关光谱对光谱信号分析可在全波段内寻找与半纤维素含量相关的敏感区域。

同步和异步二维相关的3D立体图如图4(a)和(b)所示, 其中, X轴和Y轴是自变量轴, 代表波长, Z轴是因变量轴, 代表相关强度。 以半纤维素含量为外部干扰, 对Baseline预处理光谱进行2D-COS分析得到的同步二维相关谱如图4(c)所示, 在对角线位置出现3个自相关峰(401, 641和752 nm), 说明此变量处光谱信号对外扰较敏感。 在(401, 641), (641, 752)和(401, 752) nm处有明显正相关峰, 说明401, 641和752 nm处的吸收峰强度在同一方向上同时变化[16]。 在图4(d)为异步相关光谱, (401, 641), (641, 752)和(401, 752) nm的异步交叉峰均大于0, 通过二维相关分析, 选择401~752 nm光谱范围内的波长作为灵武长枣中半纤维素含量的检测区域。

图4 样品的二维相关谱图
(a): 同步3D立体图; (b): 异步3D立体图; (c): 同步等高线图; (d): 异步等高线图
Fig.4 Two-dimensional correlation spectra of sample
(a): Synchronous 3D stereo plot; (b): Asynchronous 3D stereo plot; (c): Synchronous contour map; (d): Asynchronous contour map

2.5 特征波长提取

2.5.1 BOSS算法提取特征波长

BOSS是一种结合自助抽样与加权自助抽样思想, 生成随机变量组合并构建子模型的算法。 经BOSS算法在2D-COS范围内提取了14个特征波长, 占总波长的18.9%。

2.5.2 CARS算法提取特征波长

CARS根据达尔文进化论中“ 适者生存” 原理获取变量, 经多次循环采样后提取特征波长。 CARS算法在2D-COS范围内提取26个特征波长, 占总波长的35.1%。

2.5.3 iVISSA算法提取特征波长

iVISSA结合全局和局部搜索, 能较大限度提取样品信息并保证其完整性。 用iVISSA算法在2D-COS范围内提取了39个特征波长, 占总波长的52.7%。

2.5.4 VCPA算法提取特征波长

VCPA是一种考虑了变量之间通过随机组合可能产生相互作用效应的算法。 经VCPA算法在2D-COS的范围内选出12个特征波长, 占总波长的16.2%。

2.5.5 二次提取特征波长

由于iVISSA算法提取的特征波长较多, 需进行二次提取。 iVISSA+BOSS共提取15个特征波长, 占总波长的20.2%; iVISSA+CARS共提取22个特征波长, 占总波长的29.7%; iVISSA+VCPA共提取11个特征波长, 占总波长的14.8%。

2.6 模型建立

表3为不同波长提取方法建立的PLSR模型。 由表3可知, 基于2D-COS+BOSS, 2D-COS+CARS和2D-COS+VCPA建立的PLSR模型效果较差, 其 RC2RP2均小于0.6。 2D-COS+iVISSA-PLSR的 RC2=0.747 9, Rp2=0.604 7, RMSEC=0.043 8, RMSEP=0.060 3, 模型效果较优。 2D-COS+iVISSA+BOSS, 2D-COS+iVISSA+CARS, 2D-COS+iVISSA+VCPA虽精简了波长数量, 但模型预测准确性较弱, 这可能是因为在选择特征波段的过程中筛掉了一些与半纤维素含量相关的有用信息。

表3 不同特征波长提取方法建立的PLSR模型结果对比 Table 3 Performance comparison of PLSR models based on different optimal wavelength extraction methods
3 结论

利用可见-近红外高光谱结合二维相关光谱对瘀伤灵武长枣半纤维素含量进行预测, 主要结论如下:

(1)采用蒙特卡洛异常值检测法剔除10个异常样本后进行样本集划分, 3:1划分法建立的预测模型较稳健。

(2)通过预处理算法对原始光谱进行优化, 优选出Baseline为最佳预处理方法, 其预测模型的 RC2=0.732 3, RMSEC=0.035 7, RMSECV=0.054 9。

(3)以半纤维素含量为外部干扰, 通过2D-COS分析发现401, 641和752 nm处的光谱信号对外界干扰更加敏感。 因此, 选取401~752 nm光谱范围内的波长作为瘀伤灵武长枣中半纤维素含量的检测研究区域。

(4)利用BOSS, CARS, iVISSA, VCPA, iVISSA+BOSS, iVISSA+CARS和iVISSA+VCPA进行降维处理, 2D-COS+iVISSA-PLSR模型效果最优( RC2=0.747 9, RP2=0.604 7, RMSEC=0.043 8, RMSEP=0.060 3)。

参考文献
[1] Hussein Z, Fawole O A, Opara U L, et al. Scientia Horticulturae, 2018, 229: 45. [本文引用:2]
[2] ZHU Xiao-li(朱小莉). Technology Wind(科技风), 2020, 17: 174. [本文引用:1]
[3] Ma T, Xia Y, Inagaki T, et al. Postharvest Biology and Technology, 2021, 173: 111417. [本文引用:1]
[4] Pullanagari R R, Officer S R, Li M, et al. Journal of Food Engineering, 2021, 289: 110177. [本文引用:1]
[5] Li J B, Chen L P, Huang W Q. Postharvest Biology and Technology, 2018, 135: 104. [本文引用:1]
[6] Land ahl S, Terry L A. Biosystems Engineering, 2020, 194: 251. [本文引用:1]
[7] Morita S, Ozaki Y. Chemometrics and Intelligent Laboratory Systems, 2017, 168: 114. [本文引用:1]
[8] YUAN Rui-rui, LIU Gui-shan, HE Jian-guo, et al(袁瑞瑞, 刘贵珊, 何建国, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(4): 1182. [本文引用:1]
[9] YANG Xiao-yu, DING Jia-xing, FANG Meng-meng, et al(杨晓玉, 丁佳兴, 房盟盟, ). Food and Machinery(食品与机械), 2017, 33(11): 131. [本文引用:1]
[10] Cheng L J, Liu G S, He J G, et al. Food Chemistry, 2021, 342: 128351. [本文引用:1]
[11] WANG Jin-zhu, WANG Yuan-xiu, LI Feng, et al(王金主, 王元秀, 李峰, ). Shand ong Food Ferment(山东食品发酵), 2010, 158: 44. [本文引用:1]
[12] Pullanagari R R, Yule I J, Agnew M. Meat Science, 2015, 100: 156. [本文引用:1]
[13] Cheng L J, Liu G S, He J G, et al. Meat Science, 2020, 167: 107988. [本文引用:1]
[14] Zhang S J, Zhang H H, Zhao Y R, et al. Mathematical and Computer Modelling, 2013, 58: 545. [本文引用:1]
[15] Wang J, Nakano K, Ohashi S. Postharvest Biology and Technology, 2011, 59, 272. [本文引用:1]
[16] Fan N Y, Liu G S, Wan G L, et al. International Journal of Food Science and Technology, 2021, 56: 3066. [本文引用:1]