灵武长枣VC含量的高光谱快速检测研究
杨晓玉1, 刘贵珊1, 丁佳兴1, 陈亚斌1, 房盟盟1, 马超2, 何建国1,*
1. 宁夏大学农学院食品系, 宁夏 银川 750021
2. 宁夏大学物理与电子电气工程学院, 宁夏 银川 750021
*通讯联系人 e-mail: hejg@nxu.edu.cn

作者简介: 杨晓玉, 女, 1994年生, 宁夏大学农学院食品系硕士研究生 e-mail: 675612385@qq.com

摘要

采用可见-近红外高光谱成像技术结合化学计量学方法检测灵武长枣维生素C(VC)含量, 探究一种全新的水果内部成分的快速无损检测方法。 采用高效液相色谱法(HPLC)测得长枣的VC含量化学值, 可见—近红外高光谱成像系统采集164个灵武长枣400~1 000 nm的高光谱图像, 利用ENVI4.8软件提取图像的感兴趣区域(region of interest, ROI), 计算其平均光谱, 获得光谱值, 将化学值与光谱值通过The UnsecramblerX 10.4软件建立模型。 利用蒙特卡洛交叉验证法剔除异常值, 采用光谱理化值共生距离法(sample set partitioning based on joint x-y distance, SPXY)进行样本划分以提高模型的预测性能; 对光谱采用移动平滑(moving average)、 中值滤波(median filter)、 归一化(normalize)、 基线校准(baseline)、 多元散射校正(multiple scattering correction, MSC)、 去趋势(detrending)和标准正态变量变换(standard normal variate, SNV)等7种方法进行预处理; 为进一步减少数据量, 降低维度, 提高运算速度, 使用竞争性自适应加权算法(competitive adaptive reweighted sampling, CARS)、 无信息变量消除算法(uninformative variable elimination , UVE)和连续投影算法(successive projections algorithm, SPA)提取特征波长, 以期实现以少数波段代替全波段; 将全波段光谱(full spectrum, FS)以及CARS, UVE和SPA三种方法提取的特征波长分别建立偏最小二乘(partial least squares wavelength regression, PLSR)和支持向量机(support vector machine, SVM)模型, 从而确定最优的建模模型。 利用蒙特卡洛交叉验证法共剔除7个异常样本, 采用SPXY法将剔除异常样本后的157个数据区分为校正集和预测集, 校正集中样本个数为117, 预测集中样本个数为40。 将未经光谱预处理的建模结果与分别经过七种光谱预处理的建模结果相比, 选择未经光谱预处理的数据进行后续分析; 将未经光谱预处理的光谱值采用CARS, UVE, SPA方法进行提取特征波长, CARS共优选出406, 415, 487, 631, 636, 655, 660, 665, 670, 684, 689, 694, 723, 732, 747和881 nm下的光谱变量16个, 利用CARS提取出的特征波长占总波长的12.8%; UVE共优选出406, 415, 627, 631, 636, 651, 655, 660, 665, 670, 675, 679, 684, 689, 694, 699, 703, 708, 742, 747, 751, 756, 761, 766, 771, 775, 780, 785, 790, 795, 919和924 nm下的32个特征波长, 利用UVE提取出的特征波长占总波长的25.6%; SPA共优选出401, 665, 684 nm三个特征波长, 利用SPA提取出的特征波长占总波长的2.4%。 将全波段光谱与提取出的特征波长建立PLSR模型和SVM模型, 对比模型结果显示UVE-SVM模型最优, 其Rc2为0.847 1,Rp2为0.714 9, 说明UVE有效地对光谱进行降维, 简化了数据处理过程。 本研究对高光谱成像技术在水果领域的应用进行了有益探索, 探究了一种全新的灵武长枣VC含量的无损检测方法, 相应建立的可见-近红外高光谱模型为其他水果成分的快速检测提供了理论基础。

关键词: 可见-近红外; 高光谱成像技术; 维生素C(VC); 支持向量机; 无损检测
中图分类号:TS255 文献标志码:A
A Rapid Evaluation of VC Content on Lingwu Long Jujube Using Hyperspectral Technique
YANG Xiao-yu1, LIU Gui-shan1, DING Jia-xing1, CHEN Ya-bin1, FANG Meng-meng1, MA Chao2, HE Jian-guo1,*
1. School of Agriculture Department of Food, Ningxia University, Yinchuan 750021, China
2. School of Physics and Electronic-Electrical Engineering, Ningxia University, Yinchuan 750021, China
Abstract

In this paper, Lingwu Long Jujube VC content was regarded as the research object, and a combination of hyperspectral imaging technique with chemometrics method was used to explore a rapid and nondestructive detecting method for fruit internal components. Vitamin C content of Long jujube was measured by high performance liquid chromatography (HPLC). A total of 164 Lingwu long jujubes of hyperspectral images in region of 400~1 000 nm were acquired. Then spectral curves were obtained by ENVI 4.8 software from the region of interest (ROI). The models were built for chemical value and spectral data by UnsecramblerX 10.4 software. Outliers were to be eliminated by Monte Carlo cross validation method; Samples division was set partitioning based on joint X-Y distance(SPXY) method to improve the prediction performance of the model; The spectral's pretreatment was analyzed, such as Moving Average, Median Filter, Normalize, Baseline, multiple scatter correction (MSC), Detrending and standard normal variate (SNV) and so on; To reduce the amount and dimension of data, the feature wavelengths were extracted by competitive adaptive weighting algorithm (CARS), uninformative variable elimination ( UVE) and continuous feeding Shadow algorithm (SPA) ; Compared to the models of full spectrum (FS) and the feature wavelengths extracted by CARS and UVE of PLSR and SVM built, the optimal model was determined. A total of 7 abnormal samples were eliminated using Monte Carlo cross validation method. After eliminating abnormal sample data, the samples were divided into calibration set and prediction set by SPXY method, and calibration samples is 117, and prediction samples is 40. The spectral pretreatment were studied by the 7 methods. The results showed that the model effect without spectral pretreatment was the best, and its Rc was 0.8779, and RMSECV was 0.0481; Without a preprocessing method by CARS, UVE and SPA method to reduce the dimensions, a total of 16 feature wavelengths were selected by CARS, which were 415, 487, 406, 631 636, 655, 660, 665, 670, 684, 689, 694, 723, 732, 747 and 881 nm. A total of 32 feature wavelengths were selected by UVE, which were 415, 406, 627, 631, 636, 651, 655, 660, 665, 670, 675. 679, 684, 689, 694, 699, 703, 708, 742, 747, 751, 756, 761, 766, 771, 775, 780, 785, 790, 795, 919 and 924 nm. A total of 3 feature wavelengths were selected by SPA, which were 401, 665 and 684 nm. Comparing models of the full band spectrum with the models of extracted characteristic wavelengths of PLSR and SVM, the UVE-SVM model is the best, and itsRc2 is 0.847 1 andRp2 is 0.714 9, which indicates that UVE effectively reduces the dimension of the spectrum and simplifies the data processing. This study explores the application of hyperspectral imaging technology in the field of fruit, explores a new method for nondestructive testing of Lingwu Long Jujube VC content, provides a theoretical basis for visible and near infrared hyperspectral model established for the rapid detection of other components of fruit.

Keyword: Visible near infrared; Hyperspectral imaging; Vitaman C(VC); Support vector machine; Non-destructive detection
引 言

灵武长枣是宁夏优势特色农产品, 其品质评价一直是研究的焦点。 维生素C(VC)是人体必须营养素, 也是衡量果蔬品质的关键指标[1]。 VC含量的常规检测方法有电化学法, 滴定法, 分光光度法等, 但滴定法易产生误差; 电化学法不能进行连续检测[2], 其最大缺点是将样品破坏后才能测定VC含量。 因此, 需寻找一种快速无损测定果蔬VC含量的方法。

高光谱成像技术集图谱技术于一体, 满足了快速无损的检测需求, 成为了无损检测技术的热点, 此技术广泛应用于水果的虫害缺陷[3], 自然损伤[4], 农药残留[5]的外部检测以及可溶性固形物[6], 水分[7], 酚类物质[8]等内部成分的检测。 Gabriel A等[9]采用可溶性固形物和硬度指标评估高光谱对蓝莓自动分选分级的适用性, 证明此技术可应用于蓝莓的分选; Zhang[10]等利用高光谱结合支持向量机建立了不同成熟度草莓的模型, 其模型的精度超过85%; 陈欣欣等[11]对库尔勒香梨光谱信息建立SVM模型, 完好样本和损伤样本的总识别率皆为93.75%, 表明高光谱成像技术结合SVM建模方法能识别损伤的库尔勒梨。

本工作以灵武长枣为研究对象, 利用高光谱成像技术结合化学计量学方法建立预测模型, 为可见-近红外高光谱成像技术应用于其他果蔬内部品质的评价提供参考。

1 实验部分
1.1 材料与试剂

样品采自银川大泉林场, 选取164个无损伤的长枣, 4 ℃贮藏。

VC标品, 中国食品药品检定研究院; 甲醇(色谱级) , 偏磷酸盐(分析纯), 活性炭, 为天津市大贸化学试剂厂生产; 水系膜(0.45 μ m× 50 mm), 滤头(0.45 μ m)。

1.2 仪器

可见-近红外高光谱成像系统(美国Headwall Photonics 公司)和高效液相色谱仪L-2000(日本岛津公司)。

可见-近红外高光谱成像系统由成像光谱仪(V10E-QE型), CCD摄像机(C8484-05G型), 光纤卤素灯(DCRⅢ 型, 150 W)和输送装置和计算机构成。

由于摄像头中暗电流的存在和光源在不同波段下强度分布不均匀, 在光谱信息采集前, 需进行黑白校正[12]。 如式(1)所示:

R(%)=R0-DW-D×100(1)

式(1)中, R为校正后图像; R0为原始图像; D为暗图像; W为白板图像。

样本扫描时, 曝光时间15 ms; 曝光物距385 mm; 扫描线实际长度70 mm; 电控位移台扫描速度160 μ m· s-1; 图像分辨率1 004× 501。

1.4 HPLC测定VC含量

标准溶液的配备: 称取VC标品16 mg, 超纯水溶解定容于10 mL的棕色容量瓶中, 采用梯度稀释为1/2, 1/4, 1/10, 1/20, 1/30倍, 4 ℃保存。 样品待测液的制备: 称取灵武长枣果肉1.0 g, 研磨, 加入2%偏磷酸溶液5 mL, 移至10 mL离心管, 加入0.1 g活性炭, 4 ℃下11 000 r· min-1离心15 min, 取上清液至10 mL的棕色容量瓶中, 2%偏磷酸溶液定容, 经0.45 μ m滤膜过滤。 液相条件: 进样量20 μ L, 流速1.0 mL· min-1, 柱温30℃, 检测波长254 nm, 流动相为0.2%偏磷酸盐溶液。

2 结果与讨论
2.1 HPLC测定结果

图1为维生素C标品高效液相色谱图, 最大吸收波长为254 nm, 出峰时间为3.554 min。 图2为长枣提取液的高效液相色谱出峰图, 出峰时间为3.520 min。 得到线性方程为y=10 000 000x-473 152.198 8, 相关系数R2=0.991 7。

图1 VC高效液相色谱图Fig.1 High performance liquid chromatographic peak of VC

图2 提取液高效液相色谱图Fig.2 High performance liquid chromatographic peak

2.2 可见-近红外光谱检测

采用可见-近红外高光谱成像系统采集长枣光谱反射曲线(见图3), 利用ENVI 4.6软件选取感兴趣区域。 分别从每张光谱图像中提取1 521像素的ROI, 计算出平均反射光谱作为原始光谱。

图3 光谱反射曲线Fig.3 Reflectance curves of spectrum

2.3 蒙特卡洛交叉验证法剔除异常值

蒙特卡洛方法具有同时检测光谱异常值和理化参照值异常值的优点。 具体步骤: 将样本集作为校正集, 建立模型, RMSECV最小时, 为最佳主成分数; 确定各样本预测误差的统计特征参数(均值和标准差); 以均值为横坐标, 标准差为纵坐标, 绘制散点图(见图4)。 均值和标准差平均值的2.5倍作为界限值, 大于界限值的为异常样本。

图4 蒙特卡洛检测Fig.4 Monte Carlo detection

如图4所示, 3, 11样本的预测误差均值较大, 可直接判定为异常值剔除, 其余界限值以外的样本依次剔除。 3, 11, 163, 69, 162, 40, 10号样本剔除后建模 Rc2值由0.465 6上升至0.729 3; 剔除7, 15, 43号样本后建模 Rc2值减小, 由0.729 3降低至0.727 7, 说明此三个数据不是异常值。

2.4 样本划分

采用SPXY法对剔除异常值后将样本的VC含量按照3: 1的比例进行划分如表1所示。

表1 长枣VC含量 Table 1 VC contents of long jujubes
2.5 原始光谱及光谱预处理比较

表2可知, 未经光谱预处理和经过光谱预处理建立的VC含量预测模型中, 未处理的校正模型RMSECV为0.048 1, 与经过预处理的数据相比, 值最小; Rc2为0.770 7, 与预处理后的数据相比, 值最大, 说明未经预处理的光谱模型稳定, 且交互验证效果好, 故选择未经光谱预处理的数据进行后续分析。

表2 不同预处理方法的长枣VC含量PLSR模型 Table 2 PLSR models of VC contents based on different pretreatment methods
2.6 特征波长的选取

2.6.1 竞争性自适应加权算法(CARS)

图5(a)为检测波长变量随采样次数的变化趋势: 采样次数增加, 所选变量个数由快到慢递减, 对应粗选与精选两个阶段; 图5(b)为筛选过程中交互验证错误率的变化趋势: 交互验证错误率在0~25时降低, 从25处呈现上升的趋势, 这表明选择过程剔除了与VC含量检测相关的关键变量; 图5(c)中“ * ” 所对应的位置为25次MC采样, 此时交互验证错误率最小, 所选出的特征波长的个数最少。 经CARS提取特征波长后, 优选出406, 415, 487, 631, 636, 655, 660, 665, 670, 684, 689, 694, 723, 732, 747和881 nm共16个光谱波长变量, 占总波长变量的12.8%。

图5 CARS筛选过程Fig.5 Selection process of CARS variables

2.6.2 UVE

采用UVE选取特征波长时, 潜在变量数设为1~13。 潜在变量数为7时, RMSECV最小, 值为0.045 1。

图6中竖线两侧分别有125个波长变量, 两条水平虚线为变量选择阈值(30.6)。 虚线外是有用信息, 其对应的为特征波长, 共提取406, 415, 627, 631, 636, 651, 655, 660, 665, 670, 675, 679, 684, 689, 694, 699, 703, 708, 742, 747, 751, 756, 761, 766, 771, 775, 780, 785, 790, 795, 919和924 nm共32个光谱变量, 占总波长的25.6%。

图6 UVE-PLSR模型的稳定性分布曲线Fig.6 Stability distribution curve of UVE-PLSR model

2.6.3 连续投影算法(SPA)

利用SPA选择特征波长时, 指定波长数N为 3~15, 共优选出401, 665, 684 nm三个光谱波长变量, 占总波长的2.4%。

2.7 模型的建立

2.7.1 PLSR模型

建立全光谱和特征波长的PLSR模型, 对其建模效果进行分析。 由表3可知, CARS-PLSR模型与FS-PLSR模型相比, Rc2值, Rp2值接近, 与其他模型相比, RMSEC, RMAECV均为最小, 分别为0.042 9和0.046 6, 具有较好的校正性能和交互验证性能, 其优选出16个特征波长, 可有效地对光谱数据进行降维。

2.7.2 SVM建模

建立不同提取特征波长方法的SVM模型(见表4), UVE-SVM模型的RMSECV值为0.048 9, Rp2值为0.714 9, 较其他模型最优。

表3 不同特征波长下的VC含量PLSR模型 Table 3 PLSR models of VC content based on different wavelengths
表4 不同特征波长下的VC含量SVM模型 Table 4 SVM models of VC content based on different wavelengths
3 结 论

利用VIS/NIR可见-近红外高光谱技术对灵武长枣VC含量进行预测, 主要结论如下:

(1)将灵武长枣的光谱信息经过蒙特卡洛交叉验证法剔除7个异常值后进行不同方法的光谱预处理。 结果表明, 不经过光谱预处理的建模效果较好。

(2)利用CARS, UVE和SPA 进行降维处理, 提取特征波长个数为16, 32, 3, 占原光谱数据的12.8%, 25.6%和2.4%。

(3)对提取的特征波长建立PLSR和SVM模型。 结果表明, UVE-SVM建立的VC含量模型最优, 其 Rc2为0.847 1, Rp2为0.714 9, RMSEVC为0.048 9。

The authors have declared that no competing interests exist.

参考文献
[1] CHEN Chen, LU Xiao-xiang, ZHANG Peng, et al(陈辰, 鲁晓翔, 张鹏, ). Food & Machinery(食品与机械), 2015, 31(5): 70. [本文引用:1]
[2] LI Ye, YIN Li-hui, GAO Shang, et al(李野, 尹利辉, 高尚, ). Chin. J. Pharm. Anal. (药物分析杂志), 2016, 36(5): 756. [本文引用:1]
[3] Liu Guishan, He Jianguo, Wang Songli. International Journal of Food Properties, 2016, 19: 41. [本文引用:1]
[4] SUN Shi-peng, PENG Jun, LI Rui, et al. Food Science(食品科学), 2017, 38(2): 301. [本文引用:1]
[5] ZHAO Man-tong, LI Bo-cheng, ZHOU Yao, et al(赵曼彤, 李伯承, 周瑶, ). Optical Technique(光学技术), 2016, 42(5): 408. [本文引用:1]
[6] Polder G A, Leiva-Valenzuela L, Lu R F. Journal of Food Engineering, 2013, 115: 91. [本文引用:1]
[7] Pu Yuanyuan, Sun Dawen. Innovative Food Science and Emerging Technologies, 2016, 33: 348. [本文引用:1]
[8] Zhang Ni, Liu Xu, Jin Xiaoduo, et al. Food Chemistry, 2017, 237: 811. [本文引用:1]
[9] Gabriel A, Leiva-Valenzuela, Renfu Lu. Innovative Food Science and Emerging Technologies, 2014, 24: 2. [本文引用:1]
[10] Zhang Chu, Guo Chentong, Liu Fei. Journal of Food Engineering, 2016, 179: 11. [本文引用:1]
[11] CHEN Xin-xin, GUO Chen-tong, ZHANG Chu, et al(陈欣欣, 郭辰彤, 张初, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(1): 150. [本文引用:1]
[12] Zou Xiaobo, Xu Yiwei, Chen Wu, et al. Mod. Food Sci. Technol. , 2015, 32(9): 263. [本文引用:1]