Box-Behnken法冷鲜滩羊肉蛋白质的高光谱模型优化
樊奈昀, 刘贵珊*, 张晶晶, 张翀, 袁瑞瑞, 班晶晶
宁夏大学农学院, 宁夏 银川 750021
*通讯作者 e-mail: liugs2018@163.com

作者简介: 樊奈昀, 1996年生, 宁夏大学农学院硕士研究生 e-mail: fny0606@163.com

摘要

高光谱成像技术是一种将成像与光谱相结合的新型无损检测技术, 属于间接分析方法; 光谱模型的建立非常关键, 需综合考察各建模因素间的交互作用。 应用Box-Behnken法设计响应面试验优化冷鲜滩羊肉蛋白质含量的可见/近红外高光谱定量检测模型。 使用可见/近红外高光谱成像系统采集冷鲜滩羊肉样本的高光谱图像, 分析肉样反射光谱特性。 采用二维相关光谱技术(2DCOS), 以冷鲜滩羊肉中蛋白质含量为“外界扰动”, 研究扰动条件下光谱信号的动态变化, 解析二维相关光谱谱图特征, 寻找与微扰相关的敏感变量。 分别采用多元散射校正(multiplicative scatter correction, MSC)和标准正态变量变换(standard normalized variate, SNV)提取有用信号, 优化所选特征波段光谱质量。 为实现数据快速降维, 减少大量光谱数据处理负担, 采用变量组合集群分析法(variable combination population analysis, VCPA)和应用竞争性自适应加权算法(competitive adaptive reweighted sampling, CARS)对2DCOS范围内特征波段进行二次优选。 根据Design-Expert软件中Box-Behnken法设计响应面试验, 以特征优选、 光谱预处理及多元校正方法为考察因素, 各因素中3种不同方法为水平, 建立冷鲜滩羊肉蛋白质含量分析的优化检测体系。 结果表明, 波长473, 679, 734和814 nm处存在较强的自相关峰, 473~814 nm范围内的特征波段为冷鲜滩羊肉蛋白质检测的敏感区域; MSC和SNV能够消除肉样自身散射作用的干扰, CARS和VCPA对特征波段进行二次优选, 分别优选出了16和9个特征波长; 各因素对蛋白质可见/近红外光谱模型预测性能的影响顺序为特征优选方法>预处理方法>多元校正方法, 优选出2DCOS-SNV-LSSVM模型具有较高的运行速率和预测能力, 其 Rc=0.858 8, RMSEC=0.005 8; Rp=0.860 4, RMSEP=0.005 7。 研究表明, Box-Behnken法在可见/近红外高光谱(400~1 000 nm)建模参数优化选择中的应用, 可以有效地实现滩羊肉品质智能监控与质量安全快速无损分析, 为分析对象光谱模型的优化及提高预测结果的准确性提供理论参考。

关键词: 可见/近红外高光谱; Box-Behnken设计; 二维相关光谱; 滩羊肉; 蛋白质
中图分类号:P182.3+1 文献标志码:A
Hyperspectral Model Optimization for Protein of Tan Mutton Based on Box-Behnken
FAN Nai-yun, LIU Gui-shan*, ZHANG Jing-jing, ZHANG Chong, YUAN Rui-rui, BAN Jing-jing
School of Agriculture, Ningxia University, Yinchuan 750021, China
*Corresponding author
Abstract

Hyperspectral imaging is a new non-destructive testing technology which combines imaging and spectrum. It is an indirect analysis method. The establishment of the analytical model is critical, which needs to comprehensively consider the interaction among various modeling factors. This paper aimed to investigate the optimization of visible/near-infrared hyperspectral quantitative detection model for protein content in chilled Tan mutton based on the Box-Behnken design. The hyperspectral images of meat samples were collected by the visible/near-infrared hyperspectral imaging system. The reflectance spectral characteristics of chilled Tan mutton were analyzed. The protein contents were regarded as an external disturbance. The dynamic change of spectral signal was studied by two-dimensional correlation spectra under disturbance conditions. The synchronization spectra and autocorrelation spectra were analyzed to find the sensitive variables related to protein contents. Multiplicative scatter correction (MSC) and standard normalized variate (SNV) were used to extract useful signal and optimize the spectral quality of selected characteristic bands. In order to achieve data dimensionality reduction and reduce the burden of processing a large number of spectral data, competitive adaptive reweighted sampling (CARS) and variable combination population analysis (VCPA) were used to perform secondary extracted feature wavelengths. Extraction method, spectral pretreatment and multivariate calibration methods were factors, and each factor had 3 different levels. The response surface experimental design was used to build an optimal detection system for protein content analysis of chilled Tan mutton. The results indicated that there were strong autocorrelation peaks at 473, 679, 734 and 814 nm. The feature bands in the range of 473~814 nm were a sensitive area of protein detection in mutton. MSC and SNV could effectively eliminate the interference of scattering. Sixteen and nine characteristic wavelengths were selected by CARS and VCPA from 2DCOS, respectively. The factors in descending order affecting the predictive performance of the model were detection band, preprocessing method and modeling method. The 2DCOS-SNV-LSSVM model was selected with a high operating rate and prediction capability ( Rc=0.858 8, RMSEC=0.005 8; Rp=0.860 4, RMSEP=0.005 7). The results showed that the application of the box-behnken method in the optimization of visible/near-infrared hyperspectral (400~1 000 nm) modeling parameters could effectively realize the intelligent monitoring and fast non-destructive analysis of Tan mutton quality. It could also provide a theoretical reference for the optimization of the model and improving prediction accuracy.

Keyword: Visible-near infrared hyperspectral; Box-Behnken design; Two-dimensional correlation spectra; Tan mutton; Protein
引言

高光谱成像技术可以提供与样品物理和化学特性相关的空间和光谱信息, 在食品、 农业、 化工, 制药等领域中得到了广泛的应用[1, 2]。 光谱信息与待测成分间模型的建立非常关键, 直接影响光谱分析的工作效率和质量[3, 4]。 以往有关建模条件的研究只考虑某一方面的优化, 存在方法组合考察不全面的问题。 因此, 为了提高模型的鲁棒性, 需要对波段选择、 预处理和建模方法的组合进行综合考察。 响应面设计可以对建模过程中的影响因子和水平及其交互作用进行优化和评价, 是一种采用多元二次回归方程以及多种统计方法分析寻找多因素系统中最佳条件的数学统计方法[5]。 目前有关高光谱成像技术结合化学计量学方法和响应面试验设计在高光谱检测中的研究鲜有报道。

综上, 针对建模因素之间存在相互作用的影响情况, 以冷鲜滩羊肉的蛋白质含量检测为例, 采用响应面试验设计思路, 综合考察不同特征优选、 预处理及多元校正方法对光谱定量分析模型的作用, 建立冷鲜滩羊肉蛋白质含量的分析优化检测体系, 为冷鲜肉从生产到销售的数字精细化技术开发应用提供理论参考。

1 实验部分
1.1 样本采集

90只滩羊样本[4~6月龄, 平均胴体重(32.8± 4.02) kg], 宁夏盐池大夏牧场食品有限公司。 屠宰后, 取其背最长肌, 置于0~4 ℃的便携式冰箱运往实验室。 4 ℃条件下排酸处理24 h, 排酸完成后取出羊肉, 除去其脂肪和肌膜, 切成(3.0 cm× 2.0 cm× 1.0 cm)块状样本。 通过Kennard-Stone(KS)方法选取67个样本作为校正集, 其余23个样本作为验证集。

1.2 高光谱图像的采集

可见/近红外高光谱成像系统(400~1 000 nm, 125个波段), 主要由五部分组成: V10E-QE型高光谱成像光谱仪(芬兰Spectral Imaging Ltd公司); C8484-05G型CCD相机(日本Hamamatsu公司); DCR Ⅲ 型光纤卤素灯150 W(美国Schott公司); SC300-1A型电控位移平台(北京Zolix公司); 计算机(北京 Zolix公司)。

启动高光谱系统预热30 min后, 通过黑白校正来减少摄像头光源不均匀、 光敏单元本身响应错乱, 暗电流及偏置等因素对图像的影响[6]

1.3 理化指标测定

根据GB-5009.5— 2016《食品中蛋白质的测定》中凯氏定氮法测定冷鲜滩羊肉背最长肌中蛋白质含量。

1.4 Box-Behnken优化试验

为综合考察不同特征优选方法、 预处理方法及多元校正方法对蛋白质可见/近红外光谱模型定量分析的影响, 以特征优选(A)、 预处理(B)、 多元校正(C)为考察因素, 目标函数F为响应值评价指标, 如式(1)所示。 根据Design-Expert 8.0.6软件中Box-Behnken法设计响应面试验方案, 确定蛋白质含量的最佳光谱检测体系, 试验因素与水平设计见表1

F=100×R21+RMSEP(1)

表1 试验因素与水平表 Table 1 Factors and levels code
2 结果与讨论
2.1 一维光谱特征

图1为原始平均光谱图, 在400~570 nm波段范围内, 肉样光谱反射率较低, 在610~780 nm波段范围内, 肉样在橙红色区域反射率较强, 波谱吸收取决于物质分子基团的电子能级跃迁, 不同物质具有特定的吸收带。 在可见光区域, 观察到肉样在430, 540, 575, 758和971 nm波谷处有主要吸收带, 430 nm处的吸收带与肉样中血红蛋白化学键振动有关, 540和575 nm处的吸收带与脱氧肌红蛋白和氧合肌红蛋白有关, 758和971 nm处的吸收带由肉样水分中O— H基团的三倍和二倍频特征吸收所引起[7, 8]

图1 平均原始光谱曲线Fig.1 Original average reflectance spectrum

2.2 二维相关光谱谱图特征

二维相关光谱(two-dimensional correlation spectra, 2DCOS)将光谱信号扩展到第二维上增强了光谱分辨率, 从而使一维光谱中的弱峰和重叠峰更加清晰[9]。 采用二维相关光谱技术, 以蛋白质含量作为扰动条件, 解析光谱细微特征的变化, 寻找与微扰相关的特征信息。

样品的2DCOS同步谱及对应的三维立体图如图2所示。 二维相关同步谱图2(a)中存在自相关峰和交叉峰两类, 位于对角线上的峰为自相关峰, 由动态光谱信号自相关得到, 对角线外的交叉峰表示相应吸收峰之间的相关程度。 自相关峰的强度反映了不同波长下光谱信号随外部扰动的变化程度[10], 即对蛋白质含量变化的敏感程度。 由自相关谱图图2(c)可知, 波长473, 679, 734和814 nm 处存在较强的自相关峰, 说明该变量处光谱信号对外扰较敏感, 是本文所要寻找的与蛋白质相关的敏感变量。 在主对角线以外, (473, 679), (679, 734), (734, 814)和(473, 814) nm 处存在明显正交叉峰, 表明473, 679, 734和814 nm处吸收峰强度在扰动条件下同时同向变化, 来源相同。 结合二维相关分析, 本研究选择波长473~814 nm范围作为冷鲜滩羊肉蛋白质检测的研究区域。

图2 肉样二维VIS/NIR相关同步谱(a), 三维立体图(b), 自相关谱(c)Fig.2 (a) Two-dimensional correlation spectroscopy of samples, (b) 3D stereo plots, (c) Autocorrelation spectrum

2.3 预处理

基于所选特征波段, 分别采用MSC和SNV预处理方法来消除样品表面散射、 光程变化, 颗粒大小及分布不均匀产生的散射影响[11]。 经过MSC和SNV预处理后的光谱曲线如图3所示, 2种预处理方法均能有效抑制系统高频噪音的干扰、 提取有用信息、 消除光散射等噪音信号, 提高光谱分辨率和灵敏度。

图3 473~814 nm范围内原始光谱曲线及预处理后的光谱曲线Fig.3 Spectra of different pretreaments in the region of 473~814 nm

2.4 响应面优化

2.4.1 Box-Behnken试验设计及结果

为实现数据快速降维, 减少大量光谱数据处理负担, 消除特征变量间共线性影响, 提高模型运算速度, 采用CARS[12]和VCPA[13]算法对2DCOS范围内特征波段进行二次优选, 分别提取出16和9个特征波长。 然后利用表1所列的因素水平, 采用Box-Behnken设计思路, 确定蛋白质检测的可见/近红外光谱预测模型的最佳组合, 目标函数F为响应值, F值越大表明模型的性能越好, 表2为试验因素及水平的组合结果。

表2 Box-Behnken试验设计及结果 Table 2 Box-Behnken design and experimental results

2.4.2 显著性检验

利用软件Design Expert 8.0.6对表2的试验结果进行多元回归拟合, 得到回归模型方程为

Y=70.69+2.16A+1.31B+0.14C+0.86AB-0.19AC+0.059BC-2.59A2+0.42B2-4.84C2

模型方差分析结果见表3, 回归模型的决定系数(R2)为0.956 1, 说明其可信度较高, 调整决定系数( RAdj2)为0.899 7, 表明该模型89.97%响应值的变化可以被解释, p值小于0.01, 表明该回归模型极显著, 可用此模型预测特征优选方法、 预处理方法及多元校正方法对响应值F的影响。 方差分析表中的F值可反映出各因素对光谱定量检测模型预测精度的影响, F值越大, 影响越显著。 由表3可知, F(A)=30.29, F(B)=11.23, F(C)=0.12, 即各因素对蛋白质可见/近红外光谱模型预测精度的影响顺序为特征优选方法> 预处理方法> 多元校正方法。

表3 多元回归模型及方差分析 Table 3 Multiple regression model and analysis of variance

2.4.3 响应面分析

特征优选, 预处理和多元校正方法间交互作用的等高线及响应面图, 如图4所示。 响应面中水平方向投影的形状反映了建模条件交互作用是否明显, 等高线为椭圆形表示两因素交互作用显著, 圆形则表示交互作用不显著。 图4(a)沿A轴方向的响应曲面的坡度比较陡峭, 说明特征优选方法对蛋白质检测模型性能的影响最大, 但其与预处理方法交互作用不显著。 图4(b)等高线形状为椭圆形, 反映出特征优选方法和多元校正方法两因素交互作用明显。 如果响应面坡度比较平缓, 表明建模条件的变化对响应值的影响不大; 如果响应面坡度非常陡峭, 则表明模型性能对于建模条件的改变非常敏感, 图4(c)显示沿C轴方向的响应面坡度比B轴更为平缓, 说明预处理方法的变化对响应值的影响比多元校正方法的影响大。 该结论与方差分析结果一致: 即各因素对蛋白质可见/近红外光谱模型预测精度的影响顺序为特征优选方法> 预处理方法> 多元校正方法。

图4 建模条件交互作用的响应面图及等高线图
(a): 特征优选和预处理方法对模型性能的交互作用; (b): 特征优选和多元校正方法对模型性能的交互作用; (c): 预处理和多元校正方法对模型性能的交互作用
Fig.4 Response surface and contour map of the modeling conditions interaction
(a): The interaction of preprocessing and extraction method; (b): The interaction of extraction method and multivariate analysis; (c): The interaction of preprocessing and multivariate analysis

结合表2与图4的分析结果, 得到最佳建模组合为2DCOS-SNV-LSSVM。 模型相关系数(Rc/Rp)越接近于1, 均方根误差(RMSEC/RMSEP)越小, 则模型效果越好, 2DCOS-SNV-LSSVM模型的Rc=0.858 8, RMSEC=0.005 8; Rp=0.860 4, RMSEP=0.005 7, 模型具有较高的运行速率和预测能力。

3 结论

利用可见/近红外高光谱成像技术结合Box-Behnken法设计响应面试验, 建立了冷鲜滩羊肉蛋白质含量的高光谱定量分析模型。 研究结果如下:

(1)采用二维相关光谱技术, 以蛋白质含量作为扰动条件, 解析二维相关同步谱和自相关谱, 选择473~814 nm范围内特征波段作为冷鲜滩羊肉蛋白质检测的敏感区域。

(2)基于响应面试验设计, 各因素对蛋白质可见/近红外光谱模型预测精度的影响顺序为特征优选方法> 预处理方法> 多元校正方法, 优选出2DCOS-SNV-LSSVM模型具有较高的运行速率和预测能力, 其Rc=0.858 8, RMSEC=0.005 8; Rp=0.860 4, RMSEP=0.005 7。

(3)响应面试验设计综合考察定量检测模型建模条件的各种组合, 为今后针对不同分析对象的光谱分析模型的优化及提高预测结果的准确性等方面提供理论参考。

参考文献
[1] Balage J M, Amigo J M, Antonelo D S, et al. Meat Science, 2018, 143: 30. [本文引用:1]
[2] Ma J, Cheng J, Sun D, et al. LWT, 2019, 110: 338. [本文引用:1]
[3] Cheng W, Sun D, Pu H, et al. Journal of Food Engineering, 2019, 246: 200. [本文引用:1]
[4] Zheng X, Li Y, Wei W, et al. Meat Science, 2019, 149: 55. [本文引用:1]
[5] HUANG Liu-rong, CHEN Tian, ZHAO Yun-shu, et al(黄六容, 陈甜, 赵匀淑, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(12): 294. [本文引用:1]
[6] Guo T, Huang M, Zhu Q, et al. Journal of Food Engineering, 2018, 218: 61. [本文引用:1]
[7] Kamruzzaman M, Makino Y, Oshita S. Meat Science, 2016, 116: 110. [本文引用:1]
[8] Siedliska A, Baranowski P, Zubik M, et al. Postharvest Biology & Technology, 2018, 139: 115. [本文引用:1]
[9] WANG Wen-xiu, PENG Yan-kun, FANG Xiao-qian, et al(王文秀, 彭彦昆, 房晓倩, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(7): 2094. [本文引用:1]
[10] Cheng W, Sun D, Pu H, et al. Food Chemistry, 2018, 248: 119. [本文引用:1]
[11] Feng C, Makino Y, Yoshimura M, et al. Food Chemistry, 2018, 264: 419. [本文引用:1]
[12] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77. [本文引用:1]
[13] ZHAO Huan, HUAN Ke-wei, ZHENG Feng, et al(赵环, 宦克为, 郑峰, ). Journal of Changchun University of Science and Technology(长春理工大学学报), 2016, 39(5): 51. [本文引用:1]