饲料中粗脂肪和粗纤维含量的近红外光谱快速分析
郝勇, 吴文辉, 商庆园
华东交通大学机电与车辆工程学院, 江西 南昌 330013

作者简介: 郝 勇, 1978年生, 华东交通大学机电与车辆工程学院副教授 e-mail: haonm@163.com

摘要

采用近红外光谱(NIRS)结合偏最小二乘(PLS)方法, 实现对饲料中粗脂肪和粗纤维的快速定量分析。 采用Norris-Williams平滑求导(NW)和多元散射校正(MSC)方法对光谱进行预处理; 蒙特卡罗无信息变量消除法(MCUVE)、 变量组合集群分析法(VCPA)和区间变量迭代空间收缩法(iVISSA)用于光谱变量选择和优化; PLS用于光谱校正模型的建立, 采用校正集相关系数( Rc)、 交互验证均方根误差(RMSECV)、 预测集相关系数( Rp)和预测集均方根误差(RMSEP)评价模型。 光谱预处理中经MSC处理后的光谱模型优于其他预处理方法, 其RMSECV和RMSEP值都减小, Rc Rp值都增大。 脂肪定量分析中, 原始光谱模型的RMSECV和 Rc为0.21和0.87, RMSEP和 Rp为0.20和0.88, 变量数( Vn)为1 501; 经MCUVE方法选择变量后建立的定量模型, 其RMSECV和 Rc为0.17和0.92, RMSEP和 Rp为0.19和0.89, Vn为400个; 经VCPA选择变量建立PLS定量模型, 其RMSECV和 Rc为0.21和0.87, RMSEP和 Rp为0.25和0.81, Vn为12; 经iVISSA选择变量后的模型, 其RMSECV和 Rc为0.21和0.86, RMSEP和 Rp为0.20和0.87, Vn为20。 粗纤维定量分析中, 原始模型的RMSECV和 Rc为0.28和0.91, RMSEP和 Rp为0.25和0.95, Vn为1 501; 经MCUVE选择后的模型, 其RMSECV和 Rc为0.23和0.95, RMSEP和 Rp为0.23和0.94, Vn为740; 经VCPA选择变量后的模型, 其RMSECV和 Rc为0.27和0.91, RMSEP和 Rp为0.30和0.91, Vn为11; 经iVISSA选择后变量的模型, 其RMSECV和 Rc为0.29和0.90, RMSEP和 Rp为0.27和0.93, Vn为20。 结果表明, MSC方法可以有效提高光谱质量, 消除光谱平移误差; MCUVE变量选择方法可以简化模型提高模型精度和稳定性, 建立最优模型。 在粗脂肪的定量分析模型中, MSC处理后的光谱经过MCUVE选择后剩余400个变量, Rc Rp相较于全谱模型提高了0.05和0.01, RMSECV和RMSEP分别降低到了0.17和0.19; 经VCPA和iVISSA选择变量的模型其结果与全谱模型相似, 但其变量分别只有12和20个。 在粗纤维模型中, 经MCUVE选择后740个变量用于建立PLS模型, 其 Rc Rp为0.95和0.94, RMSECV和RMSEP分别为0.23和0.23; VCPA和iVISSA分别运用11和12个变量建立回归模型, 但结果都比MCUVE模型差。 利用饲料近红外光谱建立MSC-MCUVE-PLS模型可以有效对饲料粗脂肪和粗纤维进行定量分析。

关键词: 近红外光谱; 饲料; 蒙特卡罗无信息变量消除法; 变量组合集群分析法; 区间变量迭代空间收缩法
中图分类号:S816.2 文献标志码:A
The Research on Quantitative Analysis of Feed Crude Fat and Corase Fiber Based on Near Infrared Spectroscopy and Variables Selection Methods
HAO Yong, WU Wen-hui, SHANG Qing-yuan
School of Mechatronics & Vehicle Engineering, East China Jiaotong University, Nanchang 330013, China
Abstract

Near infrared spectroscopy (NIRS) combined with partial least squares (PLS) method was used to achieve rapid quantitative analysis of crude fat and corase fiber in feed. The norris-williams derivation (NW) and multiplicative scatter correction (MSC) methods were used to pretreat the spectrum, and the monte carlo based uninformative variable elimination (MCUVE), variables combination population analysis (VCPA) and interval variable iterative space shrinkage approach (iVISSA) were used to select and optimize the variables of the spectrum. PLS was used for the establishment of the spectral calibration model, and the parameters of calibration set correlation coefficient ( Rc), root mean square error of cross validation (RMSECV), prediction set correlation coefficient ( Rp) and root mean square error of prediction (RMSEP) were used to evaluate the models. Compared with other pretreatment methods, the RMSECV and RMSEP values of the spectral model after MSC treatment decreased, while the Rc and Rp values increased. In the crude fat quantitative analysis model, the RMSECV and Rc of the original spectral model were 0.21 and 0.87, RMSEP and Rp were 0.20 and 0.88, and the number of variables ( Vn) was 1501. After selecting variables by MCUVE method, RMSECV and Rc were 0.17 and 0.92, RMSEP and Rp were 0.19 and 0.89, and Vn was 400. For VCPA-PLS model, the RMSECV and Rc were 0.206 and 0.87, RMSEP and Rp were 0.25 and 0.81, and Vn was 12. For iVISSA-PLS model, the RMSECV and Rc were 0.21 and 0.86, RMSEP and Rp were 0.20 and 0.87, and Vn was 20. In the corase fiber model, the RMSECV and Rc of the original PLS model were 0.28 and 0.91, RMSEP and Rp were 0.23 and 0.95, and Vn was 1 501. After MCUVE selection, the RMSECV and Rc of the model were 0.23 and 0.95, RMSEP and Rp were 0.25 and 0.94, and Vn was 740. After VCPA selection, the RMSECV and Rc of the model were 0.27 and 0.91, RMSEP and Rp were 0.30 and 0.91, and Vn was 11. After iVISSA selection, the RMSECV and Rc of the model were 0.29 and 0.90, RMSEP and Rp were 0.27 and 0.93, and Vn was 20. The results showed that the MSC method could effectively improve the spectral quality and eliminate the spectral translation error; the MCUVE variable selection method could simplify the model to improve the model accuracy and stability, and establish the optimal model. In the crude fat quantitative analysis model, after the MSC-processed spectrum was selected by MCUVE, the remaining 400 were used to establish the PLS model, Rc and Rp were improved by 0.05 and 0.01 compared to the full-spectrum model, and the RMSECV and RMSEP were reduced to 0.17 and 0.19; The model selected by VCPA and iVISSA had almost the same result as the full-spectrum model, and its greatest feature was that only 12 and 20 variables were selected. In the corase fiber model, 740 variables selected by MCUVE were used to establish the PLS model with Rc and Rp of 0.95 and 0.94, RMSECV and RMSEP of 0.23 and 0.23, respectively; VCPA and iVISSA used 11 and 12 variables to establish the regression model, but its model results were all worse than the MCUVE model. The establishment of MSC-MCUVE-PLS quantitative analysis model using feed near-infrared spectroscopy could effectively quantify crude fat and corase fiber in feed.

Keyword: Near infrared spectroscopy (NIRS); Feed; Monte carlo based uninformative variable elimination (MCUVE); Variables combination population analysis (VCPA); Interval variable iterative space shrinkage approach (iVISSA)
引 言

饲料营养的精准配制不仅可以提高饲料的质量, 还可以节约成本。 粗脂肪和粗纤维是饲料主要成分, 其含量检测是饲料精准配制的重要环节, 传统的饲料成分方法为湿化学检测方法其灵敏度和精确度高, 但操作复杂、 检测时间长、 成本高。 近红外技术作为一种快速无污染的检测方法广泛应用于农业、 林业、 化工、 制药等行业。 如Sagrario Modrono等运用便携式光谱仪实现了饲料中蛋白质、 粗纤维和淀粉等组分的实时测定[1]; Patrica A.Harris等运用近红外光谱分析方法准确分析了马蹄草的营养成分[2]; Lusia Mandrile等运用近红外光谱进行饲料中虫类蛋白含量的检测等[3]

本文利用近红外光谱实现对饲料的粗脂肪和粗纤维的含量检测, 在利用近红外光谱建立含量分析回归模型前, 采用光谱预处理方法和变量选择方法来简化模型, 以提高模型分析精度。

1 实验部分
1.1 样本

收集了不同厂家不同时期生产的饲料样本325个, 包括乳猪饲料、 中猪饲料和大猪饲料。 在采集近红外光谱前先将样本利用高速万能粉碎机(FW135)粉碎, 过40目筛, 制成粉末状样本。 饲料的粗脂肪和粗纤维的实际含量按照国家标准GB/T 6433— 2006和GB/T 6434— 2006确定。

1.2 近红外光谱的采集

使用瑞士步琦公司NIR-Flex N-500傅里叶近红外光谱仪, 其波数范围为10 000~4 000 cm-1。 为了保证光谱仪的正常运行和所获光谱的一致性, 饲料样本的厚度统一为4 mm, 实验室温度为10~30 ℃, 湿度为30%RH~70%RH。 本文共获取352条饲料光谱, 每条光谱由1 501个变量组成。

1.3 近红外光谱预处理方法

建立饲料粗脂肪和粗纤维定量识别模型时, 352个样本光谱根据x-y联合距离划分样本集算法(sample set partitioning based on joint x-y distance, SPXY)按照2:1比例划分为校正集和预测集, 校正集有235个样本, 预测集含有117个样本[4]

为消除背景噪声的影响需要对原始光谱进行预处理。 常用的光谱预处理方法主要分为两大类: 光谱导数法和散射校正法, 其中Norris-Williams导数法(Norris-Williams derivation, NW)和多元散射校正法(multiplicative scatter correction, MSC)有较好的光谱预处理效果[5, 6]

1.4 近红外光谱变量选择方法

每条饲料的近红外光谱有1 501个变量, 其包含了饲料的全部信息。 变量选择方法通过选择有用变量去除冗余信息来简化模型, 提高模型精度。 变量选择方法有很多, 本文采用蒙特卡罗无信息变量消除法[7, 8, 9](Monte carlo based uninformative variable elimination, MCUVE)、 变量组合集群分析法[10, 11, 12](variables combination population analysis, VCPA)和区间变量迭代空间收缩法[13, 14](interval variable iterative space shrinkage approach, iVISSA)进行变量选择并比较结果, 从而确定最优的变量选择方法。

1.5 模型的评价

光谱经过预处理和变量选择后, 利用校正集样品建立饲料粗脂肪和粗纤维含量模型, 再利用预测集样品来对模型进行验证, 确定模型能否达到粗脂肪和粗纤维的含量分析要求。 采用校正集相关系数Rc、 预测集相关系数Rp、 交叉验证均方根误差RMSECV、 预测集均方根误差RMSEP等指标来评价模型的预测精度和稳健性[15, 16, 17]

2 结果与讨论
2.1 光谱预处理方法的结果分析

饲料中粗脂肪和粗纤维的实际含量统计信息如表1所示。

表1 饲料中粗脂肪和粗纤维含量统计表(单位: %) Table 1 Statistical table of crude fat and corasefiber content in feed (unit of content: %)

采用NW导数和MSC对光谱进行预处理。 其中NW导数包括平滑法(NW0th)、 一阶导数法(NW1st)和二阶导数法(NW2nd)三种方法, 同时还利用NW1st-MSC方法来进行预处理。 如表2所示为不同预处理方法的饲料粗脂肪和粗纤维含量模型结果。

表2 不同预处理方法的饲料粗脂肪和粗纤维含量模型结果 Table 2 The results of crude fat and corase fiber contents in feed with different pretreatment methods

通过表2可以看出, 相比与原始光谱的PLS模型, 经NW0th, NW1st和NW2nd三种方法处理后的模型都没起到明显的效果。 而MSC与NW1st-MSC方法对饲料噪声去除有明显效果, 对粗脂肪模型精度有明显的提升。 在粗脂肪模型中, 相比于NW1st-MSC方法, 单独使用MSC预处理方法能够更好的实现光谱的信息提取, 校正集的RMSECV由0.74下降到0.64, Rc由0.84提高到0.87。 在粗纤维模型中, MSC的RMSEP相比于未经处理的有着0.01的提升, 而RMSECV与Rc基本相同; NW1st-MSC处理后的效果与原始光谱模型一致。 因此, 针对饲料的粗脂肪和粗纤维含量分析的光谱预处理采用MSC方法。 图1为饲料的原始近红外光谱和经过MSC预处理后的光谱。 MSC修正了光谱间的相对基线平移和偏移, 使光谱更为紧密。

图1 饲料的近红外光谱与MSC预处理后的光谱Fig.1 Original NIRS of feed and spectra after pretreatment with MSC

2.2 饲料粗脂肪模型分析

饲料光谱经过MSC预处理后, 分别利用MCUVE, VCPA和iVISSA三种变量选择方法结合PLS建立饲料粗脂肪含量分析模型。 图2为不同变量选择方法的脂肪含量分析PLS模型校正和测试相关图。

图2 不同变量选择方法的饲料粗脂肪含量分析PLS模型校正和测试相关图
(a): 多元散射模型; (b): 多元散射蒙特卡罗模型; (c): 多元散射变量组合集群模型; (d): 多元散射区间变量迭代空间收缩模型
Fig.2 Calibration and test correlation diagrams of PLS model for quantitative analysis of feed fat content with different variable selection methods
(a): MSC-PLS; (b): MSC-MCUVE-PLS; (c): MSC-VCPA-PLS; (d): MSC-iVISSA-PLS

图2(a)为利用经过MSC预处理的光谱建立的PLS模型, 其校正集和测试集的回归直线基本重合, 相关系数RcRp分别为0.87和0.88。 模型的RMSECV和RMSEP分别为0.21和0.20。 图2(b)为MSC-MCUVE-PLS模型, 图中可以看出校正集与测试集相比与MSC-PLS模型分布更为紧密, Rc为0.92, RMSECV为0.17。 相比于全谱的模型其校正模型更为稳定, 精度更高。 同时, Rp相较于MSC-PLS模型提高了0.01, 且RMSEP降低了0.01, 变量数Vn为400, 大幅度降低。 图2(c)为MSC-VCPA-PLS模型, 在校正模型中Rc为0.87, RMSECV为0.21与全谱的PLS模型相同, 而Rp为0.81, RMSEP为0.25, 与MSC-PLS模型相比起预测结果相差较多。 Vn为12个, 小于全谱变量数和MCUVE筛选后的变量数。 图2(d)为MSC-iVISSA-PLS模型, 在此模型中Rc为0.86, RMSECV为0.21与全谱的校正集模型相同, 同时预测集的Rp为0.87, RMSEP为0.20且与全谱的预测值相同, Vn为20与VCPA选择的变量数近似。

通过图2可以看出三种变量选择方法中, 经MCUVE方法变量选择后, 其模型的各个参数都优于全谱模型。 经VCPA和iVISSA方法选择后都以极少的变量建立检测模型且与全谱模型几乎相同。 若精度要求不高时, 可以选择VCPA和iVISSA方法进行变量选择, 建立更简洁的模型; 若要提升精度, MCUVE则是最好的选择。

2.3 饲料粗纤维模型分析

如图3为经不同变量选择方法的粗纤维定量分析模型相关图。 图3(a)为经MSC预处理后由全谱1501个变量建立的PLS模型, 其校正集相关系数Rc为0.91, RMSECV为0.28, 在测试集中Rp为0.95, RMSEP为0.25。 图3(b)为经过MCUVE变量选择后的模型, 选择后剩余740个变量用于模型分析, 其RcRp分别为0.95和0.94, 较全谱模型的校正集Rc提高了0.04。 同时RMSECV为0.23, 较全谱模型降低了0.05, RMSEP降低了0.02, Vn为740, 由此可知MCUVE变量选择法有效地选择了有用变量, 提高了模型的精度。

图3 不同变量选择方法的饲料粗纤维含量分析PLS模型校正和测试相关图
(a): 多元散射模型; (b): 多元散射蒙特卡罗模型; (c): 多元散射变量组合集群模型; (d): 多元散射区间变量迭代空间收缩模型
Fig.3 Calibration and test correlation diagrams of PLS model for quantitative analysis of corase fiber content with different variable selection methods
(a): MSC-PLS; (b): MSC-MCUVE-PLS; (c): MSC-VCPA-PLS; (d): MSC-iVISSA-PLS

图3(c)为经过VCPA变量选择后建立的PLS模型, 由图可知, 经过VCPA选择了11个变量来建立模型, 相比与全谱和MCUVE方法, VCPA用极少的变量实现了几乎相同的结果, 其校正集Rc为0.91, RMSECV为0.27略好于全谱校正模型, 预测集Rp和RMSEP都差于全谱。 图3(d)为iVISSA变量选择后的饲料粗纤维检测模型, 模型的建立基于20个变量, 其Rc为0.90, RMSECV为0.29, Rp为0.93, RMSEP为0.27相比与全谱和MCUVE模型较差, 但较于VCPA模型更好。

对比三种变量选择方法, 可以看出MCUVE变量选择方法校正集模型参数优于全谱模型, 而预测集的参数与全谱预测集参数几乎一致, 因其变量数少于全谱, 则模型更为简洁。 利用VCPA和iVISSA进行变量选择后, 都剩余极少变量, 部分有用信息变量被剔除, 因而其模型参数较全谱都稍差一些, 其优点是模型简单。

3 结 论

近红外光谱分析方法用于饲料中粗脂肪和粗纤维的定量分析, 采用不同的光谱预处理方法和光谱变量选择方法对光谱模型进行优化。 结果表明, 在饲料粗脂肪定量分析中, MSC预处理方法结合MCUVE变量选择方法可以建立最优粗脂肪分析模型, 模型变量数由1 501降低到400, RMSEP和RMSECV分别降低为0.19和0.17, RpRc提高到0.89和0.92; 在饲料粗纤维定量分析中, 利用MSC预处理方法和MCUVE变量选择方法可以实现最优的粗纤维定量分析模型, 模型变量数为740, 模型的RMSEP和RMSECV分别为0.23和0.23, RpRc分别为0.94和0.95。 因此, 基于近红外光谱建立的MSC-MCUVE-PLS模型可以有效的进行饲料的粗脂肪和粗纤维的定量分析, 其精度高, 稳定性好且更简洁。

参考文献
[1] Sagrario M, Ana S, Adela MF, et al. Talanta, 2017, 162: 597. [本文引用:1]
[2] Patrica A H, Sarah N, Harry B C, et al. Journal of Equine Veterinary Science, 2018, 71: 13. [本文引用:1]
[3] Luisa M, Ilaria F, Giuseppina A, et al. Food Chemistry, 2018, 267: 240. [本文引用:1]
[4] Kelton S S, Anderson S S, Telma W L, et al. Journal of Computer Science, 2015, 11(4): 621. [本文引用:1]
[5] Hideyuki S, Junji M. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2018, 192: 236. [本文引用:1]
[6] Asmund R, Frans B, Soren B E. Trebds in Analytical Chemistry, 2009, 28(10): 1201. [本文引用:1]
[7] Li C, Zhao T L, Li C, et al. Food Chemistry, 2017, 221: 990. [本文引用:1]
[8] Liu X W, Cui X Y, Yu X M, et al. Chinese Chemical Letters, 2017, 28: 1447. [本文引用:1]
[9] WU Jing-zhu, WANG Feng-zhu, WANG Li-li, et al(吴静珠, 汪凤珠, 王丽丽, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(1): 99. [本文引用:1]
[10] Yun Y H, Wang W T, Deng B C, et al. Analytica Chimica Acta, 2015, 862: 14. [本文引用:1]
[11] Yang Y N, Xie F F, Yan B, et al. Chemometrics and Intelligent Laboratory Systems, 2017, 170: 102. [本文引用:1]
[12] ZHAO Huan, HUAN Ke-wei, ZHENG Feng, et al(赵环, 宦克为, 郑峰, ). Journal of Changchun University of Science and Technology(长春理工大学学报·自然科学版), 2016, 39(5): 51. [本文引用:1]
[13] Deng B C, Yun Y H, Liang Y Z, et al. Analyst, 2014, 139: 4836. [本文引用:1]
[14] Deng B C, Yun Y H, Ma P, et al. Analyst, 2015, 140: 1876. [本文引用:1]
[15] Ripoll G, Lobon S, Joy M. Meat Science, 2018, 143: 24. [本文引用:1]
[16] Fien D L, Elisabeth P, Hasna D, et al. Journal of Pharmaceutical and Biomedical Analysis, 2018, 151: 274. [本文引用:1]
[17] Pedro S S, Andreia S, Ana C, et al. Food Chemistry, 2018, 242: 196. [本文引用:1]