基于6 mm检测皿近红外测量光谱iPLS模型识别复原驼乳参伪水解动物蛋白的研究
苑柯岩1, 王嵘2, 王翔翔2, 薛莉娉2, 余丽2,*
1.呼和浩特市检验检测中心, 内蒙古 呼和浩特 010018
2.安徽建筑大学环境与能源工程学院, 安徽 合肥 230601
*通讯作者 e-mail: ronger@ahjzu.edu.cn

作者简介: 苑柯岩, 1990年生, 呼和浩特市检验检测中心硕士研究生 e-mail: syfmri@vip.163.com

摘要

驼乳因具较高的营养价值和独特的保健作用, 已逐渐成为广大消费者所信赖的保健乳制品。 由于驼乳产量小而其市场价值高, 为在驼乳中参杂参伪提供了利润上的操作空间。 随着国家对乳制品中非法添加三聚氰胺的严打态势进一步加强, 劣质水解动物蛋白以其高蛋白含量、 价格低廉和非法添加隐蔽性强等特点逐渐成为乳制品中参伪的新宠。 防范和打击驼乳中参伪劣质水解动物蛋白成为了消费者和驼乳产业从业人员共同面临的巨大挑战, 如何快速、 便捷、 低成本检测驼乳当中参伪动物水解蛋白成为亟待解决的问题。 随着近红外光谱分析技术的飞速发展, 其分析速度快、 成本低、 样品无需前处理、 操作简便等优点逐渐在石油化工、 食品、 农业、 医药等诸多领域得到广泛应用。 采用6 mm测样皿的近红外光谱仪对驼乳参伪不同含量的动物水解蛋白进行测量获得原始光谱矩阵, 采用一阶导数、 SNV、 SG卷积平滑法、 一阶导数+SG平滑法、 一阶导数+SNV、 SG+SNV等方法对原始光谱进行预处理, 以全光谱10个主成分回归模型为评价, 通过比较原始光谱在不做任何预处理为本体系建立iPLS模型最佳光谱。 通过调整主成分计算规模, 确定了最佳主成分计算规模为10个。 通过调整区间划分数量, 以其对应的模型的 R2和RMSECV值为评价标准, 最终确定了最佳区间划分数量为30。 通过实验和计算, 在7 887.87~7 590.87 cm-1区间得到了主成分数6, 相关系数0.945 1, RMSECV值0.200 1为驼乳掺伪水解动物蛋白最佳预测模型。 经内部交互验证, 该模型在本体系可以很好地预测复原驼乳中掺伪水解动物蛋白的情况, 为相关领域研究提供技术参考。

关键词: 近红外光谱; 间隔偏最小二乘法; 复原驼乳; 水解动物蛋白
中图分类号:O657.33 文献标志码:A
Identification and Restoration of Pseudo-Hydrolyzed Animal Protein of Lacteus Camelus Based on iPLS Model of Near-Infrared Measurement Spectrum of 6 mm Detection Plate
YUAN Ke-yan1, WANG Rong2, WANG Xiang-xiang2, XUE Li-ping2, YU Li2,*
1. Huhhot City Inspection and Testing Center, Huhhot 010018, China
2. School of Environment and Energy Engineering, Anhui Jianzhu University, Hefei 230601, China
*Corresponding author
Abstract

Camel milk has gradually become a health care dairy product trusted by consumers because of its high nutrition and unique health care effects. However, due to the small output of camel milk and its high market value, this provides a profitable operating space for the hybridization of camel milk. With the further strengthening of the state's crackdown on the illegal addition of melamine in dairy products, inferior hydrolyzed animal protein has gradually become a new favorite for counterfeiting in dairy products due to its high protein content, and low price and strong concealment of illegal addition. Preventing and cracking down on fake and inferior hydrolyzed animal protein in camel milk has become a huge challenge faced by consumers and practitioners in the camel milk industry. How to detect fake and low-cost animal hydrolyzed protein in camel milk has become an urgent problem to be developed. With the rapid development of near-infrared spectral analysis technology in the past ten years, near-infrared spectral analysis technology has gradually become widely used in many fields such as petrochemical, food, agriculture, medicine, etc. widely used. In this paper, the near-infrared spectrometer with a 6 mm sample dish was used to measure the animal hydrolyzed protein of camel milk ginseng with different contents to obtain the original spectral matrix. The original spectra were preprocessed by order derivative+SNV, SG+SNV and other methods, and the 10 principal component regression models of the global spectrum were used for evaluation. By adjusting the calculation scale of principal components, the optimal calculation scale of principal components is determined to be 10. By adjusting the number of interval divisions and using the R2 and RMSECV values of the corresponding model as evaluation criteria, the optimal number of interval divisions is finally determined to be 30. Through experiments and calculations, the principal component score of 6 was obtained in the range of 7 887.87~7 590.87 cm-1, the correlation coefficient was 0.945 1, and the RMSECV value was 0.200 1, was the best prediction model for camel milk adulterated hydrolyzed animal protein. After internal interactive verification, the modified model can well predict the situation of adulterated and hydrolyzed animal protein in recovered camel milk in this system, which can provide technical reference for research in related fields.

Keyword: Near-infrared spectroscopy; Interval partial least squares; Restored camel milk; Hydrolyzed animal protein
引言

驼乳含有免疫球蛋白、 乳铁蛋白、 溶菌酶等多种营养物质和特有的保健功能, 使其逐渐成为广大消费者所信赖的保健乳制品原料。 水解动物蛋白(HAP)以其较高的含氮量以及与驼乳同属动物氮源的特性, 可以作为提高驼乳及其制品的添加剂。 目前, 乳制品当中掺伪水解动物蛋白的定量检测主要采用高效液相法、 气相色谱法、 电泳法、 PCR技术、 免疫酶联法等检测技术[1]

近红外光谱(NIR)是指波长780~2 500 nm范围内的电磁波, 主要测量分子中含氢官能团X— H(X=C, N, O和S等)振动的倍频及合频吸收, 可检测乳制品中的蛋白质、 脂肪、 水分、 淀粉、 糖、 等成分[2]。 范瑞等采用1 mm测量皿对牛奶中掺伪水解动物蛋白的现象进行了偏最小二乘法的建模研究得到了相关系数为0.983定量预测模型[3]。 魏玉娟等[4]采用近红外光谱技术结合模式识别方法对液态奶中违法添加三聚氰胺进行快速检测, 采用PLS判别法结合近红外光谱技术对牛奶中三聚氰胺不同掺假量的快速识别研究, 所构建的偏最小二乘判别分析(partial least-square discriminant analysis, PLSDA)方法模型对三聚氰胺不同掺假量牛奶样品训练集和预测集的近红外原始光谱的识别正确率分别达到100%和90.32%。 Chen等[5]研究了采用近红外光谱和偏最小二乘法检测牛奶中三聚氰胺掺假的可行性。 本工作将近红外6 mm检测皿检测光谱结合间隔偏最小二乘法(iPLS)应用于复原驼乳中参伪水解动物蛋白的含量测定, 扩大了近红外光谱的应用范围, 同时为实现近红外光谱实现液态乳制品实时监测提供了相关实践经验。

1 实验部分
1.1 材料与样品

所用驼奶为所市售驼乳粉按照奶粉与水1:7溶解后制得的复原驼乳, 驼乳粉为新疆生产的“ 原始黄金” 品牌全脂驼乳粉, 水解动物蛋白是由泉州盛达食品添加剂有限公司生产的食品级水解动物蛋白粉。

1.2 参伪驼乳样品配置

按照表1信息精确称取水解动物蛋白于100 mL称量瓶内, 用配置好的复原驼乳定容到100 mL, 置于摇床室温振摇30 min, 确保水解动物蛋白完全溶解。

表1 实验样品配置情况 Table 1 The configuration of experimental samples
1.3 原始光谱的采集和样品集的划分

采用德国布鲁克光谱仪器公司生产的傅里叶近红外光谱仪(MPA)以空气为背景, 6 mm测量皿, 分辨率8 cm-1, 扫描次数为64, 检测器INGaAs, 波长范围: 10 000~4 000 cm-1同一样品在相同的条件下重复测定3次[6], 逐一采集样品并保存光谱点数据(dpt格式), 共采集样品光谱图数据129条。 取每个样品中间光谱, 即第二条光谱构成待测样品光谱矩阵, 得到43× 1 555原始光谱矩阵。 等距离选取矩阵中33份具有代表性的样品作为训练集, 其余10份样品作为验证集, 用于动物水解蛋白含量定量分析模型建立, 结果如表2所示。 验证集中水解动物蛋白含量在训练集含量范围内, 此训练集和验证集可用于定量分析模型的建立[7, 8, 9]

表2 训练集测试集情况 Table 2 Training set test set condition
2 结果与讨论
2.1 光谱数据预处理

将原始光谱矩阵在Origin软件中进行SG平滑和一阶导数的处理, 得到SG平滑光谱矩阵和一阶导数矩阵, 分别将原始、 SG平滑、 一阶导数光谱矩阵进行SNV处理分别得到原始SNV、 SG平滑SNV、 一阶导数SNV矩阵。

2.2 光谱预处理方法的选择

将6个光谱矩阵, 分别计算其主成分个数, 并以相应主成分建立全局光谱偏最小二乘法模型, 以校正均方差(RMSECV) 、 相关系数(r)为指标筛选建模方法。 由表3可知, 原始光谱在1个主成分情况下全局建模情况最好, 相关系数为0.854 4, RMSECV为0.322 0 ; SG法与原始光谱相差不大, 相关系数为0.849 1, RMSECV为0.326 0。 选择原始光谱矩阵进行iPLS模型的建立为最优。

表3 预处理方法全局建模参数 Table 3 Preprocessing method global modeling parameters
2.3 基于原始光谱矩阵iPLS模型的初步建立

参考文献[7, 8, 9], 对特征区间进行筛选建模, 计算步骤如下:

(1)计算全局光谱10个主成分的RMSECV值, 得到图1。 由图1可以看出全局主成分RMSECV的最小值为1, 选取1个主成分在全光谱范围内即全局波谱建立待测样品的偏最小二乘回归模型, 相关系数为0.877 3, RMSECV值0.297 7(见图2), 以此模型参数为参比。

图1 计算主成分RMSECV值Fig.1 Calculate RMSECV value of principal component

图2 全局1个主成分PLS回归曲线Fig.2 Global 1 principal component PLS regression curve

(2)将全光谱区域划分为多个等宽的子区间, 初步设定20个。 在每个子区间上计算主成分并进行偏最小二乘回归, 建立水解动物蛋白浓度的局部回归模型, 得到20个局部回归模型。 由图3可知, 8号区间RMSECV值低于全局值为0.208 1, 相关系数为0.941 3, 以此模型参数为区间调整参比标准。

图3 区间划分情况Fig.3 Interval division

2.4 建模间隔的调整

将区间间隔分别设置为15, 25, 30, 35和40建立iPLS模型, 相关参数记录于表4。 从表4可以看出, 在整个间隔波段选择过程中, 过于稀疏或过于密集的采样对于模型的建立产生较大影响, 相关性和精确度均下降并且未出现多个可用区间。 在区间划分数为30时, 出现最优子区间模型, 即12号, 其相关系数最高(0.945 1), 且RMSECV值最低(0.200 1), 见图4和图5。

表4 间隔划分参数情况表 Table 4 Table of interval partitioning parameters

图4 区间划分为30的区间选择情况Fig.4 Interval selection when interval is divided into 30

图5 第12区间模型回归情况Fig.5 Regression of the 12th interval model

3 结论

(1)通过计算全局光谱不同规模的主成分RMSECV值, 得出全局主成分规模为10个最佳, 在遇到建模主成分达到规模上限时再扩大主成分计算规模, 可以有效的减少模型冗余计算提高模型计算效率。

(2)通过不同方法预处理后的光谱矩阵全局偏最小二乘回归模型, 对比各模型预处理后的模型参数, 可知原始光谱矩阵不做任何预处理做iPLS建模为最佳。

(3)在对划分光谱区间数量的考察实验中, 发现区间数为30时能够将子区间确定在最佳范围即子区间为7 787.56~7 590.87 cm-1, 并建立本实验最优iPLS模型, 相关系数为0.945 1, RMSECV值为0.200 1。

采用间隔偏最小二乘法可以对6 mm检测皿近红外光谱实现特征提取, 并在该体系建立复原驼乳中掺伪动物水解蛋白快速定性表征和定量分析, 可以液态乳及液态乳制品中的掺伪行为提供新的分析鉴别思路和方法。

参考文献
[1] Bouhaddaou I S, Chabi R R, Errachid I F, et al. The Scientific World Journal, 2019, 2019: 2517293. [本文引用:1]
[2] RONG Han, GAN Lu-jing, WANG Lei(荣菡, 甘露菁, 王磊). China Condiment(中国调味品), 2019, 44(12): 144. [本文引用:1]
[3] FAN Rui, SUN Xiao-kai, YANG Chen, et al(范睿, 孙晓凯, 杨晨, ). Food Industry(食品工业), 2017, 38(16): 253. [本文引用:1]
[4] WEI Yu-juan, LI Lin, YANG Xiao-ya, et al(魏玉娟, 李琳, 杨笑亚, ). China Dairy Industry(中国乳品工业), 2016, 44(10): 48. [本文引用:1]
[5] Chen H, Tan C, Lin Z, et al. Spectrochim Acta A, 2017, 173: 832. [本文引用:1]
[6] ZHANG Hang, LIU Guo-hai, JIANG Hui, et al(张航, 刘国海, 江辉, ). Progress in Laser and Optoelectronics(激光与光电子学进展), 2017, (2): 314. [本文引用:1]
[7] Frimani P, De Luca S, Bucci R, et al. Food Control, 2019, 100: 292. [本文引用:2]
[8] Tejerina David, Contador Rebeca, Ortiz Alberto. Food Chemistry, 2021, 356: 129733. [本文引用:2]
[9] Chen Hui, Tan Chao, Lin Zan, et al. Computers in Biology and Medicine, 2013, 43(7): 865. [本文引用:2]