基于傅里叶变换红外光谱的平菇蛋白质、 多糖含量预测方法研究
苏玲1,2, 卜亚平1,2, 李媛媛2, 王琦1,2,*
1.吉林农业大学食药用菌教育部工程研究中心, 吉林 长春 130118
2.吉林农业大学植物保护学院, 吉林 长春 130118
*通讯作者 e-mail: q_wang2006@126.com

作者简介: 苏 玲, 女, 1982年生, 吉林农业大学食药用菌教育部工程研究中心博士研究生 e-mail: suling0648@163.com

摘要

平菇是我国大宗食用菌品种之一, 产量位居我国食用菌的第三位。 平菇不仅味道鲜美, 而且含有丰富优质的蛋白质及具有多种生物活性的平菇多糖, 深受消费者喜爱。 市场上的平菇产品众多, 质量参差不齐, 并且现有营养成分分析方法耗时长、 成本高, 难以满足平菇等大宗食用菌的营养成分检测需求。 傅里叶变换红外光谱(FTIR)技术具有检测速度快、 操作方便、 可同时分析多种化合物、 安全环保等特点, 将其与化学计量学结合, 构建数学模型, 能满足对平菇等大宗农产品营养成分的快速检测、 分析及评价。 以平菇为研究对象, 在全国范围内收集主栽平菇样品85份, 分别进行红外光谱扫描, 并运用多元散射校正(MSC)、 标准正态变换(SNV)、 正交信号校正(OSC)、 光滑加一阶导数(F-G D)、 光滑加二阶导数(S-G D)等5种光谱数据预处理方法, 通过比较模型验证集回归系数, 确定平菇蛋白质模型最佳预处理方式为OSC结合S-G D, 平菇多糖模型最佳预处理方式为OSC结合F-G D。 在最佳光谱预处理下, 采用LASSO算法对7458个光谱波段进行特征波段提取, 获得平菇蛋白质特征波数93个, 平菇多糖特征波数92个, 压缩率达到98%。 将特征波数与化学方法检测得到的平菇蛋白质、 多糖含量值进行拟合, 建立PLS模型。 结果显示, 蛋白质模型校正集回归系数 R2为0.999 8, RMSECV为0.047 7, 验证集回归系数 R2为0.987 2, RMSEP为0.506 8, RPD为8.840 6大于3; 多糖模型校正集回归系数 R2为0.999 9, RMSECV为0.020 1, 验证集回归系数 R2为0.980 3, RMSEP为0.292 9, RPD为7.119 8大于3, 模型拟合效果均较好, 预测能力及稳健性良好。 该研究为傅里叶变换红外光谱技术在食用菌营养成分含量快速预测方法的建立提供参考, 为平菇产品的营养品质评价的建立提供基础, 促进平菇乃至其他食用菌产品的优质化发展。

关键词: 平菇; 傅里叶变换红外光谱; 化学计量学; 含量预测
中图分类号:TP391.41 文献标志码:A
Study on the Prediction Method of Pleurotus Ostreatus Protein and Polysaccharide Content Based on Fourier Transform Infrared Spectroscopy
SU Ling1,2, BU Ya-ping1,2, LI Yuan-yuan2, WANG Qi1,2,*
1. Engineering Research Center of Edible and Medicinal Fungi, Ministry of Education, Jilin Agricultural University, Changchun 130118, China
2. College of Plant Protection, Jilin Agricultural University, Changchun 130118, China
*Corresponding author
Abstract

Pleurotus ostreatus is one of the wide varieties of edible fungus, ranking third for its yield in China. Except for its delicious taste, appreciated by consumers, it is known to be rich in high-quality protein and polysaccharides with various biological activities. However, there are different kinds of P. ostreatus following their quality, and the existing nutrient composition analysis methods are time-consuming and high in composition. It is difficult to meet the requirements of the detection of their nutrient composition, as well as for other edible fungi. Fourier Translation Infrared Spectroscopy (FTIR) technology, characterized by high-speed detection, convenient technique, simultaneous analysis of multiple compounds, and safe and environmental protection, was thus used combined with stoichiometry to develop mathematical models, to assess those nutrient compounds. Therefore,the infrared spectra of 85 samples from P. ostreatusas fruiting bodies collected nationwide were determined. 5 kinds of spectral data pretreatment methods, multiple scatter correction (MSC), standard normal transformation (SNV), orthogonal signal correction (OSC), smooth plus first derivative (F-GD), and smooth plus second derivative (S-GD) were used. Following the model of the validation set regression coefficients, OSC combined with S-GD, and OSC combined with F-GD were the best pretreatment methods for the fruiting body protein and polysaccharide models. Under the optimal spectral pretreatment, 7 458 spectral bands were extracted by the LASSO algorithm, and 93 characteristic wavenumbers of protein and 92 for polysaccharides were obtained, with a compression rate of 98%. PLS model was established by fitting the characteristic wavenumbers with the protein and polysaccharide contents of P. ostreatus fruiting bodies detected by chemical method. The results showed that, for the protein model, the R2 regression coefficient of the calibration set was 0.999 8, RMSECV was 0.047 7, the R2 regression coefficientof the validation set was 0.987 2, RMSEP was 0.506 8, and RPD was 8.840 6 greater than 3, while for polysaccharides model, The R2 regression coefficient of calibration set was 0.999 9, RMSECV was 0.020 1, the R2 regression coefficient of validation set was 0.980 3, RMSEP was 0.292 9, and RPD was 7.119 8 greater than 3. The models thus had good predictive ability and robustness. This research provides a practical reference to determine a high-speed detection method for the nutrient content ofedible fungi by FTIR, a foundation to establish a nutritional quality evaluation for P.ostreatus and the promotion of their high-quality development, even for other edible fungi.

Keyword: Pleurotus ostreatus; Fourier transform infrared spectroscopy; Stoichiometry; Content prediction
引言

平菇[Pleurotus ostreatus(Fr.)Kummer]是全球商业栽培的五大食用菌品种之一[1]。 截止到2018年, 我国平菇产量增长至642.82万吨, 跃居国内食用菌总产量的第三位[2, 3]。 平菇不仅味道鲜美, 而且含有碳水化合物、 蛋白质、 脂肪、 维生素、 矿物质、 膳食纤维等多种营养成分。 平菇中的蛋白质含量高达36.4%, 由赖氨酸、 苏氨酸、 缬氨酸等多种必需氨基酸组成, 是难得的优质蛋白[4]; 研究发现平菇多糖具有免疫调节、 抗肿瘤、 抗疲劳等生物活性, 是平价的健康食品。 近年来平菇备受生产及消费市场的青睐, 产业不断壮大, 市场上的产品种类繁多。 平菇的商品性状及营养品质与其栽培过程中使用的菌种品种、 栽培基质、 栽培方法等因素有关, 不同的生产方式栽培的平菇营养成分含量差异显著[5]。 目前现行的质量标准并没有对平菇的营养成分进行限量要求, 仅以颜色、 形状、 大小等感官指标对平菇进行等级划分。 对营养成分的检测方法目前以化学分析方法为主, 化学分析方法虽然检测准确, 但是存在逐项检测分析耗时长、 成本高、 需要专业技术人员操作等缺点, 需要开发检测时间短、 方法简便, 且可实现多种成分同时检测的方法, 以满足平菇等大宗农产品在营养成分检测及品质评价中的需求。

傅里叶变换红外光谱(Fourier translation infrared spectroscopy, FTIR)技术具有检测速度快、 操作方便、 可同时分析多种化合物、 安全环保等特点, 因具有指纹性可以快速的找到相关官能团的信息, 其对目标化合物进行定性分析和定量预测, 将其与化学计量学结合, 进行数学建模, 可实现对大宗农产品营养成分快速检测的技术开发。 虽然目前此项技术尚未在平菇的营养成分含量检测等方面进行研究及应用, 但是已在其他农林、 食品领域进行了研究。 苗晨等人利用红外光谱技术对东北次生林叶片的全氮含量进行预测[6]; 赵润等采用红外光谱结合数学建模对规模化奶牛场粪水总氮快速预测[7]; 何云啸等基于偏最小二乘回归分析(PLSR)与红外光谱技术对冻干过程诺丽果粉的水分含量进行预测[8]等。 本研究为了实现对平菇蛋白质、 多糖含量的快速检测, 以平菇为研究对象, 扫描红外光谱, 将其与化学方法测得的含量拟合, 在优化光谱预处理方法的基础上, 采用LASSO算法筛选平菇蛋白质、 多糖的特征波段, 建立平菇中蛋白质、 多糖含量预测模型, 为傅里叶变换红外光谱技术在食用菌营养成分含量快速检测方面的应用研究提供参考。

1 实验部分
1.1 材料

平菇由国家食用菌产业技术体系牡丹江、 延吉、 沈阳、 北京、 唐山、 郑州、 驻马店、 武汉、 随州、 济南、 泰安、 杭州、 丽水、 福州、 漳州、 南昌、 拉萨、 昆明、 新疆等综合试验站提供, 共收集黑龙江、 吉林、 辽宁、 北京、 河北、 河南、 湖北、 山东、 浙江、 福建、 江西、 西藏、 云南、 新疆等14个省份和直辖市的85份样品。 将平菇去除杂质, 干燥, 粉碎, 过200目筛, 样品粉末真空密封, 于低温干燥处保存。

1.2 仪器

NicoletiS10 傅里叶变换红外光谱仪(美国Thermo Scientific), 便携式HY-12型压片机(天津天光光学仪器有限公司), GENESYS 10S UV-Yis紫外可见分光光度计(美国Thermo Scientific), K-375型凯氏定氮仪(瑞士BUCHI), CS-700高速多功能粉碎机(武义海纳电器有限公司), 200目不锈钢筛等。

数据采用Omnic v8.2光谱采集软件、 The Unscrambler X 10.4、 matlab2014b、 origin2019b、 python3.7数据处理软件进行处理。

1.3 数据采集

分别将平菇粉末及溴化钾置于恒温干燥箱中脱水至恒重。 分别精确称量1.8 mg平菇干粉和190 mg溴化钾放入玛瑙研钵中混合研磨, 压片, 使用Omnic v8.2软件采集平菇中红外光谱数据。 波数范围4 000~400 cm-1, 分辨率为4 cm-1, 扫描次数为16次, 每个样本重复扫描3次, 取平均光谱。 溴化钾压片扣除背景。 光谱采集过程中, 保持室内温度为25 ℃, 相对湿度为80%。

1.4 蛋白质含量测定

1.4.1 试样处理

采用凯氏定氮法。 称量平菇干粉0.2 g, 放置于定氮瓶中, 依次加入硫酸铜0.2 g、 硫酸钾6 g及硫酸20 mL, 轻摇后于瓶口放一小漏斗, 放于高温消解炉上, 加热, 待内容物完全炭化, 瓶内液体轻微沸腾并呈现蓝绿色澄清, 继续加热0.5 h, 放置室温冷却。 样品检测过程中, 设置试剂空白组做空白对照。

1.4.2 平菇干粉样品检测

于接收瓶中依次加入硼酸溶液10.0 mL及甲基红乙醇溶液与溴甲酚绿乙醇溶液的混合溶液2滴, 冷凝管下端口调整至溶液液面以下, 定氮仪检测。 盐酸标准滴定液滴定液体颜色由酒红色变为绿色。 样品检测过程中, 设置试剂空白组做空白对照。

1.5 多糖含量测定

1.5.1 样品处理

准确称量0.25 g平菇干粉样品置于250 mL锥形瓶中, 加纯净水50 mL和盐酸50 mL, 冷凝回流3 h。 室温冷却, 过滤并洗涤滤渣, 滤液及洗涤液合并后定容至250 mL, 所得溶液为待检测样品溶液。

1.5.2 葡萄糖标准曲线的绘制

准确量取不同体积标准葡萄糖溶液分别置于10 mL容量瓶, 纯净水定容。 准确量取上述标准葡萄糖溶液1 mL于具塞比色管中, 加入1 mL苯酚溶液, 摇匀, 再分别加入浓硫酸5 mL, 摇匀混合, 室温反应30 min。 设置分光光度计于λ 490 nm, 测定吸光度值, 计算回归方程。

1.5.3 样品检测

准确量取1 mL待测液于具塞比色管中, 加入1 mL苯酚溶液, 摇匀, 再分别加入浓硫酸5 mL, 摇匀混合, 室温反应30 min。 设置分光光度计于λ 490 nm, 测定吸光度值, 依据回归方程计算多糖含量。

1.6 含量预测模型建立及评价

1.6.1 数据预处理

扫描得到的红外光谱包含了背景噪声、 仪器噪声以及环境噪声等诸多干扰, 并且红外光谱严重存在的重叠峰, 造成分析困难。 需要对原始红外光谱进行适当的预处理, 以消除噪声干扰、 提取特征变量、 优化光谱范围以减弱或消除各种因素对光谱的影响, 为建立模型奠定基础。 数据预处理方法主要有多元散射校正(multiplicative scatter correction, MSC)、 标准正态变换(standard normal variate transformation, SNV)、 正交信号校正(orthogonal signal correction, OSC)、 光滑加一阶导数(F-G D(1nd, 2.5))、 光滑加二阶导数(S-G D(2nd, 2.5))等, 用以上五种方法进行单独处理, 筛选最优的2种方法进行组合处理, 确定最佳光谱预处理方法[9]

1.6.2 训练集和预测集划分

在模型的建立过程中校正集和验证集的选择对于模型的预测能力起到至关重要的作用, 校正集要具有较好的代表性, 防止校正集中自变量的范围不能覆盖验证集中自变量范围的情况出现, 因此利用联合x-y距离的样本集划分(Sample set partiitioning based on joint x-y distance, SPXY)方法对样本进行距离计算[10]

1.6.3 LASSO光谱特征数据选择

最小绝对收缩和选择算法(LASSO)不仅能够对全光谱数据进行筛选, 降低输入特征的数目, 以提高建模速度减少光谱信息重叠; 而且通过增加范式函数, 调整参数降低模型的复杂程度可获得有效避免过度拟合的效果[11, 12]。 在线性回归模型的普通最小二乘基础上加入惩罚函数, 具体表示为

$\underset{\beta }{\mathop{\text{min}}}\,-\overset{n}{\mathop{\underset{i=1}{\mathop \sum }\,}}\,{{y}_{i}}\text{ln}\left[ \Lambda \left( x_{i}^{t}\beta \right)\left] -\text{ }\!\!~\!\!\text{ }\overset{n}{\mathop{\underset{i=1}{\mathop \sum }\,}}\,\left( 1-{{y}_{i}} \right)\text{ln} \right[1-\Lambda \left( x_{i}^{t}\beta \right) \right]+\lambda \|\beta {{\|}_{1}}$

其中λ > 0为调整参数, 其大小通过交叉验证或者基于信息准则模型确定, λ 越大对变量较多的线性模型的惩罚力度就越大, 从而最终获得一个变量较少的模型。 采用10次交叉验证的方法对LASSO算法进行训练, 从而寻找最优λ , 最终得到最有效的特征波段。

1.6.4 模型建立及评价

将最优预处理条件下提取的特征波段作为输入变量与化学分析法测定的蛋白质及多糖含量结合, 采用偏最小二乘回归法(PLS)构建校正模型。 以验证集的回归系数(R2)、 校正均方根误差(RMSECV)、 预测均方根误差(RMSEP)和相对分析误差(RPD)评价模型预测能力, 其中R2越接近于1, RMSEC与RMSEP越小, RPD> 3时, 模型具有良好的预测性能、 稳健性好[13]

2 结果与讨论
2.1 红外光谱分析

不同来源的平菇红外光谱图显示, 平菇共有20个明显的吸收峰, 其中1 655, 1 651, 1 574, 1 557, 1 404, 1 241, 1 204, 1 079, 1 031, 995和943 cm-1附近是平菇蛋白质主要识别峰, 3 350, 2 929, 1 150和576 cm-1附近是平菇多糖主要识别峰[14](图1)。 不同来源的平菇红外光谱走向及出峰位置基本一致, 无显著差异; 但是, 吸收峰的响应值差异明显。 结果说明, 不同来源的平菇营养成分化学组成相同, 但是同一营养成分在不同来源的平菇中含量存在差异, 为建立定量预测模型提供了理论依据。

图1 平菇的红外光谱图Fig.1 FTIR of fruting bodies of Pleurotus ostreatus

2.2 模型的建立

2.2.1 校正集和验证集的划分

采用SPXY算法对85份平菇样本的变量X和变量Y进行距离计算, 将计算结果按3∶ 1的比例划分为校正集和验证集, 即用于构建模型的样本64个, 验证集样本21个。 表1所示结果表明, 采用SPXY算法筛选出的校正集样本具有代表性, 其自变量的变化范围可以覆盖验证集自变量的变化范围, 不会出现验证集数据无法外推而造成的模型预测能力低的情况。

表1 平菇蛋白质和多糖含量样本划分 Table 1 Division of protein and total polysaccharides from Pleurotus ostreatus
2.3 最优预处理方法的确定

光谱预处理可以优化光谱范围、 消除噪音干扰, 是弥补光谱缺陷的有力工具, 然而不同预处理方式对光谱不同波段的强弱化能力不同, 因此需要进行光谱预处理方法的筛选。 采用单一或组合预处理方法从光谱中提取与平菇蛋白质、 多糖相关的信息, 对比回归系数R2和相对分析误差确定最优预处理方法, 为避免数据过于密集, 最优预处理方法对比仅显示识别率最高的前7个结果。 表2表3所示结果表明, 平菇蛋白质含量检测的红外光谱最佳预处理方法为OSC with S-G D(2nd, 2.5); 而平菇多糖含量检测的红外光谱最佳预处理方法为OSC with F-G D(1nd, 2.5)。

表2 不同光谱预处理对蛋白质模型的影响 Table 2 Results of Protein model with different spectral pretreatment methods
表3 不同光谱预处理对多糖模型的影响 Table 3 Results of total polysaccharidess model with different spectral pretreatment methods
2.4 基于LASSO特征筛选的PLS预测模型构建

经光谱预处理后, 光谱平滑、 特征峰明显, 且隐藏的重叠峰最大限度被分离出来。 但是, 由于光谱存在7 458个光谱波段, 数据量大、 数据没有代表性, 导致模型过拟合或欠拟合的情况, 模型的准确度和预测性能偏低。 因此, 采用LASSO算法将最优预处理条件下的光谱数据进行特征波段筛选。 λ 参数通过10次交叉验证, 筛选蛋白质含量预测特征波数93个, 多糖含量预测特征波数段92个, 光谱数据点均从7 458个下降到100个以下, 压缩率达到98%, 大大降低了模型的复杂度。 具体主要特征波数及其所对应与官能团分析, 见表4。 目前, 傅里叶变换红外光谱技术在食用菌营养成分定量预测方面的研究报道较少, 并且尚未有将此项技术应用于平菇营养成分含量预测的报道。 仅有朱哲燕等运用红外光谱技术, 采用连续投影算法(SPA)进行特征变量筛选, 建立香菇中蛋白质含量预测模型的验证集回归系数为0.899 5[15]。 本研究所建立的平菇蛋白质含量预测模型的回归系数为0.987 2, 明显优于已报道的结果。

表4 选择特征波数的主要官能团信息 Table 4 Main functional group information for selecting characteristic wave number

将LASSO算法筛选的特征波段作为输入变量结合化学分析法测定的蛋白质含量及多糖含量建立PLSR定量预测模型(表5)。 蛋白质模型验证集回归系数为0.987 2, RPD为8.840 6(图2); 多糖模型验证集回归系数为0.980 3, RPD为7.119 8(图3)。 结果表明, LASSO算法选择的特征变量可以代替原始光谱进行建模, 并且与全光谱建模相比所建模型建模速度快, 预测性能较好。

表5 PLS模型构建 Table 5 PLS Model construction

图2 平菇蛋白质模型Fig.2 Protein model of Pleurotus ostreatus

图3 平菇多糖模型Fig.3 Total polysaccharidess model of Pleurotus ostreatus

3 结论

基于傅里叶变换红外光谱技术和LASSO特征筛选算法, 建立了平菇蛋白质和多糖含量定量预测方法。 以85份平菇红外光谱数据为研究对象, 经过光谱预处理, 并划分校正集和验证集, 筛选特征光谱波数, 建立数学模型。 确定平菇蛋白质含量检测模型为采用OSC结合二阶导数进行光谱预处理, 将LASSO特征筛选算法提取出的93个特征波段作为输入变量构建PLS模型, 验证集回归系数为0.987 2, RPD为8.840 6。 确定平菇多糖含量检测模型为采用OSC结合一阶导数进行光谱预处理, 采用LASSO特征筛选算法提取出的92个特征波段作为输入变量构建PLS模型, 验证集回归系数为0.980 3, RPD为7.119 8。 LASSO特征选择算法可以有效挑选出特征波段, 所建模型预测效果优于全光谱建模模型, 多糖及蛋白质的模型拟合效果较好, 预测能力及稳健性良好, 说明应用傅里叶变换红外光谱结合化学计量学的方法可以实现对平菇蛋白质、 多糖含量的定量预测, 具有应用于平菇营养品质快速评价的前景。

参考文献
[1] HE Wang-xing, LI Yan-sheng, SHI Xu-ping, et al(贺望兴, 李延升, 石旭平, ). Edible Fungi of China(中国食用菌), 2021, 40(1): 153. [本文引用:1]
[2] RAO Yi-ping, CHEN Jie-hui, ZHANG Bing-na, et al(饶毅萍, 陈洁辉, 张冰娜, ). Journal of Biology(生物学杂志), 2011, 28(3): 94. [本文引用:1]
[3] Cauli O, Rodrigo R, Lansola M, et al. Metabolic Brain Disease, 2009, 24(1): 69. [本文引用:1]
[4] LAI Shan-shan, CHEN Yu-qing, LIU Yuan-yuan, et al(赖姗姗, 陈玉青, 刘媛媛, ). Journal of Food Safety & Quality(食品安全质量检测学报), 2018, 9(7): 1619. [本文引用:1]
[5] LONG Rui, SU Ling, WANG Qi(龙瑞, 苏玲, 王琦). Edible Fungi of China(中国食用菌), 2020, 39(5): 43. [本文引用:1]
[6] MIAO Chen, XU Shuang, ZHANG Jin-xin, et al(苗晨, 徐爽, 张金鑫, ). Chinese Journal of Ecology(生态学杂志), 2019, 38(12): 3864. [本文引用:1]
[7] ZHAO Run, YANG Ren-jie, MOU Mei-rui, et al(赵润, 杨仁杰, 牟美睿, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2019, 35(15): 217. [本文引用:1]
[8] HE Yun-xiao, ZHANG Xiao-qing, ZHANG Yang, et al(何云啸, 张晓青, 张阳, ). Food & Machinery(食品与机械), 2017, 33(10): 56. [本文引用:1]
[9] ZHAO Si-meng, YU Hong-wei, GAO Guan-yong, et al(赵思梦, 于宏威, 高冠勇, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(3): 912. [本文引用:1]
[10] MEN Chang-qian, MENG Xiao-chao, JIANG Gao-xia, et al(门昌骞, 孟晓超, 姜高霞, ). Journal of Chinese Computer Systems(小型微型计算机系统), 2021, 42(9): 1865. [本文引用:1]
[11] LI Yi, ZHANG Ben-hui, GUO Yu-yan, etal(李翼, 张本慧, 郭宇燕, ). Statistics & Decision(统计与决策), 2021, 37(13): 45. [本文引用:1]
[12] XU Yun-juan, LUO You-xi(许赟娟, 罗幼喜). Statistics & Decision(统计与决策), 2021, 37(4): 31. [本文引用:1]
[13] HE Gang, ZHU Shu-zhen, GU Hai-feng(贺刚, 朱淑珍, 顾海峰). Statistics & Decision(统计与决策), 2018, 34(17): 149. [本文引用:1]
[14] WENG Shi-fu, XU Yi-zhuang(翁诗甫, 徐怡庄). Fourier Transform Infrared Spectroscopy(傅里叶变换红外光谱分析). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2021, 287. [本文引用:1]
[15] GUO Song, CHANG Qing-rui, CUI Xiao-tao, et al(郭松, 常庆瑞, 崔小涛, ). Journal of Northeast Agricultural University(东北农业大学学报), 2021, 52(8): 79. [本文引用:1]