作者简介: 杨承恩, 1996年生, 吉林农业大学食药用菌教育部工程研究中心硕士研究生 e-mail: 928618077@qq.com
黑果腺肋花楸是富含多酚类物质的蔷薇科浆果。 多酚是黑果腺肋花楸的主要化学成分, 包括花青苷、 黄酮苷、 单宁等, 具有抗氧化、 抑菌、 抗肿瘤、 抗炎、 减肥及调节血糖、 血脂等药理活性。 黑果腺肋花楸现已进入新食品原料名单。 黑果腺肋花楸多酚含量与其功效价值关系密切, 因此黑果腺肋花楸多酚含量检测方法的完善对规范黑果腺肋花楸原料及产品市场至关重要。 现行检测方法操作繁琐、 用时长, 难以满足黑果腺肋花楸进入新食品原料名单后的产业发展需求, 亟待开发快速测定多酚含量的方法。 使用中红外光谱技术, 建立了一种黑果腺肋花楸多酚含量快速定量检测方法。 采集15个地区共750份黑果腺肋花楸红外光谱数据, 进行光谱解析并测量每份样品的多酚含量; 采用K-S样本划分法按4∶1的比例将样本划分为校正集和验证集; 对分组后的光谱信息进行多元散射校正(MSC)、 标准正态化(SNV)、 平滑(SG)、 一阶导数(FD)、 二阶导数(SD)等光谱预处理, 与原始光谱进行随机森林回归(RFR)建模预测效果对比, 确定最佳光谱预处理方法为MSC。 采用竞争性自适应重加权算法(CARS)和连续投影算法(SPA)选取黑果腺肋花楸多酚最优特征光谱波长, 将两种方法选取的光谱数据结合随机森林回归(RFR)、 偏最小二乘回归法(PLSR)、 极限学习机(ELM)、 支持向量机回归(SVR)进行建模对比, 确定最佳算法模型。 结果表明, CARS算法可有效减少红外光谱数据冗余, 提高模型预测的精确性与稳定性; CARS-RFR模型具有最佳预测性能, 其校正集 Rc为0.986 5, RMSEC为0.073 2, 验证集 Rp为0.974 3, RMSEP为0.100 6, RPD为6.235 6。 结果表明, 中红外光谱技术与化学计量学方法的结合, 特别是CARS-RFR模型能够高效、 快速、 准确地实现黑果腺肋花楸多酚含量的检测, 研究结果可为快速测定黑果腺肋花楸多酚含量提供技术支持。
Aronia melanocarpa (Michx.) Elliott. It is a berry from the Rosaceae Family rich in polyphenols, known as its main chemical components, including anthocyanins, flavonoid glycosides, tannins, etc., of A. melanocarpa. It has shown antioxidant, bacteriostatic, anti-tumor, anti-inflammatory, weight loss, glucose regulation, lipids, and other pharmacological activities. It has now been added to the list of new raw food materials. The polyphenol content of A. melanocarpa is closely related to its efficacy value. Therefore, improving their detection method is crucial to standardizing the raw material and product market from A. melanocarpa. However, the current detection method is cumbersome and time-consuming, and it is difficult to meet the industrial development needs of A. melanocarpa after it enters the list of new food raw materials. Thus, It is urgent to develop a method for rapidly determining polyphenol content. Mid-infrared spectroscopy established a rapid and quantitative determination method of polyphenol content in A. melanocarpa. The infrared spectral data of 750 samples from A. melanocarpa in 15 regions were collected for the spectral analysis, and the content of polyphenols in each sample was measured. The K-S sample division method was used to divide the sample into a correction set and verification set in the proportion of 4∶1. The grouped spectral information was pretreated by multiple scattering correction (MSC), standard normalization (SNV), smoothing (SG), first derivative (FD), second derivative (SD) and other spectral preprocessing methods. Compared with the original spectrum by random forest regression (RFR) modeling and prediction, the best spectral preprocessing method was determined as MSC. The competitive adaptive reweighting algorithm (CARS) and continuous projection algorithm (SPA) were used to select the optimal characteristic spectral wavelength of the polyphenols of A. melanocarpa. The spectral data selected by the two methods were combined with random forest regression (RFR), partial least squares regression (PLSR), limit learning machine (ELM), and support vector machine regression (SVR) for modeling and comparison to determine the optimal algorithm model. The results showed that the CARS algorithm can effectively reduce the redundancy of infrared spectral data and improve the accuracy and stability of model prediction. The CARS-RFR model had the best prediction performance. Its correction set Rc, RMSEC, verification set Rp, RMSEP, and RPD were 0.986 5, 0.073 2, 0.974 3, 0.100 6, and 6.235 6, respectively. The above results revealed that the combination of mid-infrared spectroscopy and chemometrics, especially the CARS-RFR model, can effectively, rapidly, and accurately detect the polyphenol content of A. melanocarpa. The research results can thus provide technical support for rapidly determining the polyphenol content of A. melanocarpa.
黑果腺肋花楸[Aronia melanocarpa (Michx.) Elliott.]称不老莓、 野樱莓, 是一种富含多酚类物质的蔷薇科浆果。 多酚是黑果腺肋花楸的主要化学成分, 包括花青苷、 黄酮苷、 单宁等, 具有抗氧化、 抑菌、 抗肿瘤、 抗炎、 减肥及调节血糖、 血脂等功效。 研究发现黑果腺肋花楸总多酚含量显著高于其他小浆果果实[1], 多酚也是黑果腺肋花楸中含量最高的小分子化合物[2]。 由于化学成分中含有大量酚羟基, 黑果腺肋花楸多酚含量与其抗氧化等生物活性关系密切, 多酚含量可以作为评价黑果腺肋花楸及其相关饮料、 保健食品等产品质量标准之一。 因此完善、 改进、 开发黑果腺肋花楸多酚含量检测方法, 对规范黑果腺肋花楸原料及产品市场至关重要。
目前总多酚含量的常用检测方法有Folin-Ciocalteu、 酒石酸亚铁法、 普鲁士蓝和高锰酸钾法等比色法; 比色法所检测样品必须先进行溶剂提取, 以溶液状态进行检测, 检测结果的准确性与样品浓度关系密切, 浓度太高或太低均不能获得准确结果; 检测结果受操作影响较大, 重复性不高。 为了合理开发利用黑果腺肋花楸资源, 需寻找一种操作简单、 高效且能准确预测黑果腺肋花楸多酚含量的方法。 中红外光谱(mid-infrared spectrum, MIR)是一种常用的有机物分子振动信息分析方法, 因大多数典型官能团的振动峰都位于中红外区, 波数范围为4 000~400 cm-1, 具有吸收强度大、 光谱信息易分析、 分子选择性较好等优点[3]。 近年来, 其常被用于石化、 药品、 食品等行业中[4]。 MIR在含量分析中的应用已有报道, Ahmed Waseem[5]等利用机器学习结合中红外光谱技术对新生儿呼吸窘迫生物标志物浓度进行研究, 能够有效预测样本标志物浓度, 开发了一种用于检测和量化任何具有可解释性中红外光谱的生物标志物的点对点装置; Mairead Campbell[6]等为找到快速测定褐藻营养价值的方法, 选择将近红外光谱和中红外光谱的数据分别结合偏最小二乘回归模型进行研究, 发现中红外光谱技术能够有效的测定褐藻营养价值中的粗蛋白成分; Tziolas Nikolaos[7]等通过可见近红外和中红外光谱结合机器学习技术快速评估洋葱废弃物中的花青素含量, 证明了利用无损光谱工具可实现对洋葱废弃物进行实时质量控制。
本研究对15个产区共750份黑果腺肋花楸样品进行多酚含量检测, 采集样品中红外光谱数据, 应用化学计量学方法建立数据模型, 以建立一种可快速、 准确检测黑果腺肋花楸多酚含量的方法, 为黑果腺肋花楸产业的健康、 快速发展提供技术支持。
Nicolet is10傅里叶变换红外光谱仪(美国赛默飞世尔科技有限公司), Thermo Evolution 300紫外-可见分光光度计(美国赛默飞世尔科技有限公司), XPR56DR/AC电子天平(瑞士梅特勒托利多科技有限公司, 天平感量值为0.01 mg), DKZ恒温水浴锅(上海一恒技术有限公司)。
福林酚、 没食子酸、 乙醇、 碳酸钠(国药集团化学试剂有限公司)。
收集黑龙江省七台河、 伊春、 双鸭山、 佳木斯等4市; 吉林省白山、 蛟河、 通化、 延边朝鲜族自治州等4市、 州; 辽宁省鞍山、 大连、 丹东、 锦州等4市; 河北省秦皇岛市、 河南省安阳市以及俄罗斯等15个地区的黑果腺肋花楸果实, 每个地区样品50份, 共750份。
黑果腺肋花楸果实冷冻干燥、 粉碎、 过200目筛, 于75 ℃恒温干燥箱内干燥。 分别精密称取1.8 mg样品, 加入190 mg溴化钾, 研磨均匀, 压片, 红外光谱仪扫描样品400~4 000 cm-1间红外光谱, 设定分辨率4 cm-1, 扫描次数16次, 重复3次取平均光谱。 光谱采集过程中, 保持室内温度24~25 ℃, 相对湿度33%~36%。
分别移取1 000 μ g· mL-1没食子酸储备液0、 1、 2、 3、 4和5 mL, 水定容至50 mL。 取200 μ L不同浓度的没食子酸标准溶液, 加1.5 mL Folin-Ciocalteu试剂混合, 并在20 ℃下静置3 min, 加10%碳酸钠溶液4 mL, 加水定容至10 mL, 混匀, 30 ℃反应60 min, 分光光度计于760 nm处测量吸光度, 绘制标准曲线。 将冷冻干燥、 粉碎过筛后的黑果腺肋花楸样品称重, 加60%乙醇溶液超声30 min, 过滤, 加60%乙醇定容至50 mL, 待用。 取200 μ L待测液, 加1.25 mL Folin-Ciocalteu试剂混合, 同上操作, 按式(1)计算总多酚含量。
样品中总多酚含量计算公式
式(1)中, X为试样中总多酚含量(%); V1为总体积(mL); V2为样液体积(mL); m为样品质量(g); m1为样液中总多酚(以没食子酸计)质量。
K-S(Kennard-stone)样本集划分法, 是一种寻找样本间分布规律, 选择具有样本全体代表性的校正集数据划分方法[8]。 K-S法按4∶ 1的校正集和验证集样品数量比例, 划分750份样品, 得校正集600个(不同地区黑果腺肋花楸样品各40份), 验证集150个(不同地区黑果腺肋花楸样品各10份)。 校正集与验证集样品多酚含量的分布情况如表1所示。
![]() | 表1 校正集与验证集样品多酚含量的分布情况 Table 1 Distribution of flavone and polysaccharide contents in samples of calibration set and validation set |
由于样品本身、 光散射与基线漂移等因素, 采集的光谱信息会出现随机偏差。 因此, 原始光谱需经过光谱预处理方法进行修正[9]。 在与原始光谱对比的基础上, 使用The Unscrambler X 10.4软件对所采集的原始光谱进行多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量变换(standard normal variable transformation, SNV)、 平滑(Savitzky-Golay, S-G)、 一阶导数(first derivative, FD)、 二阶导数(second derivative, SD)等处理。
采用连续投影算法(successive projections algorithm, SPA)和竞争性自适应重加权算法(competitive adaptive reweighed sampling, CARS)对最优预处理光谱数据进行特征波长点筛选。 SPA是一种采用矢量空间共线性最小化原则的光谱特征波长点筛选算法, 可以从冗长的光谱数据中提取出既具有代表性又冗余信息含量最少的特征波长[10]。 CARS参照达尔文的“ 适者生存” 理论, 结合偏最小二乘法(partial least squares, PLS)与蒙特卡洛采样的光谱特征信息提取方法, 通过减去权重小的波长点, 保留绝对值大的波长点, 找出交互验证均方根误差(root mean square error of cross validation, RMSECV)最低的子集, 从而选出最优变量组合[11]。
随机森林回归(random forest regression, RFR)是决策树结合bagging集成学习的数据回归预测算法。 其通过设置多棵互相独立的决策树组成决策森林, 对样本集进行随机有放回地抽样构建多个不同的校正集, 再由这些不同校正集分别构成决策树, 每一棵决策树都能建立自己的决策模型, 最后通过多个决策模型达到获得最优决策与避免模型过拟合的结果。 在RFR中, 回归树棵数与最大深度、 节点划分所需最小样本数、 叶子节点最少样本数等均对模型性能有着影响。 采用粒子群优化算法(particle swarm optimization, PSO)优秀的参数寻优能力对RFR模型进行最优参数寻找与设置, 从而保证RFR具有对数据集的适应能力强, 训练速度快, 实现简单, 精度高的特点。
以校正集决定系数(coefficient of determination of calibration set, Rc)、 验证集决定系数(coefficient of determination of prediction set, Rp)、 校正均方根误差(root mean square error of calibration, RMSEC)、 预测均方根误差(root mean squared error of prediction, RMSEP)和相对分析误差(residual predictive deviation, RPD)评价模型的预测能力, 其中Rc、 Rp越接近于1, RMSEC、 RMSEP越小和RPD> 2时, 表明模型预测效果越好。 当RPD< 1.5时, 模型无法对样本进行预测, 1.5< RPD< 2时, 模型能够对样本进行粗略的评估; RPD> 2时, 模型能够对样本进行极好的预测。
图1为黑果腺肋花楸样品的原始光谱图。 由图1(a, b)分析样品红外光谱图可知, 不同产地的样品在3 340 cm-1附近均存在羟基— OH键伸缩振动[12], 2 922 cm-1附近为亚甲基— CH3伸缩振动、 1 730 cm-1附近为脂类和酸类分子的C=O伸缩振动、 1 629 cm-1附近为共轭C=O伸缩振动, 1 614和1 515 cm-1为芳环骨架振动吸收峰, 这些特征峰与其含有的黄酮类物质花青素的结构吻合。 在1 415 cm-1处为C— O— H弯曲振动, 1 359 cm-1处为C— H弯曲振动, 1 230 cm-1附近为C— O伸缩振动[13], 1 050 cm-1附近为C— C伸缩振动, 890 cm-1附近为β -构型多糖特征吸收峰[14]。 样品的光谱曲线重叠严重, 但各地区样品吸收响应略有差异, 结合红外光谱丰富的化学成分信息[15], 给后续建模处理提供了条件。
采用随机森林回归算法(RFR)对不同预处理方法下的红外数据进行模型对比, 得不同预处理下多酚含量RFR模型的建模结果(表2)。 原始光谱数据建立模型如表2, 校正集Rc为0.807 8, RMSEC为0.276 1, 验证集Rp为0.821 8, RMSEP为0.272 7, RPD为2.369 1。 经不同方法进行预处理后, 除平滑预处理外, 其他预处理方法均对原始数据具有一定优化的效果。 其中MSC光谱预处理效果最好, 所建立的含量预测模型校正集Rc为0.933 9, RMSEC为0.161 8, 验证集Rp为0.912 5, RMSEP为0.191 1, RPD为3.381 3。 故将MSC预处另后的光谱作为样品最优预处理光谱, 后续分析均以MSC光谱为基础。
![]() | 表2 不同预处理下多酚含量RFR建模结果 Table 2 RFR modeling results of polyphenols content under different pretreatment |
2.3.1 CARS法提取特征波长
选用CARS算法对多酚含量对应红外光谱数据进行特征波长筛选, 设置蒙特卡罗采样次数为100, 单次采样比例为总数的70%, 波长筛选结果如图2。 图2(a)为挑选变量的过程, 当运行次数在1~41次之间, 特征波长数量迅速下降, 在41~100次之间下降缓慢。 图2(b)为RMSECV的变化趋势, 可知在第41次时筛选时RMSECV值为最低。 图2(c)中各波长变量回归系数的趋势, 红线所对应位置为RMSECV值最小即第41次采样。 遵循RMSECV值最小原则, 选择第41次采样获得的269个波长变量子集为最优波长变量数。
CARS选择的最优光谱波长区域为1 720~1 730、 1 478~1 489、 1 500~1 520、 1 400和1 022 cm-1。 其中1 720~1 730 cm-1表征C=O伸缩振动, 1 500~1 520 cm-1附近表征黄酮类物质花青素的特征区域, 1 400 cm-1表征C— O— H弯曲振动, 1 020 cm-1表征C— O伸缩振动。
2.3.2 SPA法提取特征波长
选用SPA算法对多酚含量相关的红外光谱数据进行特征波长筛选, 设定波长数为1~30, 计算不同特征波长数下的均方根误差, 如图3。 由图3(a)可知经过迭代后, 均方根误差最小值为0.441 7, 最终选取7个波长数作为最优波长数。 光谱选取波长变量如图3(b)所示。 这7个波长点所对应的特征波长分别为1 150、 1 320、 2 647、 2 729、 2 869、 4 622和5 240 cm-1, 其中1 320 cm-1表征C— H弯曲振动, 2 869 cm-1表征亚甲基— CH3伸缩振动等。
为找出最优性能的模型, 将经CARS, SPA分析处理后的红外光谱数据作为输入变量, 分别建立随机森林回归(RFR)、 偏最小二乘回归(partial least squares regression, PLSR)、 极限学习机(extreme learning machine, ELM)、 支持向量回归(support vector regression, SVR)的黑果腺肋花楸多酚含量预测模型。 在预测模型中, 不同参数的选择对模型预测准确度有着极大的影响。 使用Sigmoid函数作为ELM的激活函数, 径向基函数(radial basis function, RBF)作为支持向量机的核函数, 采用PSO寻优算法帮助4种模型寻找其最优参数(RFR的最佳决策树棵树, PLSR的PCA数量最佳选择, 极限学习机隐藏层神经元个数和SVM的最佳c, g)。 不同模型对多酚含量预测结果如表3, 最优模型结果如图4(a, b)。
![]() | 表3 不同模型对多酚含量的预测结果 Table 3 Prediction of polyphenols content by different models |
![]() | 图4 RFR模型的多酚含量预测结果 (a): 校正集; (b): 验证集Fig.4 Prediction results of polyphenol content of RFR model (a): Calibration set; (b): Verification set |
从表3可看出, CARS数据所建模型的平均RPD值为4.222 8, 高于SPA数据所建模型的平均RPD值3.026。 CARS-RFR、 CARS-PLSR、 CARS-SVR模型校正集Rc值高于0.933 9, CARS-RFR、 CARS-ELM、 CARS-PLSR、 CARS-SVR验证集的Rp值高于0.912 5, 仅有CARS-ELM模型校正集Rc值为0.930 3略低于0.933 9。 说明CARS算法能够有效提取黑果腺肋花楸光谱具有代表性的特征数据, 从而提高模型的稳定性及准确性。 从8个模型的校正集与验证集预测性能对比, CARS-RFR模型性能最佳(图4)。 其校正集的Rc为0.986 5, RMSEC为0.073 2, 验证集Rp为0.974 3, RMSEP为0.100 6, RPD为6.235 6。 因此选择CARS-RFR模型作为最优的黑果腺肋花楸多酚含量预测模型。
采用中红外光谱技术结合化学计量学方法对黑果腺肋花楸多酚含量进行定量检测。 结果表明, 不同产地黑果腺肋花楸红外光谱其吸收峰位置基本一致, 仅各地区样品红外吸收峰高低略有差异; CARS算法能够有效减少黑果腺肋花楸光谱数据冗余, 提高模型的预测性能; CARS-RFR模型为最优多酚含量预测模型, 其校正集Rc为0.986 5, RMSEC为0.073 2, 验证集Rp为0.974 3, RMSEP为0.100 6, RPD为6.235 6。 研究表明, CARS-RFR能够快速准确地对黑果腺肋花楸多酚含量进行定量检测, 为黑果腺肋花楸多酚类成分的快速、 准确分析提供了理论基础与技术支撑。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|