作者简介: 吴永清, 女, 1990年生, 韶关学院生物与农业学院专任教师 e-mail: 15915839572@163.com
面粉吸水率是评价面粉质量和预测面制品加工特性的重要品质性状。 面粉吸水率的测定主要参照国际或国家标准利用粉质仪进行, 其测定方法费时费力。 基于此, 提出利用可见近红外光谱分析技术结合多元统计分析进行面粉吸水率快速、 无损检测。 参照国标法测定150份小麦面粉样品的吸水率, 面粉吸水率变幅为53.10%~74.50%。 利用可见近红外分析仪采集面粉样品的光谱信息, 有效光谱范围为570~1 100 nm。 采用偏最小二乘回归(PLSR)、 主成分回归(PCR)和支持向量机回归(SVR)将光谱信息和面粉吸水率进行关联, 分别建立面粉吸水率的定量分析预测模型, 筛选最优的建模方法。 在优选的建模方法的基础上, 采用竞争性自适应重加权(CARS)、 区间随机蛙跳(iRF)、 迭代保留信息变量(IRIV)和连续投影(SPA)算法提取特征波长, 筛选最优的特征波长提取算法。 基于最优的建模方法和最优的特征波长提取算法提取的特征波长, 采用标准化(NL)、 一阶求导(1st Der)、 基线校正(BL)、 标准正态变换(SNV)和去趋势化(DT)5种光谱预处理方法对特征波长的光谱进行预处理, 筛选最优的光谱预处理方法。 结果表明, 采用NL光谱预处理方法对CARS算法提取的24个特征波长(仅占原始波长的2.26%)的光谱进行预处理后建立的PLSR模型性能最佳, 预测集相关系数(
The water absorption rate of flour is an important quality parameter for evaluating flour quality and predicting the processing characteristics of flour-based products. Determining the water absorption rate is mainly conducted using a gluten analyzer according to international or national standards, which is time-consuming and labor-intensive. Therefore, this study proposes using visible near-infrared spectroscopic analysis technology for rapid and non-destructive detection of the water absorption rate of flour. The water absorption rates of 150 wheat flour samples were determined according to the national standard method, and the value rang from 53.10% to 74.50%. The spectral information of the flour samples was collected using a visible near-infrared spectrometer, with an effective spectral range from 570 to 1 100 nm. Partial least squares regression (PLSR), principal component regression (PCR), and support vector machine regression (SVR) was used to correlate the spectral information with the water absorption rate of flour. Quantitative analysis prediction models for the water absorption rate were established, and the optimal modeling methods were selected. Based on the selected modeling methods, competitive adaptive reweighted sampling (CARS), interval random frog leaping (iRF), iterative variable selection using the retained informative variables (IRIV), and successive projections algorithm (SPA) were employed to extract feature wavelengths and select the optimal feature wavelength extraction algorithm. Five spectral preprocessing methods, including normalization (NL), first derivative (1st Der), baseline correction (BL), standard normal variate (SNV), and detrending (DT), were applied to preprocess the spectral data of the feature wavelengths. The optimal spectral preprocessing method was determined. The results showed that the PLSR model built after preprocessing the spectra of the 24 feature wavelengths (only 2.26% of the original wavelengths) extracted by the CARS algorithm using the NL spectral preprocessing method achieved the best performance. The correlation coefficient (
面粉与水混合和面形成具有一定粘弹性的面团, 并经过后续一系列加工制成不同面制品。 面粉吸水率是评价面粉质量、 预测面制品加工特性的重要品质性状。 面粉吸水率(吸水量)是指每百克水分含量为14%面粉在粉质仪中揉合成最大稠度为500 FU面团时所需添加水的毫升数[1]。 面粉吸水率高低不仅影响面制品成品质量, 而且与生产成本直接相关; 面粉吸水率越高, 出品率越高, 生产成本越低[2]。 我国小麦的吸水率较低, 平均为57%, 极少数品种达到65%~70%[3]。 目前吸水率的测定主要参照GB/T 14614— 2006《小麦粉面团的物理特性吸水量和流变学特性的测定粉质仪法》利用粉质仪检测[4]。 检测过程需要测试人员通过多次加水量的尝试, 才能使面团的最大稠度达到规定的标准(500 FU), 测定方法费时费力[5]。 如何快速检测面粉吸水率是小麦及面制品加工行业亟待解决的技术难题。
近红外光谱技术是一种快速、 无损的检测方法, 其原理是有机物的O— H、 N— H、 C— H等含氢官能团近红外光(波长780~2 526 nm)相互作用形成不同的近红外光谱, 通过不同样品的光谱信号, 开展物质的定性、 定量分析[6]。 近年来, 近红外光谱检测技术在小麦籽粒水分含量[7]、 灰分[7]、 蛋白含量[7, 8]、 种子活力[9]、 硬度[10]、 酚类物质[11]、 脂肪酸[12]等品质检测中得到了广泛应用。 可见近红外全波长光谱比较复杂、 存在共线性干扰以及光谱数据易受到杂散光、 噪声、 基线漂移等因素的干扰等问题, 特征波长提取、 光谱预处理等方法可有效处理以上问题, 提高模型的准确度[13, 14]。 姜明伟等[10]采用一阶求导(1st Der)对小麦硬度的光谱进行预处理后, 采用竞争性自适应重加权(CARS)算法筛选特征波长, 从而建立偏最小二乘回归(PLSR)模型, 该模型能够准确预测小麦硬度。 Chen等[15]采用标准正态变换(SNV)、 1st Der、 二阶求导(2st Der)对面粉光谱进行预处理, 采用支持向量机回归(SVR)建立总蛋白和湿面筋检测模型。 Ye等[16]采用改进的模拟退火(ISA)结合连续投影算法(SPA)提取了14个特征波长, 基于特征波长建立的小麦蛋白质含量PLSR模型预测标准误差(SEP)从0.071 6降低到0.052 8, 效果较好。 面粉吸水率是面粉中蛋白质、 淀粉等物质综合作用的结果, 影响因素较多, 与全光谱或优化后的特征波长不一定是简单的线性关系。 因此, 多元线性回归(MLR)、 主成分回归(PCR)、 偏最小二乘回归(PLSR)等线性方法建立的定量模型不可避免地会受到其泛化性能的影响。
拟采用2种线性定量分析模型方法(PLSR、 PCR)和1种非线性定量分析模型方法(SVR)将光谱信息和面粉吸水率进行关联, 分别建立面粉吸水率的定量分析预测模型。 在优选的建模方法的基础上, 针对全波长光谱比较复杂、 存在共线性干扰问题, 采用CARS、 区间随机蛙跳(iRF)、 迭代保留信息变量(IRIV)和连续投影(SPA)算法提取特征波长, 筛选最优的特征波长提取算法, 优化与小麦粉中面粉吸水率高度相关的特征波长。 针对光谱数据易受到杂散光、 噪声、 基线漂移等因素的干扰等问题, 基于最优的建模方法和特征波长提取算法提取的特征波长, 采用标准化(NL)、 1st Der、 基线校正(BL)、 SNV和去趋势化(DT)5种方法对光谱进行预处理, 筛选最优的光谱预处理方法, 以减少杂散光、 噪声、 基线漂移等因素对光谱数据的干扰。 最终建立最佳的面粉吸水率近红外检测模型, 以期为面粉生产企业、 面制品加工企业、 食品质量检测部门等提供一种快速、 无损的检测方法。
2021年夏收时, 采集黄淮冬麦区大田种植的主栽小麦品种籽粒样品150份, 采集的样品进行后熟、 晾晒、 清理等处理后, 采用MLU202型实验磨粉机(无锡布勒机械制造有限公司)实验室制粉, 出粉率控制在70%左右。 磨制好的面粉装入自封袋备用。
采用IM9500型可见近红外分析仪(美国珀金埃尔默公司)进行面粉近红外光谱扫描, 其有效光谱范围为570~1 100 nm, 共1 061个波长。 光谱数据采集时对每份小麦面粉样品进行3次扫描, 导出相应的平均光谱数据, 图1为150个小麦面粉样品的原始光谱图。
参照《粮油检验小麦粉面团流变学特性测试粉质仪法(GB/T14614— 2019)》, 采用粉质仪(德国布拉本德公司)测定。
150份面粉样品吸水率平均值为63.12%± 3.25%, 变幅为53.10%~74.5%, 样品具有一定代表性(表1)。 将150个面粉样品按照吸水率从低到高依次排列, 每隔4个样品挑选1个样品为预测集, 校正集样本共120个, 预测集样本共30个。 从表1可知, 校正集样本的吸水率最大值和最小值与整体样本相同, 平均值大于整体样本, 标准差和变异系数大于整体样本, 说明校正集分布均匀, 具有足够的代表性。 校正集样本吸水率范围在53.10%~74.50%之间, 平均值为63.32%, 涵盖了预测集样本最大值和最小值, 标准差和变异系数大于预测集样本, 符合建模标准。
![]() | 表1 样本吸水率分析 Table 1 Analysis of sample water absorption |
采用PLSR、 PCR2种线性定量分析模型和SVR 1种非线性定量分析模型将光谱信息和面粉吸水率进行关联, 分别建立面粉吸水率的定量分析检测模型。 在优选的建模方法的基础上, 采用CARS、 iRF、 IRIV和SPA算法提取特征波长, 筛选最优的特征波长提取算法。 基于最优的特征波长提取算法提取的特征波长和建模方法, 采用NL、 1st Der、 BL、 SNV和DT5种方法对光谱进行预处理, 筛选最优的光谱预处理方法, 以减少杂散光、 噪声、 基线漂移等因素对光谱数据的干扰。 最终建立最佳的面粉吸水率可见近红外检测模型。
模型评估指标分别为校正集相关系数(
采用The Unscramber X 10.4软件进行NL、 1st Der、 BL、 SNV和DT光谱预处理和建立PLSR和、 PCR和SVR模型, 采用Matlab R2019b软件调用libPLS_1.98软件包来实现CARS、 iRF和IRIV特征波长提取, 采用Matlab R2019b软件调用gui_spa软件包来实现SPA特征波长提取。 采用Excel进行图表整理。
基于全波长光谱数据和面粉吸水率化学值建立PLSR、 PCR和SVR模型, 并进行内部交叉验证和外部预测, 所建模型结果见表2。 从表2可知, 与其他2种模型相比, PLSR模型的验证集均方根误差RMSEC和预测集均方根误差RMSECV均最小, 验证集相关系数
![]() | 表2 基于不同建模方法的面粉吸水率模型效果 Table 2 Model effects of flour water absorption based on different modeling methods |
2.2.1 CARS
采用CARS算法提取面粉吸水率相关特征波长, 蒙特卡罗采样次数N设置为100, 光谱预处理方法为均值中心化(mean-centering), 选择变量个数由10折交叉验证建立的PLS模型RMSECV最小值确定。 随着采样次数增加, 变量数、 RMSECV和每个变量回归系数路径如图2所示。 由图2(a)可知, 随着采样次数的增加, 采样次数小于10时, 采样变量数快速递减, 采样次数大于10时, 采样变量数慢速递减, 说明算法在筛选变量有精选和粗选过程。 图2(b)是十折交叉验证RMSECV变化趋势, 随着采样次数的增加, PLS交叉验证RMSECV值先递减又递增的变化, 其中采样次数在61时达到最小值, 为2.3362。 表明在1~60次, 近红外光谱中与面粉吸水率大量的无关信息被剔除, 61次后, RMSECV明显递增, 表明剔除了光谱中有效数据导致模型性能变差。 图2(c)表示1061个波长变量随着采样次数的增加回归系数的路径变化, “ * ” 所对应的位置即为RMSECV值最小处。 采样次数为61所得的波长变量子集定为与面粉吸水率相关的特征波长变量子集, 包含24个波长, 占原波长数(1061)的2.66%。
2.2.2 iRF
采用iRF算法提取面粉吸水率相关特征波长, 蒙特卡罗采样次数N为200, 在整个光谱上移动的固定窗口大小W为10, 初始化的子区间数Q为20, 设置最大因子数A为10, 光谱预处理方法为均值中心化(mean-centering)。 iRF变量筛选的依据是各变量具有差异的选择可能性, 图3中大部分敏感波段集中在894、 912.5、 980以及1 063.5 nm附近。 设定选择阈值为0.2, 最终根据概率值大小选出20个特征波长。
2.2.3 IRIV
IRIV算法的目的是剔除无关变量和干扰变量, 保留与面粉吸水率相关的特征变量。 该算法利用10折交叉验证方法建立PLS模型选择特征变量, PLS模型中最大主因子数为10。 IRIV算法一共进行了7轮, 如图4所示, 前3轮迭代变量个数迅速减少, 从1 061个变量减少到73个, 然后变量个数减少的速度放缓, 第6轮迭代后完全剔除了无信息变量和干扰变量, 进行反向消除操作。 经过第7轮的反向消除最终选择了16个与面粉吸水率相关的特征变量。
2.2.4 SPA
采用SPA算法对面粉样本的特征波长进行提取。 如图5(a)可知, 特征波长数为118个时, RMSE值达到最小值为0.066 8。 图5(b)所示是提取到的118个波长。
特征波长提取不仅可以简化模型结构, 而且可以剔除不相关、 低贡献的波长, 提高运算速度, 降低设备开发成本[19]。 将CARS、 iRF、 IRIV和SPA算法提取的特征波长光谱与国标法测定的面粉吸水率进行关联, 分别建立面粉吸水率的PLSR定量分析预测模型, 建模结果见表3。
![]() | 表3 基于全波长和特征波长的面粉吸水率模型效果 Table 3 Model effect of flour water absorption based on whole spectrum and characteristic wavelength |
由表3可知除了SPA算法, 其余3种特征波长提取方法提取的特征波长所建立的PLSR模型的建模效果相较于全波长的建模效果均有所提高, 其中CARS建模效果最佳。 CARS算法提取了24个特征波长(仅占全波长的2.26%), 基于特征波长建立的PLSR模型的预测集
小麦粉的吸水率与其破损淀粉含量、 蛋白质含量、 湿面筋含量之间呈现显著的正相关关系[20]。 采用CARS算法提取的24个特征波长中, 896.5~961 nm之间的20个波长为C— H化学键基频振动的三级倍频附近的谱段, 对应的面粉化学成分为淀粉; 981~1 077.5 nm之间的4个波长为N— H化学键基频振动的二级倍频附近的谱段, 对应的面粉化学成分为蛋白质[21]。 即面粉吸水率与淀粉含量和蛋白质含量相关, 与前人研究结果一致。
近红外光谱易受到杂散光、 噪声、 基线漂移等因素的干扰, 因此需要对光谱进行预处理[13]。 采用NL、 1st Der、 BL、 SNV和DT5种光谱预处理方法单一和组合的方式对CARS方法提取的特征波长的光谱数据进行预处理, 分别将原始的光谱及预处理后数据和相应的面粉吸水率化学值进行关联, 建立PLSR定量预测模型, 并用预测集的光谱数据和相应的面粉吸水率化学值对模型进行检验。
不同光谱预处理的面粉吸水率PLSR模型效果见表4, 基于原始光谱数据建立模型的
![]() | 表4 基于不同光谱预处理方法的面粉吸水率模型效果 Table 4 Model effect of flour water absorption based on different spectral pretreatment methods |
复合预处理中是NL分别结合其余4种预处理方法所建模型效果较好, 其中NL+1st Der效果最佳。 该方法虽然比单独进行NL预处理效果更好, 但是光谱数据进行了2次预处理, 加重了运算负担, 降低了光谱处理的速度, 如果将该方法用于实际生产, 必定会影响检测效率。 因此, 确定预测面粉吸水率最佳的光谱预处理方法为NL。
基于可见近红外光谱技术, 探索了不同建模算法、 特征波长提取算法和光谱预处理方法, 建立面粉吸水率快速、 无损检测模型。 研究发现采用NL对CARS算法提取的24个特征波长(仅占原始波长的2.26%)的光谱进行预处理后建立的PLSR模型性能最佳, 其
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|