作者简介: 陈嘉伟, 1997年生, 江南大学机械工程学院硕士研究生 e-mail: jiawei.chen777@qq.com
小麦粉的粉质特性决定了小麦粉的品质以及最终用途, 粉质特性受到小麦的品种, 产地, 以及加工工艺等多个因素的影响, 重要的粉质参数包括4个: 吸水率、 形成时间、 稳定时间、 弱化度。 近红外光谱广泛应用于小麦粉成分参数的检测, 如水分、 蛋白质、 灰分和湿面筋含量, 其中大多直接应用线性回归算法建立模型, 预测的精确度较低, 且检测粉质特性的研究较少, 研究结果也受到样本丰富度不足的影响。 该研究收集了968份来自不同国家和地区的小麦粉粉质特性数据及近红外光谱, 通过分类模型和回归模型的结合来提高粉质特性预测的精确度。 采用包括标准正态变换(SNV)、 线性去趋势(Detrend)、 多元散射矫正(MSC)和Savitzky-Golay一阶求导的方法对光谱数据进行预处理, 并通过交叉验证选择最佳预处理方法。 在建模方法上, 首先尝试了经典的线性回归方法, 即偏最小二乘回归(PLSR) 和主成分回归(PCR)。 发现两种方法的精确度大致相当, PCA模型的校正均方根误差(RMSEC)分别为2.186、 1.838、 4.037、 21.693, PLSR模型为2.039、 1.837、 3.968、 21.252, PLSR模型比PCR所需的因子更少。 其次, 使用该文提出的二阶段回归模型, 即先用高斯过程回归(GPR)的结果作为分类器对样本进行分类, 在不同类别的样本簇中分别建立PLSR模型进行粉质特性的预测, 再使用Sigmoid函数对PLSR模型进行融合。 这种建模方法对粉质特性预测的精确度有较大提高, 在不同粉质特性指标上的RMSEC分别为1.876、 1.160、 2.459、 14.449。
The farinograph characteristics of wheat flour determine the quality and the end use of wheat flour. The farinograph characteristics of wheat flour are influenced by wheat variety, origin, and milling process technology. There are four important farinograph parameters: water absorption, development time, stability time and degree of softening. Near-infrared spectroscopy (NIR) is widely used to determine wheat flour composition parameters, such as moisture, protein, ash and wet gluten content. Most of them directly use linear regression algorithms to establish models, which has low prediction accuracy, and there are few studies on detecting farinograph characteristics, and the results are also affected by the lack of sample richness. In this study, 968 samples of wheat flour from different countries and regions were collected, and an ensemble method of classification model and a regression model was proposed to improve the prediction accuracy of farinograph characteristics. Spectral preprocessing methods, including standard normal variation (SNV), linear detrending, multiplicative scatter correction (MSC) and Savitzky-Golay first-order derivative, were applied to the spectral data, and the best preprocessing method was selected with cross-validation. As for the modeling methods, the classical linear regression methods, i.e., partial least squares regression (PLSR) and principal component regression (PCR), were explored. The accuracies of the two methods are approximately equivalent. The root mean squared error of calibration (RMSEC) on farinograph parameters (i.e. water absorption, development time, stability time, and degree of softening) of the PCA model were 2.186, 1.838, 4.037, 21.693 and 2.039, 1.837, 3.968, 21.252 for PLSR correspondingly. The PLSR model requires fewer factors than PCR. Secondly, the two-stage regression model proposed in this paper was explored. Gaussian process regression (GPR) results were used as the classifier to cluster the samples, PLSR models were established in different clusters to predict the farinograph characteristics, and the sigmoid function was used to fuse the PLSR models. This modeling method can significantly improve the prediction accuracy of farinograph characteristics. The RMSEC on the predictions of farinograph parameters is 1.876, 1.160, 2.459 and 14.449 correspondingly.
用小麦粉加工出的食品是人们日常饮食的重要组成部分, 而不同的小麦食品对作为原料的小麦粉有不同的品质要求, 其中小麦粉的粉质特性是主要参考指标之一。 粉质特性一般通过粉质仪测量, 小麦粉在仪器中依据预定的要求形成面团, 粉质仪依据形成面团的力学特性绘制粉质曲线[1]。 粉质曲线可以直观的反映小麦粉的粉质特性, 其中重要的参数包括吸水率、 形成时间、 稳定时间、 弱化度[2]。 由于粉质特性会直接影响面团加工品质, 所以大量研究致力于通过改变面粉粉质特性来改善面粉产品的最终品质[3, 4, 5]。
近红外光谱被广泛应用于预测小麦成分参数, 如水分、 蛋白质、 灰分和湿面筋含量, 而这些成分也影响着小麦粉的粉质特性[6, 7], 有研究单独对红色硬质春小麦的粉质和烘焙品质进行了建模和评估, 使用了包括近红外光谱在内的多种预测变量预测了吸水率、 稳定时间等多个数据[8]。 很多研究虽然只是针对单一的小麦品种, 但其结果也说明了近红外技术有预测小麦粉粉质特性的能力[9, 10], 由于不同年份和产地的小麦之间存在差异[11], 这些不同的小麦制作的小麦食品的品质、 理化性质、 保值时间等有显著不同, 这些性质也与粉质特性相关[12, 13]。 已有研究说明近红外技术能对粉质特性进行有效检测, 但很少有研究对包含了多品种、 不同产地的小麦粉样本进行建模分析, 本研究对一个多品种, 多产地的大规模数据集进行建模分析, 并通过将分类与回归方法进行融合以提高预测的精确度。
使用包括标准正态变换、 多元散射矫正在内的多种光谱预处理方法处理原始光谱[14], 使用偏最小二乘法[15]、 主成分分析[16]、 高斯过程回归[17]等方法对小麦粉的粉质特性进行回归分析, 由于研究发现直接应用高斯过程回归(GPR)时存在明显的过拟合现象, 所以在建模过程中只把它的结果作为分类的参考, 使用高斯过程回归加上Sigmoid函数对样本进行模糊分类, 并在单个分簇中建立PLSR模型进行预测。 研究发现两阶段的回归方法对粉质特性的预测精度有明显提升。
小麦粉的近红外光谱数据采集自布勒(BUHLER)的MYRG在线近红外分析仪, 仪器的光谱范围为850~1 650 nm, 采样间隔为5 nm, 每个样本由四个近红外探头平行采样, 并取四个探头下数据的平均值作为一次采样结果, 小麦粉样本分别在10、 25和40 ℃下各进行一次采集, 最终光谱采样数据包含269个10 ℃样本、 1106个25 ℃样本、 270个40 ℃样本。 为了避免温度对实验结果造成影响, 同时剔除缺失信息的数据, 以25 ℃的968个样本为研究对象。
968份小麦粉实验样本来自不同的国家和地区, 包括208份瑞士、 51份德国、 50份奥地利、 46份美国、 35份巴基斯坦和578份来自83个其他国家和地区。 这些样本均由布勒(BUHLER)提供。
建模所使用的开发环境为python(版本号为3.9.7), 建模计算所使用的工具为scikit-learn(版本号为0.24.2)和scipy(版本号为1.7.1)。
小麦粉粉质特性包括吸水率(water absorption)、 形成时间(development time)、 稳定时间(stability time)和弱化度(degree of softening), 这些数据由Brabender粉质仪(德国)获得。 样本集四个粉质参数测量值的分布情况如图1所示。
直接采集到的近红外光谱数据有噪声、 基线漂移等因素的干扰, 需要对其进行预处理。 预处理方法包括标准正态变换(SNV)、 线性去趋势(Detrend)、 多元散射矫正(MSC)、 Savitzky-Golay一阶卷积求导(Sav-Gol D1)。 尝试使用不同的预处理组合, 为不同的模型找到最优的组合方式。 近红外光谱经过不同预处理后的情况如图2所示。
研究分别对小麦粉的4个粉质参数建立模型, 使用的回归算法包括多元线性回归(MLR)、 偏最小二乘回归(PLSR)、 高斯过程回归(GPR), 降维算法包括主成分分析(PCA)。
1.4.1 多元线性回归
多元线性回归(MLR)是一种最直接的线性回归形式, 通过输入的多个自变量直接得出因变量, 其数学表达式为
式(1)中, Y是因变量, X1, X2, ···, Xp是自变量, β 0是截距, β 1, β 2, ···, β p为每个指标相应的系数。
1.4.2 偏最小二乘回归
偏最小二乘回归(PLSR)是一种对自变量X线性降维后再进行回归的建模方法。
首先对自变量矩阵和因变量矩阵进行分解
式中, X∈ RN× M为近红外光谱矩阵, N和M为样本和波长的变量数, D∈ RN× K为主因子得分矩阵, P∈ RM× K为载荷矩阵, K表示选取的主因子个数, E∈ RN× M表示拟合残差矩阵, Y∈ RN× K表示标签矩阵, U∈ RN× M对应D∈ RN× K, Q∈ RK× M对应P∈ RM× K, F∈ RN× K对应P∈ RM× K。
矩阵D和U的线性关系为
式(4)和式(5)中, B=(DTD)-1DTU为回归系数矩阵。 之后输入待测样本的光谱矩阵, 根据式(2)得出其主因子得分矩阵Dpre, 再根据式(5)得到待测样本标签矩阵Ypre。 通过对回归系数矩阵的投影, 可以将PLSR的模型表示为式(1)中所描述的形式。
1.4.3 主成分分析
主成分分析(PCA)可以将n维特征映射到k维上, 这k维是全新的正交特征也被称为主成分, 是在原有n维特征的基础上重新构造出来的k维特征, 包括以下步骤。 近红外数据矩阵X∈ Rn× m, 代表m个有n维特征变量的样本, 式(6)为近红外数据矩阵。
式(6)中, xij为第m个样本的第n维变量, 对xij标准化处理, 得
式(7)中,
依据标准化处理后的矩阵计算相关系数矩阵A, 如式(8)所示
式(8)中, rij为变量xi和变量xj之间的相关系数,
最后计算累计解释率Wi, 式(9)所示
式(9)中, λ i为特征矩阵对应的特征值。
1.4.4 高斯过程回归
高斯过程回归(GPR)是使用高斯过程先验对数据进行回归分析的非参数模型, 它的定义如下。
对于所有光谱数据x=[x1, x2, ···, xn], f(x)=[f(x1), f(x2), ···, f(xn)]都服从多元高斯分布[18], 则f为一个高斯过程, 表示为
式(10)和式(11)中, μ (x)表示光谱数据各个维度的均值, κ (x, x)为协方差函数, 即核函数, 此处用到的核函数是高斯核函数, 基本形式为式(11), 其中σ 和l是它的超参数。
1.4.5 Sigmoid函数
Sigmoid函数是机器学习中的一个常用函数, 函数输出范围在0到1之间, 在此把它作为二分类的概率预测, 其数学公式为
式(10)中, x=σ 为函数的阈值点, 对应输出值为0.5, ω 为函数的权值, 权值的增大会使函数斜率增大, 改变σ 和ω 可以改变函数在坐标轴上的位置和形状。
1.4.6 建模方法
为了更好的观察模型效果的提升, 用了三种不同的建模方法。
(1)采用偏最小二乘回归(PLSR)直接建模。
(2)先用主成分分析(PCA)对近红外数据降维, 再使用PCA主成分做多元线性回归(MLR)的模型。 后文记为PCR。
(3)用主成分分析(PCA)对近红外数据降维, 根据PCA主成分对原数据的解释度, 选取若干个主成分作为高斯过程回归(GPR)的输入数据。 在训练阶段, 把GPR模型的回归结果作为参考值, 并设定一个阈值将样本分成高于阈值或者低于阈值的两类, 在两类样本上分别建立PLSR模型。 在预测阶段, 将GPR模型的回归结果代入以训练阶段设定的分类阈值为中心的Sigmoid函数中, 判断预测样本在两类PLSR模型中的概率进行模糊分类, 并分别计算两类PLSR模型的回归结果, 以分类概率进行加权平均。 此方法后文记为GPR-PLSR。
GPR-PLSR模型的样本回归结果公式为
式(11)中,
在寻找最佳模型时, 综合考虑了PCA主成分的累计解释度、 PLSR模型系数和建模结果, 在比较不同模型的性能时, 使用校正均方根误差(RMSEC)作为评估指标用来评估模型预测能力, 并使用相对均方根误差(rRMSE)来协助判断模型效果。
均方根误差的公式为
相对均方根误差的公式为
式(13)中, yi来自实验室测量的真实值,
表1为PLSR方法和PCR方法建立的模型, 针对四个粉质参数分别建立模型, 表中给出了最优情况下的模型参数。 从中得出, SNV+Sav-GolD1的预处理方法为除了形成时间外的三个参数的预测提供了最好的效果, 对比两种建模方法, PLSR模型使用了更少的因子数而建模效果却略好于PCR模型, 可以看出PLSR的主因子比PCA的主成分拥有更强的解释能力[19]。
PLSR模型的回归系数如图3所示, 其中红色曲线代表表1中最优因子数的PLSR模型的回归系数曲线, 绿色曲线比红色曲线少一个因子数, 蓝色曲线比红色曲线多一个因子数。 在吸水率的PLSR模型上, 三个不同因子数的曲线较为相似。 选择RMSEC最小的红色曲线模型作为最优模型, 而在其他三个粉质参数模型上, 虽然蓝色曲线代表的模型得到了更小的RMSEC, 但是它与其他两条曲线相比噪声显著增加, 模型鲁棒性更低, 而红色和绿色曲线较为相似, 但红色曲线的RMSEC更小, 最终选择了红色曲线代表的模型作为最优模型。
表2为GPR-PLSR方法建立的模型, 可以得出, SNV+MSC的预处理方法为除了吸水率外的三个参数的预测提供了最好的效果, 这与前文PLSR方法和PCR方法建立的模型不同。 在GPR中, 使用PCA的主成分作为变量输入。 表中给出了这些变量的累计解释度, 由于GPR方法的拟合能力很强大, 它的预测结果表现出明显的过拟合现象, 所以只用它的预测结果作分类的参考。
通过调整Sigmoid函数的阈值σ 和权值ω 使其与四个粉质参数在坐标轴上的分布相适配, 并且阈值σ 将GPR的预测结果分成两簇, 第一簇数据的GPR预测结果低于阈值σ , 第二簇数据的GPR预测结果高于阈值σ , 图4所示为Sigmoid函数结果, 横坐标是样本的真实标签, 纵坐标是模型预测在两个簇上的概率, 可以看出样本在四个参数上的分类结果都能较好的拟合出Sigmoid函数的形状[20]。
用分成两簇的数据分别建立两个PLSR模型, 这两个PLSR模型的主因子数与上文PLSR方法的建模结果一致, 图5所示为这两个PLSR模型的拟合效果, 红绿两色的样本代表GPR分类器预测出的类别。 样本分布基本遵循预定的阈值分类规则。 最后, 将整个数据集放入两个模型中得到不同的两个预测结果, 再以Sigmoid函数得出的样本落在两个模型中的概率为权重, 依据式(11)得到GPR-PLSR模型的预测结果。 四个粉质参数模型的校正均方根误差(RMSEC)如表2所示, 其预测值与真实值的分布如图6所示, 其中红色散点代表GPR-PLSR模型预测值和真实值的分布, 作为对照, 蓝色散点代表2.1节中描述的PLSR模型预测值与真实值的分布。
由于PLSR方法建立的模型与PCA方法建立的模型预测能力相当, 并且前者RMSEC略好于后者, 所以将PLSR模型与GPR-PLSR模型进行比较。 图6中吸水率模型的拟合程度最高, 两种模型的散点基本沿着y=x直线线性分布, 这两种模型对吸水率的预测准确度相当, 从表1和表2也能看出, PLSR模型的RMSEC为2.039, GPR-PLSR模型为1.876。 其他三个粉质参数的模型, GPR-PLSR模型的拟合能力明显更强, 相对于PLSR模型, GPR-PLSR模型的散点明显更贴近的分布在y=x直线附近, 模型的RMSEC也从1.838、 4.037和21.693降低到了1.160、 2.459和14.449, 同时, rRMSE也反映了模型拟合能力的增强。
通过引入基于高斯过程的二阶段回归模型, 来提高近红外光谱对小麦粉粉质特性的预测精度, 并在一个大规模近红外光谱数据集上进行了验证和对比。 包括PLSR模型在内的线性模型在近红外光谱分析上有广泛的应用, 但是在样本种类丰富, 组成复杂的数据集上, 并不能得到较为精确的预测结果。 提出的GPR-PLSR模型, 先基于高斯过程回归结果对样本进行模糊分类, 再对不同区间内的PLSR子模型的预测结果进行加权平均作为模型最后的预测结果, 相比于经典PLSR模型有较大的提升。 吸水率、 形成时间、 稳定时间和弱化度四个小麦粉粉质特性的预测, GPR-PLSR模型的RMSEC从2.039、 1.838、 4.037和21.693降低到了1.876、 1.160、 2.459和14.449。 可以为近红外预测小麦粉粉质特性提供一些技术参考。