随机森林算法的水果糖分近红外光谱测量
李盛芳1,2, 贾敏智1, 董大明2,3,*
1. 太原理工大学, 山西 太原 030024
2. 北京农业智能装备技术研究中心, 北京 100097
3. 国家农业智能装备工程技术研究中心, 北京 100097

作者简介: 李盛芳, 女, 1988年生, 太原理工大学硕士研究生 e-mail: lishengfang1225@126.com

摘要

近年来, 有关水果糖分等内部品质的近红外光谱测量方法研究很多, 并有部分商业化仪器问世。 但由于近红外光谱复杂多变, 模型的传递性较差, 往往所建模型只能针对特定品种甚至特定产地的水果。 随机森林(RF)是一种基于决策树的集成算法, 通过对分类回归树(CART)模型的集成来提高预测精度。 相对于偏最小二乘法(PLS), 多元线型回归法(MLR)等方法, 随机森林回归方法对非线性数据的解析能力较强。 考虑到RF模型的随机性, 通过调试决策树数量(ntree)和分裂变量数目(mtry)等变量来进行模型优选。 尝试使用随机森林对不同种类的水果(苹果、 梨)糖分进行预测。 实验表明, 对于同一种类的水果, 随机森林和PLS的建模和预测结果均较好。 但对于不同种类的水果, 随机森林明显增加了模型的预测能力, 将建模 R2由PLS的0.878提高到了0.999, 将建模的RMSEC由0.453降低到了0.015。 经过独立的预测集样品对最优RF模型进行检验, 预测 R2由PLS的0.731提高到为0.888, 预测RMSEP由1.148降低到0.334。 随机森林在对多种水果糖分预测时, 具有明显的优势。 这一研究证明了随机森林有望应用于多种水果糖分的近红外光谱测定, 进而解决模型的普适性和传递性问题。

关键词: 近红外; 随机森林; 苹果糖分; 快速检测
中图分类号:TP181 文献标志码:A
Fast Measurement of Sugar in Fruits Using Near Infrared Spectroscopy Combined with Random Forest Algorithm
LI Sheng-fang1,2, JIA Min-zhi1, DONG Da-ming2,3,*
1. Taiyuan University of Technology, Taiyuan 030024, China
2. Beijing Research Center for Intelligent Equipment for Agriculture, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
3. National Engineering Technology Research Center for Agricultural Intelligent Equipment, Beijing 100097, China
Abstract

In recent years, many researchers have studied the measurement methods of fruit sugar and other internal quality by near-infrared (NIR) spectroscopy and some commercial instruments have been produced. However, due to the complexity of the NIR spectra, the transitivity of the models established with NIR is often poorly performed. The model is only built for a particular species or even a certain variety. Random forest (RF) is an integrated algorithm based on decision tree, which improves the prediction accuracy by integrating the classification regression tree (CART) model. Compared with partial least squares (PLS), multiple linear regression (MLR) and other methods, RF algorithm has the strong analytical ability of nonlinear data. Taking into account the randomness of the RF model, the model is optimized by debugging the number of decision tree (ntree) and the number of split variables (mtry). In this study, we used RF to predict the sugar content in different types of fruits (apple and pear). Experimental results showed that for the same kind of fruit, the modeling and predicting results of RF and PLS were better. However, for different types of fruits, RF significantly increased the prediction ability of the model. The R2 of PLS model was 0.878 and the R2 of RF model was increased to 0.999. The RMSEC of PLS model and RF model were respectively 0.453 and 0.015. In addition, the optimal RF model was tested by independent test set samples, the R2 of PLS model was 0.731 and the R2 of RF model was increased to 0.888. The RMSEC of PLS model and RF model were respectively 1.148 and 0.334. RF showed a significant advantage in predicting a variety of fruit sugar. This research proved that the RF method could be applied to detect the sugar content in fruits by NIR spectroscopy, thus solving the model problem of universality and transitivity.

Keyword: Random forest; Near-infrared spectroscopy; Fruit sugar; Fast measurement
引 言

苹果和梨是人们非常喜爱的水果, 其糖分含量直接影响其口感。 传统糖分含量的分析方法是破坏性或侵入性测量, 不仅费时、 费力, 而且破坏了水果的完整性。

国内外学者通过近红外光谱(NIR)对水果内部品质指标进行了大量研究工作。 如梨[1, 2]、 葡萄[3]、 苹果[4]、 樱桃[5]、 芒果[6]等。 但所建模型的传递能力很差, 往往是只适用于一种水果, 甚至一个地区中的水果。 日本东和电机无损水果测糖仪TD-2010C , 内嵌了针对不同类型水果的模型供用户选择, 或用户可自己建立模型, 从而使用户可进行多种水果糖分检测。 近年来, 一些新的化学计量学算法不断用于近红外水果糖分测定, 如神经网络[7], 遗传算法[8]; 也有学者对一些算法进行优化[9], 或用两种以上算法结合来提高模型的预测能力[10]。 但这些仍是只能提高单一品种水果的模型的精度和重复性。

随机森林(random forest, RF)是一种新的机器学习方法, 同时提供了定量和定性分析能力。 该方法内部执行交叉验证, 对于复杂和非线性数据, 有很好的预测效果, 并且有训练速度快、 不易过拟合、 对包含奇异值和噪声的数据预测结果比较稳健等优点[11]。 随机森林用于近红外分析中, 显著提高了模型的传递性和定量水平。 如鉴别蜂蜜真伪[12]、 鱼粉蛋白定量分析[13]等。 我们尝试将随机森林方法用于多种水果糖分的近红外光谱预测。 据我们所知, 这是首次将这种方法用于水果糖分分析。

1 实验部分
1.1 材料

实验用的水果为山西红富士苹果20个, 冰糖心5个, 黄元帅15个, 梨10个, 总计50个贮藏期水果。 购买于北京市海淀区果香四溢水果超市。 水果表皮清理干净, 每个水果作 4次光谱测量, 并作为4个样本, 分别位于最大直径处的4个均匀位置, 尽可能避免明显的表面缺陷 (擦伤、 伤疤等), 并依次序作好标记, 共200个样本。

1.2 糖分实际值测量

苹果的糖分测量用ATC型手持糖量计(上海海鸥光学仪器厂) , 内部带有温度补偿装置, 温度自动补偿范围10~30 ℃。 在标记有采集过光谱的位置切一小块, 取切下小块的汁液1~2滴, 滴在折光仪棱镜表面中央, 迅速关上辅助棱镜, 静置1 min, 朝向光源处, 使视场的蓝白分界线清晰。 分界线相应的读数即是所要的糖分。 连续测试不同样本时, 应每次用清水洗净, 再用镜头纸擦干后进行测试。

1.3 光谱采集

用美国Thermo Antaris傅里叶变换近红外光谱仪采集水果样品的近红外光谱。 光谱仪外接有光纤测量装置。 实验的参数设置为: 波数范围10 000~4 000 cm-1, 分辨率为8.0 cm-1, 扫描次数16次。 采集水果光谱前以标准白板为背景进行背景光谱采集, 每1 h更换一次背景光谱。 通过PC运行光谱仪配套的RESULT软件来实现数据获取和光谱存储。 使用TheUnscrambler 9.7的偏最小二乘法(partial least squares, PLS)和多元线性回归(multiple linear regression, MLR)对样本进行建模。

图1是苹果近红外漫反射光谱测量系统图, 光源发出的光线通过入射光纤进入苹果并在果肉中漫反射, 苹果漫反射出的光经过接收光纤进入光谱仪。 光纤探头紧贴标记好的位置。 图2是样本的原始光谱图。

图1 实验系统示意图Fig.1 The experimental system diagram

图2 原始光谱图Fig.2 The original spectra

2 结果与讨论
2.1 实验方法和数据处理方法

首先对80个红富士苹果样本分别用偏最小二乘法(partial least squares method, PLS)和多元线型回归法(multiple linear regression, MLR)进行建模和测试。 其糖分含量为11.10° Brix~17.10° Brix, 平均值为14.14° Brix。 随机选取60个建模, 剩余20个测试, 此数据集为数据集一。

其次对所有水果(苹果和梨)的200个样本分别用偏最小二乘法(PLS)、 多元线型回归法(MLR)和随机森林法(random forest, RF)进行建模和测试。 其糖度含量为9.60° Brix~20.10° Brix, 平均值为13.39° Brix。 随机选取150个建模, 剩余50个测试, 此数据集为数据集二。

随机森林是一种基于决策树的算法, 通过对分类回归树(classification and regression tree, CART)模型的集成(ntree)来提高预测精度。 首先从校正集里采用有放回随机重复抽取样本方法来创建每棵决策树(即Bootstrap重抽样方法)。 对于Bootstrap集中的样本通过改进未修剪的CART算法建立决策树。 不同的是, 在CART算法中, 选择划分属性是在当前节点的所有属性集合中选择一个最优属性; 而在随机森林中, 是从该节点的属性集合中随机选择一个包含(mtry)属性的子集, 然后从这个子集中选择一个最优属性用于划分。 每棵树生长, 直到达到一个预定义的最小数量的节点(nodesize)。 在进行建模校正时, 随机森林执行的是内部交叉验证, 把校正集分为in-bag和out-of-bag(OOB)集。 (2/3作为in-bag, 其余作为OOB)。 参数ntree, mtry, nodesize的优化通过OOB数据最小误差率(RMSE-OOB)。 最终, 把每棵决策树的预测结果平均, 作为y值预测结果的输出。 图3是随机森林建模的示意图。

图3 随机森林建模的示意图Fig.3 Random forest modeling diagram

2.2 多种类型水果的PLS回归和MLR回归方法分析

选用PLS算法进行建模[14], 图4是用PLS方法对一种(数据集一, 蓝方形)和多种水果(数据集二, 红三角)进行建模的散点图。 由图可知, 在对一种苹果进行建模时, 数据比较集中, 靠近45° 回归线。 对多种水果进行建模时, 散点图效果比较离散, 预测精度也不高, 总体效果比较差。 表1 是对两个数据集建模和测试的比较, 和离散图的效果基本一致。 我们可以看出用PLS对一种水果建模效果很好, 决定系数R2达到0.976, 而对多种水果建模就只有0.878。 测试R2也有0.885降到0.731。 测试均方根误差(root-mean-square error of prediction, RMSEP)也有0.453° Brix增加到1.148° Brix。 由此可以看出PLS对线性更强的数据有很好的预测能力, 一旦几种水果掺在一起, 建模和测试都性能降低了。 PLS算法适用于线性数据, 用于非线性数据时, 模型的传递能力较差。

图4 PLS用于分析一种和多种水果糖分的校正结果图Fig.4 Calibration results for the sugar contents of only apples and various fruits using PLS models

表1 PLS算法对一种和多种水果校正和测试结果 Table 1 Calibration and test results for the sugar contents of only apples and various fruits using PLS models

也可用多元线型回归(multiple linear regression)算法进行建模, 选定多个波数的吸光度与实际糖度值建立线性回归模型。 本文选取了4 396, 4 443, 4 512, 4 744, 4 898, 5 277, 5 438, 5 785和7 166 cm-1共10个波段的吸光度组合。 图5是用MLR方法对一种(数据集一, 蓝方形)和多种水果(数据集二, 红三角)进行建模的散点图。 总体来看, 散点图效果都不是很好, 由于使用MLR方法只对多个波数处的吸光度与实际糖度值建立线性回归模型, 在选取波数时可能会丢失部分有用的信息, 从而导致建立的模型效果不好。 但我们还是可以看出, 在对一种水果进行建模时, 数据相对集中, 对多种水果进行建模时, 散点图效果比较离散。 表2是对两个数据集建模和测试结果比较。 我们可以看出单一品种水果建模决定系数R2为0.875, 而对多种水果建模就只有0.835。 测试R2也有0.739降到0.649。 测试均方根误差RMSEP从0.729° Brix增加到1.398° Brix。 由此看出, 在对多种品种预测时, MLR的模型传递性较差, 预测结果不满意。

图5 MLR用于分析一种和多种水果糖分的校正结果图Fig.5 Calibration results for the sugar contents of only apples and various fruits using MLR models

表2 MLR算法对单一品种和多种品种水果校正和测试结果 Table 2 Calibration and test results for the sugar contents of only apples and various fruits using MLR models
2.3 随机森林用于水果糖分测定

通过Python语言中的Random Forest数据包构建随机森林模型来反演水果糖分值。 在建模之前, 通过典型关联分析(canonical correlation analysis, CCA)算法进行降维, 变量个数降为40。

随机森林在样本选取上的随机性使其本身具有交叉验证的优点, 当决策树的数目足够多时, 基本可以保证每个样本分别作为训练样本和测试样本, 有效地避免了过度拟合。 为了进一步验证算法, 方便与PLS和MLR算法结果进行对比, 选用多种水果(数据集二)。 首先利用训练集数据建立随机森林模型, 然后利用测试集数据对建立的模型进行精度评价, 根据决定系数R2, RMSE-OOB和均方根误差(RMSE)来判断模型的优劣。

图6(a)— (d)是三个可调参数ntree, mtry和nodesize对RF模型的影响。 图6(a)当决策树个数ntree足够多时, ntree对RF的性能变化不敏感。 此外, 该图还说明RF对过度拟合具有鲁棒性。 为使误差稳定, 选取ntree值为200。 该数据集的节点大小从1到15[图6(b)], 我们观察到最佳节点数目是随机森林回归中默认节点大小值, 即nodesize=2。 图6(c)表示出了OOB样本上的误差分布, 对于该数据集, 取mtry值等于80。 图6(d)是ntree分别与校正决定系数R2, 测试决定系数R2的关系。

图6 参数对随机森林模型的影响Fig.6 Influences of parameters on RF model

2.4 随机森林与PLS, MLR的结果对比分析

图7(a), (b), (c)分别是MLR, PLS, RF三种算法用多种水果(数据集二)预测值和实际值散点效果图(蓝方形是建模样本, 红三角是测试样本)。 由图7(a)是使用MLR算法, 预测值和实际值的散点图比较离散吻合差, 总体效果比较差。 图7(b)使用PLS算法, 散点图效果比MLR算法效果要好, 预测精度也有提高, 但总体效果还不太满意。 使用RF算法[图7(c)], 散点图几乎接近45° 线, 预测效果也明显比前两者的效果好, 预测值和实际值吻合好。 个别点偏离比较大, 我们分析可能是由于实际测量的误差比较大引起的。 通过对比, 无论建模, 还是预测, 随机森林的效果比偏最小二乘法效果好, 偏最小二乘法比多元线型回归要好, 即RF> PLS> MLR, 这是由于RF对噪声变量和离群值的相对鲁棒性。

图7 MLR(a), PLS(b), RF(c)水果糖分预测和实际值散点徒Fig.7 Plots of predicted versus measured of fruit sugar obtained with PLS (a), MLR (b), and RF(c)

表3是三种算法建模和测试的总体效果比较, 可以看出, 和离散图的效果基本一致。 在进行建模时, MLR的建模R2只有0.835, PLS的建模R2是0.878效果稍好, 但是RF建模R2达到0.999, 明显比前两者好很多。 同样, 我们也可以看出, MLR的RMSEC 0.915° Brix, PLS是0.452° Brix, RF效果最好, 只有0.015° Brix。 在三种算法比较中, RF优势非常突出。

表3 MLR, PLS, RF三种算法建模和预测结果 Table 3 Calibration and prediction results for MLR, PLS, and RF algorithms

表4是三种方法预测的部分数据, 可以看出总体也和我们的预测一致。 三者中, RF最接近实际测量值, 其次是PLS算法, 最后是MLR算法。

表4 部分代表性测试预测 Table 4 Partial predicted results obtained with RF, PLS, and MLR
3 结 论

由于水果糖分的近红外光谱复杂多变, 对多种水果混合进行建模时, 模型的传递性往往较差。 采用随机森林(RF)回归方法测定多种水果糖分含量, 并与PLS, MLR方法进行比较, 证明了随机森林有望应用于水果糖分的近红外光谱测定, 进而解决模型的普适性和传递性问题。

由于RF模型的随机性, 通过调试决策树个数(ntree)、 分裂节点数目(nodesize)和属性个数(mtry)来进行模型优选。 PLS, MLR对一种苹果和多种水果的预测精度, 建模R2分别是0.976, 0.878和0.875, 0.835。 说明二者对多种水果的预测精度大大降低。 然而使用RF方法对多品种水果混合建模R2达到0.999, RMSE降低到0.015。 本文首次采用和证明了随机森林方法对多种水果进行糖分, 近红外光谱分析预测的可行性和优越性。

The authors have declared that no competing interests exist.

参考文献
[1] Choi J H, Chen P A, Lee B H N, et al. Scientia Horticulturae, 2017, 220: 147. [本文引用:1]
[2] Lee Y, Han S H. Bulletin of the Korean Chemical Society, 2016, 37(2): 166. [本文引用:1]
[3] Nogales-Bueno J, Hernández-Hierro J M, Rodríguez-Pulido F [J]. Food Chemistry, 2014, 152: 586. [本文引用:1]
[4] Wu X, Wu B, Sun J, et al. Journal of Food Process Engineering, 2017, 40(2). [本文引用:1]
[5] Toivonen P, Batista A, Lannard B, et al. Canadian Journal of Plant Science, 2017, 97(6): 1030. [本文引用:1]
[6] Marques E J N, de Freitas S T, Pimentel M F, et al. Food Chemistry 2016, 197: 1207. [本文引用:1]
[7] DONG Jin-lei, GUO Wen-chuan(董金磊, 郭文川). Optics Preci. (光学精密工程), 2015, 23(6): 1530. [本文引用:1]
[8] LI Yan-xiao, HUANG Xiao-wei, ZOU Xiao-bo, et al(李艳肖, 黄晓玮, 邹小波, ). Journal of Food Safety and Quality(食品安全质量检测学报), 2014, 5(6): 1679. [本文引用:1]
[9] LI Mao-mao, ZHENG Xi-qun, REN Jian, et al(李毛毛, 郑喜群, 任健, ). Journal of Food Safety and Quality(食品安全质量检测学报), 2015, 6(8): 3026. [本文引用:1]
[10] Xu H, Qi B, Sun T, et al. Journal of Food Engineering, 2012, 109(1): 142. [本文引用:1]
[11] Li B, Wei Y, Duan H, et al. Vibrational Spectroscopy, 2012, 62: 72. [本文引用:1]
[12] MO Fei-fan, FAN Wei, ZHOU Ji-heng, et al(莫菲凡, 范伟, 周冀衡, ). Journal of Food Safety and Quality(食品安全质量检测学报), 2014, 5(8): 2430. [本文引用:1]
[13] CHEN Hua-zhou, CHEN Fu, SHI Kai(陈华舟, 陈福, 石凯). Transactions of the Chinese Society of Agricultural Machinery(农业机械学报), 2015, 46(5): 233. [本文引用:1]
[14] Olarewaju, Olaoluwa Omoniyi, Isa Bertling, et al. Scientia Horticulturae 2016, 199: 229. [本文引用:1]