南方籼稻米胶稠度近红外光谱分析数学模型的构建与验证
刘红梅, 申涛, 张文怡, 石习文, 戴涛, 白涛, 肖应辉*
湖南农业大学农学院, 湖南 长沙 410128
*通讯作者 e-mail: xiaoyh@hunau.edu.cn

作者简介: 刘红梅, 女, 1979年生, 湖南农业大学农学院高级实验师 e-mail: liuhongmei@hunau.edu.cn

摘要

培育优质高产水稻品种是当前水稻育种的重要任务之一; 胶稠度是稻米蒸煮食味品质最重要的指标之一。 传统的化学法测定稻米胶稠度, 前处理复杂、 过程繁琐、 试剂消耗多, 难以满足大批量水稻品种(组合)胶稠度快速无损检测的需求。 近红外光谱分析能快速、 无损、 无污染地分析检测。 以137份南方稻区主栽或新育成的籼稻品种(组合)为供试材料, 用传统化学法测定其稻米胶稠度并收集其近红外光谱, 以建立南方籼稻米胶稠度近红外光谱分析模型, 并对模型进行校正、 检验。 用偏最小二乘法(PLS)分别经20种数学预处理和6种波长段(或组合)建立各自的近红外分析模型。 通过比较模型评价指标确定了平滑预处理为最佳预处理方式, 波长段1 100~1 650 nm为最优建模波长段。 平滑处理模型评价指标: 校准相关系数( R)、 检验相关系数( r)、 相对百分比偏差(RPD)分别为0.970 0, 0.964 2和3.780 5; 波长段1 100~1 650 nm模型评价指标: R, r和RPD分别为0.969 4, 0.963 8和3.758 6; 经平滑处理后在1 100~1 650 nm波长段建立了稻米胶稠度最优近红外分析模型, 其模型评价指标: R, r和RPD分别为0.979 0, 0.974 1和4.419 4; 再用30份验证集样本对所得的最优模型进行外部验证, 结果表明: 近红外检测值和化学值绝对误差在0.198 6~6.502 4 mm, 对其进行配对 T检验, p=0.726>0.05, 表明该近红外模型的检测值与化学值无显著差异, 即应用此近红外模型快速无损检测稻米胶稠度是可行的。 本研究结果为优质水稻品种(组合)早世代材料的快速筛选及稻米胶稠度的批量快速分析检测提供了技术支持。

关键词: 籼稻米; 胶稠度; 近红外模型; 偏最小二乘法
中图分类号:O657.33 文献标志码:A
Construction and Verification of a Mathematical Model for Near-Infrared Spectroscopy Analysis of Gel Consistency in Southern Indica Rice
LIU Hong-mei, SHEN Tao, ZHANG Wen-yi, SHI Xi-wen, DAI Tao, BAI Tao, XIAO Ying-hui*
College of Agronomy, Hunan Agricultural University, Changsha 410128, China
*Corresponding author
Abstract

Cultivating high-quality and high-yielding rice varieties is one of the important tasks of current rice breeding, and gel consistency is one of the most important indicators of rice cooking and eating quality. The traditional chemical method for measuring the gel consistency of rice has complicated pretreatment, complicated process, and high reagent consumption. It is difficult to meet the needs of rapid non-destructive testing of the gel consistency for large batches of rice varieties (combinations). The near-infrared spectroscopy analysis technology can quickly, non-destructively, and non-pollutingly analyze. In this study, 137 indica rice varieties (combinations) mainly cultivated or newly bred in southern rice areas were used as the test materials, and their near-infrared spectra were measured by traditional chemical methods to collect their near-infrared spectra to establish near-infrared spectra of southern indica rice. Build an analysis model, and then correct and verify the model. The results showed that the partial least squares method (PLS) was used to establish their respective near infrared analysis models after 20 kinds of mathematical preprocessing and 6 kinds of wavelength bands (or combinations). By comparing the model evaluation indexes, it was determined that smooth pretreatment was the best pretreatment method, and the wavelength band of 1 100 to 1 650 nm was the best modeling wavelength band. Evaluation index of smoothing model: calibration correlation coefficient ( R), test correlation coefficient ( r), relative analysis error (RPD) were 0.970 0, 0.964 2, and 3.780 5 respectively; wavelength evaluation range: 1 100 to 1 650 nm Model evaluation indicators: R, r, RPD They were 0.969 4, 0.963 8, and 3.758 6 respectively; after smoothing, the best near-infrared analysis model of rice gel consistency was established in the wavelength range of 1 100 to 1 650 nm, and the model evaluation indicators: R, r, and RPD were 0.979 0, 0.974 1, and 4.419 4 respectively; Then used 30 samples to verify the obtained optimal model. It indicated that the absolute error between the near infrared predicted value and the chemical value was 0.198 6~6.502 4 mm, and paired t test showed that p=0.726>0.05, indicating no significant difference between the predicted value and the chemical value. The near-infrared model was feasible for rapid non-destructive testing of rice gel consistency. This study provides technical support for the rapid screening of high-quality rice varieties (combinations) in the early generation of materials and the rapid batch analysis of the gel consistency of rice.

Keyword: Indica rice; Gel consistency; Near-infrared model; Partial least squares
引言

水稻是世界及我国重要的粮食作物之一, 全球超过一半的人以大米为主食, 我国则有60%以上的人口以大米为主食。 随着生活水平的提高, 人民对米质的要求越来越高, 因此, 水稻品质改良育种尤其重要。 稻米胶稠度与米饭的柔软度和粘稠度有关, 能反映稻米蒸煮食味品质的优劣[1, 2]。 化学方法测定胶稠度操作繁琐、 测试周期长、 检测过的样品不能继续用于育种研究, 不利于育种工作者对早世代品种的快速筛选[3]。 近红外分析技术可快速检测有机物含量[4], 能无损地检测稻米品质, 对加快优质稻的育种进程具有重要意义。 近红外分析技术在医药、 农业等领域已得到广泛的研究应用[5, 6, 7], 而在稻米胶稠度检测方面的研究少有报道。 因此, 本研究收集南方稻区主栽或新育成的水稻品种(组合)为材料, 测定其胶稠度的化学值, 收集其近红外光谱, 采用偏最小二乘法, 建立稻米胶稠度的近红外分析模型, 以期为稻米胶稠度的快速无损检测提供参考。

1 实验部分
1.1 试验材料

收集137份南方稻区主栽或新育成的水稻品种(组合)。

1.2 测定项目与方法

1.2.1 稻米胶稠度化学值的测定

按NY/T 83— 2017《米质测定方法》测定稻米胶稠度的化学值。 准确称取经过100目筛的精米米粉100 mg(± 1 mg), 加入定制的试管内, 防止米粉粘在试管口壁, 4次重复。 用移液管加入95%乙醇麝香草酚蓝溶液0.2 mL, 并轻微摇动试管, 使米粉充分分散而不沉淀结块; 再加0.2 mol· L-1的KOH溶液2.0 mL, 并轻轻摇动试管, 勿使米粉沉淀, 将试管立即放入沸水浴中加热8 min, 试管口盖上玻璃珠, 保持试管内液面低于水浴锅水面, 且在加热过程中米胶高度始终维持在试管长度的2/3, 不应超过或者溢出; 加热完毕将试管取出, 取下玻璃珠将试管置于试管架上静置5~10 min后, 置于冰浴冷却20 min, 然后将试管平放于米胶测定箱内(25± 2 ℃), 1 h后以mm为单位测量米胶长度。

1.2.2 近红外光谱的采集

用近红外光谱分析仪(波通 DA7200)扫描样品获得近红外漫反射光谱值, 扫描波长范围为950~1 650 nm, 识别度为5 nm, 环境温度控制在25 ℃, 每个样品重复扫描4次, 对光谱值进行均值化处理。

1.3 稻米胶稠度近红外模型的建立

用The Unscrambler 9.7(CAMO)分析软件, 基于偏最小二乘法(PLS)分别对校正集样品采用不同数据预处理方式和不同波长段的近红外光谱进行建模。 为了防止模型过拟合, 采用交互检验确定最佳主因子数。

1.3.1 校正集样品预处理方式的筛选

将平滑(smoothing)、 多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量转换(standard normal variate transformation, SNV)、 一阶导数(first derivative)、 二阶导数(second derivative)等预处理方法单独或组合共20种预处理方式分别对原始光谱进行处理, 根据模型评价指标确定最佳预处理方式。

1.3.2 最佳波长段的选择

因样品的近红外光谱在某些波长段明显的吸收峰, 分别对这些表现出明显吸收峰的波长段及其复合波长段进行稻米胶稠度的近红外光谱分析, 通过对比各模型评价指标确定最佳波长段。

1.3.3 模型评价指标

以校准相关系数(R)、 校准标准差(SEC)、 校准均方根误差(RMSEC)、 检验相关系数(r)、 检验标准差(SECV)、 检验均方根误差(RMSECV)作为衡量稻米胶稠度近红外模型预测效果的主要指标。 模型的相关系数越接近1越好, 综合使用相对百分比偏差(relative percent deviation, RPD)进一步对模型预测效果进行评价。 若RPD≥ 3, 说明该模型检测精确度高, 可用于相关组分的检测; 若2.5≤ RPD< 3, 说明所建立的近红外模型检测效果一般, 可用于相关组分的定量分析, 但其精度需进一步修正提高; 若RPD< 2.5, 则说明使用该近红外模型进行分析检测比较困难[8]

1.3.4 模型检验

将用于验证集的30份样品(不参与建模)用DA7200采集其近红外光谱, 用已经建立的稻米胶稠度近红外分析模型预测胶稠度, 建立预测值和化学值的对比表格, 计算其绝对误差和配对t测验的p值, 以判断该近红外模型检测胶稠度的可行性。

2 结果与讨论
2.1 稻米胶稠度的分布

表1为校正集和验证集稻米胶稠度的分布情况。 校正集范围为43.0~94.0 mm, 平均值为71.0 mm, 标准差为12.2 mm。 样本胶稠度分布范围较广, 且验证集两端极值在校正集之中, 保证了模型预测值的准确性、 实用性。

表1 稻米胶稠度的化学值统计表 Table 1 The chemical value of rice gel consistency
2.2 稻米胶稠度近红外分析的最佳预处理方式筛选

从校正集和验证集综合来看, 由表2可知, 采用平滑处理其校正集的校准相关系数(R)、 校准标准差(SEC)、 校准均方误差(RMSEC)分别为0.970 0, 2.971 8和2.957 9; 验证集的检验相关系数(r)、 检验标准差(SECV)、 检验均方根误差(RMSECV)分别为0.964 2, 3.342 1和3.227 1, 相对百分比偏差RPD=3.780 5(> 3), 说明平滑处理的近红外分析模型效果最佳。

表2 不同预处理方法稻米胶稠度近红外模型的评价指标 Table 2 Evaluation indexes of NIR model of rice gel consistency under different treatments
2.3 稻米胶稠度近红外分析的最优波长段

从图1可知校正集样品吸收峰主要分布在950~1 100, 1 100~1 300和1 300~1 650 nm, 所以分别对这3个波长段及组合950~1 100, 1 100~1 300, 1 300~1 650, 950~1 300, 1 100~1 650和950~1 650 nm等6个波长段的稻米胶稠度近红外光谱经平滑处理后, 用偏最小二乘法(PLS)建立各波长段的稻米胶稠度近红外分析模型。 由表3可知在波长段(1 100~1 650 nm)的建模效果最好, 其校正集模型评价指标R, SEC和RMSEC分别为0.969 4, 3.003 0和2.989 0; 验证集模型评价指标r, SECV和RMSECV分别为0.963 8, 3.261 1和3.245 9, 相对百分比偏差(RPD)为3.758 6, 吸收峰越高其相关性越大。

图1 校正集近红外光谱Fig.1 Near infrared spectra of the calibration samples

表3 稻米胶稠度在不同波长段近红外分析模型的评价指标 Table 3 Evaluation Indexes of near infrared analysis models of rice gel consistency at different wavelength bands
2.4 稻米胶稠度近红外分析模型的建立

通过软件分析, 如图2, 图3, 剔除残差高的11个异常样品后模型评价指标进一步提高, 校正集评价指标R, SEC和RMSEC分别为0.979 0, 2.540 6和2.527 3; 验证集的评价参数r, SECV和RMSECV分别为0.974 1, 2.820 6和2.805 8, RPD为4.419 4, 提高了模型的准确性。

图2 稻米胶稠度近红外分析的残差和杠杆值Fig.2 The leverage and residual of rice gel consistency by near infrared analysis

图3 稻米胶稠度建立的回归模型预测值与其化学值的相关性图Fig.3 The correlation of predicted value and chemical value of rice gel consistency established by regression model

2.5 稻米胶稠度近红外模型的检验

用DA7200收集30份验证集样品的近红外光谱值, 用新建立的稻米胶稠度近红外模型检测其胶稠度, 并将稻米胶稠度的化学值与近红外光谱检测值进行对比分析, 结果如表4, 其绝对误差范围在0.198 6~6.502 4 mm, 均符合GB/T 22294— 2008 《大米胶稠度的测定》误差标准, 胶稠度40~60 mm时误差不超过5 mm, 胶稠度大于60 mm时误差不超过7 mm。

表4 验证集模型预测值与化学测定值 Table 4 Predicted value and chemical value of validation set

对验证集稻米胶稠度近红外检测值和化学测定值进行配对t检验, 结果如表5, p值为0.726> 0.05, 表明用此近红外模型检测和化学方法分析得到的结果无显著差异, 即用此新建的近红外模型检测稻米胶稠度是可靠的。

表5 验证集稻米胶稠度的模型检测值和化学测定值的配对t检验 Table 5 Paired t test of model prediction value and chemical value of rice gel consistency in validation set
3 结论

用DA7200扫描获得了137份南方稻区稻米的近红外漫反射光谱, 样品胶稠度范围为43.0~94.0 mm, 覆盖了大部份稻米胶稠度范围。 采用偏最小二乘法(PLS)分别经20种预处理方式和6组波长段下建立近红外分析模型。 根据模型评价指标判断最佳预处理方式为平滑处理, 最佳建模波长段为1 100~1 650 nm。 对经过平滑预处理的1 100~1 650 nm波长段建立的近红外分析模型进行参数评价, 校正集的R, SEC和RMSEC分别为0.979 0, 2.540 6和2.527 3, 验证集的r, SECV, RMSECV和RPD分别为0.974 1, 2.820 6, 2.805 8和4.419 4, 模型参数较优。 用新建的近红外模型对30份验证集样品(未参与建模)进行检测, 与化学值进行配对t检验, 近红外检测值与化学值绝对误差在0.198 6~6.502 4 mm, 配对t检验p=0.726(> 0.05), 表明此近红外分析模型可用于稻米胶稠度的检测。 与同组分的其他研究结果相比[2], 此近红外分析模型检测效果更佳, 其建模评价指标和外部验证结果都更优, 能用于稻米胶稠度的分析检测, 并能为今后稻米胶稠度的近红外分析的相关研究提供理论参考。

近红外光谱分析在农业领域的研究及应用还有待加强。 为了提高模型的准确性, 采用了20种不同的预处理方式和6组波长段处理, 发现经平滑处理的1 100~1 650 nm波长段建立的近红外分析模型效果最佳, 且经验证表明此模型可用于稻米胶稠度的分析检测。 是否还有更好的预处理方法? 是否在其他波长段包含更多的胶稠度信息? 是否其他建模方法建立的模型更精确? 这些有待进一步探索。 因此, 为了获得更准确的近红外分析模型, (1)可以尝试足够多的光谱预处理方法或者开发新的预处理方法以减少光谱的影响因素; (2)可考虑用不同的回归分析模型进行建模以选择更优的建模方法。

参考文献
[1] SHI , ZHANG Xin-yue, SUN Hui-yan, et al(石吕, 张新月, 孙惠艳, ). Chinese Journal of Rice Science(中国水稻科学), 2019, 33(6): 541. [本文引用:1]
[2] XU Ming-ya, ZHAO Zi-wei, DU Jing-lin, et al(徐明雅, 赵紫薇, 杜京霖, ). Journal of Nulear Agricultural Sciences(核农学报), 2019, 33(5): 936. [本文引用:2]
[3] LIU Hong-mei, XIAO Zheng-wu, SHEN Tao, et al(刘红梅, 肖正午, 申涛, ). Journal of Hunan Agricultural University·Science and Technology(湖南农业大学学报·自然科学版), 2019, 45(2): 189. [本文引用:1]
[4] Olivares Díaz Edenio, Kawamura Shuso, Matsuo Miki, et al. Food Chemistry, 2019, 286: 297. [本文引用:1]
[5] Irina Torres, María-Teresa Sánchez, María-José de la Haba, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 217: 206. [本文引用:1]
[6] Mazlina Mohd Said, Simon Gibbons, Anthony Moffat, et al. Journal of Near Infrared Spectroscopy, 2019, 27(5): 379. [本文引用:1]
[7] ZHANG Zhi, ZHANG Kai-fei, CUI Ying-tao, et al(张志, 张开飞, 崔迎涛, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2018, 38(Suppl. ): 63. [本文引用:1]
[8] LI Guan-wen, GAO Xiao-hong, XIAO Neng-wen, et al(李冠稳, 高小红, 肖能文, ). Chinese Journal of Luminescence(发光学报), 2019, 40(8): 1030. [本文引用:1]