基于近红外光谱油分检测的玉米单倍体鉴别方法研究
李浩光1,2, 于云华1,2, 逄燕1, 沈学锋1,2
1. 中国石油大学胜利学院, 山东 东营 257061
2. 中国石油大学信息与控制工程学院, 山东 东营 257061

作者简介: 李浩光, 1981年生, 中国石油大学胜利学院讲师 e-mail: lihaoguang@semi.ac.cn

摘要

目前, 在单倍体育种技术中, 可先使用低场核磁共振方法定量测得玉米单倍体与二倍体的油分, 再依据二者油分差异鉴别单倍体, 该方法在实际育种工作中已取得初步应用, 但核磁共振鉴别单倍体方法存在速度慢、 价格贵、 维护难等缺点, 难以获得大范围应用。 近红外光谱技术有诸多优点并在各领域取得广泛应用, 相关研究也表明该技术可用于玉米单倍体的定性鉴别, 但是目前该方法用于鉴别单倍体实验研究时涉及的玉米品种相对较少, 对于某些品种识别效果较差, 且内部机理类似于黑盒, 难以指明单倍体、 二倍体两类种子是依据何种物质的差别进行区分, 有时难以获得农业领域专家认可。 根据花粉直感效应的原理, 玉米单倍体与二倍体存在明显的油分区别, 通过油分鉴别单倍体原理直观明白, 易于被业内专家接受。 因此, 提出了一种先定量得到油分, 再依据定量分析所得油分进行分类的方法, 即首先使用玉米单籽粒的近红外光谱定量回归分析得到各籽粒的油分含量, 再利用定量分析所得的油分值, 并使用最小平方误差方法对单倍体、 二倍体混合籽粒进行定性分类。 实验结果表明近红外定量分析方法的识别精度与核磁共振方法相当, 与几种定性分析方法比较, 在训练集规模相同时, 近红外定量分析方法所得识别率优于几种定性分析方法, 进一步表明近红外定量分析方法鉴别单倍体具有一定优势, 可满足育种行业精度要求, 能够为尽快实现单倍体工程化育种提供保障。

关键词: 油分; 单倍体; 近红外光谱; 定量; 分类
中图分类号:O657.3 文献标志码:A
Study of Maize Haploid Identification Based on Oil Content Detection with Near Infrared Spectroscopy
LI Hao-guang1,2, YU Yun-hua1,2, PANG Yan1, SHEN Xue-feng1,2
1. Shengli College, China University of Petroleum, Dongying 257061, China
2. College of Information and Control Engineering, China University of Petroleum, Dongying 257061, China
Abstract

At present, oil content difference between Haploid and diploid was used to identify haploid in maize breeding with NMR quantitative analysis. The method has been applied in the practical work, but NMR method is slow, expensive and difficult to maintain etc. It hindered its application in haploid breeding. NIR(Near infrared) spectroscopy technology has been widely used in petroleum, food, medicine and other fields due to its nondestructive, convenient advantages. The NIR qualitative analysis to identify Maize Haploid seeds also achieved a certain effect, but maize varieties used in NIR qualitative method in past research for identification is relatively small, for some varieties the recognition effect is not good. The internal mechanism of NIR qualitative analysis is similar to the black box, therefore it is difficult to distinguish content difference between haploid or diploid seeds, so it is difficult to get the approval of agricultural experts in the field. According to the principle of Xenia effect, there are obvious differences between oil content of Haploid and diploid, the oil identification principle is easy to understand intuitively. Therefore, a NIR quantitative analysis method for the identification of haploid maize is proposed. The experimental results show that the precision of NIR quantitative analysis method and NMR method are very close, under same condition, compared with several qualitative methods, recognition rate of NIR quantitative analysis method is superior to several qualitative analysis, which further proved that NIR quantitative analysis method has certain advantages. The method proposed can meet the requirements of precision of maize breeding industry, and it can boost the progress of maize breeding research.

Keyword: Oil content; Haploid; Near infrared spectroscopy; Qualitative; Classification

引 言

单倍体育种技术是玉米育种行业的一种新方法, 使用该方法可以有效缩短产生纯合系的周期, 提高育种的效率。 这种技术首先需挑选足量的单倍体籽粒, 而玉米在未加人工干预的情况下单倍体在所有混合籽粒中的占比仅有0.05%~0.1%, 即使采用玉米单倍体生物诱导技术, 单倍体籽粒的占比一般也不到籽粒总数的10%[1, 2, 3, 4]。 高速、 精准的从数目巨大的混合籽粒中挑选得到占比少于10%的单倍体籽粒, 才能够满足工程化育种的发展需要。 而实际育种工作中挑选单倍体时常用的分子生物学方法、 田间形态学辨别方法等[5, 6, 7]存在检测时间长、 成本高、 需破坏样本等缺点, 很难高效精准的从混合籽粒中挑选得到玉米单倍体籽粒。

中国农业大学的宋同明和陈绍江教授提出的基于花粉直感效应适用于高含油率玉米单倍体鉴别的方法, 能够作为单籽粒玉米含油率鉴定单倍体的有力理论支撑, 该方法能够克服上述常规方法的缺点, 具有无损、 操作简便、 成本低等优点。 使用含油率高的诱导系作为父本诱导一般的玉米自交系过程中, 单倍体籽粒的胚是由母本雌配子独立发育得到[8], 因此花粉直感效应在单倍体籽粒上并无体现, 这就导致了单倍体籽粒与杂交二倍体籽粒在含油率(油分)具有显著的区别, 具体表现在单倍体总体油分含量明显小于二倍体籽粒, 若能测得各个玉米籽粒油分, 并利用单倍体、 二倍体之间的油分差异, 便能够对二类籽粒进行准确的分类鉴别。

目前低场核磁共振(nuclear magnetic resonance, NMR)技术可用于检测玉米单籽粒的含油率, 单籽粒玉米油分核磁共振仪已少量地投入实际的玉米单倍体育种工作中, 一定程度上提高了分选效率[9, 10, 11, 12, 13], 但核磁共振仪仍存在价格昂贵、 维护难度大、 速度慢、 效率低的弱点, 现有设备完成一个籽粒的分选每颗需要用时4 s[14], 无法满足工程化育种中大量筛选的速度需求。

随着近红外光谱(near infrared, NIR)分析技术不断发展, 该技术已经能够对植物种子、 中草药、 烟草等复杂组分样品进行快捷、 无损、 无试剂的精准鉴别。 若将NIR技术用于单倍体鉴别, 必将显著提高整个育种行业的工作效率与发展速度。

覃鸿等采用了自制的采集装置配合微型近红外光谱仪, 分漫反射与漫透射两方式分别采集了若干单倍体与二倍体籽粒的光谱, 并对两种方式下的支持向量机(SVM)的二分类方法效果进行了实验研究, 结果表明漫透射方式下该分类器能够获得高于90%的分类准确率, 而漫反射方式的识别率显著低于漫透射方式, 已不能满足单倍体鉴别的精度要求, 研究认为漫透射方式比漫反射方式更适合玉米单倍体籽粒的鉴别[15]; 覃鸿研究了在使用MicroNIR1700型微型近红外光谱仪漫透射方式下采集光谱时, 光源强度以及光阑孔径对单倍体识别效果的影响, 并通过实验确定了单倍体识别率最优时的光源功率及光阑孔径[16]。 上述研究为采用近红外光谱漫透射方式鉴别玉米单倍体打下了重要基础。

直接采用近红外定性分析鉴别玉米单倍体籽粒虽然取得了一定的效果, 但目前所做实验采集玉米品种相对较少, 对于某些品种分类效果较差, 且内部机理类似于黑盒, 难以从分子生物学的角度, 指明两类种子是根据何种物质进行区分, 难以获得农业领域专家认可。 而基于花粉直感效应, 单倍体与二倍体在油分上有明显区别, 核磁共振分类方法已有明确效果, 从原理上直观明白, 因此, 本工作以国家玉米改良中心在单倍体育种工作中收获的多品种玉米籽粒为研究对象, 提出了一种基于利用漫透射近红外光谱先定量分析获得各个籽粒油分, 再根据籽粒油分进行定性分类的方法。 首先使用自制的光谱采集装置采集足量的玉米混合籽粒的近红外光谱, 以NMR法测得的油分作为真值, 采用偏最小二乘(PLS)方法作为近红外光谱定量分析的回归方法, 再将近红外定量的方法与核磁共振的方法的分类效果进行比较, 实验结果表明近红外定量分析方法精度与核磁共振方法相当, 同时采用几种定性分析方法对单倍体进行鉴别, 在训练集规模相同时, 所得识别率略低于近红外定量分析方法, 进一步表明近红外定量分析方法具有一定的优势, 能够满足育种行业的精度要求, 可以为尽快实现单倍体工程化育种提供技术保障。

1 实验部分
1.1 材料与光谱采集

实验使用足量的国家玉米改良中心提供的30个经过高油诱导的玉米品种, 混合籽粒中二倍体籽粒带有紫色记号, 混合籽粒中单倍体占比约为3%~6%。 实验所用的玉米籽粒样本于2015年在北京某郊区实验基地种植并收获得到, 每个品种在田间预选足量的备选籽粒。 通过有经验的技工根据R1-nj颜色标记从各个品种中挑选得到单倍体与二倍体籽粒, 其中单倍体与二倍体籽粒分别为50~60粒, 各品种的单倍体籽粒以及二倍体籽粒各700粒作为下一步实验的研究对象。 为保证实验结果的可靠性和准确性, 在人工挑选阶段, 只选择颜色标记非常清晰的个体, 舍弃颜色标记模糊、 属性难以分辨、 籽粒形状畸变以及胚部发育不良的籽粒。

将所有利用颜色标记方法人眼挑选得到玉米籽粒依次按序存放, 籽粒含油率通过核磁共振分析仪逐颗籽粒测量得到其油分, 实验所用的核磁共振仪型号为minispec mq20型(德国, 布鲁克)[13, 14, 15], 在后期实验中将核磁共振所测油分作为近红外光谱定量分析时的真值。

采集单籽粒玉米近红外光谱时, 采用如图1所示的自制实验装置, 装置主要由底座、 支架、 近红外光源、 光阑、 光谱仪等部件组成, 其中光源采用卤素镀金钨灯(12 V, 35 W), 为获得最优识别效果, 采用的光阑附件(孔径为5.2 mm), 测量时光源与光阑上表面距离为5 cm[16, 17], 本实验所用光谱仪型号为MicroNIR-1700, 该光谱仪的光谱波段为900~1 700 nm, 所采集原始数据为128维向量, 若将积分时间设为5 000 ns, 积分次数设为50时, 测量时间可缩短至0.25 s。 使用该方法依序采集700粒单倍体及700粒二倍体的近红外漫透射光谱, 每颗籽粒采集10条光谱。 经过光谱仪自带软件预处理后得到125维光谱向量, 后期数据分析处理使用Matlab2016a软件。

图1 实验所用采集装置简图Fig.1 Schematic diagram of aquisition device

1.2 方法

将700粒单倍体、 700粒二倍体依次采集得到的10条原始光谱取平均, 并采用近红外光谱分析常用的预处理方法如平滑、 求导等操作去除光谱噪声、 提升光谱信噪比, 为下一步实验做好数据准备。

偏最小二乘回归(PLSR)方法是一种在光谱分析领域常用的多元回归分析方法, 能够提取有效特征, 起到原始数据降维的作用, PLSR方法的特点是所提取的低维特征既能够反映光谱矩阵X中的信息, 又可以对应变量Y的具有充分解释力[17, 18]

首先将n个样品的单籽粒玉米油分(核磁方法测量)矩阵, 及实验所用光谱仪测得的n个玉米籽粒的光谱矩阵X=(xij)n× 125表示为如式(1)和式(2)

Y=UQ+F(1)X=TP+E(2)

式(1)中U是能够反映玉米籽粒含油率的系数矩阵, 而式(2)中, -T能够反映玉米籽粒光谱矩阵特性的系数矩阵, Q为玉米籽粒含油率载荷矩阵, P是玉米籽粒的光谱载荷矩阵, 其中FE则是油分残差矩阵以及光谱残差阵。

PLSR建立UT之间的回归模型

U=TB+Ed(3)

式(3)中Ed为真实光谱与回归值之间的误差矩阵, 而Bd维回归中得到的对角矩阵。

对于某一粒未知含油率的玉米籽粒, 若其原始光谱为x, 则可利用式(4)求得其含油率

y=X(UX)'BQ(4)

若实验中样品满足高斯分布或者均匀分布, 在挑选建模集数据时可采用K-S法或随机法[17]。 但实验中的单倍体及二倍体的油分分布如图2所示呈现双峰分布, 若未能选择恰当的建模集样本, 会导致所建模型泛化能力不强[17], 在使用所提出的方法鉴别单倍体时, 为避免模型受品种的影响, 且所建模型能够覆盖整个油分分布的范围, 在挑选建模集时使用油分含量梯度法, 即对1 400粒单倍体、 二倍体籽粒按照油分值大小进行排序, 其中奇数序号的700粒做备选建模数据集, 而偶数序号的700粒作为备选测试数据集。 为检验建模集规模对模型预测性能与泛化能力的影响, 从奇数序号的籽粒中依次递增选取70, 140, …, 700粒玉米作为建模集, 偶数序号的700粒玉米籽粒作为固定测试集。

图2 单倍体及二倍体油分直方图Fig.2 Histogram of haploid and diploid oil content

在确定建模集与测试集后, 进行如下两项实验:

(1)NIR定量分析实验: 将NMR方法测得的玉米籽粒油分作为真值, 使用PLSR方法对建模集的700条近红外光谱建立定量分析模型, 根据所建模型对测试集700玉米籽粒的油分进行预测, 得到NIR预测值, 将NIR法与NMR进行对比, 利用NMR测得油分值(真值)通过最小平方误差方法[19]确定油分阈值, 分别使用NIR方法获得的预测值以及NMR测得油分值(真值)对测试集700粒单倍体及二倍体混合籽粒进行分类。

(2)NIR定量分析实验与定性分析方法分类性能对比: 实验中将近红外油分定量分析鉴别方法与其他几种常用的支持向量机(SVM)、 K近邻(KNN)、 BP神经网络(BPANN)[17]等定性分析方法的识别效果进行比较。

2 结果与讨论

图3是PLS=20时, 近红外方法预测值与真值(核磁方法所得)之间相关系数随建模集数量增加时的相关系数趋势曲线, 当建模集籽粒数为70时相关系数约为0.5, 当建模集籽粒数达到700时为0.751, 当用来训练并建立模型的玉米籽粒的光谱增多时, NIR定量分析得到的油分预测值与真值之间的相关性增大。 说明随着样本量增多, 近红外定性分析方法提取近红外光谱中有效信息的能力增强。

图3 相关系数随建模数据增多变化趋势图Fig.3 Correlation coefficient chart as train data increasing

图4(a)和(b)是测试集固定为籽粒700粒时, 建模集中分别包含70粒和700粒玉米籽粒油分核磁测量值与近红外预测值的散点分布图, 图中圆圈代表单倍体籽粒, 三角形代表二倍体籽粒, 横坐标是核磁共振方法得到的油分值(真值), 纵坐标是近红外定量方法得到的油分值(预测值), 玉米混合籽粒油分分布在2%~7.5%之间, 其中单倍体油分分布在2%~4.5%, 二倍体油分分布在4%~7.5%之间, 黑色实竖线及黑色虚横线代表核磁共振得到的油分值(真值)进行单倍体二倍体分类得到的阈值线。 图中位于黑色虚横线上方的圆圈表示根据近红外定量法得到的油分进行分类, 被错分成二倍体的单倍体籽粒, 而位于黑色虚横线下方的三角形被错误地识别成单倍体的二倍体籽粒。 位于实竖线左侧的三角表示被错分成二倍体的单倍体籽粒, 位于实竖线右侧的圆圈表示错分成单倍体的二倍体籽粒。

图4 玉米油分核磁测量值(横轴)与NIR模型预测值(纵轴)的散点分布图Fig.4 Scatter of haploid and diploid oil content

由图4(a)及图4(b)易知, 用于建模的光谱数量增多能够明显改善模型的预测性能, 用于训练建模的样本增多, 使NIR模型预测值与真值之间的相关性增大, 同时也改善了分类效果, 由图4(a)可以看出, 根据PLSR回归模型预测值进行分类时, 错误的籽粒明显多于图4(b)中的数量。 图4(b)中玉米籽粒含油率预测值与真值(NMR方法测量值)的相关系数达到0.75, 可知NMR方法所测值与NIR定量方法预测值相关性较高, 近红外定量分析方法是一种二次分析方法, 其定量分析精度受真值的影响较大, 而核磁方法测得的油分(真值)本身就存在一定的误差, 虽然近红外预测值与真值的相关性没有达到0.9以上, 但是将近红外回归得到的油分值用于分析的效果还是非常理想。

表1是根据测试集的700粒玉米油分真值与近红外预测值分别通过最小平方误差方法寻优得到的油分阈值, 并根据油分阈值进行分类得到的识别率。 由表1看出, 两种方法得出的识别率均高于90%, 其中正确识别率Rca表明分类器将单倍体从混合籽粒中辨别正确的能力, 而正确拒识率Rcr说明分类器将二倍体籽粒剔除出单倍体这一类的能力。 评判某个模式分类方法的性能优劣, 理想目标是RcaRcr都较高, 但是这两个指标又相互矛盾, 因此为避免评判标准的片面化, 应综合考虑二者, 结合玉米单倍体育种精度的现实需求, RcaRcr的平均值应该大于90%。 从表1可以看出, 近红外定量分析方法能够满足上述育种行业精度要求, 完全可以取代核磁共振的方法, 同时近红外方法相比于核磁方法具有的优势是分选速度快、 设备使用维护简单、 设备价格相对较低, 比核磁共振方法更容易在实际玉米工作中获得大范围的使用。

表1 两种方法的识别率 Table 1 Recognize rate of two methods

图5是识别效果比较图, 实验中将近红外油分定量方法与其他几种常用的支持向量机(SVM)、 K近邻(KNN)、 BP神经网络(BPANN)[18]等定性分析方法进了比较, 在用于训练的光谱数量增多的过程中, 几种方法的识别率变化趋势分别用不同类型的曲线在图中显示。 图5中的用于评价模型预测性能的正确识别率为与二者的平均, 从曲线的变化趋势可知, 几种方法的分类性能都随用于训练的籽粒数量的增高而相应增高, 当建模集包含玉米籽粒光谱样本数是700时, SVM等模式分类方法的分类准确率基本稳定在85%左右, 而采用定量分析方法确定油分阈值在分类的方法, 当建模集所含样本达到350粒时, 识别率即达到90%以上, 可见几种方法中, 定量分析的方法识别率最高, 分类效果高的原因是这种定量方法比直接通过定性分析方法进行分类时, 在建模过程多采集了一维监督向量(油分), 而且这一维向量本身能够有力地说明单倍体及二倍体之间的差异, 即定量分析模型比定性分析模型在建模时学习了更丰富的信息。 分类效果较高的代价是需要实现结合核磁共振的仪器, 对几百粒玉米事先按序测定油分, 进而建立定量分析的模型, 得到每一粒玉米的油分的预测值, 通过这些预测值再确定分类阈值, 得到分类结果。 从上述的实验结果来看, 同样建模集规模的情况下, 定量方法比定性分析方法具有更好的预测精度和泛化能力, 但是需要花费核磁共振测定油分的时间, 但是考虑到后期工程化育种大规模筛选的需要, 这种代价完全可以接受。

图5 NIR定量法与3种常用模式分类分析方法识别效果比较Fig.5 Recognition rate comparison of between NIR quantitative method and several methods

3 结 论

在单倍体育种中, 采用核磁共振鉴别单倍体得到了较好的应用, 但是核磁共振鉴别单倍体速度存在速度较慢、 设备价格昂贵、 维护复杂等不足之处, 阻碍了其在单倍体工程化育种中的大范围的应用, 目前近红外光谱技术由于其无损、 快捷等优点在生产生活的各个领域得到了广泛应用, 近红外定性分析鉴别玉米单倍体籽粒也取得了一定的效果, 但是目前实验研究涉及的玉米品种相对较少, 对于某些品种效果较差, 内部机理类似于黑盒, 难以指明两类种子是根据什么物质不同进行区分, 因此难以获得农业领域专家认可。 而基于花粉直感效应, 单倍体与二倍体在油分上有明显区别, 核磁共振分类方法已有明确效果, 从原理上直观清晰。 本工作实验所用微型光谱仪单粒玉米光谱采集时间为0.25 s, 若辅以合适的自动化装置, 速度应能快于目前投入实际使用的单籽粒玉米油分核磁共振仪, 核磁共振自动分选机每颗需耗时4 s。 基于上述原因, 提出了一种利用近红外光谱检测单籽粒玉米油分定量分析的单倍体鉴别方法, 该方法为后期基于近红外定量分析的全自动单倍体鉴别系统提供参数指导; 同时也为开发基于油分花粉直感效应的玉米单倍体近红外全自动分选仪提供理论基础, 可以提升单倍体鉴别的效率, 能够达到工程化育种大批量筛选的速度要求, 为单倍体工程化育种的早日实现提供技术基础。

The authors have declared that no competing interests exist.

参考文献
[1] CAI Zhuo, XU Guo-liang(才卓, 徐国良). Journal of Maize Science(玉米科学), 2008, 16(1): 1. [本文引用:1]
[2] MA Jun, JIANG Min, LIU Xin-fang, et al(马骏, 姜敏, 刘欣芳, ). Journal of Northeast Agricultural University(东北农业大学学报), 2011, 42(10): 135. [本文引用:1]
[3] CHEN Shao-jiang, LI Liang, LI Hao-chuan(陈绍江, 黎亮, 李浩川). Maize haploid Breeding Technology(玉米单倍体育种技术). Beijing: China Agricultural University Press, 2012. [本文引用:1]
[4] CHEN Shao-jiang, SONG Tong-ming(陈绍江, 宋同明). Acta Agronomica Siniea(作物学报), 2003, 29(4): 587. [本文引用:1]
[5] SONG Peng, WU Ke-bin, ZHANG Jun-xiong, et al(宋鹏, 吴克斌, 张俊雄, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2012, 43(3): 168. [本文引用:1]
[6] ZHANG Jun-xiong, WU Zhan-yuan, SONG Peng, et al(张俊雄, 武占元, 宋鹏, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2013, 29(4): 199. [本文引用:1]
[7] HAN Zhong-zhi, ZHAO You-gang, YANG Jin-zhong(韩仲志, 赵友刚, 杨锦忠). Transactions of the Chinese Society of Agricultural Engineering, 2010, 26(3): 222. [本文引用:1]
[8] Li Haochuan, Yang Jiwei, Qu Yanzhi, et al. Journal of Maize Sciences, 2015(1): 73. [本文引用:1]
[9] Melchinger A E, Schipprack W, Friedrich Utz H, et al. Crop. Sci. , 2014, 54(4): 1497. [本文引用:1]
[10] Albrecht E Melchinger, Markus Winter, Mi Xuefei, et al. Crop Science, 2015, 55(5~6): 1. [本文引用:1]
[11] Albrecht E Melchinger, Wolfgang Schipprack, Mi Xuefei, et al. Crop Sci. , 2015, 55(1~2): 188. [本文引用:1]
[12] Xie C, Chu B, He Y. Food Chemistry, 2018, 245: 132. [本文引用:1]
[13] Dong X, Xu X, Miao J, et al. Theoretical and Applied Genetics, 2013, 126(7): 1713. [本文引用:2]
[14] Liu Jin, Guo Tingting, Yang Peiqiang, et al. Transactions of the Chinese Society of Agricultural Engineering, 2012, 28(Supp2): 233. [本文引用:2]
[15] QIN Hong, MA Jing-yi, CHEN Shao-jiang, et al(覃鸿, 马竞一, 陈绍江, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 25(11): 1807. [本文引用:2]
[16] QIN Hong, MA Jing-yi, CHEN Shao-jiang, et al(覃鸿, 马竞一, 陈绍江, ). Infrared Technology(红外技术), 2015, 1(37): 78. [本文引用:2]
[17] YAN Yan-lu, CHEN Bin, ZHU Da-zhou(严衍禄, 陈斌, 朱大洲). Near Infrared Spectroscopy Analytical-Principles, Technology and Application(近红外光谱分析的原理、 技术与应用). Beijing: China Light Industry Press(北京: 中国轻工业出版社), 2007. [本文引用:5]
[18] LI Hao-guang, LI Wei-jun, QIN Hong, et al(李浩光, 李卫军, 覃鸿, ). Transactions of The Chinese Society of Agricultural Machinery(农业机械学报), 2016, 47(6): 259. [本文引用:2]