近红外光谱桉树杂交种鉴别
卢万鸿, 齐杰*, 罗建中
国家林业和草原局桉树研究开发中心, 广东 湛江 524022
*通讯联系人 E-mail: 1569545149@qq.com

作者简介: 卢万鸿, 1982年生, 国家林业和草原局桉树研究开发中心副研究员 E-mail: luwanhong@outlook.com

摘要

桉树育种和遗传分析是开展桉树世代改良及其目标性状改良等研究的前提。 而常用的遗传基础研究方法专业性要求高, 且费时费力。 该研究旨在利用近红外光谱(NIRs)分析NIRs信息与桉树遗传信息间的关系, 并探索NIRs信息用于桉树杂交种判别分析的可行性和准确性。 以现有的桉树杂交种测试试验及其亲本材料为对象, 用手持式近红外仪Phazir Rx(1624)采集了7个桉树杂交种及其4个亲本树种叶片的NIRs信息。 每个树种选择10个单株, 每个单株选10片当年生健康叶片, 扫描其正面叶脉中部两侧光谱各5次, 以均值代表单个叶片的NIRs信息。 每种基因型总共各获得100条NIRs信息, 其中70条构成训练集样本, 30条构成验证集样本。 原始NIRs信息采用S.G二阶导数转换预处理, 以消除基线及其他因素对光谱信息的影响, 增强特征峰信息。 经预处理后的NIRs信息用于后续分析, 首先通过主成分分析(PCA)的因子得分对树种的分类判断NIRs信息与测试树种遗传信息间的关系。 在此基础上, 分别用簇类独立软模式(SIMCA)和偏最小二乘判别分析(PLS-DA)两种判别模式建立桉树杂交种的NIRs判别模型。 经预处理后的NIRs信息的变异系数曲线显示, 在波长2 000 nm后, 各树种的NIRs信息存在丰富的特征峰, 且特征峰的分布范围存在较大的差异。 PCA结果显示, 不同的亲本间、 杂交种间及杂交种与亲本间样本的PC1和PC2得分可以清晰地将各树种进行分类, 这在很大程度上表明NIRs信息可以正确反映桉树不同基因型的遗传信息。 NIRs模型的判别效果显示, 少数遗传关系比较接近的杂交组合的SIMCA模式相互判别准确率较低, 而多数杂交组合间的SIMCA判别准确率则在73%~100%之间; 桉树各杂交组合间的单独和综合模型的PLS-DA判别准确率均为100%, 且基于PLS-DA判别的综合模型能将7个杂交组合一一与其他组合正确区分开, 判别效果明显优于SIMCA模式。 结果表明: NIRs信息可以正确反映桉树不同基因型的遗传信息, NIRs判别模型可以比较准确地将各树种进行区分, 因此, NIRs信息可用于桉树杂交种和纯种的田间定性判别, 从而辅助桉树育种材料遗传基础的研究。

关键词: 近红外光谱; 簇类独立软模式(SIMCA); 偏最小二乘判别分析(PLS-DA); 桉树杂交种
中图分类号:S722.34 文献标志码:A
Application of NIRs for Discrimination of Eucalyptus Hybrids
LU Wan-hong, QI Jie*, LUO Jian-zhong
China Eucalypt Research Centre, Zhanjiang 524022, China
Abstract

The analysis of genetic basis of breeding materials is the precondition for the improvement programs on populations and interesting traits in eucalypt. However, the traditional ways for that have high professional requirements and are time-consuming and laborsome. The aim of present study was to study the relationship between NIRs and genetic information of eucalypt, and discuss the practicability and the accuracy of the discriminant model for the classification of eucalypt hybrids by NIRs data. The NIRs of seven eucalypt hybrids and four parental pure species were scanned with healthy leaves using handheld portable near infrared spectrometer Phazir Rx (1624). 10 individuals were selected for a genotypic species, and 10 healthy current-year leaves were chosen per individual tree. Specially five scans for NIRs from each side of the middle part of the frontal vein of the leaves were taken, and estimated the average of that as the NIRs information of a leaf. In total, 100 NIRs were gained per genotypic species, 70 of which constitute the calibration set, and the validation set consists of the rest 30 NIRs. The transformation of S.G 2nd derivative were performed for the raw NIRs data in present study so as to eliminate the effects of baseline and other factors on the NIRs information, and to strengthen the characteristic peaks of NIRs. The later analysis were conducted after the pretreatment. Firstly, the relationship between NIRs and genetic information of eucalypt hybrids was studied by the scores plot of principal components (PCs) in principal component analysis (PCA), and on this basis, the NIRs discriminant model was developed. The soft independent modeling of class analogy (SIMCA) and partial least squares-discriminant analysis (PLS-DA) pattern recognition were used to classify eucalypt hybrids with the NIRs model calibrated. The coefficient variation curves of NIRs transformation showed that all phenotypic species studied had rich characteristic peaks, and big differences among them after the wavelength of 2000 nm. The scores plot of PC1 and PC2 in PCA demonstrated clear groups among parental species, hybrids, as well as between hybrids and their parents, suggesting NIRs was a direct response to the genetic information of different genotypes. The discriminant accuracy of SIMCA pattern recognition between some cross combinations, which shared close genetic relation of cross parents, were relatively low using NIRs model. In contrast, the discriminant accuracy of SIMCA pattern recognition among most of eucalypt combinations changed between 73% and 100%. The discriminant accuracy of PLS-DA pattern recognition using single and combined NIRs model of hybrids all were 100%, and the combined model of hybrids based on PLS-DA pattern can discriminate seven hybrids clearly. Studies showed that, the discriminant accuracy of PLS-DA pattern was much higher than that of SIMCA pattern recognition. The current study indicated that NIRs information is the correct response of different genotypic eucalypt species, and the NIRs calibrated model can classify different species of eucalypt accurately, so the NIRs would be used in the qualitative discrimination analysis of eucalypt hybrids and pure species in field, providing an alternative way for the analysis of genetic basis of breeding materials in eucalypt.

Keyword: Near infrared spectroscopy (NIRs); Soft independent modeling of class analogy (SIMCA); Partial least squares-discriminant analysis (PLS-DA); Eucalypt hybrids
引 言

长期有效的桉树(桉属Eucalyptus和伞房属Corymbia)遗传改良是解决桉树品种单一所导致的生态问题的最有效途径。 桉树育种群体的世代改良和杂交亲本选配首先需要解决的则是育种材料遗传亲缘关系的鉴别和分类。 常见的物种亲缘关系鉴定手段包括形态学标记[1, 2]、 细胞学标记[3]、 生物化学标记、 免疫学标记[4]和分子标记[5]等方法, 这些分析方法通常都耗时耗资, 且需具备很强的专业知识, 很难快速便捷地开展。 随着光谱学和化学计量学的不断发展, 借助近红外光谱(NIRs)信息进行植物分类、 产地鉴定及其物质成分快速预测的研究越来越多。 Abasolo等[6]用NIRs鉴别伞房属(Corymbia)桉树杂交种, 模型判别准确率为72%~100%。 Espinoza等[7]采集了16个纯种及人为混合松树(Pinus)松针的NIRs信息, 建立的NIRs判别模型经检验, 其对纯种和混合树种的判别准确率均达90%以上。 Sandak等[8]对欧洲4个不同地理来源的挪威云杉(Piceaabies L. Karst.)原木材与其NIRs信息间的关系做了研究, 结果证明不同来源的木材化学成分存在差异, 且NIRs信息能够准确地检测出这种差异。 Hayes等[9]发现伞房属桉树的杂交子代与其亲本间的萜烯含量差异很小, 常规测量检测不到这种微小差异, 但NIRs信息对物质化学成分的极微小差异反映更敏感。

不同来源的物种在特定条件下内在的遗传物质从根本上决定了其组织成分的差异, 这是NIRs用于物种成分预测和分类的主要依据[10]。 本研究计划以课题组现有的遗传材料为对象, 获得其NIRs信息, 用SIMCA和PLS-DA两种判别分析方法建立桉树不同杂交种间的判别模型, 探索NIRs技术用于桉树杂交种鉴别的可行性及方法。

1 实验部分
1.1 材料

杂交种叶样取自课题组2013年和2014年控制授粉的杂交子代测定林, 共计21个杂交种家系(组合), 按亲本树种将其分为7类(表1)。 四个亲本树种包括粗皮桉(E. pellita) (P2604, P4963, P5261, P6614, P6713, P6730, P9060, P9070)、 韦塔桉(E. wetarensis)(W04, W2209, W3226, W0644)、 尾叶桉(E. urophylla) (EC18)和细叶桉(E. tereticonis) (T0105), 分别来自各树种的育种群体。 根据Pryor等的分类系统[11], 粗皮桉、 尾叶桉同属横脉组, 其亲缘关系较近, 细叶桉为窿缘组, 与前两者关系较远。

表1 测试桉树杂交组合及其亲本信息 Table 1 The details of the hybrids and their parents of eucalyptus
1.2 仪器

手持式近红外仪Phazir Rx (1624) (Polychromix, Thermo Scientific, USA)用于NIRs数据的采集光学分辨率为12 nm, 波长范围为1 600~2 400 nm, 内置基于MEMS技术的可编程微衍射光栅, 自带背景校正参考片。

1.3 方法

1.3.1 光谱采集

每个树种选择10个单株, 每株选10片当年生健康叶片, 扫描其正面叶脉中部两侧光谱各5次, 以均值代表单个叶片的NIRs信息, 以提高光谱信噪比[12, 13]。 每个树种最终得到100条NIRs信息, 其中70条用作训练集, 30条构成验证集。

1.3.2 NIRs数据的预处理和分析

NIRs信息通常会受多种因素, 如高频噪声、 偏移、 光的散射等影响, 光谱预处理在一定程度上则可以消除这些影响, 增强光谱的特征峰信息。 有研究认为导数处理可以降低植物叶片的NIRs的基线影响[9, 13]。 通过预分析和建模效果对比等过程, 本研究对NIRs信息采用S.G二阶导数转换预处理。 光谱预处理和后续分析建模都在Unscrambler v9.8(CAMO, Oslo, Norway)中完成。

1.3.3 NIRs定性判别模型的建立

采用簇类独立软模式(soft independent modeling of class analogy, SIMCA)和偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)两种有监督模式的方法分别建立桉树杂交种的判别模型。

SIMCA判别以主成分分析(principal component analysis, PCA)为基础, 先是建立每个已知类的PCA模型, 然后用建立的模型对未知样本进行预测, 根据未知样本的主成分得分与PCA模型中已知类样本因子得分间的距离, 判定其归属。

PLS是NIRs定量分析(性状预测)常用的方法, 较其他方法更稳定可靠[14]。 在做PLS-DA分析之前, 人为对各类赋予二进制响应变量(表2), 再建立NIRs与响应变量间的校正模型。 采用PLS1和PLS2两种回归方法。 PLS-DA判别以响应变量的预测值Ypred为准:

表2 各组合PLS-DA分析时的响应变量赋值 Table 2 The response values assigned for seven cross combinations in PLS-DA

Ypred> 0.5时, 且偏差(Deviation)小于0.5时, 则认为Ypred≈ 1, 判定其属于本类;

Ypred≤ 0.5时, 且偏差小于0.5时, 则认为Ypred≈ 0, 判定其不属于本类。

2 结果与讨论
2.1 桉树杂交种叶片的NIRs信息变异特征

NIRs主要是物质有机分子的倍频与合频吸收光谱, 能够得到物质的分子结构、 组成和状态信息, 还能反映密度、 粒度、 高分子物的聚合度及纤维形态等物质的物理状态信息[12]。 图1是七个桉树杂交组合原始NIRs的平均值曲线, 通过NIRs原始光谱的直观变化很难发现其特征峰, 七种组合的NIRs信息在全波段变化趋势基本一致, 且存在明显的重叠。 在波长1 860 nm之前和波长1 910 nm之后, 七个杂交组合的NIRs反射率在一定程度上存在差异, 但不足以据此进行树种判别。

图1 桉树杂交种的原始NIRs反射率光谱Fig.1 The raw NIRs reflectance of spectra eucalypt hybrids

由于从桉树杂交种叶片的原始NIRs很难看出各组合间的差异信息, 为了寻找明确的特征峰, 确定建立桉树杂交种判别模型的特定NIRs波段, 对原始NIRs进行了二阶导数预处理, 以消除外因对NIRs信息的影响, 并突出光谱的特征峰。 图2为经预处理后的桉树杂交种全波段NIRs变异系数曲线, 从图中可以看出, 在2 000 nm后, 七种桉树杂交种的NIRs信息存在丰富的特征峰, 而该波段主要为NH, CH+CH和CH+CC基团的基频峰。 图2中粗韦桉的特征峰相对平缓, 粗尾桉的特征峰分别出现在2 000, 2 170和2 340 nm左右, 韦粗桉和韦细桉的特征峰集中在2 150~2 200 nm之间, 细韦桉的特征峰的在测试波长区间出现多次, 尾粗桉的特征峰出现在2 170和2 280 nm左右, 细粗桉的特征峰则出现在2 250 nm之后。

图2 桉树杂交种的NIRs反射率的变异系数Fig.2 The coefficient of variation of NIRs reflectance of eucalypt hybrids

2.2 桉树杂交种及其亲本的PCA聚类

PCA过程可以简化多维数据中大量重叠的信息, 同时, PCA的因子得分可以反映受试样本间的距离关系。 图3(a)和(b)是4个亲本树种NIRs数据主因子PC1和PC2的因子得分图。 从图中可以看出, 5个亲本树种各自的样本清晰地聚在一起。 聚类结果与各树种间的真实遗传亲缘关系非常吻合, 表明NIRs信息能够直接且真实地反映了各树种内在的遗传信息。

图3(a) 杂交亲本的PCA因子得分图Fig.3(a) The scores plot for PC1 and PC2 from PCA with the NIRs of crossing parents

将尾叶桉和韦塔桉单独分析在于学界对两者的分类尚未有定论[15], 有学者认为韦塔桉只是尾叶桉的一个种源(Wetar Island), 应属同一个种, 即尾叶桉。 从本研究来看, 如果把5个树种放在一起分析, 韦塔桉和尾叶桉较难清楚地分开, 而通过对两个树种NIRs信息的单独PCA分析来看, 两个树种确实存在较大差异[图3(b)]。

图3(b) 杂交亲本的PCA因子得分图Fig.3(b) The scores plot for PC1 and PC2 from PCA with the NIRs of crossing parents

图4是两个韦粗桉组合与其亲本树种的NIRs数据PCA结果中的因子得分图。 两个韦粗桉组合母本相同, 都是韦塔桉W04, 父本都是粗皮桉, 具体家系分别是P9060和P9070。 从理论上来讲, 这两个杂交组合的遗传关系应该很近, 但因子得分图还是能将两个组合清楚的分开。 同时, 图中3个亲本树种W04, P9060和P9070也都各聚一类, 而且与对应的杂交子代也清晰地分开, 这进一步证明NIRs信息完全能够区分不同的基因型, NIRs可以对遗传差异做出响应。

图4 杂交组合韦粗桉与其亲本的PCA因子得分图Fig.4 The scores plot for PC1 and PC2 from PCA with the NIRs of W× P combinations and their parents

2.3 桉树杂交种SIMCA判别模型的建立与检验

我们用7个桉树杂交组合的训练集样本分别建立了各自的PCA模型。 针对每个组合的PCA模型, 用其他组合的预测集样本进行验证, 临界概率水平定为0.05。 表3统计了每个组合PCA模型SIMCA模式判别的准确率。

表3 桉树杂交组合PCA模型的SIMCA模式判别准确率(α =0.05) (%) Table 3 The discriminant accuracy of eucalyptus hybrids’ PCA model with SIMCA pattern recognition

表3可以看出, 7个杂交组合PCA模型的SIMCA判别准确率普遍都很高, 多数杂交组合的模型判别准确率达到了73%~100%。 个别模型在判别某些杂交种时的准确率较低, 如粗韦桉模型在判别粗尾桉和尾粗桉的准确率分别为33.8%和57.5%, 粗尾桉模型判别粗韦桉的准确率为65.3%。 这两个模型判别准确率低的主要原因可能与这几个杂交组合亲本间的遗传亲缘关系有关。 前面已经说到, 尾叶桉和韦塔桉实际上被认为是同一个树种, 这就从理论上决定了“ 粗韦桉” 和“ 粗尾桉” 的遗传亲缘关系也很近。 另外, 由于粗皮桉和尾叶桉同属横脉组, 其亲缘关系较近, 所以这几个杂交组合NIRs信息的相似性自然就很高。

细粗桉模型在判别韦粗桉、 韦细桉和细韦桉时的准确率也比较低(50%~62%), 原因可能是这几个杂交组合中都有一个相同亲本(不只是同树种), 这就决定了其杂交子代的遗传在很大程度上存在相似性。 细韦桉模型判别韦细桉的准确率也很低(30%), 则是因为它们是正反交的关系。 SIMCA模式判别是基于样本距离的判别, 可以说它更客观地反映了样本间的遗传差异。

2.4 桉树杂交种PLS-DA判别模型的建立与检验

PLS-DA定性判别分析与PLS定量分析类似, 根据所建模型预测未知样本的响应变量值, 判别其类归属。 本研究中建立了PLS1和PLS2两种PLS模型。 PLS1是针对每个杂交组合分别建立其响应变量和NIRs间的PLS模型(7个), 而PLS2则是以7个组合的响应变量同时与NIRs信息建立一个综合PLS模型(1个)。 表4列出了7个桉树杂交组合两种PLS模型的建模效果和判别准确率。

表4 桉树杂交组合PLS模型的PLS-DA模式判别准确率(α =0.05) (%) Table 4 The discriminant accuracy of eucalyptus hybrids’ PLS model with PLS-DA pattern recognition

表4可以看出, 7个组合两种PLS模型测量值与预测值间的决定系数R2为0.79~0.95, 测量值与预测值间的平均均方根误差RMSEC在0.08~0.16间变化, 这表明响应变量与各杂交组合NIRs信息间的建模效果很好。 同时, 表中还列出了所建模型在预测未知样本时的表现, 其决定系数R2的变化范围为0.68~0.89, 平均均方根误差RMSEV在0.12~0.20间变化。 对比所建模型的建模和预测效果可以发现, 两者之间存在一定差距, 理论上来说, 这主要是由建模集样本与预测集样本的差异所致, 这也是NIRs模型特异性的一个体现。 但7个杂交组合两种PLS模型的PLS-DA判别效果均显示, 每个模型的判别准确率都为100%, 判别效果很理想。

图5是7个桉树杂交组合PLS2模型对7个组合验证集样本的PLS-DA判别结果, 图中更为直观地展示了PLS-DA判别模式的判别效果。 尽管有些杂交组合的PLS2模型预测值偏差稍大, 如细粗桉, 但整体来看, PLS2模型的PLS-DA判别还是准确清晰地将每一个桉树杂交组合与另外6个组合区分开来。 必须注意的是借助任何方法的样本判别都离不开对相应领域专业背景知识的了解, 纯粹的数学聚类算法一般都不能实现理想的分类效果, 或者说特定的分类结果需要对应专业知识的解读。

图5 七个桉树杂交组合PLS2模型的PLA-DA判别预测值(横坐标为预测集样本)Fig.5 The predicted values for 7 eucalyptus hybrids’ by PLS2 model with PLS-DA pattern

3 结 论

不同桉树杂交组合的原始NIRs反射率、 经导数处理后NIRs变异系数及其PCA的因子得分均说明, 桉树叶片的NIRs信息真实地反映了不同基因型的遗传信息, NIRs信息用于桉树杂交种的定性判别具有可靠的理论基础, 甚至可以用于林木基因流的评估。

SIMCA和PLS-DA两种模式的判别效果表明, NIRs可成功用于桉树杂交种的田间判别。 对于辅助桉树的遗传改良来说, 同时结合两种模式对树种的鉴别分析会更有意义。

The authors have declared that no competing interests exist.

参考文献
[1] Asamoah-Boaheng M, Sam E K. Springerplus, 2016, 5(1): 1. [本文引用:1]
[2] SONG Ji-xuan, LI Yun, DENG Ren-ju, et al(宋吉轩, 李云, 邓仁菊, ). Northern Horticulture(北方园艺), 2017, 18: 58. [本文引用:1]
[3] JIA Fang-xin, ZHOU Ming-bing, CHEN Rong, et al(贾芳信, 周明兵, 陈荣, ). Scientia Silvae Sinicae(林业科学), 2016, 52(9): 57. [本文引用:1]
[4] Kawashima A, Kanazawa T, Goto K, et al. Cancer Immunology Immunotherapy, 2017, (1500-11): 1. [本文引用:1]
[5] Samah S, Cruz M A S, Valadez-Moctezuma E. Plant Molecular Biology Reporter, 2015, 34(1): 1. [本文引用:1]
[6] Abasolo M, Lee D J, Raymond C, et al. Forest Ecology & Management, 2013, 304(304): 121. [本文引用:1]
[7] Espinoza J, Hodge G, Dvorak W. Journal of Near Infrared Spectroscopy, 2012, 20(4): 437. [本文引用:1]
[8] Sand ak A, Sand ak J, Negri M. Wood Science & Technology, 2011, 45(1): 35. [本文引用:1]
[9] Hayes R A, Nahrung H F, Lee D J. Australian Journal of Botany, 2013, 61: 52. [本文引用:2]
[10] Yang G L, Lu W H, Lin Y, et al. Journal of Tropical Forest Science, 2017, 29(1): 121. [本文引用:1]
[11] Pryor L D, Johnson L A S. A Classification of the Eucalypts. The Australian National University, Canberra, 1971. [本文引用:1]
[12] YAN Yan-lu(严衍禄). Near Infrared Spectroscopy Foundations and Applications(近红外光谱分析基础与应用). Beijing: China Light Industry Press(北京: 中国轻工业出版社), 2005. [本文引用:2]
[13] LU Wan-hong, YANG Gui-li, LIN Yan, et al(卢万鸿, 杨桂丽, 林彦, ). Scientia Silvae Sinicae(林业科学), 2017, 53(5): 16. [本文引用:2]
[14] Diniz P H G D, Pistonesi M F, Araújo M C U. Analytical Methods, 2015, 7(8): 3379. [本文引用:1]
[15] Brooker M I H. Australian Systematic Botany, 2000, 13: 79. [本文引用:1]