应用近红外光谱技术实现转双价基因(Cry1Ab/Cry2Aj-G10evo)玉米的快速识别
彭城1, 冯旭萍2,*, 何勇2, 张初2, 赵懿滢2, 徐俊锋1
1. 浙江省农业科学院, 浙江省植物有害生物防控重点实验室—省部共建国家重点实验室培育基地, 浙江 杭州 310021;
2. 浙江大学生物系统工程与食品科学学院, 浙江 杭州 310058
*通讯联系人 e-mail: pimmmx@163.com

作者简介: 彭 城, 1984年生, 浙江省农业科学院助理研究员 e-mail: pc_phm@163.com

摘要

转基因技术在过去的几十年里快速发展, 然而此项技术对生态环境、 伦理道德等可能带来的影响尚存争议, 因此针对农作物的转基因成分检测和鉴别的相关技术研究十分重要。 本研究以转双价基因(cry1Ab/cry2Aj-G10evo)玉米籽粒和玉米面粉为研究对象, 采用近红外光谱仪采集900~1 700 nm波段范围的光谱, 结合 Savitzky-Golay(SG)平滑算法对提取出的光谱数据进行去除噪声处理。 基于全波段光谱和PCA主成分分别建立了偏最小二乘判别分析(PLS)和支持向量机判别模型(SVM)。 试验结果表明, 在转基因玉米籽粒全谱的判别分析模型中, SVM判别模型效果要优于PLS判别模型, SVM模型识别正确率达到90%以上, PLS的模型识别率只有85%左右。 以PCA降维后建立的模型中, SVM模型也取得了最优的效果, 建模集和预测集识别正确率达到100%。 虽然转基因玉米在研磨加工后外源蛋白和DNA有所下降, 但是转基因玉米粉末基于全波段光谱建立的SVM模型的建模集正确率仍有90.625%。 结果表明应用近红外光谱技术集合化学计量学方法对转基因玉米的鉴别是可行的, 为转基因玉米乃至其他转基因农产品的鉴别提供了技术支持, 具有重要的理论意义和应用价值。

关键词: 近红外光谱; 转双价基因玉米; 偏最小二乘判别分析模型; 支持向量机判别模型
中图分类号:S123 文献标志码:A
Discrimination of Transgenic Maize Containing the Cry1Ab/Cry2Aj and G10evo Genes Using Near Infrared Spectroscopy (NIR)
PENG Cheng1, FENG Xu-ping2,*, HE Yong2, ZHANG Chu2, ZHAO Yi-ying2, XU Jun-feng1
1. State Key Laboratory Breeding Base for Zhejiang Sustainable Pest and Disease Control, Zhejiang Academy of Agricultural Sciences, Hangzhou 310021, China
2. College of Biosystems Engineering and Food Science, Zhejiang University, Hangzhou 310058, China
Abstract

Genetic engineering technique has made rapid strides in the past decades, however, the potential problems of this technique for environmental, ethical and religious impact are unknown. It is necessary to research on the detection of genetically modified organisms in agricultural crops and in products derived. In the present study, Near infrared spectroscopy (NIR) combined with chemometrics was successfully proposed to identify transgenic and non-transgenic maize. Transgenic maize single kernel and flour containing both cry1Ab/cry2Aj-G10evo protein and their parent, non-transgenic ones were measured in NIR diffuse reflectance mode with spectral range of 900~1 700 nm. Savitzky-Golay(SG)was used to preprocess the selection spectral region with absolute noises. Two classification methods, partial least square (PLS) and support vector machine (SVM): were used to build discrimination models based on the preprocessed full spectra and the dimension reduction information extracted by principal component analysis (PCA). Discriminant results of transgenic maize kernel based on SVM obtained a better performance by using the preprocessed full spectra compared to PLS model. The SVM achieved more than 90% calibration accuracy, while the PLS obtained just about 85% accuracy. By applying the PCA dimension reduction of the NIR reflectance in conjunction with the SVM model, the discrimination of transgenic from non-transgenic maize kernel was with accuracy up to 100% for both calibration set and validation set. The correct classification for transgenic and non-transgenic maize flour was 90.625% using SVM based on preprocessed full spectra, although degration of exogenous gene and protein existed during the milling. The results indicated that INR spectroscopy techniques and chemometrics methods could be feasible ways to differentiate transgenic maize and other transgenic food.

Keyword: Near infrared spectroscopy; Transgenic maize harboring cry1Ab/cry2Aj-G10evo; Partial least squares; Support vector machine

引 言

随着现代生物技术的发展, 转基因技术的研究得到飞速发展和推广。 运用转基因技术能培育高产、 高抗、 优质, 适应不良生态环境的优良品种, 大大降低了农药化肥的施用量, 有利于环境保护[1]。 转基因育种技术可以实现对植物的目标性状进行定向变异选择, 打破了物种属间原有遗传物质的转换屏障, 使多个基因进行定向操作成为可能, 这在常规育种中是难以想象的, 大大缩短了育种进程。 转基因育种技术体系的建立拓宽了可利用的基因资源, 为创造优质种质资源和培育植物新品种开辟了新的技术路线[1]

然而, 不能忽略的是, 先进科学技术的不确定性使得转基因技术成为一把“ 双刃剑” 。 转基因食品与传统食品最主要的区别在于前者含有用基因工程技术导入的外源基因, 并由其表达特定的外源蛋白质。 转基因食品需经过严格的风险评估方能投放市场, 比如“ 巴西坚果事件” 就是因过敏而未被商业化的转基因案例[2]

近年来, 转基因作物对生态环境的影响和转基因食品的食用安全性问题成为人们关注的焦点。 从国际经验来看, 各国政府管理部门对转基因产品采取了审慎的态度, 实施系统、 高效的转基因安全管理也是我国一个紧急而重大的战略性选择。 其中的一项重要内容, 就是加强转基因产品检测技术研究, 以通过监督检查标识规范市场秩序。 传统的转基因检测主要是针对转基因作物及其相关制品的外源DNA和蛋白质进行的[3], 比如聚合酶链反应技术(polymerase chain reaction, PCR), 蛋白质免疫印迹法(western blotting), 酶联免疫吸附法(enzyme-linked immunosorbent assay, ELISA)等。 这些方法虽然具有较高的准确性和灵敏度, 但是在制备检测所需DNA及蛋白质的样品时均需要对转基因作物及其加工品进行破坏提取, 而且费时费力, 程序复杂, 成本较高, 非专业人员难以胜任, 不适用于转基因与非转基因农产品的实时在线快速检测鉴别, 因而在应用上受到限制。

光谱和光谱成像技术具有快速、 无损、 准确等优良特点, 近年来在农作物转基因鉴别中得到广泛应用[3]。 王海龙等以近红外高光谱成像技术, 结合化学计量学方法, 对非转基因亲本及其转基因大豆进行判别分析, 基于全光谱实现建模集和预测集的判别正确率达到80%以上, 提取特征波长后偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)模型也可用于非转基因亲本与转基因品种的判别分析[4]。 翟亚峰等基于近红外光谱和仿生模式识别(biomimetic pattern recognition, BPR), 通过对9个转基因小麦样品种子建立BPR品种鉴别模型, 其鉴别准确率较高, 平均正确率达到95.6%。 此外, Luna[5], Biradar[6]等也应用近红外光谱技术对转基因农产品进行了研究。

转基因作物对食品、 饲料及环境等的污染主要来源于转基因作物的外源基因及蛋白在加工环节的残留情况。 转基因食物经过不同的加工程序(研磨、 加热、 微波、 酸碱度、 微生物发酵等), 其外源蛋白和外源基因会发生不同程度降解和断裂[7, 8], 从而影响到转基因成分在最终产品中的鉴定, 例如在精炼的食用油中就很难提取到有效的DNA或者蛋白成分, 用传统的检测方法难以实现转基因成分鉴定。 鉴于转基因玉米及其他转基因作物存在的安全隐患和争议等现实问题, 本研究基于近红外光谱, 探索对兼备抗虫, 抗除草剂双重优良农艺性状的转基因玉米籽粒和玉米面鉴别的可能性, 以寻找更好的无损鉴别方法来快速检测玉米农产品是否存在转基因成分, 突破传统检测方法的瓶颈, 保障消费者的知情权。

1 实验部分
1.1 材料

实验所用的转双价基因(cry1Ab/cry2Aj-G10evo)玉米籽粒及其亲本玉米均由浙江大学提供, 并已经通过浙江省农科院检测相应的外源基因(图1)。 所用实验材料仅在目标性状(抗草甘膦和抗虫)方面有显著差异, 在其他表型性状方面则差异不显著。

图1 PCR检测结果和蛋白试纸条验证结果
1.2 光谱采集
Fig.1 DNA PCR analysis (a) and protein test strip (b) of non-GMO parent Maize and transgenic Maize

实验所用光谱仪器为便携式近红外光谱仪NIRez(Isuzuoptics, Taiwan, China), 响应波段是900~1 700 nm, 光谱带宽10 nm。 转基因与非转基因的玉米籽粒分别取600颗, 总共获得1 200个样本。 取5粒玉米碾磨成粉, 取0.2 g玉米粉压成片, 每片为一个样本, 转基因与非转基因的样本各取120个, 共获得240个样本。 对玉米籽粒和面粉进行扫描, 获得近红外光谱数据。

2 结果与讨论
2.1 转基因与非转基因玉米的光谱特征

本试验中采集的近红外光谱, 其波长范围是900~1 700 nm, 共有100个波段。 由于光谱数据前端和后端在采集时均明显受到噪声的影响, 为了获得更好的辨别效果, 去掉前端和后端中有明显噪声的部分, 故采用了波长范围在940~1 670 nm之间的光谱进行分析。

分别计算玉米实验样本的近红外光谱数据的平均值, 其平均光谱曲线如图2。 由图可知, 无论是完整的玉米籽粒还是加工成的玉米粉末, 转基因样本在光谱反射率上都存在一定的差异, 玉米籽粒的平均光谱的反射率在整个研究波段内都存在明显差异, 而玉米粉末的平光谱的反射率差异在1 200~1 300以及1 450~1 670 nm范围内差异较明显。 有研究证明转基因外源蛋白和外源基因受到加工过程中研磨、加热、 微波、 酸碱度、 微生物等影响会发生各种不同的降解[8]。 玉米粉末转基因光谱反射率降低可能是由于在加工过程中研磨导致外援蛋白和基因的部分降解导致。

图2 转基因玉米籽粒(a)和玉米粉末(b)的平均光谱特征Fig.2 Spectral profiles of average spectra of non-GMO parent Maize and GMO Maize in single kernel (a) and flour (b) after the removal of noises

2.2 光谱数据的预处理和样本划分

采集的玉米样本光谱数据中不仅有实验样本自身的光谱信息, 还有采集过程中仪器状态、 温度、 光照等因素影响而产生的噪声, 因此本研究采用Savitzky-Golay卷积平滑法进行光谱预处理。

Savitzky-Golay卷积平滑法(SG平滑)是一种有效的去除光谱数据中噪声、 提高信噪比的有效方法。 其基本思想是通过多项式对移动窗口内的数据进行多项式最小二乘拟合, 如式(1)[9]。 在SG平滑算法中, 多项式次数以及平滑点数对其平滑效果具有决定性的影响。 本文SG平滑采用2次多项式7点平滑。

xk, smooth=x̅k=1Hi=-w+wxk+ihi(1)

式(1)中, hi为平滑系数, H为归一化因子, H=i=-w+whi

本研究以赋值法确定转基因品种, 转基因玉米赋值为1, 非转基因玉米赋值为2。 按照2∶ 1的比例随机将各个样本划分为建模集和预测集, 如表1, 并以该样本划分为输入。 在对判别分析的效果进行评价时, 以0.5为设定阈值。 当赋值与预测值的差值的绝对值小于0.5, 即阈值小于0.5时, 则判别结果为正确; 反之, 则判别结果为错误。

表1 转基因玉米籽粒和粉末的赋值与建模集和预测集样本划分 Table 1 Class value assignment and dataset split of non-GMO parent Maize and GMO Maize of kernel and flour
2.3 基于原始光谱的PCA分析

主成分分析(principal component analysis, PCA), 是一种广泛使用的数据降维技术, 基本原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间, 从而获得一个关于原数据集的低维表示[10]。 本实验将SG-7预处理后的全谱光谱数据作为输入进行PCA分析, 以定性研究区分转基因玉米籽粒及粉末的可分性。 其中玉米籽粒的PC1, PC2和PC3分别解释了97.07%, 2.67%和0.11%的变量, 玉米面粉中PC1, PC2和PC3分别解释了90.88%, 8%和0.44%的变量。 他们的前3个主成分均解释了绝大多数的变量, 由这3个主成分的两两得分获得散点图(图3)。 由图3可知, 无论是玉米的籽粒样本还是粉末样本, 转基因和非转基因都分布聚集成簇, 但是不能被明显的区分开来, 需要采用其他的辨别模型进行区分。

图3 玉米籽粒的PC1和PC2(a), PC1和PC3(c)以及PC2和PC3(e)得分分布散点图, 玉米面粉的PC1和PC2(b), PC1和PC3(d)以及PC2和PC3(f)得分分布散点图Fig.3 Scores scatter plot of PC1 vs. PC2 (a), PC1 vs. PC3 (c) and PC2 vs. PC3 (e) of non-GMO parent Maize and GMO Maize kernel, and scores scatter plot of PC1 vs. PC2 (b), PC1 vs. PC3 (d) and PC2 vs. PC3 (f) of non-GMO parent Maize and GMO Maize flour

2.4 基于全部光谱数据的转基因玉米农产品识别

基于近红外光谱技术, 对转基因玉米样品进行纷类判别的预测, 需要结合化学计量学的建模方法。 为从不同建模方法中选出对预测效果的最优模型, 本研究主要应用了2种建模方法, 包括: 偏最小二乘法(partial least squares, PLS)和支持向量机(support vector machine, SVM)。

PLS是光谱数据分析中常用的一种多元统计数据分析方法[11]。 PLS算法在建模时, 对X以及Y同时进行分解, 并且需要同时考虑光谱信息和对应的理化信息, 加强对应的计算关系, 从而保证获得最佳的校正模型。 PLS通过线性变换, 将原始数据进行线性转换为相互正交, 互不相关的新变量, 称为隐含变量(latent variable, LV), 一般前几个LVs包含绝大多数信息, 从而用于预测分析。 本研究PLS模型采用留一法交互验证(leave-one-out cross validation, LOOCV)确定最佳的LV个数。

SVM是根据统计学理论提出的一种非常有用的模式识别模型, 其基本原理是VC维(Vapnik-Chervonenkis Dimension)理论和结构风险最小原理, 实现对有限的样本信息在模型的选择和学习能力间寻求最佳的平衡[12]。 在实际的应用中, 利用SVM来进行模型的识别(分类和辨别), 是对核函数选择或改写得以实现的。 也就是使用y=sign(f(x))来推断任一输入x所对应的类别, 输出值只允许取类别值。 SVM判别模型, 采用网格搜索法寻找最优的(c, g)参数组合, 从而得到最优的判别分析效果。 本研究在SVM建模中, 采用径向基函数(RBF)作为核函数。 SVM模型的参数惩罚系数c寻优范围为2~8到28。

分别基于SG-7预处理后的光谱建立PLS, SVM判别分析模型, 并以识别准确率作为预处理方法有效性的评价指标, 模型的识别效果如表2

表2 转基因玉米籽粒和粉末的赋值与建模集和预测集样本划分 Table 2 Discriminant results of non-GMO parent Maize and GMO Maize based on PLS and SVM

表2可知, 对转基因玉米农产品的判别正确率均达到良好的效果。 其中, 玉米籽粒SVM的模型判别值最好, 建模集和预测集的判别正确率达到了97.75%和91.75%(c=256, g=1)。 相对而言, PLS的建判别正确率降低很多, 建模集和预测集的判别正确率降低为83.63%和87.5%。 而玉米加工碾磨成粉后, 转基因的判别正确率都有所下降, 但是SVM建模集和预测集的判别识别模型均优于PLS模型, 其准确率达到80%以上。

结果表明, 采用近红外光谱技术能够用于转双价基因(cry1Ab/cry2Aj-G10evo)玉米极其农产品的识别, 特别是SVM模型能有效的识别转基因产品。 即使玉米在加工后外源蛋白有所降解, 近红外光谱还是可以捕捉到转基因信息。 总体而言, 近红外光谱技术用于转基因玉米农产品的鉴别是可行的。

2.5 基于PCA-loadings方法提取相关波长

在900~1 700 nm光谱范围内, 波段数较多, 且包含有较多的冗余信息和共线性信息, 需要较长的计算时间, 且较多的冗余信息会导致模型的不稳定。 特征波长选择可以从原始光谱数据中选择包含有主要信息的波段。 本研究对经过SG-7预处理的光谱数据进行相关重要波长的选择, 采用传感器区别贡献率分析法(loadings), 在对光谱数据进行主成分分析PCA过程中得到, 并转化生成包含有效光谱信息的贡献率(loading)。 当获得的前n个主成分的累计贡献率大于85%时, 则可选取该主成分下贡献率的峰谷作为特征波段[13]

基于SG-7平滑预处理后的全谱光谱曲线, 采用PCA-loadings方法提取的相关波长, 与全波段相比, 基于PCA-loadings提取的籽粒和粉末的特征波长分别只占其全波段变量数的12.2%和8.89%, 结果如图4所示。 转基因和非转基因玉米籽粒和面粉PCA-loadings中PC1的曲线趋势较为相似, 其中PC1包含90%以上的变量。 PC2和PC3的曲线趋势发生改变, 这可能是由于玉米籽粒加工成粉末所致。

图4 转基因玉米籽粒(a)和玉米粉末(b)基于PCA-loadings方法获得的相关波长Fig.4 Distribution of relevant wavelengths of non-GMO and GMO Maize kernel (a) and flour (b) selected by PCA-loadings

近红外950~1 650 nm波段主要为C— H, N— H和O— H基团的倍频和合频吸收区, 每一个明显的吸收谱带都是由多种不同类型的官能团构成的。 采用PCA loadings获得的相关波长(图4)与蛋白质中官能团(N— H双键, 973~1 020 nm; N— H单键, 1 500 nm附近)的对称伸缩振动较为相近[14], 这可能是由于转基因玉米中转入外援基因(cry1Ab/cry2Aj-G10evo)所造成的差异。

2.6 基于PCA计算的转基因玉米农产品品种识别

直接采用近红外高光谱建立判别分析模型维数过高, 从模型性能还是计算复杂度来看都是不合适的。 本研究对建模集光谱数据进行PCA降维, 选定累计贡献率达到99.9%的PC, 以PC代替全部光谱数据进行建模计算, 分别基于PCA降维后建立PLS和SVM判别分析模型(表3)。 由表3可知, 全光谱数据经过PCA降维后, 玉米整粒的转基因识别率效果仍然比较好。 玉米籽粒PLS的建模集和预测集判别正确率为92.375%和88%, SVM模型中建模集和预测集判别正确率更是达到了100%, 其c=256, g=1。 相比较而言, 玉米加工后的面粉整体的建模集和预测集的判别正确率相对较差, PLS的建模集判别正确率只有68.75%。 SVM模型的判别效果较佳, 建模集和预测集判别准确率分别为81.875和75%, 其c=256, g=1.741 1。

表3 PCA计算后转基因玉米的PLS和SVM判别分析模型结果 Table 3 Discriminant results of transgenic maize based on PLS and SVM after PCA

研究结果表明, 基于近红外光谱技术结合SVM判别分析方法和PCA降维方法能实现对玉米籽粒及碾磨加工农产品转基因的识别, 为玉米及其他转基因农产品的快速无损鉴别奠定基础。

3 结 论

目前转基因作物的安全问题在全球范围内争论不断, 我国制定了最为严格的转基因标识管理措施即任何含有转基因成分或者是由转基因作物加工而成的, 必须标识。 本研究基于近红外光谱技术快速鉴别转基因玉米农产品, 采用SG平滑算法对提取出的光谱数据进行去噪处理后利用K-Means构建建模集和预测集, 并分别基于全谱和PCA降维后建立PLS判别模型和SVM模型。 转基因玉米籽粒基于全光谱和PCA降维建立的SVM判别模型较为理想, 正确率达到了90%以上。 虽然玉米籽粒在加工碾磨成玉米面粉后, 外源DNA和蛋白有所下降, 基于全光谱和PCA降维建立的SVM判别模型正确率也有75%以上。 本研究结果表明, 基于近红外光谱技术集合PCA-SVM模型, 进行转基因玉米籽粒和面粉的快速无损鉴别是可行的, 该鉴别方法为转基因玉米乃至其他转基因农产品的鉴别提供了技术支持, 具有重要的理论意义和应用价值。

The authors have declared that no competing interests exist.

参考文献
[1] Domingo J L, Giné B J. Environment International, 2011, 37(4): 734. [本文引用:2]
[2] Hilbeck A, Binimelis R, Defarge N, et al. Environmental Sciences Europe, 2015, 27(1): 1. [本文引用:1]
[3] Alishahi A, Farahmand H, Prieto N, et al. Spectrochimica Acta Part A Molecular & Biomolecular Spectroscopy, 2010, 75(1): 1. [本文引用:2]
[4] WANG Hai-long, YANG Xiang-dong, ZHANG Chu, et al(王海龙, 杨向东, 张初, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(6): 1843. [本文引用:1]
[5] Luna A S, Da S A, Pinho J S, et al. Spectrochimica Acta Part A Molecular & Biomolecular Spectroscopy, 2013, 100(12): 115. [本文引用:1]
[6] Biradar K S, Nadaf H L, Kenganal M. Indian Journal of Plant Physiology, 2010, 15(3): 234. [本文引用:1]
[7] Wu H, Zhang Y, Zhu C, et al. International Journal of Molecular Sciences, 2012, 13(2): 1919. [本文引用:1]
[8] Ballari R V, Martin A. Food Chemistry, 2013, 141(3): 2130. [本文引用:2]
[9] Savitzky A, Golay M J E. Analytical Chemistry, 1964, 36(8): 1627. [本文引用:1]
[10] Jung Y M. Bulletin- Korean Chemical Society, 2003, 24(9): 1345. [本文引用:1]
[11] Geladi P, Kowalski B R. Analytica Chimica Acta, 1986, 185(86): 1. [本文引用:1]
[12] Cortes C, Vapnik V. Machine Learning, 1995, 20(3): 273. [本文引用:1]
[13] Hubert M, Rousseeuw P J. Technometrics, 2010, 47(1): 64. [本文引用:1]
[14] Workman J J. Applied Spectroscopy Reviews, 1996, 31(3): 251. [本文引用:1]