近红外光谱和人工神经网络的金苦荞氨基酸快速测定
朱丽伟, 严金欣, 黄娟, 石桃雄, 蔡芳, 李洪有, 陈庆富*, 陈其皎*
贵州师范大学荞麦产业技术研究中心, 贵州 贵阳 550001
*通讯作者 e-mail: cqf1966@163.com; qijiaochen@126.com

作者简介: 朱丽伟, 女, 1985年生, 贵州师范大学荞麦产业技术研究中心副教授 e-mail: liweib0401001@163.com

摘要

荞麦籽粒中富含谷类作物比较缺乏的赖氨酸, 使其不同于其他作物, 具有较高经济价值。 传统氨基酸测定费时且昂贵, 为满足金苦荞育种工作的需要, 选用近红外光谱技术结合人工神经网络的算法建立快速检测金苦荞叶片中氨基酸含量的近红外模型。 使用氨基酸含量差异较大的样品255个, 扫描光谱后测定其化学值。 研究发现样品苏氨酸(Thr)含量范围是5.307~14.374 mg·g-1; 缬氨酸(Val)含量范围是6.137~16.204 mg·g-1; 甲硫氨酸(Met)含量范围是0.308~3.049 mg·g-1; 异亮氨酸(Ile)含量范围是5.259~14.134 mg·g-1; 亮氨酸(Leu)含量范围是9.730~26.061 mg·g-1; 苯丙氨酸(Phe)含量范围是5.936~17.223 mg·g-1; 赖氨酸(Lys)含量范围是6.640~17.280 mg·g-1; 谷氨酸(Glu)含量范围是10.984~27.740 mg·g-1; 天冬氨酸(Asp)含量范围是6.437~17.280 mg·g-1; 丝氨酸(Ser)含量范围是3.467~8.312 mg·g-1; 精氨酸(Arg)含量范围是4.937~14.772 mg·g-1; 丙氨酸(Ala)含量范围是3.329~6.885 mg·g-1; 组氨酸(His)含量范围是1.946~4.798 mg·g-1; 甘氨酸(Gly)含量范围是4.196~9.264 mg·g-1; 脯氨酸(Pro)含量范围是1.024~5.672 mg·g-1; 酪氨酸(Tyr)含量范围是0.176~1.173 mg·g-1; 半胱氨酸(Cys)含量范围是0.422~1.926 mg·g-1。 每次随机选取50个样品建设模型, 以4:1的比例随机分为训练集和测试集。 数据进行归一化处理后, 使用神经网络结构1102-9-1进行模型建设。 利用多次学习的方式建立了较优模型, 其中Arg和Asp近红外模型的仿真测试结果最好, 预测值与真实值的相关系数( R2)均大于0.97, 平均相对误差(RSD)也小于10%; 另外Leu, Val, Tyr, Ile, Ser, Ala, Thr, His, Phe, Gly和Lys模型的 R2均大于0.90, 模型仿真测试数据的RSD小于10%, 模型均可用; Met与Cys的模型进行仿真测试时, 其预测值与真实值的 R2均大于0.78, 但RSD大于10%, 模型不可用。 结果表明, 金苦荞叶片的氨基酸含量高, 有极高应用价值, 近红外光谱技术结合人工神经网络的分析方法可应用于金苦荞氨基酸含量的预测, 为高品质荞麦育种工作提供了便利。

关键词: 荞麦; 近红外; 人工神经网络; 氨基酸; 模型
中图分类号:S123 文献标志码:A
Rapid Determination of Amino Acids in Golden Tartary Buckwheat Based on Near Infrared Spectroscopy and Artificial Neural Network
ZHU Li-wei, YAN Jin-xin, HUANG Juan, SHI Tao-xiong, CAI Fang, LI Hong-you, CHEN Qing-fu*, CHEN Qi-jiao*
Research Center of Buckwheat Industry Technology, Guizhou Normal University, Guiyang 550001, China
*Corresponding authors
Abstract

Buckwheat is rich in lysine, which is a lack in cereal crops, making it different from other cereal crops and has high economic value. Traditional determination of amino acids was time-consuming and expensive. In order to meet the needs of breeding of golden Tartary buckwheat, this study selected near-infrared spectroscopy combined with an artificial neural network algorithm to establish a near-infrared model for rapid determination of amino acid content in buckwheat leaves. A total of 255 samples with different amino acid contents were studied, and their chemical values were determined after scanning spectra. It was found that the content of threonine (Thr) in the samples ranged from 5.307 to 14.374 mg·g-1. Valine (Val) content ranged from 6.137 to 16.204 mg·g-1. The content of methionine (Met) ranged from 0.308 to 3.049 mg·g-1. The content of isoleucine (Ile) ranged from 5.259 to 14.134 mg·g-1. Leucine (Leu) content ranged from 9.730 to 26.061 mg·g-1. The content of phenylalanine (Phe) ranged from 5.936 to 17.223 mg·g-1. Lysine (Lys) content ranged from 6.640 to 17.280 mg·g-1. The content of glutamic (Glu) ranged from 10.984 to 27.740 mg·g-1. Aspartic (Asp) content ranged from 6.437 to 17.280 mg·g-1. Serine (Ser) content ranged from 3.467 to 8.312 mg·g-1. Arginine (Arg) content ranged from 4.937 to 14.772 mg·g-1. The content of Alanine (Ala) ranged from 3.329 to 6.885 mg·g-1. Histidine (His) content ranged from 1.946 to 4.798 mg·g-1. The content of glycine (Gly) ranged from 4.196 to 9.264 mg·g-1. Proline (Pro) content ranges from 1.024 to 5.672 mg·g-1. The content of tyrosine (Tyr) ranged from 0.176 to 1.173 mg·g-1. The content of cysteine (Cys) ranged from 0.422 to 1.926 mg·g-1. During each modeling, 50 samples were randomly selected and randomly divided into the training set and test set at a ratio of 4:1. After data normalization, the neural network structure 1102-9-1 was used for model construction. The simulation results of Arg and Asp near-infrared models were the best, the correlation coefficient ( R2) between the predicted value and the real value was greater than 0.97, and the average relative error (RSD) was less than 10%. Simulation test process found, Val, Tyr, Ile, Ser, Ala, Thr, His, Phe, Gly and Lys of model prediction and the real value of R2 are greater than 0.90, the RSD is less than 10%, models are available; When the models of Met and Cys were tested in simulation, the R2 between the predicted value and the true value were both greater than 0.78, but the RSD was greater than 10%, so the model was not available. The results showed that golden Tartary buckwheat leaves had a high content of essential amino acids and had high application value. The analysis method of near infrared spectroscopy combined with an artificial neural network could be used to predict the amino acid content of buckwheat, which provided convenience for the breeding of high-quality buckwheat.

Keyword: Buckwheat; Near infrared spectroscopy; Artificial neural network; Amino acid; Model
引言

荞麦属于蓼科荞麦属的一年生草本双子叶植物, 因生育期短、 抗逆性强, 在农业生产中经常用来补种。 金荞麦是一种传统中药材, 研究发现金荞麦根茎活性成分通过抑制肿瘤细胞增殖和迁移, 诱导肿瘤细胞凋亡和自噬等作用而抑瘤, 同时还有清热解毒、 消炎抗菌等功效[1, 2]。 金苦荞是金荞麦与苦荞杂交而培育的新型荞麦, 特征介于双亲之间, 再生力强[3], 春季主要进行营养生长, 生产大量苦荞叶。 研究发现荞麦叶发酵茶可提高小鼠免疫功能, 还具有防治急、 慢性炎症的功能[4, 5, 6, 7]。 荞麦籽粒中还含有丰富的蛋白质, 其蛋白质中必需氨基酸含量充足, 富含谷类作物中比较缺乏的赖氨酸, 使其具有较高的营养价值。 本实验室前期的研究发现, 荞麦叶中各营养成分比籽粒中含量更高[3], 因此金苦荞叶片有极大研究开发价值。

目前常用的氨基酸测定方法预处理复杂、 耗时长、 价格昂贵。 陶琳丽等研究发现, 20种氨基酸在1 000~2 502 nm区域有非常明显的近红外光谱吸收且差异显著[8], 这为利用近红外技术建立检测模型提供了可能性。 Chang等[9]利用傅里叶变换-近红外分析技术建立了可快速测定菊花谷氨酸、 天门冬酰胺和天冬氨酸的模型。 通常采用偏最小二乘法(partial least squares, PLS)、 主成分回归(principal component regression, PCR)、 人工神经网络(artificial neural network, ANN)等化学计量学算法建立识别模型, 我们前期应用线性相关系统的PCR法和PLS法尝试建立模型, 所建立的模型维度太高, 限制其应用。 Viyona等[10]利用近红外光谱技术检测百香果中脂肪的方法, 预处理光谱后, 建立的前反馈(back propagation, BP)人工神经网络模型平均方差高达0.959。 因此本工作选用BP人工神经网络算法建立金苦荞氨基酸的近红外光谱预测模型, 从内部交叉验证平均相对误差(RSD)和相关系数(R2)等评价指标来看, 多数氨基酸预测模型取得了令人满意的效果。

1 实验部分
1.1 材料

样品荞麦自交系叶片粉碎样采自贵州省贵阳市乌当区贵州师范大学荞麦中心实验基地, 为得到化学值差异较大的样品, 种植了85份遗传性状已稳定的金苦荞自交系, 常规栽培管理, 选择生长较为一致的植株, 在其开花前采收上三叶、 中三叶和下三叶, 共255份样品, 将其分别放于纸袋中, 先于鼓风机105 ℃杀青, 然后80 ℃烘24 h, 然后使用高速粉碎机粉碎并过100目筛, 备用。

1.2 方法

1.2.1 光谱采集与预处理

采用德国布鲁克光谱仪器公司生产的MPA傅里叶变换近红外光谱仪, OPUS光谱采集软件。 采用漫反射的方法, 扫描样品的近红外光谱, 单次扫描64次, 分辨率4 cm-1, 扫描范围4 000~12 000 cm-1, 每个样品均扫描多次, 取平均光谱进行计算。 原始谱数据中不仅包含与样品有关的信息, 还包含各种干扰和无效信息, 影响所建模型的可靠性。 为降低仪器噪声和系统误差以提升光谱中的有效信息率, 在建模前对原始光谱进行了数据预处理。 本实验利用光谱分析软件OPUS执行自动优化程序, 确定各组分建模的谱区范围和最佳预处理方法。

1.2.2 氨基酸的测定

参考程勇杰等的方法测定氨基酸的含量[11], 略有改进。 具体方法如下: 称取0.100 0 g叶片粉末放于干净的水解管, 加入6 mol· L-1盐酸15 mL, 使用氮吹的方法清除管内氧气后封口。 然后将水解管放于烘箱中, 调整温度慢慢升至110 ℃后开始计时, 水解24 h关机。 取出冷却后的水解管, 将水解液轻轻转移至50 mL容量瓶, 去离子水冲洗水解管, 冲洗液也倒入容量瓶, 定容后混匀, 然后吸取滤液1 mL, 使用旋转蒸发仪慢慢蒸干, 再用1 mL pH 2.2柠檬酸钠缓冲液溶解, 滤膜过滤后上机, 所用仪器为日立L-8900氨基酸自动分析仪。

1.2.3 数据处理

采用Matlab_R2014b分析软件, 在iMac Pro(2017)计算机上进行模型的建设。 为了验证模型的性能, 使用了交叉验证(cross-validation)的方法, 根据模型的R2和RSD, 选择最佳模型。 当RSD小于10%时表明模型效果良好, 预测精度较高, 建立的模型可用。

2 结果与讨论
2.1 金苦荞叶片氨基酸含量

实验发现样品中氨基酸的含量差异较大(表1), 其中差异最明显的是必需氨基酸中的甲硫氨酸, 所测样品的含量最低值为0.308 mg· g-1, 最高值达3.049 mg· g-1, 后者是前者的9.9倍; 其次是非必需氨基酸中的酪氨酸, 所测样品中含量最低为0.176 mg· g-1, 最高达1.173 mg· g-1, 后者是前者的6.7倍。 说明所用建模样品间化学值差异明显的可满足建模需要。 赖氨酸被称为谷物第一限制性氨基酸, 高立成等(2019)研究发现, 普通苦荞西农9904和黔苦3号籽粒的赖氨酸含量分别为3.4和4.5 mg· g-1, 萌发期其籽粒赖氨酸含量分别升至3.8和5.2 mg· g-1, Bhinder等研究不同品种苦荞粉中氨基酸的含量, 发现苦荞粉中赖氨酸含量的最高值为6.55 mg· g-1, 其他必需氨基酸如缬氨酸、 异亮氨酸、 苏氨酸和亮氨酸的含量最高值分别是3.5, 2.55, 8.79和12.4 mg· g-1, 均远低于本实验中金苦荞叶片赖氨酸的含量[12, 13], 证明金苦荞叶片具有极高的营养价值和开发潜力。

表1 金苦荞叶片氨基酸含量化学测定结果 Table 1 Contents of amino acid in golden tartary buckwheat leaves using chemical method
2.2 网络结构

隐层节点数的选择与研究项目的要求、 输入-输出节点的多少存在着直接的关系, 其数目太少会使网络不能收敛, 造成网络不能正确预测未知样本, 容错性差, 但太多又易造成网络学习时间过长及过拟合现象的出现。 一般隐层节点数是远小于训练样本数的。 通过调整输入层、 隐层的节点数可以优化网络结构。 经过多次预测模型的建立, 得到了相关系数较高的结果, 其网络结构为(1102-9-1)。

2.3 数据归一化

为了提高建模效率, 需要预处理光谱数据, 常用的方法有一阶导数、 二阶导数、 矢量归一等。 按照4:1的比例将化学值和光谱值随机生成训练集和测试集后, 在处理的过程中发现光谱值以及化学值的特征值未在[0, 1]的范围内, 遂对其进行数据归一化处理。 接着创建9个隐含层神经元的神经网络, 并设置迭代次数为1 000、 MSE均方根误差范围为[0, 1× 10-3]即[0, 0.001]以及学习率为0.01。 开始训练网络。 训练完成后进行仿真测试和数据的反归一化, 进而进行性能评价, 测试相对误差以及决定系数。

2.4 模型的分析及评价

采用人工神经网络建模的方法对17种氨基酸进行了数学建模后, 可直观的看出运用近红外光谱模型对未知样品的预测效果, 预测化学值与真实值的相关性及其精确度的提升空间。 现对建立的17种氨基酸数学模型进行分析。

2.4.1 必需氨基酸的建模效果

从图1和表2可知, 7种必需氨基酸的近红外模型预测值与真实值的R2均在0.90以上, 其中苯丙氨酸、 亮氨酸、 苏氨酸、 缬氨酸、 异亮氨酸和赖氨酸近红外模型测试过程, 其预测值与真实值的RSD均低于10%, 模型可用。

图1 必需氨基酸的近红外模型仿真测试效果
(a): 苯丙氨酸; (b): 甲硫氨酸; (c): 亮氨酸; (d): 苏氨酸; (e): 缬氨酸; (f): 异亮氨酸; (g): 赖氨酸
Fig.1 Simulation results of near-infrared model of essential amino acids
(a): Phenylalanine; (b): Methionine; (c): Leucine; (d): Threonine; (e): Valine; (f): Isoleucine; (g): Lysine

表2 氨基酸近红外模型仿真测试效果 Table 2 Simulation results of near-infrared model of amino acids

甲硫氨酸近红外模型的预测效果如图1(b)和表2所示, 从测试结果可知, 供试样品的真实值和预测值的R2虽然较高, 达到0.914 9, 然而参与测试的10组数据RSD达到25.98%, 误差太大, 模型不可用。

2.4.2 非必需氨基酸的建模效果

表2和图2可知, 天冬氨酸和精氨酸的建模效果最好, 其模型真实值与预测值的R2均大于0.97, 天冬氨酸模型仿真测试的10组数据, 其RSD值为6.67%[图2(c)]; 参与精氨酸模型测试的10组数据, 其RSD为4.22%[图2(e)], 两种模型均较优秀。

图2 非必需氨基酸的近红外模型仿真测试效果
(a): 谷氨酸; (b): 半胱氨酸; (c): 天冬氨酸; (d): 丝氨酸; (e): 精氨酸; (f): 丙氨酸; (g): 组氨酸; (h): 甘氨酸; (i): 脯氨酸; (j): 酪氨酸
Fig.2 Near infrared simulation of non-essential amino acids
(a): Glutamic acid; (b): Cysteine; (c): Aspartic acid; (d): Serine; (e): Arginine; (f): Alanine; (g): Histidine; (h): Glycine; (i): Proline; (j): Tyrosine

表2和图2还可知, 丝氨酸、 丙氨酸、 组氨酸、 甘氨酸和酪氨酸模型的预测值与真实值R2均较高, 达到0.90以上, 且仿真测试过程, 5种氨基酸模型的RSD均低于10%, 模型较好。 脯氨酸模型的仿真测试中, 应试样品真实值与预测值的R2为0.899 1, 稍低于其他氨基酸模型, 10组供试数据的RSD为7.86%, 模型也可用。

半胱氨酸近红外模型的预测效果如表2和图2(b)所示, 可知应试样品的预测值与真实值差异较大, 二者的R2只有0.788 0, 且10组数据的RSD为33.23%, 该模型预测结果不理想, 有待进一步研究, 可设计更加精细的实验, 使用代表性更强的样品, 获得更加精准的化学值和光谱值数值, 另外, 采用更加合适的算法与光谱预处理方法, 以达到更好的建模效果。

3 结论

通过对苦荞叶氨基酸含量的测定, 可知叶中的氨基酸, 特别是必需氨基酸的含量远高于荞麦籽粒, 使其具有极高的营养价值。 常规氨基酸测定方法限制了高氨基酸苦荞的育种与开发工作。 本文建立的17种氨基酸的非线性预测模型中, 精氨酸和天冬氨酸建模效果较好, 预测值与真实值R2均高于0.97, 其RSD均低于7%; 另外丙氨酸、 苯丙氨酸、 甘氨酸、 谷氨酸、 精氨酸、 赖氨酸、 酪氨酸、 亮氨酸、 丝氨酸、 苏氨酸、 缬氨酸、 脯氨酸、 异亮氨酸和组氨酸的模型预测值与真实值的R2均大于0.85, RSD均低于10%, 可用于氨基酸的预测工作; 而甲硫氨酸和半胱氨酸的近红外模型, RSD均大于10%, 模型不可用, 这两种氨基酸的近红外光谱非线性预测模型还需要进一步研究。

参考文献
[1] LI Hong-li, WEN Dan-dan, ZHOU Mei-liang, et al(李红丽, 文丹丹, 周美亮, ). Chinese Journal of Clinical Pharmacology and Therapeutics(中国临床药理学与治疗学), 2019, 24(7): 833. [本文引用:1]
[2] YANG Xi-wen, ZHANG Yan, LI Long-yun(杨玺文, 张燕, 李隆云). Modern Chinese Medicine(中国现代中药), 2019, 21(6): 837. [本文引用:1]
[3] Chen Qingfu, Huang Xiaoyan, Li Hongyou, et al. Sustainability, 2018, 10(2): 1. [本文引用:2]
[4] HUANG Xiao-yan, HUANG Sha, CHEN Qing-fu(黄小燕, 黄莎, 陈庆富). Journal of Anhui Agricultural University(安徽农业大学学报), 2015, 42(6): 854. [本文引用:1]
[5] HUANG Xiao-yan, HUANG Sha, CHEN Qing-fu(黄小燕, 黄莎, 陈庆富). Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology(世界科学技术-中医药现代化), 2015, (5): 981. [本文引用:1]
[6] Sytar O, Bruckova K, Kovar M, et al. Journal of Central European Agriculture, 2017, 18(4): 864. [本文引用:]
[7] Rebufa C, Pany I, Bombarda I. Food Chemistry, 2018, 261: 311. [本文引用:]
[8] TAO Lin-li, HUANG Wei, YANG Xiu-juan, et al(陶琳丽, 黄伟, 杨秀娟, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(9): 2766. [本文引用:]
[9] Chang Xiangwei, Wei Dand an, Su Shulan, et al. Microchemical Journal, 2020, 153: 104500. [本文引用:]
[10] Viyona M, Andasuryani, Putri R E, et al. Utilization of Artificial Neural Network (ANN) to Predict Fat Passion Fruit Seed Content (Passiflora Ligularis) Based on NIR-S Value. IOP Conference Series: Earth and Environmental Science, 2019, 327: 012017. [本文引用:]
[11] CHEN Yong-jie, CHEN Xiao-wei, ZHANG Sha-sha, et al(程勇杰, 陈小伟, 张沙沙, ). Science and Technology of Food Industry(食品工业科技), 2018, 39(6): 1. [本文引用:]
[12] GAO Li-cheng, XIA Mei-juan, BAI Wen-ming, et al(高立城, 夏美娟, 白文明, ). Acta Nutrimenta Sinica(营养学报), 2019, 41(6): 103. [本文引用:]
[13] Bhinder S, Kaur A, Singh B, et al. Food Research International, 2019, 130(2): 108946. [本文引用:]