盐碱胁迫下芸豆冠层NIR光谱特性分析及检测方法
王璐1, 关海鸥1,*, 李伟凯2, 张志超1, 郑明1, 于崧3, 侯玉龙3
1.黑龙江八一农垦大学电气与信息学院, 黑龙江 大庆 163319
2.东北农业大学, 黑龙江 哈尔滨 150030
3.黑龙江八一农垦大学农学院, 黑龙江 大庆 163319
*通讯联系人 e-mail: gho123@163.com

作者简介: 王 璐, 1994年生, 黑龙江八一农垦大学电气与信息学院硕士研究生 e-mail: byndwl@126.com

摘要

盐碱胁迫是影响芸豆产量和质量重要的逆境因子之一。 农作物盐碱胁迫的研究一般是通过传统的化学研磨萃取法, 其操作繁琐且存在破坏性和耗时长等不足, 目前对于盐碱胁迫下芸豆冠层近红外光谱(NIR)特性提取以及快速无损检测度的研究鲜有报道。 为解决苗期芸豆盐碱胁迫程度快速检测的难题, 基于近红外光谱技术, 以苗期芸豆为研究对象, 研究苗期芸豆健康和多等级盐碱胁迫的光谱曲线特性, 提出一种盐碱胁迫下芸豆冠层NIR光谱特性分析及检测的新方法。 首先选取吸光度值较强的990~2 452 nm范围内苗期健康和受盐碱胁迫的芸豆冠层光谱数据, 选用二次多项式自动拟合去趋势算法(DT)对原始光谱数据进行预处理, 然后优选竞争性自适应重加权采样算法(CARS), 从预处理后的数据中提取出95个对盐碱胁迫敏感的特征波长。 利用径向基函数作为隐含神经元, 构建三层前馈神经网络结构为95-282-7型(RBF), 通过训练集样本确定网络参数, 将网络前向输出值编码为二进制向量, 最后解析输出向量至盐碱胁迫等级, 完成苗期芸豆盐碱胁迫程度快速检测方法。 结果表明: (1)对原始光谱曲线进行多种预处理, 研究结果中相关性范围为0.339 4~0.946 1, 其中DT预处理光谱的相关性范围为0.943 3~0.946 1, 平均值为0.944 7, 能够提高快速检测芸豆盐碱胁迫的精度。 (2)针对DT预处理后的芸豆冠层近红外光谱曲线, 优选CARS算法提取出95维度的光谱特征波长向量, 芸豆波长总数减少了93.51%, 有效保留了对盐碱胁迫敏感的特征信息源。 (3)应用CARS-RBF模型进行自动快速检测芸豆盐碱胁迫程度中学习次数为282次, 均方误差(MSE)为0.009 938 59, 模型检测准确率达到97.73%, 因此该方法是一种芸豆盐碱胁迫程度的快速无损检测的新途径, 能够为其他农作物盐碱胁迫程度的快速无损检测提供技术借鉴。

关键词: 芸豆冠层; 盐碱胁迫; 光谱技术; 提取特征; 检测模型
中图分类号:S24 文献标志码:A
Analysis and Detection Method of NIR Spectral Characteristics of Kidney Bean Canopy Under Saline-Alkali Stress
WANG Lu1, GUAN Hai-ou1,*, LI Wei-kai2, ZHANG Zhi-chao1, ZHENG Ming1, YU Song3, HOU Yu-long3
1. College of Electrical and Information, Heilongjiang Bayi Agricultural University, Daqing 163319, China
2. Northeast Agricultural University, Harbin 150030, China
3. College of Agriculture, Heilongjiang Bayi Agricultural University, Daqing 163319, China
*Corresponding author
Abstract

Salinity-alkalinity stress is one of the important of adversity factors that affect the kidney bean production and quality, the research of crop salinity-alkalinity stress is commonly by conventional chemical milling extraction method, the operation is complicated and time-consuming and destructive, such as for kidney bean canopy under salinity stress near-infrared (NIR) spectrum feature extraction, and quick nondestructive testing its salinity-alkalinity stress degree research rarely reported. In order to solve the problem of rapid detection of salt and alkali stress of kidney bean at the seedling stage, a new method for analyzing and detecting the NIR spectral characteristics of the canopy of kidney bean under salt and alkali stress was proposed based on near-infrared spectroscopy to study the characteristics of healthy and multi-grade salt and alkali stress of kidney bean at the seedling stage. Firstly, the spectral data of kidney bean canopy with healthy seeding stage and saline-alkali stress in the range of 990~2 452 nm with strong absorbance value were selected for study, and the original spectral data were pre-processed by using the automatic fitting detrend algorithm (DT) with a quadratic polynomial. Then a competitive adaptive reweighted sampling algorithm (CARS) was selected to extract 95 characteristic wavelengths sensitive to saline-alkali stress from the pre-processed data. The radial basis function was used as the hidden neuron to construct a three-layer feedforward neural network structure of type 95-282-7 (RBF). The network parameters were determined through the training set of samples, and the forward output value of the network was coded as a binary vector. Finally, the output vector was analyzed to the saline-alkali stress degree and the rapid detection method of saline-alkali stress degree of a kidney bean at the seeding stage was completed. The results showed that: (1) the original spectral curve was preprocessed in a variety of ways, and the correlation range of the study results was 0.339 4~0.946 1, the correlation range of DT pretreatment spectrum was 0.943 3~0.946 1, and the mean value was only 0.944 7, which could improve the accuracy of rapid detection of salt and alkali stress of kidney bean. (2) aiming at the near-infrared spectrum curve of kidney bean canopy pretreated by DT, CARS algorithm was optimized to extract the spectral characteristic wavelength vector of 95 dimensions. The total wavelength of kidney bean was reduced by 93.51%, effectively preserving the characteristic information source sensitive to salt and alkali stress. (3) application of CARS - RBF model for automatic rapid detection of kidney bean salinity-alkalinity stress degree in the study of 282 times, the mean square error (MSE) is 0.009 938 59, model checking accuracy reached 97.73%, so, this method is a new way of rapid non-destructive detection of saline-alkali stress degree of kidney bean, and can provide a technical reference for the rapid non-destructive detection of the saline-alkali stress degree of other crops.

Keyword: Kidney bean canopy; Saline-alkali stress; Spectroscopy; Extract features; Detection model
引言

我国是农作物生产大国, 在中国农业发展中, 杂粮具有关键地位和对其进行深入探究具有重要指导意义[1]。 随着人们开始关注营养健康的食品, 杂粮的需求量日益增强[2], 其中杂粮中的芸豆具有较高的营养价值和广泛用途。 黑龙江省是我国种植芸豆的主要地区之一, 可知黑龙江省收获芸豆产量对中国的农业生产及粮食安全影响非凡。 但是黑龙江省拥有超过140万公顷的盐碱土面积和超过50万公顷的盐碱化耕地面积[3]。 盐碱胁迫是一种普遍的环境胁迫, 随着近年来盐碱化面积持续加剧, 盐碱化问题已成为影响农作物的产量和质量的逆境因子之一[4, 5]。 对农作物盐碱胁迫的研究一般是通过传统的化学研磨萃取等方法, 其操作繁琐且存在破坏性和耗时长等不足, 导致仍不能快速、 无损地检测盐碱胁迫。 如何快速准确、 实时地获取农作物生长期的盐碱胁迫状态信息的机理及模型, 已成为实施精细农业的最重要的研究点之一。 同时, NIR是一种具有无损、 快速、 精确等优点的现代光谱分析技术。 但是, 目前基于近红外光谱技术, 对于以农作物中的芸豆为研究对象来进行盐碱胁迫的研究较少和建立盐碱胁迫下农作物光谱曲线的特征波长提取方法来反映盐碱胁迫程度的研究更是鲜有报道。

因此以苗期芸豆为研究对象, 获取苗期芸豆健康和多等级盐碱胁迫的近红外光谱曲线, 分析盐碱胁迫对芸豆光谱反射特性参数的变化规律时, 应用去趋势算法(detrending, DT)对芸豆盐碱胁迫采样数据进行预处理, 然后针对预处理后的多维度光谱特点, 优选竞争性自适应重加权采样算法(competitive adaptive reweighted sampling, CARS)提取对盐碱胁迫程度敏感的特征波长, 最后选用结合径向基神经网络(radial basis function neural network, RBF)提供了一种盐碱胁迫下芸豆冠层NIR光谱特性分析及检测的新方法。

1 实验部分
1.1 材料和仪器

实验在黑龙江八一农垦大学生物技术中心进行, 以苗期芸豆为研究对象, 在自然环境下, 选择用霍格兰营养液水培和用100 mmol· L-1碳酸氢钠进行盐碱胁迫处理为实验方法, 根据芸豆苗期叶片生理指标中的光合色素含量、 气体交换参数和叶绿素荧光参数每隔24 h就有显著变化来确定盐碱胁迫程度等级, 即分别获取苗期时健康和盐碱胁迫时间为24, 48, 72, 96, 120和144 h(第168 h芸豆叶片已无活性)依次分为0级和1~6级的芸豆冠层近红外光谱曲线。 实验设备采用的是TANGO型德国布鲁克近红外光谱仪, 检测波数范围: 11 541.94~3 946.174 cm-1, 光谱分辨率: 8 cm-1, 扫描次数: 32次, 芸豆实验场景如图1所示。

图1 芸豆实验场景
(a): 水培芸豆实况; (b): 近红外光谱仪获取芸豆光谱曲线
Fig.1 Kidney bean experiment scene
(a): Hydroponics of kidney bean live; (b): Obtaining spectral curve of kidney bean by near infrared spectrometer

1.2 光谱数据采集

光谱仪预热后利用OPUS软件对芸豆冠层进行扫描获取近红外光谱曲线, 通过保留峰位、 测量背景单通道光谱等, 提高光谱数据的精度[6]。 光谱仪在测量范围的两端有较大的噪音和芸豆光谱异常样本的存在会影响预测模型效果, 因此保留990~2 452 nm范围内的光谱吸光度值进行研究, 且采用主成分分析联合马氏距离法[7], 如图2所示和光谱曲线趋势类似观察法[8], 判断芸豆多维度光谱曲线形状趋势是否大致一样来剔除芸豆异常样本, 经过检查无异常。 总计采集524个芸豆样本的近红外光谱曲线, 如图3所示和依次划分0~6级盐碱胁迫等级程度芸豆的平均光谱吸光度值曲线, 如图4所示。 为了提高模型的预测能力, 采用光谱理化值共生距离(sample set partitioning based on joint x-y distance, SPXY)算法[9]按3:1的比例划分芸豆的样本集, 且优选去趋势算法进行预处理如图5所示。

图2 524个芸豆样本的马氏距离分布Fig.2 Distribution of mahalanobis distances of 524 kidney bean samples

图3 芸豆样本近红外光谱Fig.3 Near infrared spectra of kidney bean samples

图4 7类芸豆样本平均光谱吸光度值曲线Fig.4 Average spectral absorbance curves of 7 types of kidney bean samples

图5 DT预处理的芸豆冠层近红外光谱Fig.5 Near infrared spectra of kidney bean canopy pretreated by DT

2 结果与讨论
2.1 不同预处理方法和建模方法的比较

在获取芸豆冠层的光谱曲线的基础上, 提出检测芸豆盐碱胁迫时近红外光谱数据效果较好的预处理和数学建模方法, 以提高快速检测盐碱胁迫的精度。 为避免多维度光谱信息丢失, 采用偏最小二乘回归法(partial least squares regression, PLSR)和主成分回归法(principal component regression, PCR)两种方法构建模型, 可使相关度较高的波长变量放在一个独立变量里, 依照较少的独立变量构建回归方程, 并对原始光谱(990~2 452 nm)范围内进行多种预处理, 通过以均方根误差较小和相关系数较高的综合比较, PLSR模型和在PLSR模型中去趋势预处理的实验效果较合适, 如表1所示。

表1 通过PLSR和PCR分析得出盐碱胁迫预处理模型 Table 1 The salt-alkali stress pretreatment model obtained by PLSR and PCR analysis
2.2 盐碱胁迫光谱波长特性分析及特征提取方法

2.2.1 采用竞争性自适应重加权采样算法提取特征波长

基于多维度光谱利用CARS算法优选芸豆冠层的特征波长的运算过程, 具体化表述为图6所示, 通过图6(a)能够发现芸豆冠层光谱变量数逐渐下降; 图6(b)中的交叉验证均方根误差(root mean square error of cross validation, RMSECV)表明了基于自适应重加权采样算法优选的特征波长构建的PLSR模型的预测效果; 图6(c)中每条线表示每个波长变量回归系数的变化路径, 其中星号垂线表示拥有最小RMSECV值的最优变量子集的采样次数, 星号垂线以后RMSECV值开始上升, 表示一些有效特性光谱变量被删除了从而导致模型精度变差。 在图6(b)中RMSECV的最小值为1.070 4, 此时对应的星号垂线位置为图6(c)运行次数中的19, 因此对于芸豆冠层在星号垂线点19的位置上为RMSECV值最小和优选的变量子集检测芸豆冠层盐碱胁迫程度的效果较好, 共包含95个特征波长。

图6 CARS算法提取特征波长Fig.6 Extraction of characteristic wavelength by CARS

2.2.2 采用连续投影算法提取特征波长

利用连续投影算法(successive projections algorithm, SPA)优选以芸豆冠层光谱曲线中投影向量最大的波长为检测盐碱胁迫等级程度的待选波长, 然后基于预测均方根误差(root mean square error of prediction, RMSEP)来确定最佳的光谱变量总数, 即检测芸豆盐碱胁迫的最终特征波长。

通过研究, 根据最小误差(RMSEP: 1.222 4)从1 463个波长点中优选出芸豆冠层的光谱17个波长变量, 如图7所示。

利用偏最小二乘回归模型(PLSR), 分别以990~2 452 nm的原始波长, 和依次优选出的95和17个光谱特征波长, 构建芸豆盐碱胁迫检测系统, 并对芸豆盐碱胁迫程度进行检测和评价检测系统性能, 结果如表2所示。

图7 SPA算法提取特征波长
(a): 筛选变量的数目; (b): 特征波长的分布
Fig.7 Extraction of characteristic wavelength by SPA
(a): Number of filter variables; (b): Distribution of characteristic wavelengths

表2 三种建模方法检测结果对比 Table 2 Comparison of three modeling methods

分析表2中的不同特征波长的PLSR建模方法, 采用全波长相对于CARS算法和SPA算法提取特征波长的变量较多, 提取特征波长的两种模型虽然在校正集和预测集的各项表征参数与DT-PLSR模型相比较略差一点, 但差距小。 再看CARS-PLSR模型和SPA-PLSR模型分别选择的特征波长数量95个和17个, 简化了模型结构, 提高了运算效率。 通过参数效果和考虑波长数量甚少可能会过度失去有效信息的结合比较, 认为应用CARS算法优选了95个光谱波长变量较好, 反映了芸豆盐碱胁迫时, 其冠层光谱曲线的全波长特性, 为进一步建立结构简单且精度较高的芸豆盐碱胁迫检测模型提供了有效的特征手段。

2.3 RBF神经网络模型盐碱胁迫程度结果分析

为解决芸豆盐碱胁迫与冠层光谱特征波长之间存在着非线性映射关系[10], 并且难以建立严密和精确的数学模型的问题, 应用径向基神经网络(RBF)具有自适应的归纳推理机制, 以其简单的结构、 快速的训练过程和具有较好的精确识别盐碱胁迫等级等诸多优点, 为其进行芸豆盐碱胁迫检测提供了有利手段, 能够建立芸豆盐碱胁迫与冠层光谱特征波长之间映射规律, 完成芸豆盐碱胁迫程度自动快速检测模型实现过程。

2.3.1 RBF神经网络结构及参数

构建芸豆检测盐碱胁迫的径向基神经网络模型关键是网络结构和参数的确定, 由于CARS算法优选了95维度波长特征向量, 决定了径向基神经网络的输入层节点数为95; 是否芸豆有盐碱胁迫采用7位二进制编码, 即输出层节点数为7和径向基层的神经元节点为282; 所以用于芸豆盐碱胁迫程度检测的径向基神经网络模型的拓扑结构为95-282-7型。

在网络实际训练时, 基于上述输入层、 隐含层和输出层参数设定的基础上, 选取包含受盐碱胁迫不同程度的芸豆样本480个作为训练集, 余下44个样本作为预测集。 采用newrb函数创建检测网络, 设定检测盐碱胁迫程度的目标精度为0.01, 最大学习次数为60 000, 模型扩展速度为1.7, 训练过程应用频率为1。 利用反向传播神经网络(back propagation neural network, BP)和文中提出的径向基神经网络分别进行芸豆盐碱胁迫模型的参数训练, 在网络结构参数均相同的前提下, 对基于CARS-BP和CARS-RBF模型苗期芸豆盐碱胁迫程度检测的收敛曲线如图8所示。

图8 网络收敛速度对比
(a): BP神经网络; (b): RBF神经网络
Fig.8 Contrast of convergence speed of networks
(a): BP neural network; (b): RBF neural network

从图8中训练效果看, 在学习次数为60 000次时, BP神经网络未达到预设精度误差0.01; 而RBF神经网络学习次数为282次, 精度误差为0.009 938 59, RBF神经网络在平均学习次数和精度误差均优于BP网络。

2.3.2 检测模型应用实例与评价

调用BP和RBF智能检测模型; 然后计算神经网络模型前向输出y值, 通过比较输出网络前向y值里的最大值来构建输出值至编码向量, 将y编码向量解析至盐碱胁迫等级, 最后输出检测盐碱胁迫等级的结果。 其二进制编码的解码映射规则为: 如果Max(y1, y2, …, yi, …, y7)中Max=yi, 则yi=1, 其余为0, 将y编码向量解析至盐碱胁迫等级, 达到可自适应地检测农作物多个盐碱胁迫等级的目的。 其中0000001代表健康、 0000010代表盐碱1等级、 0000100代表盐碱2等级、 0001000代表盐碱3等级、 0010000代表盐碱4等级、 0100000代表盐碱5等级和1000000代表盐碱6等级, 最后输出检测的盐碱胁迫等级结果。

研究中以应用去趋势预处理后的芸豆冠层光谱曲线为基础, 通过竞争性自适应重加权采样算法优选95维度波长特征, 构建了基于径向基神经网络的芸豆盐碱胁迫检测模型(CARS-RBF), 为测试和评价该模型对芸豆盐碱胁迫检测性能的效果, 评价性能指标取检测模型的学习次数、 准确率以及均方误差(MSE)。 在相同条件下, 与BP神经网络模型, 分别构建芸豆盐碱胁迫检测模型(CARS-RBF和CARS-BP), 以及RAW-RBF和DT-RBF模型, 比较4种芸豆盐碱胁迫等级程度检测方法的模型性能参数, 其结果如表3所示。

表3 芸豆盐碱胁迫检测模型性能指标 Table 3 The performance index of salt and alkali stress detection model of kidney bean

表3可知, 在RBF构建的三种模型中均方误差都相差较小和CARS-RBF模型在其他参数方面综合效果较好, 因此选择CARS-RBF模型。 CARS-RBF模型学习次数、 模型准确率和均方误差均优于CARS-BP模型, 应用CARS-RBF模型进行自动快速检测芸豆盐碱胁迫等级程度中学习次数为282次, 模型检测准确率达到97.73%, 均方误差(MSE)为0.009 938 59。 构建的CARS-RBF模型简化了检测模型的复杂程度, 避免了全波长建模在计算规模及耗时上缺陷, 该方法检测盐碱胁迫等级程度的准确率较高, 满足了芸豆盐碱胁迫程度自动检测的精度要求, 一种较为理想的芸豆盐碱胁迫检测模型。

3 结论

应用去趋势算法实现了对芸豆冠层原始近红外光谱曲线消噪平滑处理, 以此有效数据信息源为基础, 采用竞争性自适应重加权采样算法, 优选了多维度光谱波长特征, 并作为径向基神经网络的输入向量, 构建了芸豆盐碱胁迫自动检测模型。 基于优选NIR光谱波长构建的CARS-RBF智能模型, 极大程度简化了原来模型, 能够精确无损检测芸豆盐碱胁迫程度, 实现了一种快速、 无损检测芸豆盐碱胁迫和及时防治、 保障芸豆健康生长的新方法。

参考文献
[1] LU Wen-tao, WANG Rong-xian, DENG Zhi-gang(卢文涛, 王荣先, 邓志刚). Journal of Chinese Agricultural Mechanization(中国农机化学报), 2017, 38(11): 11. [本文引用:1]
[2] GUO Xiao-xiao, WANG Xue-lai, LIANG Hai-yun, et al(郭潇潇, 王雪莱, 梁海芸, ). Acta Agriculturae Boreali-Sinica(华北农学报), 2019, 34(4): 148. [本文引用:1]
[3] LI Hong-yu, PAN Shi-ju, QIAN Yong-de, et al(李红宇, 潘世驹, 钱永德, ). Journal of Southern Agriculture(南方农业学报), 2015, 46(12): 2100. [本文引用:1]
[4] ZHAO Jun-xiang, LIU Shou-wei, WU Feng-zhi(赵俊香, 刘守伟, 吴凤芝). Crops(作物杂志), 2015, (1): 133. [本文引用:1]
[5] LI Lin, YU Song, JIANG Yong-chao, et al(李琳, 于崧, 蒋永超, ). Plant Physiology Journal(植物生理学报), 2016, 52(1): 62. [本文引用:1]
[6] QIAN Li-li, SONG Xue-jian, ZHANG Dong-jie, et al(钱丽丽, 宋雪健, 张东杰, ). Food Science(食品科学), 2018, 39(16): 321. [本文引用:1]
[7] CHEN Hong-yan, ZHAO Geng-xing, LI Yu-huan, et al(陈红艳, 赵庚星, 李玉环, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2018, 34(12): 119. [本文引用:1]
[8] JIANG Wei, FANG Jun-long, WANG Shu-wen, et al(姜微, 房俊龙, 王树文, ). Journal of Northeast Agricultural University(东北农业大学学报), 2016, 47(2): 88. [本文引用:1]
[9] YU Hui-chun, LOU Nan, YIN Yong, et al(于慧春, 娄楠, 殷勇, ). Food Science(食品科学), 2018, 39(16): 328. [本文引用:1]
[10] HUI Guang-yan, SUN Lai-jun, WANG Jia-nan, et al(惠光艳, 孙来军, 王佳楠, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(7): 2111. [本文引用:1]