基于多源数据的小麦品种产量估测研究
宋成阳1, 耿洪伟1, 费帅鹏2, 李雷2, 甘甜2, 曾潮武3, 肖永贵2,*, 陶志强2,*
1.新疆农业大学农学院, 新疆 乌鲁木齐 830052
2.中国农业科学院作物科学研究所, 北京 100081
3.新疆农业科学院粮食作物研究所, 新疆 乌鲁木齐 830091
*通讯作者 e-mail: xiaoyonggui@caas.cn; taozhiqiang@caas.cn

作者简介: 宋成阳, 1996年生,新疆农业大学农学院硕士研究生 e-mail: byyyscy@126.com

摘要

小麦产量产前估测关乎农业生产计划制定、 粮食安全保障、 国家经济和宏观决策。 应用无人机能够无损、 快速准确、 及时高效地估测小麦产量, 通过多种机器学习方法充分挖掘无人机多源遥感数据对多个小麦品种进行籽粒产量估测的潜力, 明确多源数据融合对模型估测精度的提升效果, 对于作物田间管理保障小麦高产稳产具有重要意义。 以黄淮麦区140个主栽小麦品种为材料开展冬小麦田间试验, 采用搭载红绿蓝(RGB)和多光谱传感器的无人机平台对灌浆期的冠层信息进行采集, 分别以岭回归、 支持向量回归、 随机森林回归、 高斯过程、 k-最邻近算法和Cubist等六种机器学习算法建立单传感器数据以及多源数据融合的产量估测模型, 采用决定系数( R2)、 均方根误差(RMSE)和相对均方根误差(RRMSE)对估算模型进行评价。 结果表明, 所选取的10个可见光植被指数及13个多光谱被指数特征值均与实测产量呈极显著相关( p<0.01), 各特征值产量相关系数绝对值由高到低依次为多光谱植被指数(0.54~0.83)、 可见光植被指数(0.45~0.61)、 纹理特征(<0.45)。 全部六种机器学习算法均在采用多源数据融合时产量估测模型精度最高, 多源数据融合产量估测精度(平均决定系数 R2=0.50~0.71)>多光谱传感器产量估测精度( R2=0.53~0.69)>RGB传感器产量估测精度( R2=0.35~0.51)。 多源数据融合相对于RGB数据的 R2提高0.17~0.23, 平均均方根误差(RMSE)降低0.06~0.09 t·hm-2; 相对于多光谱数据的 R2提高0.01~0.06, RMSE降低0.01~0.03 t·hm-2。 Cubist算法与其他5种算法相比, 建立的多源数据融合模型产量估测精度最高, R2为0.71, RMSE为0.29 t·hm-2。 研究表明, 相对于单一传感器数据产量估测模型, 多源数据融合能够有效提升冬小麦品种产量的估测精度, 并且Cubist算法能相对更好地处理多模态融合数据提高产量预测精度, 为预测不同小麦品种的产量提供理论指导。

关键词: 无人机; 遥感; 小麦估产; 光谱指数; 纹理特征
中图分类号:S127 文献标志码:A
Study on Yield Estimation of Wheat Varieties Based on Multi-Source Data
SONG Cheng-yang1, GENG Hong-wei1, FEI Shuai-peng2, LI Lei2, GAN Tian2, ZENG Chao-wu3, XIAO Yong-gui2,*, TAO Zhi-qiang2,*
1. College of Agronomy, Xinjiang Agricultural University, Urumqi 830052, China
2. Institute of Crop Sciences, Chinese Academy of Agricultural Sciences, Beijing 100081, China
3. Research Institute of Grain Crops, Xinjiang Academy of Agricultural Sciences, Urumqi 830091, China
*Corresponding authors
Abstract

Pre-production estimation of wheat production is related to the formulation of agricultural production plans, food security, national economy and macro-decision-making, and the application of drones can estimate wheat production in a non-destructive, fast, accurate, timely and efficient manner. The machine learning method is used to fully tap the potential of multi-source remote sensing data to estimate the grain yield of multiple wheat varieties and to clarify the effect of multi-source data fusion on improving the yield estimation accuracy of cultivars. It is significant for crop field management and ensuring a high and stable yield in wheat. In this study, field trials of winter wheat were carried out with 140 main wheat varieties in the Huanghuai wheat region as materials. The drone platform equipped with red green blue (RGB) and multispectral sensors were used to collect the canopy information of 140 winter wheat varieties during the grain filling period. Six machine learning algorithms were used, namely Ridge Regression (RR), support vector regression (SVR), Random Forest Regression (RFR), Gaussian Process (GP), k-Nearest Neighbor (k-NN) and Cubist, to build yield estimation models from single sensor data and multi-source data fusion. Coefficient of determination ( R2), root mean square error (RMSE) and relative root mean square error (RRMSE) were used to evaluate the estimation model. The results showed that the selected 10 visible vegetation indices and 13 multispectral covered indices were significantly correlated with the measured yield ( p<0.05), and the absolute value of the correlation coefficient from high to low was multispectral vegetation index (0.54~0.83), color index (0.45~0.61), texture feature (<0.45), all six machine learning algorithms have the highest yield estimation and prediction accuracy when using multi-source data fusion. Multi-source data fusion yield estimation accuracy (average coefficient of determination R2=0.50~0.71)>multi-spectral sensor yield estimation accuracy ( R2=0.53~0.69)>RGB sensor yield estimation accuracy ( R2=0.35~0.51). Compared with RGB data, the R2 of multi-source data fusion increases by 0.17~0.23, and the mean root mean square error (RMSE) decreases by 0.06~0.09 t·hm-2; compared with multi-spectral data, the R2 increases by 0.01~0.06, and the RMSE decreases by 0.01~0.03 t·hm-2. Compared with the other five algorithms, the multi-source data fusion model established by the Cubist algorithm has the highest yield estimation accuracy, with an R2 of 0.71 and an RMSE of 0.29 t·hm-2. It shows that compared with the yield estimation model of single sensor data, multi-source data fusion can effectively improve the yield estimation accuracy of winter wheat varieties, and the Cubist algorithm can better process multi-mode data to improve the yield prediction accuracy, providing theoretical guidance for predicting the yield of different wheat varieties.

Keyword: Unmanned aerial vehicle; Remote sensing; Wheat yield estimation; Spectral index; Texture feature
引言

小麦是世界三大粮食作物之一, 也是中国北方地区最重要的粮食作物[1]。 2021年我国小麦播种面积2 356.8万hm2, 总产量13 694.6万吨, 分别占谷物播种面积和总产量的23.5%和21.6%[2]。 受人口增长、 天气灾害、 气候灾害、 疫情生态灾害和水文灾害等不确定性因素的影响, 我国粮食需求还将保持刚性增长的态势。 应用无人机能够无损、 快速准确、 及时高效地估测小麦产量, 既可以有效加快作物高产基因型的筛选和辅助分子育种工作[3], 也可在田间产量的空间变异监测以及田间管理中发挥重要作用[4], 同时为农业生产计划制定、 粮食安全保障、 国家经济和宏观决策提供科学依据[5, 6, 7, 8]

近年来传感器和智能化技术的发展为小麦产量信息的快速获取提供了新的途径[9]。 无人机遥感基于各波段光谱信息组成的植被指数与产量具有显著相关性, 被广泛应用于作物估产中[10, 11, 12]。 各植被指数与产量相关性有所差异, 有报道利用植被指数进行单一变量建模估测产量研究, 明确了不同植被指数在产量估计中的贡献[12]。 而小麦生育时期植被指数在产量估测表现中具有显著差异, 开花期与灌浆期遥感数据被用于获取更高的产量估测精度[13]。 为避免单一遥感数据限制, 多源遥感数据融合被用于作物产量估测研究, 主要有数据层、 特征层与决策层融合三个层级的应用研究[14]。 以同质数据融合为主的数据层面遥感数据融合已经在农业遥感中得到广泛应用以提升遥感数据的质量, 如多时相融合[15]、 可见光-高光谱融合[12]和多光谱-高光谱融合[16]等。 然而多传感器的多源遥感数据融合由于多类传感器数据差异较大, 如光学与雷达[17]、 光学与热红外传感器[18], 其成像机理差异太大, 不适用于数据层面的同质数据融合方法。 需要对不同数据分别进行相关特征的提取, 然后再进行特征层面的融合处理, 甚至先对不同传感器数据进行地物解译后, 再利用一定的决策规则加以融合。 需要对模型构建与算法优化进行探索, 从而解决不同数据产生结果的不一致性, 获取更可靠、 精确的遥感估测精度。

目前无人机估产研究以单一品种(系)为主, 往往忽略品种差异性因素, 估测模型适应性较低, 不适于多点尺度品种产量估测。 不同品种间因受遗传差异影响, 单产相似的品种在相同生育期光谱信息往往具有明显差异性, 可能造成模型估测结果与实测产量不符。 引入品种差异因素, 进行多源遥感数据融合, 在作物产量估测中将获得更高的评估精度和更好的适应性。 同时多传感器的多源数据融合使得输入特征增加, 形成更大的信息量和样本量, 这需要结合优异的算法构建及优化模型, 以应对复杂、 非线性和冗余数据集的多源多态数据融合。 近年来偏最小二乘回归(PLS)、 随机森林回归(RFR)、 支持向量回归(SVR)以及深度神经网络(DNN)算法在多模态信息融合上得到越来越多的应用[8, 10]。 多传感器数据融合应用以及多种机器学习算法估测小麦产量进行精度对比的研究鲜见报道, 而评估各算法产量估测精度提高的潜力, 有助于提高产量估测模型的精度。

基于黄淮冬麦区具有代表性的小麦品种田间试验, 采用无人机搭载可见光红绿蓝(RGB)和多光谱相机获取影像, 从图像纹理特征、 可见光及多光谱植被指数三个方面开展研究, 将三者融合并采用多种具有代表性机器学习算法建立小麦多个品种产量估测模型并进行估测精度比较, 探讨多传感器的多源数据融合在多个小麦品种估产上的应用, 为提高小麦品种产量估算精度提供参考。

1 实验部分

选用黄淮冬麦区代表性的小麦品种140份, 于2020年—2021年生长季种植于河南省新乡市中国农业科学院新乡综合试验基地(113°45'38″N, 35°8'10″E)(图1)。 试验采用随机区组设计, 每个品种2次重复, 共计280个小区; 小区长4 m, 宽1.4 m, 面积5.6 m2; 种植行距20 cm。 为保证小区产量的可靠性, 出苗后对缺苗断垅处采取移栽方式进行处理, 确保苗全苗匀。 田间管理按照当地丰产田标准进行, 并防治病虫害及杂草。 在小麦成熟后使用小区联合收割机收获, 并在籽粒含水量低于12.5%时测定产量。

图1 研究区位置和试验田小区Fig.1 Study area location and experimental plot

1.1 数据采集与分析方法

1.1.1 无人机图像采集

小区冠层遥感数据分别由大疆精灵4型无人机(大疆创新科技有限公司, 深圳)和大疆M600-PRO六旋翼无人机(大疆创新科技有限公司, 深圳)搭载的RGB相机、 RedEdge-M多光谱相机获取, 传感器数据如表1所示。 无人机飞行高度30 m, 航向重叠和旁向重叠度均为80%, 飞行速度2 m·s-1, RGB相机选择自动拍照模式, 多光谱相机设置等时间隔2 s拍照, 进入航线前和飞行结束后分别拍摄辐射标定板用于多光谱影像反射率的定标。 无人机数据采集选择晴朗无云且光照较好的时间段10:00—14:00之间采集小区冠层遥感数据。

表1 传感器性能参数 Table 1 Sensor performance parameters

1.1.2 无人机遥感影像处理

试验统一采用Pix4D Mapper Pro 4.5.6软件对无人机遥感RGB、 多光谱图像进行辐射校正和图像拼接处理, 得到空间分辨率为0.016 4 m的可见光正射影像和空间分辨率为0.044 m的五波段正射反射率图。 软件基于运动结构(structure from motion, SFM)核心算法和摄影测量流程, 利用每张遥感影像采集时同步获取的时间和空间的POS数据进行图像对齐和拼接, 生成密集点云构建纹理和正射影像。

准确的遥感影像特征依赖于高精度的波段配准和高精度的辐射校正及定标结果[19], 对于多光谱影像本研究采用飞行前后拍摄的RedEdge-M多光谱相机配带的辐射标定版影像进行辐射定标, 以标定版影像建立行列数相同的掩模影像, 计算影像灰度为255的区域在标定版影像对应区域的灰度平均值, 按式(1)计算该波段的辐射定标系数, 并基于各波段的辐射定标系数应用于遥感影像的辐射校正, 本流程由Pix4D Mapper Pro软件内置处理。 经辐射校正可消除传感器和镜头在成像过程中的辐射畸变, 得到小区冠层的地物绝对反射率, 真实表达了小区冠层对电磁波谱的反射作用, 以确保基于遥感影像的光谱指数可靠性。

Fi=ρiiPLi/n(1)

式(1)中, ρ i为波段i的标准反射率; P是由灰板掩模中灰度值为255的像素构成的集合, n为集合中像素的数目; Li为标定版影像经辐射校正后的波谱辐射亮度。

1.1.3 植被指数的提取

基于可见光正射影像和辐射校正后的多光谱正射反射率图, 可进行遥感影像解译, 获取常用植被指数。 在前人研究的一些用于估测产量的多光谱指数中, 基于已有的研究成果以及产量与植被指数的敏感性, 选用如表2所示的10个颜色指数和13个多光谱植被指数。 其中归一化植被指数 (NDVI)、 绿色归一化植被指数(GNDVI)、 重归一化植被指数(RDVI)、 比值植被指数(RVI1, RVI2)等是根据植被叶绿素等光谱特征总结的地表植被覆盖情况的光谱参数, 可有效反映作物覆盖与生长状况; 陆地叶绿素指数(MTCI) 、 植被提取颜色指数(CIVE)、 过绿植被指数(ExG)、 绿叶植被指数(GLA)、 植物色素比率(PPR)、 红绿蓝植被指数(RGBVI)、 陆地叶绿素指数(MTCI)等与地表植被LAI、 叶干生物量(DM)、 叶绿素含量密切相关, 可以有效反映作物生长状况; 水分指数(WI)、 改进红边比值植被指数(MSR)、 植被衰减指数(PSRI)等其他指数可有效反映作物水分、 氮素、 作物胁迫等参数。 以上所选光谱指数尽可能表征冬小麦的生长状况, 且依据前人研究的产量相关性进行筛选, 可有效进行冬小麦产量估测。 本研究使用ArcGIS软件确定感兴趣区(region of interest, ROI), 绘制研究小区矢量文件, 并赋予属性编号, 在IDL工具(arcgis-IDLE)中对每一个小区矢量文件和原始影像进行读取, 获取每个小区平均光谱信息。

表2 植被指数及其计算公式 Table 2 Vegetation Index and its calculation formula

1.1.4 无人机遥感图像纹理特征提取

无人机遥感影像数据除了包含有研究小区冠层地物光谱信息外, 纹理信息在作物估产和生理信息监测中表现出巨大潜力[38], 在空间结构信息上作为光谱特征的有力补充。 本研究从基于多光谱传感器的RRRGRBRNIRRRed-edge波段以及基于RGB的R、 G和B通道中提取冠层纹理信息。 在几种纹理算法中, 选择了常用的基于二阶概率统计滤波[39]的方式实现图像纹理特征的提取, 采用ENVI 5.3提取每个遥感影像单波段的8个二阶概率矩阵的纹理特征: 均值、 方差、 协同性、 对比度、 相异性、 信息熵、 二阶矩及相关性(表3)。 感兴趣区的确定和读取操作与植被指数提取相同。

表3 选取的8种纹理特征 Table 3 Features of the eight textures
1.2 数据统计分析方法

1.2.1 数据分析与作图

采用Excel 2019进行数据整理, 选用Origin 2021进行数据分析与作图。

1.2.2 无人机遥感估产模型

基于R语言(v 4.0.2)采用岭回归(ridge regression, RR)、 支持向量机回归(support vector regression, SVR)、 随机森林回归(random forest regression, RFR)、 高斯过程(Gaussian process, GP)、 k-最邻近算法(k-Nearest Neighbor, k-NN)、 Cubist等六种统计学习算法建立无人机遥感不同传感器影像特征与小区实测产量的回归模型, 研究小区冬小麦产量估测。

1.2.3 模型精度验证

采用500次迭代的五折交叉验证, 共生成2 500次验证, 可有效防止偶然因素对模型精度产生影响。 以此2 500次验证生成的决定系数(R2)、 均方根误差(root mean squared error, RMSE)和相对均方根误差(relative root mean square error, RRMSE)作为评价不同机器学习算法模型适用性能的指标。 R2越接近1, 则该模型的拟合精度越高; RMSE与RRMSE越小, 表示估算值与实测值差异越小, 模型的估算能力越好, 其计算公式如式(2)—式(4)所示。

R2=i=1n(xi-x̅)2×(yi-y̅)2i=1n(xi-x¯)2×i=1n(yi-y¯)2(2)

RMSE=i=1n(yi-xi)2n(3)

RRMSE=RMSEx̅(4)

式中, xiyi分别为实测值和估测值;x¯y¯分别为实测值和估测值的均值; n为样本个数。

基于无人机采集的140个小麦品种灌浆期冠层不同传感器遥感数据和研究小区实测产量, 采用6种机器学习算法进行不同冬小麦品种籽粒产量估测研究, 技术流程如图2所示。

图2 无人机多遥感数据小区产量估算技术流程Fig.2 UAV multi-remote sensing data plot output estimation technical process

2 结果与讨论
2.1 多传感器遥感影像特征与小区实测产量相关性分析

不同的图像传感器采集作物图像波段不同, 进而反映的作物特征也有差异, 由此不同类型遥感数据相结合将可弥补遥感数据类型单一的不足, 获取更多维度的作物特征, 能够有效提高作物产量估测模型的精度和稳定性[14]。 对本研究选取的植被指数(10个可见光植被指数及13个多光谱植被指数)和产量进行相关性分析。 结果表明所有植被指数均与产量呈极显著相关(p<0.01)。 如图3(a, b)所示, 单个可见光植被指数与小区产量相关性在0.45~0.61之间, 单个可见光植被指数CIVE和产量具有强相关性, 相关系数为0.61; RGBVI、 PPR、 GLA、 ExG、 VARI、 IKAW、 WI、 GBRI、 RBRI与产量值具有较高的相关性, 相关系数分别为-0.45、 -0.57、 -0.46、 -0.58、 -0.57、 -0.50、 0.55、 -0.57和-0.50。 结果与前人研究结论相一致, 灌浆期多数可见光植被植物与小麦产量具有较好的相关性, 能够反映小麦产量信息[13]。 同时本研究显示植被指数相关性高于单一波段, 反映了刘畅等研究中提出的单一波段易受大气环境、 植被周边环境影响而造成误差, 导致真实地物信息的偏移; 而植被指数以差值和比值方式运算, 可有效消除这种误差[39]。 单个多光谱指数与小区产量相关性在0.54~0.83之间, 单个多光谱植被指数GNDVI、 MTCI、 RVI2、 GMSR、 CI和GRVI与产量值具有强相关性; PSRI相关性最低, 相关系数为0.54。 多光谱传感器比RGB传感器增加了近红外和红边波段的近红外波段信息, 同时多光谱传感器遥感影像处理进行了波段配准和辐射校正定标, 消除传感器和镜头在成像过程中的辐射畸变[19], 得到小区冠层的地物绝对反射率, 更加真实地表达小区冠层电磁波谱的反射作用。 本研究多数多光谱指数相关系数大于0.6(与小区产量极显著相关, p<0.01), 优于基于RGB传感器的可见光植被指数, 显示了其地物光谱信息获取上的专业性, 更加可靠。

图3 植被指数与小区实测产量相关系数矩阵
(a): 可见光植被指数小区产量相关系数矩阵; (b): 多光谱植被指数小区产量相关系数矩阵
Fig.3 Correlation coefficient matrix between vegetation index and measured yield in plot
(a): Visible light vegetation index plot yield correlation coefficient matrix; (b): Multispectral vegetation index plot yield correlation coefficient matrix

纹理是物体表面内在特性的反映, 不依赖于颜色和亮度而发生变化, 是冠层光谱信息的有力补充[40]。 单一纹理特征与小区产量相关性分析结果(图4)显示, 部分纹理特征与小区产量具有显著相关性(p<0.05), 而在单传感器数据模型估测中纹理特征相对光谱信息相关系数较低, 只有少数纹理特征相关系数大于0.4。 单个纹理特征Mean与产量具有相对较好的相关性, 其中R-Mean、 B-Mean、 RR-Mean、 RG-Mean、 RB-Mean、 RRed-edge-Mean的相关系数分别为0.41、 0.41、 0.43、 0.43、 0.42、 0.45。 在RGB传感器和多光谱传感器8个波段提取的共64个纹理特征中, Mean的二次多项式与产量的相关性最高。 其原因可能是由于试验田纹理较规则, 规则的纹理特征能够更好地体现植被冠层覆盖度情况, 覆盖度均匀则光的透过率也均匀, 与产量的相关性较高, 进而能够更好地反映产量, 而Mean特征反映了植被纹理的规则程度[38]。 本研究中Mean 特征在研究区域中反映出更好的产量相关性。

图4 纹理特征与小区实测产量相关系数分析Fig.4 Analysis of correlation coefficient between texture characteristics and measured yield in plot

2.2 多传感器遥感数据构建小区产量估算模型

2.2.1 基于单一传感器遥感数据构建小区产量估算模型

无人机遥感数据提取的植被指数与产量呈复杂的非线性关系[13], 但在进行作物产量估测时为了简便、 快速, 也可采用线性模型进行建模研究[41]。 本研究考虑机器学习算法的代表性选取基于决策树的模型(随机森林、 Cubist)、 高斯过程、 支持向量机和K-最邻近算法等具有代表性的非线性回归模型, 同时选取岭回归建立线性回归模型进行研究。 选取基于RGB影像的可见光植被指数和图像纹理特征作为输入变量, 分别建立小麦产量估测模型。 结果如表4所示, 在训练集与测试集上产生的R2和RMSE的分布如图5(a, b)所示。 在训练集中, 平均R2在0.50~0.91之间, 平均RMSE在380~180 kg·hm-2之间; 在测试集中, 六种算法平均R2在0.35~0.51之间, 平均RMSE在430~380 kg·hm-2之间。 RR算法估测精度最高, 平均R2为0.51, 平均RMSE和RRMSE分别为380 kg·hm-2和4.47%; KNN算法估测精度最低, 平均R2为0.35, 平均RMSE和RRMSE分别为430 kg·hm-2和5.20%。 综合比较训练集与测试集, RR算法估测精度最为稳定, 平均R2分别为0.50和0.51, 仅相差0.01, 且只有RR算法在测试集平均R2比训练集提高, RMSE和RRMSE变化幅度最小。

表4 基于RGB传感器遥感数据估产模型评价 Table 4 Evaluation of production estimation model based on RGB sensor remote sensing data

图5 基于RGB传感器遥感数据估产模型交叉验证过程R2(a)和RMSE(b)分布Fig.5 The R2 (a) and RMSE (b) in the cross-validation process of the production estimation model based on RGB sensor remote sensing data

采用基于多光谱传感器获取的多光谱植被指数和纹理特征作为输入变量, 采用RR、 SVR、 RFR、 GP、 KNN和Cubist六种算法分别建立小麦产量估测模型, 结果如表5所示, 在训练集与测试集上产生的R2和RMSE的分布如图6(a, b)所示。 综合对比六种算法表现, 在训练集中, 模型平均R2在0.67~0.91之间, 平均RMSE在300~170 kg·hm-2之间, 测试集六种算法平均R2在0.53~0.69之间, 平均RMSE在4 390~3 690 kg·hm-2之间。 单个模型Cubist算法估测精度最高, 平均R2为0.69, 平均RMSE和RRMSE分别为0.31 kg·hm-2和3.69%。 综合比较训练集与测试集, RFR算法模型平均R2波动最大, RR算法估测最为稳定, 并且RR算法测试集平均R2大于训练集平均R2。 通过对比各算法的产量估测模型, 在基于RGB传感器遥感数据估算时最优算法为岭回归算法, 但Cubist算法保持了类似估算精度; 同时在基于多光谱传感器数据以及多传感器数据融合估算中皆为Cubist算法估算精度最高, 故综合几种算法表现Cubist估测精度最高, 与之类似的是岭回归算法, 相对应的表现最差的是K-最邻近算法。 岭回归算法通过正则化处理更适用于共线性数据分析的特点[42], 在样本量少的情况下具有更好的拟合使其与Cubist具有类似的估测精度水平, 同时在训练集与验证集表现出更高的稳定性。

表5 基于多光谱传感器遥感数据估产模型评价 Table 5 Evaluation of production estimation model based on multi-spectral sensor remote sensing data

图6 基于多光谱传感器遥感数据估产模型交叉验证过程R2(a)和RMSE(b)分布Fig.6 The R2 (a) and RMSE (b) in the cross-validation process of the production estimation model based on multi-spectral sensor remote sensing data

2.2.2 结合RGB与多光谱传感器遥感数据构建小区品种产量估算模型

相对于单类型传感器数据做产量估测输入变量, 将二者融合作为输入变量, 六种算法所得结果R2均明显提升, 结果如表6所示, 在训练集与测试集上产生的R2和RMSE的分布如图7(a, b)所示。 综合对比六种算法表现, 在训练集中, 模型平均R2在0.66~0.94之间, 平均RMSE在310~140 kg·hm-2之间, 测试集六种算法平均R2在0.54~0.71之间, 平均RMSE在360~290 kg·hm-2之间。 单个模型Cubist算法估测精度最高, 平均R2为0.71, 平均RMSE和RRMSE分别为290 kg·hm-2和3.62%。 综合比较训练集与测试集, RFR算法模型平均R2波动最大, RR算法估测最为稳定。 K-最邻近算法在本研究中估测精度最低, 同时在进行多传感器数据融合后模型平均R2基本没有提升, 表现出随变量因素增多而预估精度不变甚至下降的特点, 这在前人建模研究中具有相同的表现[43]。 分析认为k-NN作为懒惰学习模型, 过度依赖于样本点的欧式距离, 对最近k个点对测试集的因变量取平均来估测, 造成变量因素增多而估测精度偏差在一定程度上增大的现象, 故k-NN更适合处理变量维度少的模型[43]。 需要指出的是, 通过训练集与验证集的R2和RMSE的分布比较, RFR在传感器数据建模时出现了过拟合现象, 分析认为由于遥感数据噪声较大, 数据属性取值划分较多使得RFR算法在解决回归问题时不能够做出超越训练集数据范围的预测, 出现过拟合现象。

表6 多传感器遥感数据融合估产模型评价 Table 6 Evaluation of multi-sensor remote sensing data fusion for production estimation model

图7 多传感器遥感数据融合估产模型交叉验证过程R2(a)和RMSE(b)分布Fig.7 The R2 (a) and RMSE (b) in the cross-validation process of multi-sensor remote sensing data fusion estimation model

相对于单一传感器产量估测模型精度受传感器数据类型限制, 多传感器数据融合在无人机产量估测中表现出巨大潜力[18], 而选取适合的算法有助于应对多传感器输入数据的有效融合, 进而最大化提升产量估测精度。 本研究表明进行多传感器数据融合估测精度要优于任何单一传感器数据模型估测精度, 数据融合后既包含多通道光谱信息又包含图像纹理信息, 从光谱和空间的不同角度为产量信息提供参考, 使得模型精度大于单类型传感器数据的估测模型, 模型精度显著改善, 多传感器数据融合产量估测模型R2可达0.71(Cubist)。 多传感器数据融合可以增强光谱和结构特征, 提升作物产量估测精度, 但是将所有的光谱和纹理信息结合起来, 与仅使用基于多光谱传感器的模型相比, R2最多提高0.06, 精度提高并不明显。 这一现象在Maimaitijiang等[18]研究多传感器数据融合中具有相同表现, 可能因冠层光谱、 结构、 纹理之间的信息同质性和冗余性导致。

3 结论

采用多种机器学习算法充分挖掘了多传感器数据在小麦产量估算中的潜力。 结果表明冬小麦灌浆期多传感器遥感植被指数均与产量显著相关, 纹理特征多数与产量显著相关, 但纹理特征相关性相对较低; 利用机器学习算法分别建立的不同传感器数据小麦产量估测模型, 多传感器数据融合产量估测模型(R2=0.50~0.71)>多光谱传感器产量估测模型(R2=0.53~0.69)>RGB传感器产量估测模型(R2=0.35~0.51); 进行多传感器数据融合后产量估测精度, 相对于RGB传感器和多光谱传感器单传感器数据模型R2分别提高0.17~0.23和0.01~0.06, RRMSE可降低0.83%~1.02%和0.02%~0.32%; 综合比较各算法, Cubist算法能更好地处理多模态融合数据, 其多传感器数据融合模型产量估测精度最高, R2可达0.71。 由研究可得多源数据可以提升冬小麦产量估测模型的精度, 但多源数据融合相对于多光谱产量估测精度提升并不明显。 权衡本研究中无人机遥感数据的采集作业情况, 多传感器的多源遥感数据融合成倍增加了遥感作业工作量, 并增加了设备投入成本, 性价比降低。 但就研究而言, 可见光传感器与多光谱传感器遥感数据同质性较强, 不能反映光谱-雷达, 光谱-热红外线传感器的多源数据融合精度提升情况, 有待进一步深入研究。 同时随着无人机遥感传感器的开发和研究, 可见光传感器与多光谱传感器可被集成且设备成本相对稳定, 可以有效减少遥感作业量, 同时提升产量估测精度, 将是对本研究的最好应用。 综合来看, 多传感器数据融合可相对准确和稳定估测多个冬小麦品种的产量, 为作物田间管理和育种工作提供参考。

参考文献
[1] HE Zhong-hu, ZHUANG Qiao-sheng, CHENG Shun-he, et al(何中虎, 庄巧生, 程顺和, ). Journal of Agriculture(农学学报), 2018, 8(1): 99. [本文引用:1]
[2] National Bureau of Statistics of China(中华人民共和国国家统计局). CHINA STATISTICAL YEARBOOK (中国统计年鉴), 2021-12-06: . CHINA STATISTICAL YEARBOOK (中国统计年鉴), 2021-12-06: http://www.gov.cn/xinwen/2021-12/06/content_5656247.htm. [本文引用:1]
[3] Wu X, Feng H, Wu D, et al. Genome Biology, 2021, 22(1): 185. [本文引用:1]
[4] Schut A G T, Traore P C S, Blaes X, et al. Field Crops Research, 2018, 221: 98. [本文引用:1]
[5] Du M, Noguchi N. IFAC-PapersOnLine, 2016, 49(16): 5. [本文引用:1]
[6] Zhang C, Kovacs J M. Precision Agriculture, 2012, 13(6): 693. [本文引用:1]
[7] GUO Tao, YAN An, GENG Hong-wei(郭涛, 颜安, 耿洪伟). Journal of Triticeae Crops(麦类作物学报), 2020, 40(9): 1129. [本文引用:1]
[8] WU Bing-fang, ZHANG Miao, ZENG Hong-wei, et al(吴炳方, 张淼, 曾红伟, ). Journal of Remote Sensing(遥感学报), 2016, 20(5): 1027. [本文引用:2]
[9] LIU Jian-gang, ZHAO Chun-jiang, YANG Gui-jun, et al(刘建刚, 赵春江, 杨贵军, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(24): 98. [本文引用:1]
[10] Hassan M A, Yang M, Rasheed A, et al. Plant Science, 2019, 282: 95. [本文引用:2]
[11] Hassan M, Yang M J, Rasheed A, et al. Remote Sensing, 2018, 10(6): 809. [本文引用:1]
[12] TAO Hui-lin, FENG Hai-kuan, YANG Gui-jun, et al (陶惠林, 冯海宽, 杨贵军, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2019, 35(23): 111. [本文引用:3]
[13] Zhu W X, Li S, Zhang X, et al. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34: 78. [本文引用:3]
[14] Hall D L, Llinas J. Proceedings of the IEEE, 1997, 85: 6. [本文引用:2]
[15] WANG Lai-gang, ZHENG Guo-qing, GUO Yan, et al(王来刚, 郑国清, 郭燕, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2022, 53(1): 198. [本文引用:1]
[16] Wei Q, Bioucas Dias J, Dobigeon N, et al. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(7): 3658. [本文引用:1]
[17] Bilgin G, Ustuner M. Journal of Applied Remote Sensing, 2015, 9(1): 096054. [本文引用:1]
[18] Maimaitijiang M, Sagan V, Sidike P, et al. Remote Sensing of Environment, 2020, 237: 111599. [本文引用:3]
[19] Jhan J P, Rau J Y, Haala N. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 137: 47. [本文引用:2]
[20] Bendig J, Yu K, Aasen H, et al. International Journal of Applied Earth Observation and Geoinformation, 2015, 39: 79. [本文引用:1]
[21] Metternicht G. International Journal of Remote Sensing, 2003, 24(14): 2855. [本文引用:1]
[22] Louhaichi M, Borman M M, Johnson D E. Geocarto International, 2001, 16(1): 65. [本文引用:1]
[23] Woebbecke D M, Meyer G E, Von Bargen K, et al. Transactions of the American Society of Agricultural Engineers, 1995, 38: 259. [本文引用:1]
[24] Kataoka T, Kaneko T, Okamoto H, et al. Crop Growth Estimation System Using Machine Vision, 2003, 2: 1079. [本文引用:1]
[25] Gitelson A A, Kaufman Y J, Stark R, et al. Remote Sensing of Environment, 2002, 80(1): 76. [本文引用:1]
[26] Kawashima S, Nakatani M. Annals of Botany, 1998, 81(1): 49. [本文引用:1]
[27] Woebbecke D M, Meyer G E, Von Bargen K, et al. Transactions of the ASAE, 1995, 38(1): 259. [本文引用:1]
[28] ZHANG Pei-song, SUN Yi-ming, GUO Peng-tao, et al(张培松, 孙毅明, 郭澎涛, ). Journal of Tropical Crops(热带作物学报), 2015, 36(12): 2120. [本文引用:1]
[29] Gitelson A A, Kaufman Y J, Merzlyak M N. Remote Sensing of Environment, 1996, 58(3): 289. [本文引用:1]
[30] Dash J, Curran P J. International Journal of Remote Sensing, 2004, 25(23): 5403. [本文引用:1]
[31] Liu X, Wei Y, Jiao Q, et al. Remote Sensing Technology and Application, 2019, 34(4): 756. [本文引用:1]
[32] CHEN La, HUANG Jing-feng, WANG Xiu-zhen(陈拉, 黄敬峰, 王秀珍). Journal of Remote Sensing(遥感学报), 2008, 1: 143. [本文引用:1]
[33] Xue L, Cao W, Luo W, et al. Agronomy Journal, 2004, 96(1): 135. [本文引用:1]
[34] Chen J M. Canadian Journal of Remote Sensing, 1996, 22(3): 229. [本文引用:1]
[35] Wang K, Shen Z Q, Wang R C. Journal of Zhejiang University (Agriculture and Life Sciences), 1998, 1: 95. [本文引用:1]
[36] NIU Qing-lin, FENG Hai-kuan, ZHOU Xin-guo, et al(牛庆林, 冯海宽, 周新国, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2021, 52(8): 183. [本文引用:1]
[37] Gitelson A A, Viña A, Arkebauer T J, et al. Geophysical Research Letters, 2003, 30(5): 1248. [本文引用:1]
[38] LIU Chang, YANG Gui-jun, LI Zhen-hai, et al(刘畅, 杨贵军, 李振海, ). Scientia Agricultura Sinica(中国农业科学), 2018, 51(16): 3060. [本文引用:2]
[39] Yue J B, YangG J, Li C, et al. Remote Sensing, 2017, 9: 708. [本文引用:2]
[40] Yang K, Gong Y, Fang S, et al. Remote Sensing, 2021, 13(15): 3001. [本文引用:1]
[41] LIU Xin-yi, ZHONG Xiao-chun, CHEN Chen, et al(刘欣谊, 仲晓春, 陈晨, ). Journal of Triticeae Crops(麦类作物学报), 2020, 40(8): 1002. [本文引用:1]
[42] YAO Rui, LIU Jin-rong, LIU Pei-jiang, et al(姚睿, 刘金容, 刘培江, ). Mathematical Theory and Applications(数学理论与应用), 2019, 39(1): 111. [本文引用:1]
[43] OU Qiang-xin, LI Hai-kui, LEI Xiang-dong, et al(欧强新, 李海奎, 雷相东, ). Chinese Journal of Applied Ecology(应用生态学报), 2018, 29(6): 2007. [本文引用:2]