基于Fisher判别分析与随机森林的马尾松毛虫害检测
许章华1,2,3,4, 黄旭影1, 林璐1, 王前锋1, 刘健2, 陈崇成3, 余坤勇2, 周华康5, 张华峰6
1. 福州大学环境与资源学院, 福建 福州 350116
2. 福建省资源环境监测与可持续经营利用重点实验室, 福建 三明 365004
3. 空间数据挖掘与信息共享教育部重点实验室, 福建 福州 350116
4. 福建省水土流失遥感监测评估与灾害防治重点实验室, 福建 福州 350116
5. 福建省南平市延平区林业局, 福建 南平 353000
6. 厦门市森林病虫害防治检疫站, 福建 厦门 361004

作者简介: 许章华, 1985年生, 福州大学环境与资源学院副教授 e-mail: fafuxzh@163.com

摘要

虫害检测算法的构建是耦合“地—天”特征的过程, 是实现其遥感监测的重要保障。 以福建省三明市、 将乐县、 沙县、 南平市延平区等4个县(区、 市)为试验区, 收集182组马尾松毛虫害样本数据, 随机划分为训练集与验证集, 设置5次重复试验及1次指标筛除试验。 结合马尾松毛虫危害下的寄主表征, 获取松林叶面积指数LAI、 叶面积指数标准误SEL、 归一化差值植被指数NDVI、 缨帽变换湿度轴WET及影像绿光波段B2、 红光波段B3、 近红外波段B4等7个地面与遥感特征指标, 建立其危害等级的Fisher判别分析与随机森林模型, 从检测精度、 Kappa系数、 ROC曲线等角度综合比较两种算法的检测效果, 并给予配对 t检验。 结果表明: 7个指标均具备虫害响应能力, SEL和NDVI相对较弱; Fisher判别分析6次试验的虫害平均检测精度为73.26%, Kappa系数为0.631 9, 而RF法则分别为79.30%, 0.715 1, 显著优于前者( p<0.05); RF法对无危害、 轻度危害、 中度危害3个虫害等级的检测精度、 Kappa系数、 AUC均显著高于Fisher判别分析( p<0.05), 对于重度危害等级, Fisher判别分析则占优。 总体而言, RF法对马尾松毛虫害的检测效果优于Fisher判别分析, 但Fisher判别分析对重度危害等级有更高准确性且模型明确、 易于推广, 可综合应用两种算法开展虫害监测工作。 该成果为马尾松毛虫害及其他森林病虫害的有效检测提供技术参考, 奠定其遥感监测的基础。

关键词: 马尾松毛虫害; Fisher判别分析; 随机森林法; 检测效果; “地—天”特征;
中图分类号:TP79 文献标识码:A
Dendrolimus Punctatus Walker Damage Detection Based on Fisher Discriminant Analysis and Random Forest
XU Zhang-hua1,2,3,4, HUANG Xu-ying1, LIN Lu1, WANG Qian-feng1, LIU Jian2, CHEN Chong-cheng3, YU Kun-yong2
ZHOU Hua-kang5, ZHANG Hua-feng61. College of Environment and Resources, Fuzhou University, Fuzhou 350116, China
2. Fujian Provincial Key Laboratory of Resources and Environment Monitoring & Sustainable Management and Utilization, Sanming 365004, China;
3. Key Lab of Spatial Data Mining & Information Sharing, Ministry of Education, Fuzhou 350116, China;
4. Fujian Provinical Key Laboratory of Remote Sensing of Soil Erosion and Oisaster Protection, Fuzhou 350116, China 5. Yanping District Forestry Bureau, Nanping 353000, China
6. Xiamen Forest Pest Control and Quarantine Station, Xiamen 361004, China
Abstract

The construction of the pest detection algorithm is a process of coupling the “ground-space” features, which is an important guarantee to realize its remote sensing monitoring. Taking Sanming City, Jiangle County, Sha County and Yanping District in Nanping City in Fujian Province as the experimental areas, it gathered 182 samples of Dendrolimus punctatus Walker damage and randomly divided them into training set and validation set, and 5 repeated tests and 1 test of index screening were performed. According the host representations damaged by Dendrolimus punctatus Walker, 7 ground and remote sensing characteristic indices including pine forest leaf area index (LAI), standard deviation of LAI (SEL), normalized difference vegetation index (NDVI), wetness from tasseled cap transformation (WET), green band ( B2), red band ( B3), near infrared band ( B4) were obtained, then the models of Fisher discriminant analysis and random forest for pest levels were constructed. The detection precision, Kappa coefficient and ROC curve were used to comprehensively compare the detection effects of these two algorithms, as well as the paired t-test. The results showed that all the 7 indices have the pest responsiveness, while SEL and NDVI are relatively weak; the average detection precision of Fisher discriminant analysis in 6 tests was 73.26%, Kappa coefficient was 0.631 9, and 79.30%, 0.715 1 of RF respectively, indicating RF is significantly better than the former one ( p<0.05); for the 3 pest levels of non-damage, mild damage and moderate damage, the detection precision, Kappa coefficient and AUC of RF were all significantly higher than Fisher discriminant analysis ( p<0.05), while for the severe damage, Fisher was better. On the whole, the Dendrolimus punctatus Walker damage detection effect of RF is better than Fisher discriminant analysis, but Fisher has more accurate for the severe damage and the mode is clear, easy to by promoted, so these two algorithms could be comprehensively utilized to put forward the pest monitoring work. The results can provide a technical reference for the effective detection of Dendrolimus punctatus Walker damage as well as other forest pests and diseases, and lay a foundation of the remote sensing monitoring.

Key words: Dendrolimus punctatus Walker damage; Fisher discriminant analysis; Random forest; Detection effect; “Ground-space” features;
引 言

马尾松毛虫(Dendrolimus punctatus Walker)是我国南方地区分布面积最广、 危害最大的森林食叶性害虫, 并呈周期性暴发特征。 挖掘虫害响应特征、 建立虫害检测算法是虫害有效检测的两项重要工作; 多年来, 诸多学者尝试借助遥感技术实现该领域的突破[1, 2]。 虫害响应特征的挖掘可分为地面与遥感两个层次, 遥感反映像元尺度特征, 受大气、 地形、 地物混合信息等因素的影响, 而地面则包括寄主组织、 个体、 林分等多个层次, 外部表征较为明确, 故从地到天、 耦合“ 地— 天” 特征是现阶段虫害遥感监测的主要途径。 如何实现“ 地— 天” 的有效耦合? 这就必然要依托于有效的耦合方法, 而虫害检测算法的建立亦同时是虫害响应特征的耦合过程。 数学算法类型繁多, 并不断在病虫害监测领域得以应用, 如马尔柯夫法、 灰色系统模型、 遗传算法、 元胞自动机、 人工神经网络、 支持向量机等[3, 4, 5, 6]。 Park等[7]通过人工神经网络模型(a.pngicial neural network, ANN)预测松针瘿风险; Li等应用分类回归树模型(classification and regression trees, CART)监测松材线虫病, Massi等建立了虫害叶片的ANN与支持向量机(support vector machine, SVM)分类器。 许章华等[8]整合松林冠层光谱、 气候、 地形、 林分、 虫源、 人文环境等多维信息, 利用Fisher判别分析有效预测马尾松毛虫不同危害等级。 Fisher判别分析(Fisher discriminant analysis, FDA)由Fisher于1936年提出, 是最为基本的一类判别分析方法, 已在病虫害领域得到一些应用。 2001年, Breiman和Cutler开发完成了一种新的基于分类回归树的数据挖掘方法— — 随机森林(random forest, RF)[9], 并被引入国内并在医学、 经济学、 管理学、 生态学等领域得以应用; 亦有学者尝试将其用于滑坡等地质灾害的预测中[10, 11]。 综观已有研究, 鲜有将RF法应用于病虫害预测的相关报道, 而森林虫害的Fisher判别分析经验亦有待进一步积累。 此外, 已有RF法研究成果多将对象进行“ 是” 或“ 否” 的二分, 如是否发生某某疾病、 是否可能发生滑坡, 对于多等级的状态识别研究甚少。 本文以马尾松毛虫害为例, 尝试构建其不同虫害等级的Fisher判别分析与RF模型, 并综合比较二者的检测效果。 研究不仅可拓展Fisher判别分析与RF法的应用领域, 亦可为马尾松毛虫害及其他森林病虫害检测提供方法参考, 奠定其遥感监测的基础。

1 试验区概况

选择福建省三明市、 将乐县、 沙县、 南平市延平区等4个县(区、 市)(图1), 经纬度范围为117° 05'— 118° 40'E, 26° 01'— 27° 04'N, 总面积约7 900 km2, 属亚热带季风气候, 年降雨量1 500~2 100 mm, 年均温度14~20 ℃, 年均日照时数1 600 h以上, 最高海拔大于1 500 m。 试验区位于武夷山脉与戴云山脉之间, 境内山脉纵横, 丘陵起伏, 为林业生产提供了有利条件, 是全国南方林区综合改革试验区及省重点林区。 4县(区、 市)森林覆盖率均在75%以上, 其中将乐县更是超过85%, 位居全省之最。 马尾松是区域内主要的针叶树种之一, 由于山体众多、 地形复杂, 温度、 降雨、 湿度、 日照等气候要素适于马尾松毛虫的生长、 发育, 因此有史以来, 马尾松毛虫便是该区域的主要森林害虫, 并呈周期性爆发特征, 不仅造成重大经济损失, 还严重威胁森林健康与生态安全。

图1 (a)试验区位置示意图; (b)遥感影像(RGB: 543)及测点分布Fig.1 (a) Location of experimental areas; (b) Remote sensing image (RGB: 543) of experimental areas and measuring points distribution

2 研究方法
2.1 野外调查

2012年2月— 3月, 于试验区内调查了马尾松林样地的林分、 地形等因子。 采样原则为: 每县(区、 市)选择12个调查小班, 每个小班设定4个固定监测点, 测定并记录每个监测点的林分、 地形等要素值。 采用美国LI-COR公司生产的LAI-2000, 设置“ ↑ ↓ ↓ ↓ ↓ ” , 即测量1个植物林冠上面数据, 再在林冠下面测量4个数据, 测得每个监测点的LAI值, 同时记录相应的SEL, 用两部麦哲伦手持GPS同时定位, 当两部GPS定位结果基本一致时记录之。 采用其中182个测点样本, 其分布如图1(a)和(b)所示。

由于实地调查时正处马尾松毛虫越冬期, 难以通过失叶量判定虫害发生等级, 故依据树干虫口密度及上年虫害情况进行估测。 虫口密度与虫害等级的对应关系是: 0~4条/株为无危害(或基本无危害)、 5~13条/株为轻度危害、 14~30条/株为中度危害、 31条/株以上则为重度危害。 该季相下松木新叶更新缓慢, 故调查获取的数据可以反映上一年度的松林受害情况。 若上年的虫害发生等级与今年预测情况基本一致, 则判定为该虫害等级, 将两年份间虫害等级不变作为试验数据选择的标准。

2.2 遥感影像获取与预处理

结合马尾松毛虫的生活史, 在2011年10月底— 2012年3月初时间段内选择能较全地覆盖试验区且云量较少的1景Landsat 7 ETM+遥感影像, 卫星过境时间为2011年12月20日, 轨道号为120/042。 依次对该景影像的多光谱数据进行辐射定标、 FLAASH大气校正、 条带去除、 几何校正、 裁剪等处理, 得到预处理后的影像图。 影像投影类型为Transverse Mercator, 椭球体为Krasovsky, 空间分辨率为30 m(图1)。 因卫星过境与野外调查均处于试验区马尾松毛虫越冬代, 松林变化小, 故该景影像可反映2011年的虫害情况, “ 地— 天” 数据具有良好的同步性。

2.3 马尾松毛虫危害下的寄主表征与特征指标获取

受松毛虫危害的马尾松林与健康松林有明显差异, 基于长期实践积累, 林业工作者对该虫害下的松林变化已作了较充分的总结和归纳。 马尾松毛虫取食松针, 严重时松针被蚕食精光, 远看枯黄、 焦黑, 似火烧。 显然, 受害后的松林叶量、 绿量等均要减少; 马尾松毛害被称为“ 不冒烟的森林火灾” , 受严重危害的松木, 其松针被大量取食, 造成水分大量丧失, 松木枯死; 同时, 松林林相亦发生变化[12]; 林相的变化, 也表征着松林生态系统的退化。 叶量、 绿量、 水分、 林相及其他相关特征的变化亦反映叶片组织、 林木个体、 林分冠层等多个尺度光谱特征的不同。 据松林受害特征、 前人总结及前期研究成果, 拟从叶面积、 齐整度、 绿度、 水分及特征波长等分量入手, 选择可反映上述特征的指标, 并利用地面实测、 遥感提取等方法获取所涉及的特征指标。

(1)叶面积分量: 叶面积指数(leaf area index, LAI)是衡量植物叶面积的一个主要指标, 可直接反映植物冠层中的能量、 CO2及物质环境状况, 也可反映植物生长发育的特征动态与健康状态[13, 14], 故而, LAI是开展虫害调查尤其是食叶性害虫危害预测工作中必须考虑的重要指标。 LAI由地面实测获得。

(2)齐整度分量: 叶面积指数的标准误(standard deviation of LAI, SEL)也是LAI-2000叶面积指数仪获取的一个指标, 是仪器在冠层下几个不同方向测值的离散程度。 SEL越大, 表示测值间的差异越大, 冠层不同方向的疏密程度越不均匀; SEL越小, 则表示测值间的差异较小, 测点林相较为均匀; 亦即SEL越大, 表示LAI越离散, 林相越不齐整, 反之亦然。 因此, 可以用该指标反映松林的齐整度。 SEL亦由地面实测获得。

(3)绿度分量: 绿度表征植被中绿的含量, 衡量绿度的指标很多, 如归一化差值植被指数(NDVI)、 转换型归一化差值植被指数(TNDVI)、 修正的叶绿素调节植被指数(MCARI)、 缨帽变换的绿度分量等; 其中, NDVI是应用最为广泛的一个绿度指标, 该指数对绿色植被生长状态、 变化十分敏感。 其计算公式为

NDVI=(NIR-R)/(NIR+R)(1)

式(1)中: NIR为近红外波段的反射率; R为红光波段的反射率。

以预处理后的多光谱遥感影像为数据源, 依据NDVI的计算式, 获取试验区NDVI专题图。

(4)水分分量: 马尾松毛虫害被称为“ 不冒烟的森林火灾” , 受严重危害的松木, 其松针被大量取食, 造成松木枯死; 因此, 叶水分也是构建马尾松毛虫害遥感特征指数应当考虑的一个分量。 当前, 国内外不乏植被水分遥感监测的研究成果, 其方法基本上可以分为以下几种: (1) 从热红外数据提取出蒸散信息, 反映冠层水分胁迫的变化; (2) 对多时相植被指数(如NDVI)序列进行分析, 建立植被指数与含水量的相关模型; (3) 用冠层与空气的温差来估算植被水分; (4) 构建可反映水分、 湿度信息的遥感指数(如GVMI); (5) 采用缨帽变换(Tasseled cap transformation, TC)中的湿度轴来代表。 本文选择缨帽变换的湿度轴代表松针水分分量。 Landsat 7 ETM+多光谱数据湿度轴的计算公式为

WET=0.2626B1+0.2141B2+0.0926B3+0.0656B4-0.7629B5-0.5388B7(2)

式(2)中: WET为缨帽变换的湿度轴; B1为遥感影像第一波段的反射率, 其余类推。

利用ERDAS软件中的缨帽变换功能, 获得湿度轴信息。

(6)特征波长分量: 在虫害光谱检测领域, 红边参数是应用较为广泛的特征参数。 所谓“ 红边” (red edge), 是指绿色植物在680~780 nm的波长范围, 是植被光谱分析的重要特征[15, 16]。 利用相关分析法, 并考虑ETM+多光谱遥感影像波段与红边的对应性, 选择绿光波段B2、 红光波段B3及近红外波段B4为特征波长。 从影像中分别提取特征波段B2, B3B4

利用归一化法, 去除不同特征指标尺度与量纲影响, 值均介于0~1范围内(图2)。 基于测点坐标, 分别读取该测点所对应的遥感特征指标值, 并将其与地面特征指标值、 虫害等级等联立汇总。

图2 马尾松毛虫害特征指标Fig.2 Characteristic indies of Dendrolimus punctatus Walker damage

2.4 马尾松毛虫害检测算法

2.4.1 变量设定

将叶面积指数LAI、 叶面积指数标准误SEL、 归一化差值植被指数NDVI、 缨帽变换湿度轴WET及影像特征波段B2, B3B4等7个特征指标确定为自变量, 马尾松毛虫害等级(含无危害、 轻度危害、 中度危害、 重度危害4个等级)为因变量。

2.4.2 Fisher判别分析

Fisher判别分析的基本思想是将km维样本数据投影到某一个方向, 使投影后各组之间尽可能地分开, 依据组内方差尽量小、 组间方差尽量大的一元方差分析原则确定判别函数, 基于一定的判别准则, 确定新样本的归属。 其判别函数为

y(X)=C˙T1X(3)

式(3)中: C˙1为最大特征值对应的特征向量; X为样本自变量矩阵。

判别函数建立后, 通过判别准则实现检验对象的归类, 有临界值法、 Mahalanobis距离(马氏距离)法、 新马氏距离法等方法, 其中, 马氏距离的应用最为广泛。 设任一个要判别归属的样本为 X˙, 其与总体Gt的马氏距离为式(4)所示

dt2=dt2(X˙, Gt)=[C˙T1X˙-C˙T1X˙(t)]T×C˙T1W(t)nt-1C˙T1-1[C˙1TX˙-C˙T1X˙(t)] (t=1, 2, , k)(4)

若满足判别规则 dt2=min{dj2}, 1jk, 即样本 X˙与Gt的距离 dt2最小时, 判定样本 X˙Gt

2.4.3 随机森林法

随机森林法(random forest, RF)又可称为随机森林分类器, 其主要思想是: 通过自助法抽样从原始训练集中抽取k个样本, 且每个样本容量均与原始训练集的大小一致; 对每个样本分别进行决策树建模, 得到k个建模结果, 组成“ 随机森林” ; 最后利用所有决策树建模结果, 通过投票表决决定其最终分类结果。

2.4.4 分组设计与算法评价

将182个样本按70%与30%的比例随机划分为训练集(样本数127)、 验证集(样本数55), 并作5次重复, 得到5组不同的样本组, 分别予以Fisher判别分析与RF模型计算, 依次编为试验1~5。 根据5次Fisher判别分析过程中单因素方差分析结果及5次RF分类因子重要性排序, 进一步筛选自变量, 并分别执行两种检测算法, 编为试验6。 本文从多个角度分析、 比较两种算法的检测效果。

(1)检测精度: 检测正确的样本数占总样本数的百分比, 分别计算两种算法训练集、 验证集的检测精度。

(2)Kappa系数: 一致性检验指标, 通过把所有真实分类中的样本总数乘以混淆矩阵对角线的和, 再减去某一类地表真实样本总数与被误分成该类样本总数之积对所有类别求和的结果, 再除以总样本数的平方减去某一类中地表真实样本总数与该类中被误分成该类样本总数之积对所有类别求和的结果而得。

(3)ROC曲线: 即受试者工作特征曲线(receiver operating characteristic curve), 根据一系列不同的二分类方式, 以真阳性率(灵敏度)为纵坐标, 假阳性率(1-特异度)为横坐标绘制的曲线, 适用范围广。 通过计算ROC曲线下面积AUC的大小, 分析检测效果。 AUC值介于0.5~1之间, 其值越接近于1, 表明检测效果越好: 0.5~0.7时, 有较低准确性; 0.7~0.9时, 有一定准确性; 0.9以上时, 有较高准确性。

(4)配对t检验: 对训练集、 验证集样本进行汇总, 分别计算无危害、 轻度危害、 中度危害、 重度危害4个等级的检测精度、 Kappa系数、 AUC, 对两种算法结果予以配对t检验, 并计算全等级样本检测精度、 Kappa系数的tP值, 分析差异的显著性水平。

3 结果与讨论
3.1 基于Fisher判别分析的马尾松毛虫害检测

将无危害、 轻度危害、 中度危害、 重度危害4个虫害等级依次编码为1, 2, 3和4, 在SPSS中导入试验1~5的训练集样本, 运行Fisher判别分析。 单因素方差分析结果显示(表1), 5次试验中, 除SEL指标P< 0.05的次数为2次外, 其余指标的次数均为5次, 故将SEL去除后, 执行试验6。 虫害等级数为4, 由此建立了3个典型判别函数, 并计算特征值、 方差百分比等指标(表2)。 判别函数方差百分比用于衡量判别函数解释量, 典型判别函数1方差百分比均在84%

表1 Fisher判别分析中特征指标单因素方差分析 Table 1 One-way ANOVA of characteristic indices in Fisher discriminant analysis

以上, 说明其可解释样本84%以上的信息; 判别函数2的方差百分比多在10%左右, 联合1、 2判别函数可解释94%以上的信息; 当联合运用3个判别函数时, 所有样本均可得以解释。

图3为各典型判别函数各组(即4个虫害等级)的质心值。 以试验1为例, 组1(即无危害)判别函数1的质心值为-1.773, 组2(即轻度危害)为-0.305, 组3(即中度危害)为0.869, 组4(即重度危害)则为2.683; 通过比较样本函数值与组质心值的距离可判定其归属, 离某组质心越近, 则将该样本判定为该类别。 3个判别函数将样本判定为某个类别的概率不同, 通过概率比较, 最终确定样本归属。 显然, 判别函数1的判别效果至关重要, 6个试验判别函数1的组质心值均呈现随着虫害等级上升, 组质心值增大的特征, 预示其良好的虫害判别能力; 虽然同等级样本聚集特征明显, 但仍存在误判的可能性。

图3 典型判别函数各组的质心值Fig.3 Group centroids of typical discriminant functions

图4 RF法中特征指标的重要性排序Fig.4 Importance sorting of characteristic indices in RF

表2 标准化典型判别式函数及特征值 Table 2 Standardized canonical discriminant functions and eigenvalues
3.2 基于RF法的马尾松毛虫害检测

利用R软件开展基于RF法的马尾松毛虫害检测。 对试验1~5样本指标进行重要性排序, 图4显示, 排序前3的指标均为遥感影像B2(绿光波段)、 B3(红光波段)及B4(近红外波段)3个原始波段, 表明影像信息具备虫害检测的潜力; LAI与WET的重要性次之; 而SEL与NDVI的重要性则最低。 在5次试验中, SEL有1次排序最末, 而NDVI的次数达到4次, 将NDVI去除后执行试验6。 RF法采用随机思想, 建立的模型即为一棵棵“ 树” , 由此组成“ 森林” , 可定义为一种“ 灰箱” 模型[17], 其检测模型是抽象的, 但模型检测精度则是明确的。

3.3 虫害检测效果分析与对比

3.3.1 检测精度与Kappa系数

分别统计试验1~6训练集、 验证集在两种算法下的虫害等级检测精度与Kappa系数(表3)。 对比试验1~5的检测精度, 可知Fisher判别分析的训练集检测精度均在73%以上, 5次试验平均为74.4%, 验证集精度在69%以上, 5次平均为74.5%, 与训练集接近; 除试验3外, RF法检测精度均高于Fisher判别分析, 训练集检测精度均在74%以上, 5次试验平均为78.0%, 验证集则均高于78%, 平均达81.8%。 筛除指标后, Fisher判别分析的虫害检测精度迅速下降至70%以下, 而RF法验证集的检测精度有所下降, 训练集的精度反而上升, 总体上仍保持较好的检测效果。 Kappa系数亦表现与检测精度类似的特征, 除试验3外, RF法的Kappa系数均高于Fisher判别分析; 指标筛除后, Fisher判别分析训练集Kappa系数由平均0.646 1下降至0.578 6, 而验证集则由0.649 3迅速下降至0.476 7; RF法验证集亦由平均0.749 1下降至0.652 2, 但训练集则由0.712 8上升至0.761 5。 检测精度与Kappa系数对比可知, RF法对马尾松毛虫害的检测效果优于Fisher判别分析。

3.3.2 ROC曲线

合并训练集与验证集, 绘制4个虫害等级、 两种算法、 6次试验的ROC曲线, 并统计其曲线下面积AUC。 从图5中可看出, (1)对于无危害等级, RF法6次试验的AUC均大于Fisher判别分析, 两种算法对该等级均有一定的检测能力, RF法AUC值普遍高于0.9, 表明该法对无危害等级检测准确率较高; (2)对于轻度危害等级, 除Fisher3外(指Fisher判别分析的试验3, 其余类推), RF法的AUC值均高于Fisher判别分析, 除Fisher6检测效果较差外, 其余试验均证实两种算法对该虫害等级的检测能力; (3)两种算法对中度危害等级的检测均具备一定准确性, 除Fisher1高于RF3外, RF法的AUC值均高于Fisher判别分析; (4)不同于其他三种虫害等级, 除RF2的AUC值高于Fisher3外, Fisher判别分析对重度危害等级的检测效果普遍优于RF法, 两种算法对该虫害等级的检测结果均具有一定准确性; (5)对比各等级的AUC值, 可得排序: 无危害> 重度危害> 中度危害> 轻度危害, 亦即两种算法对不同虫害等级的检测效果存在差异。

表3 两种算法的虫害检测精度与Kappa系数 Table 3 Pest detection precision and Kappa coefficient of two algorithms

图5 ROC曲线与AUC值Fig.5 ROC curves and AUC values

3.3.3 配对t检验

ROC曲线分析结果表明, 对于不同虫害等级, 两种算法的检测效果各有差异, RF法对无危害、 轻度危害及中度危害3个等级的检测效果优于Fisher判别分析, 而后者则在重度危害等级上优于前者。 为此, 在利用t检验分析两种算法检测精度、 Kappa系数、 AUC差异的显著性水平时, 将数据划分为4个虫害等级及全等级(所有样本), 并统计6次试验各指标的均值。 表4显示, RF法的检测精度、 Kappa系数、 AUC总体优于Fisher判别分析, 但对于重度危害等级, Fisher判别分析的效果则优于RF法。 各等级检测精度、 AUC均有显著差异(p< 0.05), 重度危害的Fisher判别分析Kappa系数虽高于RF法, 但无显著差异(p> 0.05)。 Fisher判别分析不需要进行模型和参数选择, 借助方差分析构造线性判别函数, 但对于线性不可分问题, 其分类效果则受限; 而RF法则便于计算变量的非线性作用, 缺点在于倾向于观测值较多的类别。 马尾松毛虫危害机制复杂, 各特征指标与虫害的关系可能是非线性的, 且本文各等级的样本数有所差异, 故总体而言RF法更优, 而对于单个危害等级来说, Fisher判别分析效果则可能更好。

表4 两种算法检测指标配对t检验 Table 4 Paired t-test of detection indices in two algorithms
4 结 论

(1)单因素方差分析与重要性排序表明, LAI, SEL, NDVI, WET, B2, B3, B4等七个特征指标具有马尾松毛虫害的响应能力, SEL和NDVI相对较弱, 实现该虫害遥感快速、 准确检测有理论可行性。

(2)6次试验结果表明, Fisher判别分析与RF法均具该虫害的检测能力, RF法对马尾松毛虫害的检测精度、 Kappa系数与AUC普遍大于Fisher判别分析, 总体而言, RF法的检测效果占优。

(3)分等级看, RF法对无危害、 轻度危害、 中度危害的检测精度、 Kappa系数、 AUC显著高于Fisher判别分析(p< 0.05), 但后者对重度危害的检测效果则优于前者。

(4)随机森林是一种高度灵活的机器学习算法, 具备“ 灰箱” 特征, 本研究既证实了其在病虫害领域的应用潜力, 亦将其拓展至多等级对象的检测中; 而Fisher判别分析的稳健性亦强, 并具模型清晰、 易于推广的优势, 故建议在相近问题上可联合应用此二种算法, 以进一步开展虫害区域性遥感监测及空间分布特征等相关研究。

The authors have declared that no competing interests exist.

参考文献
[1] CUI Heng-jian, WU Hong-gan, QIAO Yan-you, et al(崔恒建, 武红敢, 乔彦友, ). Journal of Biomathematics(生物数学学报), 1997, 12(S1): 611. [本文引用:1]
[2] XU Zhang-hua, YU Kun-yong, LIU Jian, et al(许章华, 余坤勇, 刘健, ). Acta Agriculturae Universitatis Jiangxiensis·Natural Sciences Edition(江西农业大学学报), 2012, 34(5): 933. [本文引用:1]
[3] XIANG Chang-sheng, ZHOU Zi-ying(向昌盛, 周子英). Acta Entomologica Sinica(昆虫学报), 2010, 53(9): 1055. [本文引用:1]
[4] Peixoto M D S, Barros L C D, Bassanezi R C. Applied Mathematics, 2014, 5(5): 1133. [本文引用:1]
[5] Bisht K S, Chaudhary S. Signal Image & Video Processing, 2016, 10(3): 551. [本文引用:1]
[6] BAI Ji-heng, XU Gang, ZHOU Ting-ting, et al(白基恒, 徐刚, 周婷婷, ). Journal of Natural Disasters(自然灾害学报), 2016, 25(2): 26. [本文引用:1]
[7] Park Y S, Chung Y J. Forest Ecology & Management, 2006, 222(1-3): 222. [本文引用:1]
[8] XU Zhang-hua, LI Cong-hui, LIU Jian, et al(许章华, 李聪慧, 刘健, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2014, 45(6): 275. [本文引用:1]
[9] Breiman L. Machine Learning, 2001, 45: 5. [本文引用:1]
[10] LI Ting, TIAN Yuan, WU Lun, et al(李亭, 田原, 邬伦, ). Geography and Geo-Information Science(地理与地理信息科学), 2014, 30(6): 25. [本文引用:1]
[11] PENG Ling, XU Su-ning, PENG Jun-huan(彭令, 徐素宁, 彭军还). Journal of Jilin University·Earth Science Edition(吉林大学学报·地球科学版), 2016, 46(1): 175. [本文引用:1]
[12] XU Guang-yu, XU Wen, FANG Si-ai, et al(徐光余, 徐文, 方思爱, ). Journal of Hebei Agricultural Sciences(河北农业科学), 2008, 12(10): 31. [本文引用:1]
[13] Martinez B, Camacho F, Verger A, et al. International Journal of Applied Earth Observation and Geoinformation, 2013, (21): 463. [本文引用:1]
[14] Wong M S, Sarker M L R, Nichol J, et al. International Journal of Applied Earth Observation and Geoinformation, 2013, (21): 66. [本文引用:1]
[15] Pu R L, Gong P, Biging G S, et al. IEEE Transactions on Geoscience and Remote Sensing, 2003, 41(4): 916. [本文引用:1]
[16] Cho M A, Debba P, Mutanga O, et al. International Journal of Applied Earth Observation and Geoinformation, 2012, (16): 85. [本文引用:1]
[17] Prasad A M, Iverson L R, Liaw A. Ecosystems, 2006, 9(2): 181. [本文引用:1]