基于光谱特征变量的高寒草甸主要毒草分类方法研究
董瑞, 唐庄生, 花蕊, 蔡新成, 包达尔罕, 楚彬, 郝媛媛, 花立民*
甘肃农业大学草业学院, 草业生态系统教育部重点实验室, 国家林业草原高寒草地鼠害防控工程技术研究中心, 甘肃 兰州 730070
*通讯作者 e-mail: hualm@gsau.edu.cn

作者简介: 董 瑞, 1995年生, 甘肃农业大学草业学院硕士研究生 e-mail: dongrui_gsau@163.com

摘要

高寒草甸毒草化是青藏高原草地生态系统面临的主要问题之一。 高寒草甸毒草分类技术对草地群落的变化具有及时监测和科学防控的重要意义。 近年来, 毒草种类及危害面积急剧增加, 传统人工实地调查耗时费力、 调查结果代表性差。 同时毒草在地域分布上具有一定的差异性, 依靠人力难以实现大面积调查。 高光谱遥感技术凭借分辨率高、 波段多、 图谱合一等特点, 在毒草精细分类中表现出巨大的优势, 可满足快速、 准确、 大尺度获取毒草发生面积的需求。 已有学者对草地植物的光谱反射特征开展了研究, 证明采用植物光谱反射特征可有效区分其种类。 但是, 目前尚缺乏针对草地有毒植物光谱特征变量的筛选及构建基于毒草光谱特征的预测分类模型。 本研究利用SOC710VP近红外高光谱成像仪, 在甘肃省天祝县和玛曲县境内高寒草甸上采集黄花棘豆( Oxytropis ochrocephala)、 宽苞棘豆( O latibracteata)、 多枝黄芪( Astragalus polycladus)、 长毛风毛菊( Saussurea hieracioides)、 黄帚橐吾( Ligularia virgaurea)、 乳白香青( Anaphalis lactea)、 葵花大蓟( Cirsium souliei)、 瑞香狼毒( Stellera chamaejasme)、 密花香薷( Elsholtzia densa)、 露蕊乌头( Aconitum gymnandrum)、 碎米蕨叶马先蒿( Pedicularis cheilanrthifolia)11种主要毒草野外光谱数据, 采用Savitzky-Golay卷积平滑算法(SG)对原始光谱值进行去噪, 使用一阶微分导数(FD)开展光谱特征分析, 利用典型判别分析(CDA)对选用的16种光谱特征变量标准化得分系数绝对值进行排序, 然后从大到小分别添加到随机森林(RF)、 支持向量机-径向核函数(SVM-RBF)、 k最邻近分类(KNN)、 朴素贝叶斯(NB)、 决策树(CART)5种算法中构建分类模型并筛选最佳特征变量, 使用混淆矩阵评价分类效果。 结果表明: (1)16个光谱特征变量典型判别分析(CDA)总体分类精度为92.34%, R2=0.89; (2)筛选出最佳分类光谱特征变量为绿峰幅值(Mg)、 蓝边面积(Ab)、 红边幅值(Mre)、 红边面积(Are)、 红边位置(Lre)、 NDVI2、 RVI1; (3)将筛选出的7个光谱特征变量用于毒草分类, 结果支持向量机-径向核函数(SVM-RBF)分类效果最好, 精度达96.45%。

关键词: 高寒草甸; 毒草; 光谱特征; 典型判别; 分类
中图分类号:O433.4 文献标志码:A
Research on Classification Method of Main Poisonous Plants in Alpine Meadow Based on Spectral Characteristic Variables
DONG Rui, TANG Zhuang-sheng, HUA Rui, CAI Xin-cheng, BAO Dar-han, CHU Bin, HAO Yuan-yuan, HUA Li-min*
Grassland College of Gansu Agricultural University, Key Laboratory of Grassland Ecosystem Ministry of Education, Engineering and Technology Research Center for Alpine Rodent Pest Control, National Forestry and Grassland Administration, Lanzhou 730070, China
*Corresponding author
Abstract

The extension of poisonous plants in alpine meadows is one of the main problems of the grassland ecosystem in the Qinghai-Tibet Plateau. The classification technology of poisonous plants in alpine meadows is of great significance for timely monitoring, scientific preventing and controlling changes in grassland communities. In recent years, poisonous plants species and harmful areas have increased rapidly. Traditional manual field surveys were time-consuming and laborious, and poorly represented the survey results. At the same time, poisonous plants have certain differences in geographical distribution, so it is not easy to conduct large-scale investigations by the workforce. Hyperspectral remote sensing technology has great advantages in the fine classification of poisonous plants due to its high resolution, multiple bands, integration of maps, and so on, which can meet the needs of fast, accurate, and large-scale acquisition of poisonous plants. Some scholars have carried out studies on the spectral reflectance characteristics of grassland plants, which proved that the spectral reflectance characteristics of plants could effectively distinguish their species. On the contrary, there are few reports on the selection of spectral reflectance characteristics variables of poisonous plants and the construction of a predictive classification model based on the spectral characteristics of poisonous plants. In this study, 11 kinds of main poisonous plants field spectrum data on alpine meadows, including Oxytropis ochrocephala, O latibracteata, Astragalus polycladus, Saussurea hieracioides, Ligularia virgaurea, Anaphalis lactea, Cirsium souliei, Stellera chamaejasme, Elsholtzia Densa, Aconitum gymnandrum, and Pedicularis cheilanrthifolia (in Tianzhu County and Maqu County, Gansu Province) were collect by using the SOC710VP near-infrared hyperspectral imager. The Savitzky-Golay convolution smoothing algorithm (SG) was applied to denoise the original spectral values, the first-order differential derivative (FD) was used to carry out spectral feature analysis, and the canonical discriminant analysis (CDA) was performed to sort the absolute values of the standardized score coefficients of 16 selected spectral feature variables. Then from the size of large to small, they were added to 5 algorithms, namely random forest (RF), support vector machine-radial kernel function (SVM-RBF), k-nearest neighbor classification (KNN), naive bayes (NB), and decision tree (CART) to construct classification models and screen the best feature variables, and the confusion matrix was used to evaluate the classification effects. The results showed that: (1) The overall classification accuracy of canonical discriminant analysis (CDA) for 16 spectral characteristic variables was 92.34%, R2=0.89; (2) The best classification spectral characteristic variables were selected as green peak amplitude (Mg), blue edge area (Ab), red edge amplitude (Mre), red edge area (Are), red edge position (Lre), NDVI2, and RVI1; (3) The selected 7 spectral characteristic variables were used to classify poisonous plants, and then the SVM-RBF has the best classification effects, with an accuracy of 96.45%.

Keyword: Alpine meadow; Poisonous plants; Spectral characteristics; Canonical discrimination; Classification
引言

草地是陆地生态系统重要组成部分, 在调节气候变化、 维持生态系统平衡中具有重要作用[1]。 近年来, 在气候变化和人类活动等多重因素影响下, 草地出现了沙化、 盐渍化和毒草化等退化情况, 其中毒草型退化草地面积约占我国天然草地总面积的11.3%[2]。 草地毒草型退化导致物种多样性减少、 生产力下降、 家畜中毒等问题日益突出, 草畜矛盾加剧[3]。 因此, 了解毒草种类及其分布面积对维系草地生态系统安全和保护畜牧业健康发展具有重要意义。

目前, 传统毒草种类调查常采用人工实地分类计数的方法。 虽然毒草识别精度高, 但是由于调查范围小、 速度慢、 代表性差等, 难以满足大面积毒草动态监测的需求[4]。 与传统调查相比, 遥感调查覆盖范围广、 周期短, 为实现毒草种类识别及分布面积调查提供了一种高效技术手段[5]。 遥感技术利用地物反射光谱信息, 可以快速、 准确、 大面积地获取高寒草甸植物信息, 实现从小面积监测到大面积调查的飞跃[6]。 有学者已通过获取多光谱影像对草地植物物种组成开展了研究, 如利用无人机对草地入侵植物进行检测[7]。 由于遥感平台的多光谱传感器波段范围窄、 分辨率低, 再加上草地背景的复杂性以及植被光谱反射的相似特征, 在空间遥感探测中容易出现“ 异物同谱” 现象, 降低了识别分类的精度与效率, 无法满足更高精度的植物种类识别。 而高光谱技术以高分辨率、 波段连续、 信息丰富等优点弥补了多光谱遥感技术的不足。 目前已在森林、 湿地和荒漠植物识别中得到了广泛应用。 如通过统计分析与分类算法相结合的方法, 利用植物光谱特征变量[8]、 光谱波段[9]实现植物识别与分类研究, 这些研究为解读植物光谱反射特征提供了非常有效的方法。

尽管高光谱数据具有波段多、 信息量丰富等特点, 但是如何选择用于定量分析的光谱特征变量, 如最佳波段、 植被指数以及光谱吸收特征参数等, 是限制高光谱数据用于植物物种识别的主要障碍之一。 目前关于高寒草甸毒草光谱特征研究较少, 尤其是如何筛选出有利于毒草分类的最佳特征变量研究更少。 本研究以高寒草甸主要毒草为研究对象, 利用原始光谱值和一阶微分导数法, 选择了位置参数、 面积参数和植被指数作为光谱特征变量, 采用典型判别分析得到各典型变量累计贡献率, 依据标准化得分系数绝对值对16个特征变量排序, 最后应用随机森林、 支持向量机-径向核函数等5种模型筛选出高寒草甸主要毒草识别的最佳特征变量, 解决高光谱数据在分类时有效信息的提取问题, 提高分类速度和精度。 研究结果以期为高寒草甸毒草分布及发生面积提供科学监测依据。

1 实验部分
1.1 研究区概况

基于主要毒草分布区域特征, 本研究选择甘肃省天祝藏族自治县和甘南藏族自治州玛曲县为研究区。 天祝藏族自治县(102° 07'-103° 46'E, 36° 31'-37° 55'N), 海拔2 878~3 425 m, 年均温-0.1 ℃, 降水量416 mm。 植被类型为高寒草甸, 以莎草科(Cyperus)、 禾本科(Gramineae)植物为优势种, 伴生种以阔叶类杂草与毒草为主, 主要毒草有黄花棘豆、 露蕊乌头、 瑞香狼毒、 碎米蕨叶马先蒿等。 玛曲县(104° 45'-102° 29'E, 33° 06'-34° 30'N), 海拔3 434 m, 年均温1.2 ℃, 无霜期20 d, 年均日照时数2 631.9 h。 以莎草科、 禾本科植物为优势种, 伴生种以阔叶类杂草与毒草为主, 主要毒草有黄帚橐吾、 长毛风毛菊、 宽苞棘豆等。

1.2 毒草选择和野外光谱数据采集

研究区毒草选择依据是征求当地草原站技术人员意见, 选择分布面积较广、 毒害作用较强的主要毒草进行光谱数据采集(表1)。 毒草种类划定依据《中国西部天然草地毒害草的主要种类及分布》[10]。 获取光谱数据中长毛风毛菊和黄帚橐吾来源于玛曲县, 其余9种毒草数据采集于天祝县。

表1 11种有毒草及其特征 Table 1 11 poisonous plants and their characteristics

使用高光谱成像光谱仪SOC710VP(美国SOC公司)采集毒草光谱数据。 光谱范围400~1 000 nm, 分辨率4.68 nm, 采样间隔为1.4 nm, 波段数为128。 野外采集时间为2020年7月10日至12日的11:00-14:00(太阳高度角> 45° )。 采集时晴朗无云、 无风或者少风(风力< 4级)。 每隔20 min进行一次白板校正。 测量时镜头垂直向下, 距离植物冠层垂直高度为0.5 m。 为保证采集植物数据的准确性, 每种植物采集不少于20幅影像, 共获取11种毒草光谱数据。

1.3 高光谱反射率提取

使用SRAnal710软件进行反射率转换, 从270张影像中分别提取2个植物纯净像元作为原始光谱数据, 每种毒草获取50条光谱反射曲线, 同时剔除同种植物光谱曲线差异较大的曲线, 剩余的光谱数据求平均值作为该毒草的反射光谱值。

1.4 光谱数据预处理

1.4.1 光谱数据平滑

由于光谱数据采集在野外完成, 外界环境及仪器自身产生的噪声对原始光谱数据会造成影响, 采用式(1)对原始高光谱数据进行Savitzky-Golay卷积平滑降噪处理, 计算得到毒草的原始光谱数据。

ρ'i=i=-mmciρk+12m+1(1)

式(1)中, ρ 'i为光谱点光谱反射率平滑降噪拟合值; ρ i为光谱点处的原始反射率; ci为权重系数; 2m+1为滤波窗口的宽度; k为平滑多项式的次数。

1.4.2 光谱一阶微分导数处理

一阶微分导数可减弱土壤背景对植物光谱反射率的影响, 可部分消除太阳光照、 大气效应的干扰, 更有效地提取植物光谱信息。 一阶微分导数公式如式(2)[11]

R'λi=R(λ+1)-R(λi-1)Δλ(2)

式(2)中, Rλiλ i处的波段反射率, R 'λiλ i处的一阶导数, Δ λ 为波长间隔。

1.4.3 光谱特征变量选择

为探讨高寒草甸主要毒草的光谱响应特征变量, 依据已有研究常用的光谱特征变量[8], 选用了16个光谱特征变量, 其中位置变量10个, 面积变量2个, 植物植被指数变量4个, 各参数定义如表2所示。

表2 光谱特征变量的定义 Table 2 Definition of spectral characteristic variables
1.5 光谱特征变量排序

利用典型判别分析(canonical discriminant analysis, CDA)的标准化得分系数绝对值, 对16个光谱特征变量参与分类的重要程度进行排序。

1.6 模型建立与检验

1.6.1 光谱特征变量分类测试

对16个光谱特征变量进行典型判别分析选取前两个典型数据, 其累计百分比大于75%, 以标准化得分系数绝对值由大到小排序, 依次输入到分类算法进行最佳变量筛选。 以特征变量为自变量, 分类精度为因变量。 选择5种统计分类方法随机森林(random forest, RF)、 支持向量机-径向基核函数(support vector machine-radial basis function, SVM-RBF)、 k最邻近分类(k-nearest neighbor, KNN)、 朴素贝叶斯(Naive Bayesian, NB)和决策树(CART)进行分类效果对比研究。

1.6.2 精度评价方法

使用混淆矩阵对分类精度计算, 对角线上的元素值为正确分类数, 值越大表示分类结果的可靠性越高, 反之则分类错误的现象严重。 基于混淆矩阵构建中的总体精度定义如式(3)[12]

总体精度=i=110xiin(3)

式(3)中: n为总的预测数据个数; xiii类别正确分类物种个数。

2 结果与讨论
2.1 不同种类高寒草甸毒草平均光谱曲线特征分析

研究区11种高寒草甸毒草光谱曲线变化趋势相似, 波峰、 波谷出现的位置基本一致(图1)。 在可见光波段400~700 nm范围内, 由于不同绿色植物对光吸收强度不同, 反射值较小且表现不同高低。 其中, 在500~530 nm间乳白香青光谱反射值快速上升, 而其他10种毒草光谱反射曲线几乎一致且平稳变化, 分析认为乳白香青表面绒毛导致叶片吸收反射值快速增加。 在540 nm附近出现第一个波峰(绿峰), 在490和670 nm附近叶绿素吸收大部分能量, 出现两个吸收波谷。 在680~760 nm波段之间, 由于红光波段和近红外波段对于叶绿素强烈反射, 反射曲线快速上升。 在780~1 000 nm波段之间, 光谱反射值保持在较高水平, 整体呈下降趋势。

图1 11种不同高寒草甸毒草的平均光谱曲线Fig.1 Average spectral curves of 11 different alpine meadow poisonous plants

2.2 不同种类高寒草甸毒草反射光谱一阶导数特征分析

由图2可知, 11种高寒草地毒草平均一阶微分导数在“ 蓝边” 和“ 红边” 位置均出现波峰, 表现出“ 红边” 范围内各个植物反射光谱一阶导数值均比“ 蓝边” 范围内大, 且密花香薷远大于其他植物光谱反射值。 “ 红边” 范围内11种植物光谱反射值较为接近, 密花香薷在690 nm处达到最大值, 露蕊乌头和葵花大蓟在710 nm处出现峰重合。 在可见光“ 黄边” 与近红外波段780~950 nm波段间, 光谱反射值基本趋近于0。 在400~490 nm波段之间, 乳白香青出现第一个反射峰, 而其他植物反射值基本一致且平稳变化。

图2 11种不同高寒草甸毒草的平均一阶微分光谱曲线Fig.2 The average first-order differential spectrum curve of 11 different alpine meadow poisonous plants

2.3 光谱特征变量的相关性

由于光谱反射曲线之间差异较小, 导致各植物光谱反射特征不易区分。 通过对16个光谱特征变量进行相关性分析, 得到16个特征变量之间存在较强的相关性。 其中, 植被指数NDVI2与RVI2相关性达到了0.97, NDVI1与RVI1相关性为0.95, 位置参数与面积参数中Ab与Mb相关性为0.94。

图3 相关性矩阵
注: 图形分为两部分, 上三角为显著性检验, 下三角为相关系数, 图中星号代表显著性检验, 有* 表示差异性显著, 无* 表示差异性不显著, * p≤ 0.01
Fig.3 Kendall correlation matrix
Note: The graph is divided into two parts, the upper triangle is the significance test, the lower triangle is the correlation coefficient, the asterisk in the figure represents the significance test, * means the difference is significant, no * means the difference is not significant, * p≤ 0.01

因此, 需要采用特征变量对11种毒草分类的贡献性进行分析, 剔除多余或者影响分类的特征变量。

2.4 光谱特征变量典型判别分类

采用16个光谱特征变量建立典型判别分析(表3), 总分类精度达到92.34%, R2=0.89。 其中, 多枝黄芪、 瑞香狼毒和乳白香青识别精度达到了100%, 黄花棘豆识别精度最低为70%。 其中, 黄花棘豆中有13组数据误分到宽苞棘豆中, 原因为黄花棘豆与宽苞棘豆属于同属植物, 叶片形状结构及叶绿素含量差异性较小, 导致光谱反射差异较小。

表3 基于典型判别分析的分类精度矩阵 Table 3 Classification accuracy based on typical discriminant analysis
2.5 光谱特征变量排序

由图4(a, b)可以看出, 经过典型判别分析, 以累计贡献率大于75%, 选取了“ 典型1” 与“ 典型2” 两个典型变量, 从标准化得分系数图4(b)中按照绝对值大小进行排序。 得到16个光谱特征变量参在分类中的重要性为Mg> Ab> Mre> Are> Lre> NDVI2> RVI1> Lg> Mb> NDVI1> Lr> Mr> Ly> RVI2> Lb> My。 得分系数越大, 它与分类变量的关联越强, 然后依据光谱特征变量参与分类的重要性从大到小依次输入分类算法中构建模型及预测, 筛选出最佳分类光谱特征变量[13]

图4 16个光谱特征变量排序
(a): 典型变量累计百分比; (b): 标准化得分系数
Fig.4 Sorting of 16 spectral feature variables
(a): The cumulative percentage of typical variables; (b): The standardized score coefficient

2.6 基于机器学习分类方法的最佳特征变量筛选

图5显示了11种毒草在不同模型中的分类精度, 当添加的建模光谱特征变量增加时, SVM-RBF, CART, NB和KNN 4种模型分类精度整体呈现先上升后下降的趋势, 而采用RF模型时分类精度与特征变量个数呈线性增长关系, 在使用16个光谱特征后分类精度达到最大。 光谱特征变量添加到第7个时SVM-RBF, CART和NB算法分类精度达到最大值, 而后出现下降, 最大分类精度SVM-RBF> CART> NB, SVM-RBF算法分类精度96.45%; KNN算法在光谱特征变量添加到第8个时, 分类精度达到最大。 有研究表明, 利用红谷位置、 红边位置、 红谷幅值、 蓝边面积、 NDVI1、 RVI1、 RVI2光谱特征变量可识别分类4种荒漠植物[8], 所以本文提出使用绿峰幅值(Mg)、 蓝边面积(Ab)、 红边幅值(Mre)、 红边面积(Are)、 红边位置(Lre)、 NDVI2、 RVI1光谱特征变量对11种毒草分类时分类效果最好, 与前人的研究结果相符。

图5 16种光谱变量在5种算法中的分类精度Fig.5 Classification accuracy of 16 spectral variables in 5 algorithms

3 结论

通过对研究区11种毒草光谱数据变换处理及分析, 选取16个光谱特征变量, 利用典型判别分析筛选出最佳分类光谱特征变量, 最后分别使用随机森林、 支持向量机-径向核函数、 k最邻近分类、 朴素贝叶斯和决策树算法对筛选的最佳特征构建模型验证, 得到如下结论:

(1)采用典型判别分析对16个光谱特征变量分类, 得到总体精度达到92.34%, R2为0.89。

(2)依据“ 典型1” 与“ 典型2” 变量累计百分比大于75%, 对16种光谱特征变量标准化得分系数绝对值排序, 然后依次输入到5种分类模型中建模验证, 筛选出的绿峰幅值(Mg)、 蓝边面积(Ab)、 红边幅值(Mre)、 红边面积(Are)、 红边位置(Lre)、 NDVI2、 RVI1为高寒草甸主要毒草分类的光谱特征变量。

(3)以筛选出的7个光谱特征变量作为输入变量, 使用5种分类算法预测时, 支持向量机-径向核函数(SVM-RBF)为最优分类算法, 分类精度达到96.45%。 相比于典型判别分类, 支持向量机-径向核函数算法使用7个光谱特征变量分类精度能够达到最高。

参考文献
[1] Yao X X, Wu J P, Gong X Y, et al. Ecological Engineering, 2019, 130: 80. [本文引用:1]
[2] ZHAO Bao-yu, LIU Zhong-yan, WAN Xue-pan, et al(赵宝玉, 刘忠艳, 万学攀, ). Scientia Agriculture Sinica(中国农业科学), 2008, 41(10): 3094. [本文引用:1]
[3] HUANG Mei, SHANG Zhan-huan(黄梅, 尚占环). Acta Agrestia Sinica(草地学报), 2019, 27(5): 1107. [本文引用:1]
[4] ZHAO Shi-jiao, ZHAO Hong-yang, GAO Dan, et al(赵世姣, 赵红阳, 高丹, ). Acta Agrestia Sinica(草地学报), 2017, 25(6): 1389. [本文引用:1]
[5] ZHU Ning, WANG Hao, NING Xiao-gang, et al(朱宁, 王浩, 宁晓刚, ). Science of Surveying and Mapping(测绘科学), 2020, 46(5): 66. [本文引用:1]
[6] YU Lu, WANG Xun, CHAI Sha-tuo, et al(于璐, 王迅, 柴沙驼, ). Acta Agrestia Sinica(草地学报), 2020, 28(2): 547. [本文引用:1]
[7] Baron J, Hill D J. Remote Sensing of Environment, 2020, 249: 112008. [本文引用:1]
[8] HAN Wan-qiang, JIN Gui-li, YUE Yong-huan, et al(韩万强, 靳瑰丽, 岳永寰, ). Acta Agrestia Sinica(草地学报), 2020, 28(4): 1153. [本文引用:3]
[9] MA Wen-qiang, ZHANG Man, LI Yuan, et al(马文强, 张漫, 李源, ). Chinese Journal of Analytical Chemistry(分析化学), 2020, 48(12): 1737. [本文引用:1]
[10] WEI Ya-hui, ZHAO Bao-yu, WEI Shuo-nan, et al(尉亚辉, 赵宝玉, 魏朔南, ). Major Species and Distribution of Poisonous Plants in Natural Grassland s of Western China(中国西部天然草地毒害草主要种类及分布). Beijing: Science Press(北京: 科学出版社), 2018. 11. [本文引用:1]
[11] ZENG Shuai, KUANG Run-yuan, XIAO Yang, et al(曾帅, 况润元, 肖阳, ). Remote Sensing Information(遥感信息), 2017, 32(5): 75. [本文引用:1]
[12] YI Da, LI Yuan-qiao, YANG Yu(易达, 李院瞧, 杨宇). Software(软件), 2020, 41(7): 45. [本文引用:1]
[13] Shi X, Song J, Wang H, et al. European Journal of Remote Sensing, 2020, (4): 1. [本文引用:1]