基于近红外光谱技术的哀牢山六种优势树种叶凋落物定性鉴别研究
陈婉君1, 徐远杰2, 鲁志云3, 杞金华3, 王逸之1,*
1.西南林业大学生物多样性保护学院, 云南 昆明 650224
2.西南林业大学地理与生态旅游学院, 云南 昆明 650224
3.中国科学院哀牢山亚热带森林生态系统研究站, 云南 景东 676209
*通讯作者 e-mail: yzwang@swfu.edu.cn

作者简介: 陈婉君,女, 1999年生,西南林业大学生物多样性保护学院硕士研究生 e-mail: 2307972907@qq.com

摘要

植物凋落物是联结生物有机体合成和分解的桥梁, 通过物质流、 能量流及信息流深刻地影响了陆地生态系统的结构、 功能及关键生态过程。 自然生态系统中地表凋落物通常以混合物的形式分解, 尤其是在物种极其丰富的亚热带常绿阔叶林中。 受样地内树种组成影响, 叶凋落物往往属、 种混杂, 非专业人士难以实现准确鉴别, 这为后续凋落物分解研究带来一定的困难。 近红外光谱分析技术作为一种快速无损的检测手段, 已经成功应用于牛肝菌、 柑橘、 水稻等的种类鉴别。 该技术为解决叶凋落物鉴定这一难题提供了新的途径。 该研究收集云南哀牢山典型中山湿性常绿阔叶林6种优势树种叶凋落物共计540份, 获取样品近红外漫反射光谱, 分析不同种类叶凋落物平均光谱图特征。 建模时, 使用Kennard-Stone算法将540个样品数据以2∶1比例分为训练集与验证集, 其中360个样品数据用于叶凋落物分类模型的建立, 180个样品数据用于叶凋落物分类模型的验证。 使用标准正态变量变换(SNV)、 Savitzky-Golay卷积平滑(SG)、 多元散射校正(MSC)、 导数处理(Derivative)等单一与组合算法对光谱数据进行预处理, 并采用主成分分析(PCA)与正交偏最小二乘判别分析(OPLS-DA)2种模式识别方法对不同树种叶凋落物进行鉴别。 结果表明: (1) 叶凋落物近红外光谱主成分分析得分图中各组数据呈现交织状态, 虽然经SNV+SG方法预处理后, 光谱数据得到优化, 变色锥与舟柄茶与其他树种出现一定的区分, 但仍然无法实现6种叶凋落物的准确鉴别。 (2) SNV+SD预处理方法结合OPLS-DA建立的模式识别模型, 效果最好, 因变量累计拟合指数为0.922, 模型累计预测能力指数为0.894, 置换检验显示模型未过度拟合, 训练集与验证集识别率均为100%。 研究表明, 在对样本近红外光谱进行预处理优化的基础上, 结合有监督的OPLS-DA模式识别方法, 可以实现不同树种叶凋落物的准确鉴别, 为后续植物凋落物研究提供了有力的技术支撑。

关键词: 近红外光谱; 叶凋落物; 主成分分析; 正交偏最小二乘判别分析; 哀牢山
中图分类号:O657.3 文献标志码:A
Discriminating Leaf Litters of Six Dominant Tree Species in the Mts. Ailaoshan Based on Near-Infrared Spectroscopy
CHEN Wan-jun1, XU Yuan-jie2, LU Zhi-yun3, QI Jin-hua3, WANG Yi-zhi1,*
1. College of Biodiversity Conservation, Southwest Forestry University, Kunming 650224, China
2. College of Geography and Ecotourism, Southwest Forestry University, Kunming 650224, China
3. National Forest Ecosystem Research Station at Ailao Mountains, Chinese Academy of Sciences, Jingdong 676209, China
*Corresponding author
Abstract

As a bridge between the synthesis and decomposition of a biological organisms, plant litter impacts the structure, function and key ecological processes of terrestrial ecosystems through material, energy and information flow. Litters decompose as species mixtures in natural systems, especially in species-rich subtropical evergreen forests. It is difficult to accurately identify leaf litter for non-professionals due to complex tree species in the field. Besides, misidentifications cause many problems for thesubsequent litter decomposition research. As a fast and nondestructive analysis method, near-infrared spectroscopy has been successfully applied to identify boletus, citrus and rice. The technique mentioned above systems provided a new way to solve problems of leaf litter identification. In this study, 540 leaf litter samples of 6 dominant tree species of typical mid-mountain moist evergreen broad-leaved forests in the Mts. Ailaoshan were collected. The diffuse reflectance spectra were recorded on individual samples using an Antaris ⅡFT-NIR analyzer and the average spectral characteristics of different litter species were analyzed. During each modeling, 540 sample data were divided in to the training set and test set at a ratio of 2∶1 by using the Kennard-Stone algorithm. 360 sample data were used to develop discriminant models and 180 sample data were used to test the models. Single and combined spectral pretreatment methods (SNV, SG, MSC, and Derivative) were applied to improve the performance of discrimination models. Two qualitative pattern recognition methods (i. e., principal component analysis, PCA and orthogonal partial least-squares discrimination analysis, OPLS-DA) were conducted to identify the species of leaf litter. The results showed that: (1) the spectra data of different litter groups intertwined in the PCA score plot. Using SNV+SG as the pretreatment of spectra could improve the model parameter. PCA method cannot identify the leaf litter of six tree species, though Castanopsis wattii and Hartia sinensis can be separated from the rest litter species using the improved discriminant model. (2) SNV+SD pretreatment method combined with the OPLS-DA algorithm was used to develop discriminant models and showed excellent prediction ability (training set=100%; validation set=100%). Key statistical parameters of this model includingR2Ycum andQCum2 were 0.922 and 0.894, respectively. The permutation test indicated that the discriminant model was not overfitted. Our study indicated that NIR calibration models built with OPLS-DA algorithm have a good discriminative ability for different leaf litter species, and thus provide definite technological support for further plant litter research.

Keyword: Near-infrared spectroscopy; Leaf litters; Principal component analysis; Orthogonal partial least squares discriminant analysis; Mts. Ailaoshan
引言

植物凋落物(plant litter)处于生物环境与非生物环境的边界, 是联结生物有机体合成和分解的桥梁, 通过物质流、 能量流及信息流深刻影响了陆地生态系统的结构和功能及主要过程[1]。 近些年, 植物凋落物分解成为国际生态学研究的热点议题, 主要与其参与全球生态系统碳收支有关[2]。 在森林生态系统中, 植物凋落物的分解与养分释放动态受到凋落物物种与质量、 土壤生物、 环境气候条件的影响[3]。 在进行森林凋落物分解研究时, 首先要完成的工作就是凋落物收集与分类。 在传统森林凋落物收集整理过程中, 受样地内树种组成影响, 叶凋落物种类混杂, 非专业人士难以实现准确鉴别, 目前一般采用人工观察法进行叶凋落物分拣。 上述方法往往存在因经验不足导致的凋落物分类错误, 且耗时较长, 对后续分解试验的顺利推进产生了较大的影响[4]

与传统分析手段相比, 近红外光谱分析技术在定性与定量分析方面具有无损, 快速, 绿色环保等优势, 已经在林业行业多个领域中取得了成功的应用[5]。 本研究前期工作中使用便携式可见-近红外光谱仪器结合PLS-DA算法, 实现了多个竹种野外快速识别[6]; 利用可见-近红外定量分析技术, 建立了巴山木竹(Bashania fargesii)蛋白质含量与光谱数据的PLS与PCR校正模型, 结果表明模型预测能力较高, 可用于巴山木竹竹叶蛋白质含量的快速无损检测[7]。 Lang等使用傅里叶变换近红外光谱收集了419株乔木叶片光谱数据并结合LDA模型进行了定性判别研究, 结果表明大多数树种的识别率在70%~100%之间[8]。 Hadlich等通过收集树皮近红外光谱数据成功实现了11个亚马逊热带雨林树种的野外快速识别, 准确率为98%[9]。 上述研究结果表明, 近红外光谱定性分析技术可以应用于植物种类的定性鉴别工作, 而关于叶凋落物种类鉴别的应用研究尚未见报道, 如何提高鉴别模型准确率和适用性有待进一步探索。

以云南哀牢山典型中山湿性常绿阔叶林6种优势树种叶凋落物为研究对象, 运用NIRS技术结合多种模式识别方法, 建立和优化了6种叶凋落物的分类鉴别模型, 寻找出最优叶凋落物鉴别方法。 研究结果为实现叶凋落物野外快速鉴别, 促进森林生态系统凋落物分解研究提供了有力的技术支撑。

1 实验部分
1.1 材料

根据前期在哀牢山湿性常绿阔叶林中建立的监测样地调查结果, 选取重要值排名前6位的林冠层、 亚冠层优势树种叶凋落物研究对象, 分别为变色锥(Castanopsis wattii)、 木果柯(Lithocarpus xylocarpus)、 舟柄茶(Hartia sinensis)、 茶果樟(Cinnamomum chago)、 南洋木荷(Schima noronhae)、 多花含笑(Michelia floribunda), 于2021年1月架设凋落物收集器, 开始进行凋落物收集(收集期为1年)。 2022年1月, 将收集到的6种叶凋落物经中科院哀牢山亚热带森林生态系统研究站植物专家鉴定分类后, 每个树种选择90份样品, 装入自封袋带回实验室带备用。 在实验室将样品表面污渍去除后, 置于恒温烘箱60 ℃烘干至恒重, 然后使用研磨机粉碎并过80目筛保存备用。

1.2 仪器与设备

Antaris Ⅱ傅里叶变换近红外光谱仪, 美国Thermo Scientific公司; M20研磨机, 德国IKA公司; 电热恒温鼓风干燥箱, 上海跃进医疗机械有限公司; CP114电子天平, 奥豪斯仪器有限公司; 80目标准筛, 圣超仪器有限公司; The Unscrambler X 10.4数据分析软件, 挪威CAMO公司, SIMCA-P 14.1数据分析软件, 瑞典Umetrics公司。

1.3 光谱采集

在实验室内(温度22~25 ℃, 相对湿度25%~55%)进行光谱数据采集, 扫描样品前提前将近红外光谱仪预热2 h。 直接将过筛混匀后的样品粉末依次放置于样本杯中, 轻轻压实, 将样本杯置于旋转台上, 采集样品近红外漫反射光谱数据, 波谱范围10 000~4 000 cm-1, 采样点数为1 557点, 分辨率8 cm-1, 自动扫描次数为64次, 每个样品重复扫描3次, 取平均光谱进行后续计算建模。

1.4 数据处理

1.4.1 样品集划分

使用Kennard-Stone算法将共计540个样品数据以2∶1比例分为训练集与验证集, 其中360个样品数据(每个树种60个)用于叶凋落物分类模型的建立, 180个样品数据(每个树种30个)用于叶凋落物分类模型的验证。

1.4.2 数据分析

为了降低仪器和环境的干扰, 减少无效信息, 提高信噪比, 增强定性判别模型的稳健性, 在The Unscrambler X软件中使用标准正态变量变换(SNV)、 Savitzky-Golay卷积平滑(SG)、 多元散射校正(MSC)、 导数处理(Derivative)等单一与组合算法对收集整理好的叶凋落物光谱数据进行预处理。 在光谱预处理的基础上, 使用SIMCA-P软件内主成分分析(PCA)与正交偏最小二乘判别分析(OPLS-DA)算法分别建立定性模型, 基于关键参数寻找最佳分类模型, 以期实现不同叶凋落物种类的鉴别[10, 11]

2 结果与讨论
2.1 光谱分析

经基线校正的6种叶凋落物原始近红外光谱如图1所示。 6种叶凋落物近红外光谱存在一定的差异, 但光谱曲线变化规律与吸收峰形较为相似, 表明其性状成分大致相同。 在6 900~6 700, 5 200~5 000, 4 800~4 600和4 400~4 200 cm-1范围有较明显的峰。 波数在6 863 cm-1附近与木质素—CH3弯曲振动有关, 波数在5 177 cm-1附近与水—OH伸缩振动有关, 波数在4 747与4 324 cm-1附近分别与纤维素—OH伸缩振动以及半纤维素乙酰基C=O伸缩振动有关[12, 13]。 6种叶凋落物在各吸收峰出现的差别可能与其因树种不同而导致的叶片性状差异有关。

图1 6种叶凋落物的原始近红外光谱
CW: 变色椎; LX: 木果柯; HS: 舟柄茶; CC: 茶果樟; SN: 南洋木荷; MF: 多花含笑
Fig.1 Raw NIR spectra of leaf litters of six dominant tree species
CW: Castanopsis wattii; LX: Lithocarpus xylocarpus; HS: Hartia sinensis; CC: Cinnamomum chago; SN: Schima noronhae; MF: Michelia floribunda

近红外光谱因谱带宽较宽, 具有多重线性, 且易受环境变化, 仪器差异等影响, 在进行建模前使用适当的预处理方法可以有效去除冗余无效信息, 减少噪声干扰, 提高模型稳健性[14]。 在6种叶凋落物原始光谱中存在谱峰重叠, 噪声干扰, 基线漂移等缺陷, 在初步探索性分析过程中发现使用原始光谱建模无法实现准确鉴别。 因此采用单一与组合算法对收集整理好的叶凋落物光谱数据进行预处理, 以促进原始光谱中有效信息的提取, 有利于定性分类模型的建立。

2.2 叶凋落物的主成分分析

主成分分析(principal component analysis, PCA)方法是基于特征分解的降维建模方法, 为无监督的分类模式, 在建模时未预置每个样本分组, 仅根据数据特征进行分析。 对6种叶凋落物样品原始近红外光谱及单一与组合算法预处理后的近红外光谱进行主成分分析, 建立不同树种叶凋落物鉴别模型。 图2为使用原始光谱和SNV+SG预处理后的主成分分析得分图。 从图2(a)中可以看出, 使用6种叶凋落物原始光谱建模, 不同树种数据呈现一定的聚类趋势, 但置信椭圆呈现交织状态, 无法区分。 通过尝试不同光谱预处理方法, 最终发现经SNV+SG算法预处理后, 光谱数据得到优化, 变色锥与舟柄茶与其他树种出现一定的区分, 但仍然无法实现100%的准确鉴别[图2(b)]。 结果表明, 虽然通过光谱预处理方法可以一定程度上提高主成分分析模型定性鉴别能力, 但均无法实现6种叶凋落物的准确鉴别。

图2 6种叶凋落物的原始近红外光谱(a)及经SNV+SG预处理后(b)PCA得分图Fig.2 Principal component analysis score plot built from raw NIR spectra of leaf litters of six tree species (a) and from NIR spectra after SNV+SG preprocessing (b)

2.3 叶凋落物的正交偏最小二乘判别分析

正交偏最小二乘判别分析(orthogonal partial least-squares discrimination analysis, OPLS-DA)是一种有监督的定性建模方法。 使用偏最小二程回归建立叶凋落物近红外光谱特征与样本分类变量间的回归模型, 在进行数据分析降维时, 已经预设样本的分组关系, 滤除了与分类信息无关噪声的影响。 与无监督方法相比, 正交偏最小二乘判别分析可以更好地区分各组分的特征变量, 进一步量化各组分之间的差异程度, 确定样本关系, 提高模型鉴别能力和有效性[15]。 OPLS-DA模型参数主要包括因变量累计拟合指数(R2Ycum), 模型累计预测能力指数(QCum2), 校正均方差(RMSEC)、 内部交叉验证均方差(RMSECV)以及鉴别正确率等[16]

表1为使用OPLS-DA结合不同光谱预处理方法建立6种叶凋落物近红外光谱定性鉴别模型的主要参数。 由表1可知, 使用样本原始近红外光谱建模效果最差, 训练集与验证集识别率仅为70.14%与52.78%。 经过光谱预处理优化后, 模型识别正确率有较大提高, 其中SNV+SD方法预处理后的数据模型效果最好,R2Ycum为0.922,QCum2为0.894, 均高于其他模型, 且两者相差小于0.2, 训练集与验证集识别率均为100%。

表1 正交偏最小二乘判别分析模型主要参数 Table 1 The main parameters of the OPLS-DA models

图3(a)为SNV+SD方法预处理后的OPLS-DA模型验证集得分散点图, 6类叶凋落物光谱数据除了南洋木荷与多花含笑组内聚合不明显, 其他样本组内聚合与组间分离明显。 通过置换检验对该模型进行内部验证[图3(b)], R2Q2分别代表模型的解释能力和预测能力。 在置换检验中, 一般要求R2与Q2的回归线截距分别小于0.4和0.05[17]。 图中所有蓝色模拟值均低于绿色真实值并且Q2拟合回归线与Y轴的截距为-0.225, 说明模型未过度拟合。 研究结果表明, 采用光谱预处理结合OPLS-DA方法构建的定性模型, 可以实现6种叶凋落物叶片的分类鉴别。

图3 6种叶凋落物原始光谱经SNV+SD预处理后模型验证集得分散点图(a)与置换检验图(b)Fig.3 OPLS-DA model score plot (a) and permutation test plot (b) built from NIR spectra of validation set after SNV+SD preprocessing of leaf litters of six tree species

3 结论

探索了基于近红外光谱结合主成分分析与正交偏最小二乘分析算法建立6种叶凋落物种类鉴别模型的可行性。 研究发现在预处理算法优化的基础上, PCA方法不能实现不同树种叶凋落物的准确鉴别; OPLS-DA算法建立的模型效果较好, 当使用标准正态变量变换结合二阶导数法预处理过的叶凋落物光谱数据建模时, OPLS-DA模型R2Ycum为0.922,QCum2为0.894, 训练集和建模集分类识别率均为100%, 模型稳定性和预测能力较高。 与无监督模式识别方法相比, 有监督的模式识别OPLS-DA模型表现出更好的降维和分类效果, 可作为叶凋落物的快速分类鉴别方法, 也为后续森林叶凋落物分析研究提供数据。

参考文献
[1] Veen G F, Fry E L, Hooven F C, et al. Frontiers in Environmental Science, 2019, 7: 168. [本文引用:1]
[2] Tomczyk N J, Rosemond A D, Bumpers P M, et al. Ecosphere, 2020, 11: 2. [本文引用:1]
[3] Berg B, McClaugherty C A. Plant Litter: Decomposition, Humus Formation, Carbon Sequestration, Spring-Verlag Press, Berlin, 2020. [本文引用:1]
[4] Liu G, Wang L, Jiang L, et al. Journal of Ecology, 2018, 106(1): 218. [本文引用:1]
[5] Wang Y Z, Xiang J Y, Tang Y, et al. Applied Spectroscopy Reviews, 2021, 57(4): 300. [本文引用:1]
[6] Wang Y Z, Dong W Y, Kouba. Journal of Applied Spectroscopy, 2016, 83(5): 789. [本文引用:1]
[7] WANG Yi-zhi, DONG Wen-yuan(王逸之, 董文渊). Journal of Northwest Forestry University(西北林学院学报), 2017, 32(4): 69. [本文引用:1]
[8] Lang C, Costa F R, Camargo J L, et al. PLOS ONE, 2015, 10: e0134521. [本文引用:1]
[9] Hadlich H L, Durgante F M, Dos Santos J, et al. Forest Ecology and Management, 2018, 427: 296. [本文引用:1]
[10] Farhadi M, Tigabu M, Pietrzykowski M, et al. New Forests, 2017, 48: 629. [本文引用:1]
[11] Costa L R, Trugilho P F, Hein P R, et al. Biomass Bioenergy, 2018, 112: 85. [本文引用:1]
[12] Pang Y, Fan S, Wang Q, et al. Angewand te Chemie International Edition, 2020, 59(28): 11440. [本文引用:1]
[13] Davey M W, Saeys W, Hof E, et al. Journal of Agricultural and Food Chemistry, 2009, 57(5): 1742. [本文引用:1]
[14] CHU Xiao-li(褚小立). Practical Manual of Near Infrared Spectral Analysis Techniques(近红外光谱分析技术实用手册). Beijing: China Machine Press(北京: 机械工业出版社), 2016: 116. [本文引用:1]
[15] CHEN Feng-xia, YANG Tian-wei, LI Jie-qing, et al(陈凤霞, 杨天伟, 李杰庆, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2022, 42(2): 549. [本文引用:1]
[16] Ghidini S, Varrà M O, Dall'Asta C, et al. Food Chemistry, 2019, 280: 321. [本文引用:1]
[17] Boccard J, Rutledge D. Analytica Chimica Acta, 2013, 769: 30. [本文引用:1]