植物叶片可见与近红外光谱反射率数据库的建立与主成分分析
蒋万里1,2, 石俊生1,2,*, 季明江1,2
1.云南师范大学物理与电子信息学院, 云南 昆明 650504
2.云南省光电信息技术重点实验室, 云南 昆明 650504
*通讯作者 e-mail: shi-js@263.net

作者简介: 蒋万里, 1997年生,云南师范大学物理与电子信息学院硕士研究生 e-mail: 1572557039@qq.com

摘要

可见与近红外波段光谱反射率数据库是颜色科学与技术和遥感目标地物分类识别领域等研究与应用的基础数据。 主成分分析(PCA)在光谱数据分析、 光谱重建、 高光谱数据降维以及遥感图像分类等方面有广泛应用。 测量并建立了云南公园常见绿化植物柳树、 樟、 红花檵木、 蓝花楹等48种植物150条叶片从可见光到近红外波段光谱反射率数据库, 波长范围400~1 000 nm、 间隔4 nm。 并且分别对可见与可见到近红外两种波段范围进行PCA研究。 结果表明: 不同植物叶片按照红、 绿、 黄相同色相的光谱反射率曲线基本相似; 但对于同一种植物, 在可见光波段400~700 nm, 因为体内叶绿素、 叶黄素、 叶红素和花青苷含量的不同, 光谱反射率曲线有较大的差异; 在近红外波段700~1 000 nm, 所有植物叶片光谱反射率仅仅是大小不同, 而同一植物光谱反射率基本不随波长变化。 PCA分析表明: 在可见光和可见与近红外波段前三个主成分的累积贡献率分别达到98.62%和94.97%。 数据库及其PCA分析结果将为自然物体光谱重建、 多光谱成像技术和遥感目标地物分类识别等领域应用提供支撑。

关键词: 可见与近红外; 光谱反射率; 数据库; 主成分分析(PCA); 光谱反射率重建
中图分类号:O433.4 文献标志码:A
Establishment of Visible and NIR Spectral Reflectance Database of Plant Leaves and Principal Component Analysis
JIANG Wan-li1,2, SHI Jun-sheng1,2,*, JI Ming-jiang1,2
1. School of Physics and Electronic Information, Yunnan Normal University, Kunming 650504, China
2. Yunnan Key Laboratory of Optoelectronic Information Technology, Kunming 650504, China
*Corresponding author
Abstract

Visible and near-infrared spectral reflectance is the basic database for research and application in color science and technology and remote sensing object classification and recognition.The principal component analysis (PCA) is widely used in spectral data analysis, spectral reconstruction, hyperspectral data dimension reduction, and remote sensing image classification. In this paper, a database of spectral reflectance from visible light to near-infrared of 150 leaves of 48 plants, including Salix, Cinnamomum camphora (L.) Presl, Dracaena marginata, and Jacaranda mimosifolia, etc. Which are common in park greenery of Yunnan, isestablished. The wavelength range from 400 to 1 000 nm with 4 nm intervals. The PCA wascarried out on the visible and from visible to near-infrared wavebands respectively.The measurement results show that the spectral reflectance of different vegetation leaves according to the same hue of red, green and yellow are the same, For the same plant,in the visible waveband, the spectral reflectances are quite different because of the different content of chlorophyll, lutein, carotene and anthocyanin in the body.The spectral reflectance of all plant leaves in the near-infrared waveband is only different in amplitude, while the spectral reflectance of the same plant does not change with wavelength.The PCA shows that the cumulative contribution rates of the first three principal components in the visible and visible near-infrared wavebands reached 98.62% and 94.97% respectively.The database and results of PCA provide support for the spectral reconstruction of natural objects, the multispectral imaging technology and the classification and recognition of the target of remote sensing images.

Keyword: Visible and near-infrared; Spectral reflectance; Database; Principal component analysis (PCA); Spectral reflectance reconstruction
引言

光谱反射率是物体表面的固有属性, 不仅全面地记录了物体的颜色信息, 而且是物体表面材质的表示方式; 可见与近红外波段在物体反射光谱重建、 多光谱成像和遥感目标地物分类识别等领域有广泛的应用。 不同波段有不同的应用, 人眼感知的可见波段主要与颜色应用相关, 决定着自然和人造物体在不同光源下的颜色, 除了人们日常生活中建筑、 环境、 照明、 服饰、 媒体等方面, 而且涉及光源设计、 各种显示设备同色异谱, 以及颜色恒常等科学技术领域; 相关场景中物体的光谱反射率是必须获得的信息[1]。 近红外波段超出了人眼感知的范围, 但其利用越来越受到关注。

随着科技的发展, 包含可见和近红外的多光谱得到广泛应用。 在遥感应用中, 由于各波段所提供的信息不同, 光谱波段被选择性地利用。 如区分不同植被种类, 探测植物叶绿素浓度植物活力, 监测作植物健康状况及农作物长势等。 在环境保护领域中, 通过获取植物的高光谱影像来调查植物光谱反射率, 可以测量水域生物量, 可以对地下天然气的泄露进行检测[2]。 在颜色图像领域, 可以用于近红外波段图像增强可见光图像[3]、 去雾[3, 4]和真彩色复原[5]等一系列应用。

建立可见与近红外光谱反射率数据库对科学研究和技术应用都非常重要。 在遥感应用领域, 美国在20世纪60年代末到70年代初建立了包含植物、 土壤、 岩石矿物和水体等4大类地物的电磁波波谱特性的数据库— 地球资源信息光谱数据库。 美国地质调查局(USGS)对各种岩石类型和部分植被类型进行了较系统的光谱测量, 建立了USGS光谱数据库[6]。 包含人造材料、 涂料、 液体、 矿物质、 有机化合物、 土壤、 混合物和植被共计2 467条光谱。 约翰霍普金斯大学(JHU)建立了包含岩石、 矿物、 地球土壤、 月球土壤、 人工材料、 陨石、 植被、 水体、 雪和冰、 以及人工目标的光谱数据库。 美国喷气推进实验室(JPL)建立了160种矿物岩石在125~500, 45~152 μm和< 45 μm三种波段ASTER光谱库。 该光谱库在2009年加入了来自JHU、 USGS等数据库的光谱, 共计2300多条[6]。 我国数据库的建立与研究起步较晚, 直到20世纪90年代初, 我国才建立了第一个综合性“ 地物波谱特性数据库” 。 1998年, 国土资源部航遥中心建立了主要针对岩石矿物的地物光谱数据库(GOSDBS)[7]。 2003年— 2004年期间建立了中国岩矿标准波谱库[6]。 2006年, 彭妮娜等通过测量植被、 土壤、 岩石、 水体、 人工目标和大气信息6类物体的波谱特性, 建立了大气及典型地物光学特性数据库[7]。 2013年— 2014年期间通过测量建立了太湖、 巢湖、 滇池等中国典型内陆水体不同季节的光学量数据库[6]

在颜色应用领域, 2006年Kohonen等人从光谱颜色科学的角度简要介绍了一些应用于颜色分析和表示的多种光谱数据库[8], 如: 由1 600条以1 nm为间隔、 380~780 nm波段的Munsell色卡光谱反射率数据库; 1 750条以10 nm为间隔, 400~700 nm波段的瑞典自然色系统(natural color system, NCS)数据库; 由花、 叶和各种彩色植物共计218条以5 nm为间隔、 400~700 nm波段的光谱反射率组成的自然色卡数据库等。

主成分分析(PCA)在光谱领域有广泛的应用, 如数据降维、 光谱特征提取及光谱重建等。 在颜色领域应用方面, 2014年Chen等提出了在PCA的基础上使用深度学习对高光谱图像进行分类[9]。 2016年Xiao等利用相机对人类皮肤进行光谱反射率重建[10]。 2017年Hajipour和Shams-Nateri把Munsell 色卡作为训练样本[1], Macbeth色卡作为测试样本, 使用竞争神经网络先进行分类, 再用PCA进行光谱反射率重建。 同年, Liu等以LOPEX93和ANGERS数据库为基础[11], 利用PCA重建植物叶片的光谱反射率并且检索叶片的生化成分。 2018年Otsu等基于聚类算法和PCA利用给定的光谱三刺激值进行光谱反射率重建[12]。 2019年Dadon等提出了一种新颖的基于PCA的分类方法[13], 对随机选择植物样本进行分类。 同年, Lewis D Griffin对基于PCA重建的光谱和其颜色真实性进行了评估。

近年来, 低照度彩色成像受到关注。 物体的光谱反射率是彩色成像的基础。 如果知道图像中物体的光谱反射率, 就可以计算图像在任意光源下的颜色。 为此针对每一类物体都需要一个数据库用以光谱重建。 如何将光谱反射率应用到解决低照度条件下真彩色复原一直都是国内外研究的热点。 单纯利用可见光获取低照度条件下的图像会发现因为光谱相对功率分布过低而无法分辨颜色, 加上近红外获取的图片虽然细节会提高很多, 但是图像整体会偏粉。 因此建议使用包含近红外的可见光对物体进行识别, 然后利用可见光对物体进行真彩色重建。 国内外研究光谱反射率重建大多基于色卡而非实际物体, 例如Hajipour等的实验[1]。 而Chen等的实验都是基于高光谱图像而非光谱反射率[9, 13], 在低照度条件下所获取的植被在可见光范围内的图像很难分辨出颜色。 但是如果能知道植被的光谱反射率, 就能重建任意光源条件下的真彩色图像。

各种应用研究需要不同物体的光谱反射率, 国内外已经建立了各式各样的数据库, 但目前存在的问题是: (1)在遥感领域, 数据不完整或没有公开; (2)在颜色领域, 仅仅存在标准色卡数据, 没有公开自然物体数据, 而且光谱范围在可见波段, 不包含近红外波段。 这些不足限制了数据库不同领域的研究与应用。

我们在研究低照度条件下利用近红外获得真彩色图像中, 萌生了建立自然物体光谱反射率数据库的愿望。 因而测量并建立了红边龙血树、 蓝花楹、 云南山楂等48种植物叶片从可见光到近红外波段光谱反射率数据库, 波长范围380~1 068 nm、 间隔4 nm。 分别对可见与可见到近红外两种波段范围进行了PCA, 为遥感和颜色领域应用提供数据和分析参考。

1 实验部分
1.1 测量器材和测量条件

(1)实验室标准灯箱。 采用便携式地物光谱仪在户外采集自然物体时发现, 光谱反射率在近红外波段会出现很强的噪声影响测量。 为了测量更准确, 采用采集植物叶片后迅速带回实验室在标准灯箱下测量的实验方法, 如图1(a)。

图1 测量器材与测量条件
(a): 实验室标准灯箱; (b): 照明光源A光源归一化功率谱; (c): 测量设备PR-715及测量条件
Fig.1 Measurement equipment and conditions
(a): Standard light box; (b): Normalized power spectrum of light source A; (c): Measurement equipment PR-715 and measurement conditions

(2)照明光源选择A光源。 由于物体光谱反射率不随照明光源变化, 可以选择标准灯箱中D65, A, UV和CWF四种照明光源中的任何一种测量, 实验发现, 四种光源在可见光范围内的测量精度和重复率有较好的一致性。 但在近红外波段, A光源的测量精度和重复率效果较好。 原因是A光源的光谱功率在近红外波段呈上升趋势, 如图1(b), 而其他光源光谱功率分布在近红外波段非常小, 导致测量结果跳跃、 不稳定, 重复率差, 精度不高, 甚至是错误。

(3)测量仪器使用Photo Research公司PR-715光谱辐射亮度计, 可以测量波长范围380~1 068 nm, 4 nm为间隔的光谱反射率。

(4)测量在暗室环境中0° /45° 测量条件。 光源垂直于物体, 而PR-715呈45° 角, 如图1(c)。 在每种情况下, 都试图对物体进行定向, 以减少物体被测部分的镜面反射[8]。 在测量每个样品之前, 将校准的标准漫反射板放置在物体位置测量其光谱功率分布。 选择叶片中颜色均匀的部分多次测量, 当一片叶子上存在多种颜色时, 就会测量多个部位, 加上叶片的颜色多样, 因此48种植物测量了150条光谱反射率。

1.2 数据库数据形式

对于公开数据库, 国际上有专门网站可以下载使用, 也有以文件的形式提供下载使用。 我们数据库数据是采用文件“ xlsx” , 同时附上植物图像和测量叶片及光谱反射系数曲线, 如图2。 保存和显示测量的光谱反射系数是没有处理的原始数据, 保留4位小数点。 对于同一植物不同叶片或同叶片颜色差距较为明显的不同部位, 分别测量其光谱反射系数。 如图2(a)是在同一季节采集的红花檵木10种不同颜色叶片的10条光谱反射系数。 因此, 48种植物得到了150条光谱反射率(数据库数据将公开提供使用)。

图2 数据库形式: 多种颜色红花檵木叶片(a); 多种颜色红边龙血树叶片(b)Fig.2 Database format: leaves of Loropetalum chinense var. rubrum in various colors (a); leaves of Dracaena marginata in various colors (b)

1.3 测量结果

采集数据的叶片都来自云南省昆明市呈贡区云南师范大学和盘龙区昆明植物园。 采集时间从2020年10月30号开始到2021年6月9号截止包含春、 秋、 冬三个季节。 图3是测量的48种植物图像, 每个图像右下角是被测叶片。 从左向右, 第1行: 刺柏、 蓝花楹、 竹叶、 桃花、 荷花玉兰、 云南山楂; 第2行: 玉兰、 银杏、 龙柏、 决明、 紫绒鼠尾草、 木犀; 第3行: 木茼蒿、 榉树、 女贞、 春羽、 高山榕、 石楠; 第4行: 常春藤、 云南黄素磬、 黄杨、 火炬树、 灯笼花、 八角金盘; 第5行: 红花檵木、 四季海棠、 金边黄杨、 红边龙血树、 火棘、 胡颓子; 第6行: 高盆樱桃、 柳树、 炮仗花、 樟、 碧桃、 蔓长春藤; 第7行: 枫香树、 油菜、 天门冬、 薰衣草、 一串红、 河津樱; 第8行: 蒲苇、 金边吊兰、 尖尾芋、 幸福树、 棕桐、 槭树。

图3 48种植物和测量叶片图像Fig.3 Images of 48 types of plants and measured leaves

图4是48种植物叶片图像测得的光谱反射率, 共有150条谱线。 鉴于在波长两端380 和1 068 nm附近测量噪音较大, 取值400~1 000 nm波长范围。 从图4可以看出, 48种植物叶在400~680 nm波段, 光谱反射率存在一个位置和大小各不相同的反射峰, 这是因为植物体内叶绿素、 叶黄素、 叶红素和花青苷含量的不同而导致的。 在680~750 nm波段, 植物叶片的光谱反射率急剧增大, 出现一个“ 陡坡” , 形成植物的独有特征, 并且不同植物的光谱位置和反射率斜率基本一致。 在750~950 nm波段, 有着较高的反射率, 而且趋于平稳, 这是因为叶面反射光谱特征主要受叶内细胞结构和叶冠结构控制, 由于光在叶内散射, 光谱反射率非常高, 出现“ 红外高台阶” 。 在975 nm附近存在一个吸收峰, 这是由于植被体内水的吸收和冠层结构所导致。 正是因为叶片的光谱反射率呈现这样一种分布, 因此在晚上拍摄植物叶片时图像会偏暗, 但是加上近红外镜头之后图像会偏亮。

图4 48种植物叶片在400~1 000 nm范围内的光谱反射率Fig.4 Reflectance spectra of 48 types of plant leaves in the range of 400~1 000 nm

如图5所示, 我们将不同植物颜色相近的叶片的光谱反射率放在一起, 可以发现不同植物, 颜色相近叶片的光谱反射率曲线形状基本相似。 图6是多种颜色红花檵木叶片的光谱反射率图像, 从中可以发现同一种植物不同颜色叶片的光谱反射率形状有较大的差异。

图5 不同植物相近颜色叶片的光谱反射率
(a): 绿色; (b): 红色; (c): 黄色
Fig.5 Reflectance spectra of similarly colored leaves of different plants
(a): Green; (b): Red; (c): Yellow

图6 多种颜色红花檵木叶片Fig.6 Spectra of leaves of Loropetalum chinense var. rubrum invarious colors

2 光谱反射率PCA分析

对光谱反射率数据库进行PCA分析, 通过一组本征矢来近似表示大量植物叶片的光谱反射率, 可以实现光谱数据的低重构误差。 为了能使重建的光谱反射率更好的体现出植物的生化特性, 需要在重建时加上光谱反射率的平均值。 分别对150个光谱样本在400~700和400~1 000 nm波段进行PCA分析。 表1表2分别给出了可见波段和从可见到近红外波段150个光谱反射率的平均值和前六个主成分数据。

表1 150个光谱样本在可见波段400~700 nm平均值和前六个主成分数据 Table 1 Mean values and the first six principal components of 150 pieces of reflectance spectral curves in the wavelength range 400 to 700 nm
表2 150个光谱样本在可见到近红外波段400~1 000 nm平均值和前六个主成分数据 Table 2 Mean values and the first six principal components of 150 pieces of reflectance spectral curves in the wavelength range 400 to 1 000 nm

平均值和前三个主成分如图7所示。

图7 光谱平均值和PCA前三个主成分
(a): 波长400~700 nm; (b): 波长400~1 000 nm
Fig.7 The mean values and the first three principal components of 150 pieces of reflectance spectral curves
(a): Wavelength range 400~700 nm; (b): Wavelength range 400~1 000 nm

表3给出前六个主成分对应贡献率及累积贡献率。 对于400~1000 nm波段, 它的第一个主成分的贡献率为71.46%, 前三个主成分的累积贡献率为94.97%, 前六个主成分的累积贡献率达到了99.42%。 而对于400~700 nm波段, 它的第一个主成分的贡献率为87.74%, 前三个主成分的累积贡献率达到了98.62%, 前六个主成分的累积贡献率达到了99.84%。 也就是说在通常情况下, 使用前三个主成分就可以描述叶片绝对大多数的特征了。 从图中也可以看出在400~700 nm波段两者的前三个主成分曲线形状有着很大的差异。

表3 前六个主成分对应贡献率及累积贡献率 Table 3 Contribution rates and cumulative contribution rates of the first six principal components
3 结论

测量并建立了红边龙血树、 蓝花楹、 云南山楂等48种植物150条叶片从可见光到近红外波段光谱的反射率数据库, 波长范围400~1 000 nm、 间隔4 nm。 分别对可见与可见到近红外两种波段范围进行了PCA研究。 结果表明: 不同植被叶片在相同色相内的光谱反射率曲线基本上有相同的波形。 即使是同一种植物, 因为体内叶绿素、 叶黄素、 叶红素和花青苷含量的不同, 波形可以出现很大的差异。 通过分析叶片光谱反射率的一阶导数和红边特征参数可以为植被的识别与分类提供基础。 PCA结果表明: 可见和可见与近红外两种波段前三个主成分的累积贡献率分别为98.62%和94.97%。 因此通过前三个主成分就能很好的重建植物叶片的光谱反射率, 并且通过色相进行分类可以有效地提高主成分的贡献率。 我们通过建立数据库并计算出植物叶片的本征矢可能对遥感领域植物的识别与分类以及颜色科学领域在不同照明条件下实现颜色再现等提供帮助。

从光谱反射率和PCA的角度分析了数据库, 通过对数据库进行不同的处理和分析, 可以应用于不同的领域。 本工作只采集了48种植物, 对于建立数据库来说还需要更多的数据, 因此后续将继续扩大数据库的内容。

参考文献
[1] Hajipour A, Shams-Nateri A. Color Research and Application, 2017, 42(2): 182. [本文引用:3]
[2] WU Zi-yong, JIANG Jin-bao, GUO Jian-wei, et al(吴自勇, 蒋金豹, 郭监威, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2020, 40(10): 3123. [本文引用:1]
[3] Shibata T, Tanaka M, Okutomi M. Proc SPIE, Digital Photography XI, 2015, 9404: 94040G. [本文引用:2]
[4] Jee S, Kang M. Sensors, 2019, 19(5): 1256. [本文引用:1]
[5] Soria X, Sappa A, Hammoud R. Sensors, 2018, 18(7): 2059. [本文引用:1]
[6] TONG Qing-xi, ZHANG Bing, ZHANG Li-fu(童庆禧, 张兵, 张立福). Journal of Remote Sensing(遥感学报), 2016, 20(5): 689. [本文引用:4]
[7] PENG Ni-na, ZHOU Jian-min, LUO Jun, et al(彭妮娜, 周建民, 罗军, ). Journal of Atmospheric and Environmental Optics(大气与环境光学学报), 2006, 1(2): 92. [本文引用:2]
[8] Kohonen O, Parkkinen J, Jaaskelainen T. Color Research and Application, 2006, 31(5): 381. [本文引用:2]
[9] Chen Y S, Lin Z H, Zhao X. et al. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094. [本文引用:2]
[10] Xiao K D, Zhu Y T, Li C J, et al. Optics Express, 2016, 24(13): 14934. [本文引用:1]
[11] Liu L Y, Song B W, Zhang S, et al. Remote Sensing, 2017, 9(11): 1113. [本文引用:1]
[12] Otsu H, Yamamoto M, Hachisuka T. Computer Graphics Forum, 2018, 37(6): 370. [本文引用:1]
[13] Dadon A, Mand elmilch M, Ben-Dor E, et al. Remote Sensing, 2019, 11(23): 2800. [本文引用:2]