作者简介: 徐 阳, 1999年生, 青岛农业大学茶叶研究所硕士研究生 e-mail: xuyangtea99@163.com
抗寒生理指标的测定是评价茶树抗寒性的重要途径。传统上, 茶树抗寒性的评价方法主要是通过测定茶树在低温胁迫下的理化参数。然而, 这些方法不仅费时费力, 而且具有破坏性。该研究建立了一种基于多光谱和高光谱成像技术的茶树抗寒性REC、 SPAD、 MDA预测模型。首先, 采集了低温胁迫下32份育种材料的多光谱与高光谱图像, 并测定相应茶树叶片的REC、 SPAD、 MDA、 SP和SS含量。其次, 对其中的高光谱图像数据采用MSC、 SNV、 S-G、 1-D和2-D五种方法进行光谱预处理, 采用UVE和SPA两种方法筛选特征波段。最后, 分别对多光谱和高光谱数据采用SVM、 RF和PLS算法建立茶树抗寒性REC、 SPAD、 MDA预测模型。结果表明, (1)MSC、 SNV、 S-G、 1-D和2-D联合预处理后的光谱更加稳定, 峰谷更加突出, 模型的准确性和可靠性更高; (2)UVE算法筛选的特征波段数量最多, 而SPA算法筛选的特征波段数量最少, 更适合高光谱数据建立回归模型; (3)RF模型在多光谱成像预测叶片的REC(Rp=0.735 2, RMSEP=0.077 1)、 SPAD(Rp=0.502 9, RMSEP=6.681 8)和MDA含量(Rp=0.784 6, RMSEP=8.885 3)方面具有最高的精度; SPA-SVM模型在高光谱成像预测叶片的SPAD(Rp=0.734 9, RMSEP=4.154 6)和MDA(Rp=0.685 8, RMSEP=8.548 8)方面具有最高的精度, SPA-PLS模型在预测REC(Rp=0.629 8, RMSEP=0.066 9)方面具有最高的精度。因此, 基于多光谱、 高光谱成像和机器学习算法的REC、 SPAD、 MDA预测模型提供了一种准确、 无损和高效的方法, 对茶树抗寒性评价具有重要意义。
Determining cold resistance physiological indicators is an important way to evaluate the cold resistance of tea plants. Traditionally, methods of evaluating the cold tolerance of tea trees are mainly through the determination of physicochemical parameters of tea trees under low-temperature stress. However, these methods are not only time-consuming and labor-intensive but also destructive. This study established a prediction model for REC, SPAD, and MDA of tea tree cold resistance based on multispectral and hyperspectral imaging techniques. Firstly, multispectral and hyperspectral images of 32 breeding materials under low-temperature stress were collected, and the REC, SPAD, MDA, SP, and SS contents of the corresponding tea tree leaves were determined. Secondly, the hyperspectral image data among them were spectrally pre-processed using five methods, namely, MSC, SNV, S-G, 1-D, and 2-D, and the characteristic bands were screened using two methods, UVE and SPA. Finally, the REC, SPAD, and MDA prediction models of tea tree cold resistance were established using SVM, RF, and PLS algorithms for multispectral and hyperspectral data. The results showed that (1) the spectral curves were more stable, the peaks and valleys were more prominent, and the accuracy and reliability of the models were higher after the joint preprocessing of MSC, SNV, S-G, 1-D and 2-D; (2) the UVE algorithm screened the largest number of characteristic bands, while the SPA algorithm screened the smallest number of characteristic bands, which was more suitable for establishing regression models with hyperspectral data; (3) The RF model has the highest accuracy in predicting leaf REC (Rp=0.735 2, RMSEP=0.077 1), SPAD (Rp=0.502 9, RMSEP=6.681 8), and MDA (Rp=0.784 6, RMSEP=8.885 3) content under multispectral imaging techniques; the SPA-SVM model has the highest accuracy in predicting leaf SPAD (Rp=0.734 9, RMSEP=4.154 6) and MDA (Rp=0.685 8, RMSEP=8.548 8) under hyperspectral imaging techniques, and the SPA-PLS model has the highest accuracy in predicting REC (Rp=0.629 8, RMSEP=0.066 9). Therefore, the REC, SPAD, and MDA prediction models based on multispectral and hyperspectral imaging and machine learning algorithms provide an accurate, non-destructive, and efficient method, which is of great significance for evaluating tea tree cold resistance.
茶树(Camellia sinensis (L.) O.Kuntze.)是世界上最重要的经济作物之一。低温胁迫是影响茶树生长的重要因素, 阻碍茶树正常的生理活动, 从而使春茶的产量和品质受到严重影响[1]。
传统的评价茶树抗寒性方法主要通过生理生化指标的测定, 该方法提供了重要的指导意义, 但存在破坏样品, 测定费时费力, 时效性差等问题, 限制了新品种的培育速度。因此, 亟需提出一种无损、 准确、 快速筛选的研究方法, 加快抗寒茶树品种的选育。
随着光谱技术的发展, 能够对地物微弱光谱进行探测区分, 该技术具有对地物定量估算的能力。多光谱和高光谱成像等非侵入性传感技术被认为是检测非生物胁迫的潜在非侵入性工具, 与传统方法相比具有多个优势[2, 3]。多光谱图像虽然只有六个波段的信息, 识别能力有限, 但是多光谱相机便携、 成本低、 操作简单、 数据易处理。高光谱图像具有数百个连续波段, 不仅限于光谱的可见光部分, 信息量大, 精度高, 但成本高。高光谱成像技术由于其光谱与图像的集成性, 在提供客观、 准确、 无损、 直观的植物病害诊断结果方面, 显示出显著的优势。此外, 多光谱成像检测技术可以从目标作物中获取图像和光谱信息, 而不会损害作物。可为茶树抗寒性无损、 快速检测提供新的手段与思路。然而, 同时使用多光谱和高光谱成像技术在茶树抗寒性监测方面的预测结果尚不清楚。
目前, 高光谱成像(HIS)已用于茶树和水稻等作物的病害监测。例如, Xu等[4], 采用高光谱成像技术(HSI)对茶树的茶煤病进行了检测, 并结合ResNet18、 VGG16和AlexNet、 SVM和LSTM等机器学习和深度学习算法, 构建了茶煤病病害的分级模型。Feng等[5], 采用高光谱成像技术(HSI)对4个水稻品种的叶部病害进行了检测, 将自行设计的卷积神经网络(CNN)作为深层迁移学习方法的基本网络, 三种深度迁移学习方法的准确率均超过88%。此外, 多光谱成像已经用于茶树主要生化成分的检测。例如, Luo等[6]结合无人机搭载的多光谱相机和三种机器学习算法, 建立了茶树氮、 多酚和氨基酸含量的预测模型。Shi等[7]结合无人机多光谱相机和五种机器学习算法建立了作物生长监测指标模型, 可以快速准确地估计作物生长参数。然而, 同时使用多光谱和高光谱成像技术监测茶树抗寒性, 并对结果进行比较的研究仍然欠缺。
在光谱数据的实际应用中, 通常将其和机器学习算法相结合。机器学习模型在关联高通量数据和作物性状方面展现出了不俗的性能。例如, Chen等[8]提出了一种结合高光谱图像和机器学习模型(SVM、 RF、 PLS)评价茶树种质资源耐旱性。结果表明, 模型MSC-2D-UVE-SVM(R2=0.77, RMSE=0.073, MAPE=0.16)最合适, 可以作为一种新的茶树种质资源评价筛选方法。de Oliveira Dias F等[9]提出了一种结合无人机多光谱图像和机器学习模型(随机森林)评价番茄晚疫病严重程度的方法。结果表明, 测试集的决定系数为0.93, 该方法可以有效预测番茄晚疫病严重程度。目前, 机器学习模型在茶树抗寒性评价方面的预测结果尚不清楚。
基于上述分析, 建立了一种基于多光谱和高光谱成像技术的茶树抗寒性REC、 SPAD、 MDA预测模型。首先, 采集了不同茶树育种材料在低温胁迫下的多光谱、 高光谱图像, 并测定相应茶树叶片的REC、 SPAD、 MDA、 SP和SS含量。其次, 采用MSC、 SNV、 1D、 2D和S-G算法对高光谱数据进行预处理, 采用UVE和SPA算法对高光谱数据筛选特征波段。最后, 利用SVM、 RF和PLS建模算法对特征带和生理生化指标进行建模, 用于茶树抗寒性评价。
试验在青岛即墨瑞草园温室(北纬36° 44', 东经120° 58')和临沂莒南老子峪茶园温室(北纬35° 11', 东经118° 80')分多次进行。温室白天温度为30 ℃, 平均光照强度为10.6 klus, 夜间温度为24 ℃, 无光照。共有32份育种材料, 分别为LC1、 LC4、 LC5、 LC7、 LC11、 LC13、 LC14、 LC16、 LC22、 LC30、 LC31、 LC32、 LC33、 LC40、 LC26、 LC21、 LC17、 LC15、 LC18、 LC37、 LC36、 LC28、 LC38、 LC29、 LC39、 LC12、 LC24、 LC27、 LC35、 LC20、 LC34和LC19。苗龄3年。每份育种材料约500株, 实验苗共20 000株。试验土为混合土(40%底土、 40%基质土、 10%蛭石和10%珍珠岩)。
茶苗消毒后栽在育苗袋中, 在茶苗培养阶段自然受冻。为了获取更大的数据集, 我们三次采样日期分别为2023年1月12日、 2023年3月15日和2023年3月17日。具体采样时间为茶树生理活动相对显著的白天10:00—14:00。温室共有32份育种材料, 每份育种材料三个重复, 每个重复取茶苗上部8个叶片, 三次共取得1 728个样本。采用多光谱和高光谱成像技术获取了低温胁迫下茶树冠层的光谱图像, 完成光谱数据获取后立刻获取相应的叶绿素SPAD值并取下叶片, 然后在液氮中快速冷冻, 并储存在-80 ℃环境下, 直到测定生理生化指标。
1.2.1 高光谱数据的采集与校正
高光谱图像采集系统主要包括GaiaField Pro-V10 HSI相机(中国江苏双利合谱科技有限公司)、 光源(色温光源为3 000 K, 中国Hsia-ls-t-200w)、 配套计算机、 暗箱等部件。相机参数设置: 曝光时间22 ms, 内置镜头推送速度15 s· cube-1, 光谱扫描范围400~1 000 nm, 光谱间隔1.667 nm, 扫描波段数176个波段, 图像空间分辨率960× 1 040(2X), 采集数据大小960× 1 101× 176, 相机视场角度22° , 最大DN值65 552。利用上述设备采集茶树树冠的高光谱图像。物镜距离为20 cm。拍摄前后分别取白板和黑色背景进行后期校准。高光谱数据采集过程如图1所示。
1.2.2 多光谱图像采集系统设备
多光谱图像采集系统设备主要包括MS600-V2多光谱相机(长光禹辰信息技术与装备有限公司, 中国)、 相机支架和电池箱等部件。相机参数设置: 波段范围400~900 nm, 扫描波段数6个波段, 分辨率1 280× 960, 相机视场角49.6° , 焦距5.2 mm, 捕获速率1 s· 次-1。利用上述设备采集茶树树冠的多光谱图像。物镜距离为20 cm。多光谱数据采集过程如图2所示。
1.2.3 生理生化指标的采集与分析
测定了叶片的5个生理生化指标: 电导率(REC)、 叶绿素含量(SPAD)、 丙二醛(MDA)、 可溶性蛋白(SP)和可溶性糖(SS)。
电导率(REC)的测定: 用电导率仪(DDSJ-308A, 中国)测叶片的电导率(REC)。为了获得更准确的数据, 在超低温保存前完成测定。
叶绿素含量(SPAD)的测定: 采用便携式叶绿素仪(SPAD-502, 日本)测定每片叶6个不同的位置的SPAD值, 将6个测点的平均值作为该叶片的叶绿素含量(SPAD)。
茶树叶片用液氮冷冻, 磨成粉末, 测定过程中, 每个样品3次技术重复, 取其平均值作为试验测量值。
丙二醛(MDA)含量测定: 采用丙二醛含量试剂盒(苏州格锐思生物科技有限公司, 中国)测定光谱图像对应的叶片丙二醛含量。
可溶性蛋白(SP)含量测定: 采用蛋白含量(SP)试剂盒(考马斯亮蓝法)(苏州格锐思生物科技有限公司, 中国)测定光谱图像对应的叶片可溶性蛋白含量。
可溶性糖(SS)含量测定: 采用可溶性糖含量试剂盒(苏州格锐思生物科技有限公司, 中国)测定光谱图像对应的叶片
可溶性糖含量。
利用数据预处理软件SpecVIEW(Dualix Spectral Imaging, 中国)的分析工具对数据进行镜头校正和反射率校正。然后用ENVI5.3 (Research System Inc, 美国)打开预处理好的RAW格式下的高光谱图像, 我们选取整个叶片样本作为感兴趣区域(ROI), 并用ROI工具提取样本的平均反射光谱值, 并保存光谱反射曲线, 总共获得216× 176(样本数× 变量数)的光谱矩阵, 用于数据分析。
光谱数据易受到无用信号的干扰, 从而影响建模效果。因此, 我们在数据分析前, 结合MSC、 SNV、 S-G、 1-D和2-D五种预处理算法对样本的原始光谱数据进行预处理, 以提高模型的准确性和可靠性[10]。
特征波段筛选是光谱数据分析中常用的一种技术手段, 特征波段的筛选可以选取光谱全波段中与目标信息相关的波段, 而不会改变光谱的物理信息[11]。因此, 在建模之前, 结合UVE、 CARS两种特征波段筛选算法对高光谱数据进行分析。
获得的每张多光谱原始数据, 需要在Yusense Map (V1.0)软件中进行预处理。对原始光谱图像进行波段对准、 辐射定标处理, 输出研究区域的光谱图像。
光谱参数应以一定的方式将不同波段的反射率与植被指数(VI)结合起来, 这样可以使复杂环境信息对茶树冠层光谱的影响降低。根据前人的研究, 我们选取22个植被指数, 结合MS600多光谱相机的6个光谱波段共28个光谱参数对茶树进行评价。具体光谱参数如表1所示。
![]() | 表1 本研究中使用的光谱参数 Table 1 The spectral parameters used in this study |
分别对茶树冠层采集了216个数据集, 每个数据集由高光谱数据、 多光谱数据和对应生理生化指标组成。数据集按照3∶ 1的比例分为训练集(162)和验证集(54)。在对光谱数据进行上述处理后, 利用支持向量机(SVM)、 随机森林(RF)和偏最小二乘回归(PLS)建立相应的预测模型。SVM是一种经典的非线性监督学习建模算法, 多项式核用于找到超平面, 识别最优条形区域, 然后对区域外的数据进行回归[12]。RF是一种基于决策树的算法, 通过取平均值的方式得到最终的预测值[13]。PLS是一种结合了主成分回归的统计方法, 通过构建线性回归模型来解释两个矩阵(X和Y)之间的关系[14]。各模型的具体参数如表2所示。在模型构建过程中, 采用随机10倍交叉验证法, 将216个样本数据分成10个部分。每次, 90%的样本被用来拟合模型, 剩下的10%被用作估计性能指标的测试集。此过程重复10次, 每个模型共运行100次。为了评价模型的稳定性和准确性, 我们使用相关系数(r)和均方根误差(RMSE)[15]。r和RMSE的计算公式如式(1)和式(2)
![]() | 表2 SVM、 RF和PLS模型的主要参数 Table 2 Main parameters of the SVM, RF and PLS models |
式(1)和式(2)中, n是对应数据集中的样本数量,
为了避免无用及干扰信号和随机噪声的影响、 提高光谱分辨率。我们用MSC、 SNV、 S-G、 1-D和2-D算法对高光谱数据进行预处理(图3)。结果表明, 与原始光谱相比, MSC、 SNV、 S-G、 1-D和2-D联合预处理后的光谱曲线更加稳定, 峰谷更加突出, 模型的准确性和可靠性更高。
虽然高光谱波段之间具有很高的相关性, 但随着波段和样本的增加, 会出现波段共线、 数据冗余等问题[16]。对光谱数据进行特征波段筛选, 可以减少不相关波段的影响, 降低模型的复杂性, 提高模型的精度[17, 18]。
UVE和SPA算法被用来筛选特征波段(图4, 表3)。无信息变量消除(UVE)算法可以减少效率较低的变量数, 减少模型的复杂性, 优化模型变量, 提高模型的性能[19]。连续投影算法(SPA)可以筛选出在光谱数据中具有最大变化的变量, 从而消除原始光谱矩阵中的冗余信息[20]。结果表明, 在REC的特征波段筛选方法中, 筛选特征波段数最多的方法是UVE, 为48条, 筛选特征波段数最少的方法是SPA, 为8条; 在SPAD的特征波段筛选方法中, 筛选特征波段数最多的方法是UVE, 为14条, 筛选特征波段数最少的方法是SPA, 为8条; 在MDA的特征波段筛选方法中, 筛选特征波段数最多的方法是UVE, 为13条, 筛选特征波段数最少的方法是SPA, 为5条; 在可溶性蛋白的特征波段筛选方法中, 筛选特征波段数最多的方法是UVE, 为25条, 筛选特征波段数最少的方法是SPA, 为11条; 在可溶性糖的特征波段筛选方法中, 筛选特征波段数最多的方法是UVE, 为18条, 筛选特征波段数最少的方法是SPA, 为8条。
![]() | 表3 特征波段筛选结果 Table 3 Bands screening results |
为了比较多光谱成像技术和高光谱成像技术在不同模型下的性能, 我们分别在相同的测试环境和相同的数据集下通过模型的r和RMSE测试了两种成像技术的不同模型的性能(表4、 表5和图5)。
![]() | 表4 多光谱数据不同模型的评价结果 Table 4 Evaluation results of different models for multispectral data |
![]() | 表5 高光谱数据不同模型的评价结果 Table 5 Evaluation results of different models for hyperspectral data |
基于多光谱成像数据, 在REC的预测模型中, RF模型的精度最高(Rp=0.735 2, RMSEP=0.077 1); 在SPAD的预测模型中, RF模型的精度最高(Rp=0.502 9, RMSEP=6.681 8); 在MDA的预测模型中, RF模型的精度最高(Rp=0.784 6, RMSEP=8.885 3)。
基于高光谱成像数据, 在REC的预测模型中, SPA-PLS模型的精度最高(Rp=0.629 8, RMSEP=0.066 9); 在SPAD的预测模型中, SPA-SVM模型的精度最高(Rp=0.734 9, RMSEP=4.154 6); 在MDA的预测模型中, SPA-SVM模型的精度最高(Rp=0.685 8, RMSEP=8.548 8)。
然而, 可溶性蛋白(SP)和可溶性糖(SS)的预测模型均不具有很好的精度, 所以我们将这两个指标去除。这可能是因为这两个指标和光谱数据没有相关性, 不能成为茶树抗寒性的评价指标。
从整体上看, 两种成像数据的预测模型精度都让人满意。其中, 多光谱成像数据的模型中, RF模型具有较好的精度, 这可能是因为RF模型泛化性更强, 不容易过拟合; 在高光谱成像数据的模型中, SPA算法和SVM相结合的模型具有较好的精度, 这可能是因为SPA算法能准确的筛选出特征波段, SVM算法更适合于小样本数据集的建模, 因而SPA-SVM预测模型的精度更高。
有趣的是, 设备昂贵并且操作繁琐的高光谱成像数据的预测模型精度和多光谱类似甚至略低。这可能是因为, 多光谱更适合于室外应用。因此, 在实际应用中, 我们会考虑成本低、 操作简单、 数据易处理的多光谱相机来进行茶树抗寒性的筛选。
建立了基于多光谱和高光谱成像数据的茶树抗寒性REC、 SPAD、 MDA的预测模型。采集了自然受冻下32份育种材料的多光谱、 高光谱图像, 并测定相应茶树叶片的REC、 SPAD、 MDA、 SP和SS含量。对其中的高光谱图像数据采用MSC、 SNV、 S-G、 1-D和2-D五种方法进行光谱预处理, 采用UVE和SPA两种方法筛选特征波段, 分别对多光谱和高光谱数据采用SVM、 RF和PLS算法建立茶树抗寒性REC、 SPAD、 MDA的预测模型。结果表明, (1)MSC、 SNV、 S-G、 1-D和2-D联合预处理后的光谱曲线更加稳定, 峰谷更加突出, 模型的准确性和可靠性更高。(2)UVE算法筛选的特征波段数量最多, 而SPA算法筛选的特征波段数量最少, 更适合与高光谱数据建立回归模型。(3)RF模型基于多光谱成像数据预测叶片REC(Rp=0.735 2, RMSEP=0.077 1)、 SPAD(Rp=0.502 9, RMSEP=6.681 8)和MDA含量(Rp=0.784 6, RMSEP=8.885 3)方面具有最高的精度; SPA-SVM模型基于高光谱成像数据预测叶片SPAD(Rp=0.734 9, RMSEP=4.154 6)和MDA(Rp=0.685 8, RMSEP=8.548 8)方面具有最高的精度, SPA-PLS模型在预测REC(Rp=0.629 8, RMSEP=0.066 9)方面具有最高的精度。多光谱和高光谱成像数据用多种算法建立的模型均具有准确的预测结果, 可用于测定REC、 SPAD和MDA含量, 而多光谱成像技术优势明显。本研究建立的基于多光谱和高光谱成像技术的茶树抗寒性REC、 SPAD、 MDA的预测模型为温室茶苗低温胁迫的准确、 无损和高效监测奠定了基础, 对茶树抗寒种质资源的筛选具有重要意义。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|