作者简介: 王 静, 女, 1998年生, 宁夏大学葡萄酒与园艺学院硕士研究生 e-mail: wjamswj@163.com
为达到及时监测植株生长状况, 快速检测不同光强下甜瓜叶片过氧化氢酶活性分布的差异是至关重要的。 采用不同光照强度对甜瓜叶片进行处理, 进而采用荧光高光谱成像技术对叶片扫描, 提取出300个叶片样本的平均光谱反射率, 通过4种预处理方法对原始光谱进行了预处理和优化。 运用区间变量迭代空间收缩法(iVISSA)、 竞争性自适应加权算法(CARS)、 遗传偏最小二乘算法(GAPLS)、 迭代保留有效信息变量法(IRIV)和变量组合集群分析法(VCPA)五种方法提取了特征波长, 采用偏最小二乘回归(PLSR)模型筛选出最优特征波长。 基于优选的特征波长建立了主成分回归(PCR)模型、 多元线性回归(MLR)模型、 卷积神经网络(CNN)模型、 最小二乘支持向量机(LSSVM)模型, 结果表明Baseline-IRIV-MLR模型识别准确率最高, 训练集和预测集的准确率均为0.852。 本研究结果为荧光高光谱成像技术应用于瓜类作物质量评价提供理论依据, 为精准农业的发展提供技术支持。
To achieve timely monitoring of plant growth, rapid detection of differences in the distribution of catalase activity in melon leaves under different light intensities is essential. In this study, melon leaves were treated with different light intensities. Then the leaves were scanned using fluorescence hyperspectral imaging to extract the average spectral reflectance of 300 leaf samples, and the raw spectra were pre-processed and optimised by four pre-processing methods. Using interval Variable Iterative Space Shrinkage Approach (iVISSA), Competitive adaptive reweighted sampling (CARS), Genetic algorithm partial least squares algorithm(GAPLS), Iterative retained Information Variable(IRIV), and Variables Combination Population Analysis(VCPA) were used to extract the feature wavelengths. The partial-least-squares regression (PLSR) model screened the optimal feature wavelengths. Based on the preferred feature wavelengths, Principal component regression (PCR) model, Multiple linear regression (MLR) model, Convolutional Neural Network (CNN) model, Least Squares Support Vector Machine (LSSVM) model, and the results show that Baseline-IRIV-MLR model has the highest recognition accuracy, with an accuracy of 0.852 in both training and prediction sets. The results of this study provide a theoretical basis for applying fluorescence hyperspectral imaging technology in the quality evaluation of melon crops and technical support for the development of precision agriculture.
甜瓜为葫芦科一年生蔓生植物, 起源于非洲, 适应性强, 含有可溶性糖、 有机酸、 维生素C等营养物质[1]。 甜瓜喜温暖充足而强烈的光照, 光强作为能量来源和信号物质, 通过影响植物的生理过程和抗氧化酶的活性, 进而影响植物体内活性氧(reactive oxygen species, ROS)的防御系统, 会造成抗氧化酶活性在植物细胞水平上的分布存在一定的差异性[2]。 过氧化氢酶(catalase, CAT)、 过氧化物酶(peroxidase, POD)、 超氧化物歧化酶(super oxide dismutase, SOD)是清除活性氧最主要的抗氧化酶类[3], 参与植物体内重要的生理活动, 如抗机械损伤、 抗病原物侵入、 生长发育等, 它们可以有效阻止ROS的积累, 防止膜脂过氧化的产生[4]。 其中, H2O2作为ROS最稳定的存在形式也是植物体内重要的信号分子, 而CAT是目前发现最早、 研究最透彻的H2O2清除酶之一。 因此亟需建立一种快速、 准确的甜瓜叶片CAT活性分析方法, 从细胞学水平揭示不同光强调控下甜瓜叶片CAT活性的差异对于维持叶片体内H2O2稳态的重要意义。
荧光高光谱成像技术可以同时获得样品的空间图像信息和反映物质生化结构变化的光谱信息, 该技术已越来越多地应用于食品质量或安全检测以表达其结构变化。 目前已有研究报道荧光光谱成像技术在柑桔、 皇冠梨等食品健康与损伤检测方面的应用[5, 6], 然而在瓜类作物相关方面, 尤其是果蔬在CAT活性定量分析的应用少有报道。 甜瓜叶片CAT活性无损检测模型的建立将为甜瓜的品质提升和开发利用提供一定的借鉴。 本研究采用卷积神经网络(convolutional neural network, CNN)、 最小二乘支持向量机(least squares support vector machine, LSSVM)、 主成分回归(principal component regression, PCR)和多元线性回归(multiple linear regression, MLR)构建校正模型, 并通过光谱预处理方法和特征波长选择方法优化模型性能, 建立了一种简便的甜瓜CAT活性分析方法, 为推动我国瓜类作物产业的稳定持续发展方面提供帮助。
试验样品选用“ M147” “ M346” 甜瓜, 购买于宁夏泰金种业股份有限公司。
试验于2023年3月至2023年6月在宁夏园艺产业园植物工厂中进行, 用营养液(山崎甜瓜配方, pH值6.5~7.0, EC值2~3 mS· cm-1)种植, 在前期确定最适宜光配比(7R/3B/5W/1UVa)的基础上, 设置不同光照强度如表1所示。
![]() | 表1 不同光照强度甜瓜生长发育试验设计表 Table 1 Design table of melon growth and development test with different light intensities |
采用紫外吸收法[7]进行40 s内吸光度变化的测定。 根据式(1)计算甜瓜叶片样本的CAT活性。
式(1)中: Δ A240为反应时间内吸光度的变化; W为样品鲜重(g); t为反应时间(min); Vt为提取酶液总体积(mL); Vs为测定时取用酶液体积(mL)。
采用愈创木酚法[7]进行40 s内吸光度变化的测定。 根据式(2)计算甜瓜叶片样本的POD活性。
式(2)中, Δ A470为反应时间内吸光度的变化; W为样品鲜重(g); t为反应时间(min); Vt为提取酶液总体积(mL); Vs为测定时取用酶液体积(mL)。
采用氮蓝四唑光化还原法[7]进行40 s内吸光度变化的测定。 根据式(3)计算甜瓜叶片样本的SOD活性。
式(3)中: W为样品鲜重(g); Ack为照光对照管的吸光度; AE为样品管的吸光度; V为样品液总体积(mL); Vt为测定时的酶液用量(mL)。
采用四川双利合谱公司生产的荧光高光谱仪, 型号为: GaiaField-F-V10, 共有176个波段, 光谱分辨率为3.8 nm。 使用经过多次测试后确定的452 nm的滤光片和550 nm的截止滤光片进行荧光图像的采集[8]。 扫描前进入Specview采集软件的界面, 开始自动调焦。 为了确保图像的清晰度, 经过多次重复试验, 确定最佳采集参数条件: 物距为300 mm, 扫描速度设置为0.147 cm· s-1, 成像光谱仪曝光时间12 ms, 增益设为3。
1.5.1 样本集的划分
将样本按照2:1的比例划分校正集和预测集, 采用(Kennard-Stone, KS)算法, KS算法以两两样本之间的欧氏距离为依据, 是一种代表性强、 分布范围均匀的样本划分方法[9]。
1.5.2 光谱预处理方法选择
光谱预处理主要有平滑归一化处理(normalize)、 基线校准(baseline)、 多项式平滑算法(Savitzky-Golay smoothing, S-G)、 移动平均平滑法(moving average, MA)等4种方法, 目的是消除光谱或图像信息中非品质信息的危害。
1.5.3 特征波长的提取
特征波长提取是在尽量保留原始信息的基础上, 选取部分能够表征样品信息的数据去除那些大量的多余的信息。 为了实现降维的目的, 选用的特征提取方法有区间变量迭代空间收缩法(interval variable iterative space shrinkage approach, iVISSA)、 竞争性自适应加权算法(competitive adaptive reweighted sampling, CARS)、 遗传偏最小二乘算法(genetic partial-least-square algorithm, GAPLS)、 迭代保留有效信息变量法(iterative retained information variable, IRIV)和变量组合集群分析法(variables combination population analysis, VCPA)等五种方法。
1.5.4 模型建立及评价
采用多元线性回归和迭代保留有效信息变量相结合算法(MLR-IRIV)建立甜瓜叶片CAT活性在不同光照强度的光谱变量判别模型。 模型性能通过精确度评价, 精确度越高, 表示模型性能越好[10]。
不同光强处理下的甜瓜叶片CAT、 POD和SOD活性值的变化研究结果, 如图2所示。
![]() | 图2 甜瓜叶片CAT、 POD和SOD活性值的变化 (a): CAT活性; (b): POD活性; (c): SOD活性Fig.2 Changes of POD, CAT and SOD activity values in melon leaves (a): CAT activity; (b): POD activity; (c): SOD activity |
图2(a)可知, 甜瓜叶片CAT活性值整体变化范围为(45.6± 0.690 7)~(87.11± 0.053 74) U· g-1。 T2处理的CAT活性与T1、 T3、 T4和CK之间差异显著, 其值分别为67.86、 57.35、 62.89和56.76 U· g-1, 其中T2显著高于对照组, 提高了1.9倍。 图2(b)显示了甜瓜叶片POD活性值整体变化范围为(39.24± 0.690 7)~(91.72± 1.857 45) U· g-1, T2处理与T1之间无显著性差异, T3、 T4和CK之间存在显著性差异, 其值为91.72 U· g-1, 其中T2显著高于对照组, 提高了2.3倍。 图2(c)显示了甜瓜叶片SOD活性值整体变化范围为(3.817 8± 0.575 88)~(8.233 3± 1.815 65) U· g-1。 T2处理的SOD与其他处理之间存在显著性差异, 其值为8.233 3 U· g-1, 其中T2显著高于对照组, 提高了2.1倍。
综合分析, T2处理的甜瓜叶片CAT能够维持适当浓度的H2O2作为信号分子以保证植物的生长发育, POD、 SOD可有效清除因损伤导致的过量自由基, 避免引起过氧化伤害, 增强损伤叶片的抗逆性[11]。
通过荧光高光谱系统采集不同光强处理下甜瓜叶片样本, 获取荧光高光谱数据, 原始光谱的波长范围为372.66~1 039.65 nm, 共176个波段。 采用ENVI4.8软件选取甜瓜叶片不同部位区域作为感兴趣区域, 并做好标记, 得到5个不同光照强度处理下甜瓜叶片的光谱特征信息。 如图3所示。
图3为不同光强处理下的甜瓜叶片CAT活性的光谱曲线, 在700~800 nm处出现一个吸收谷, 主要是因为CAT活性的吸收, 在690~730和740~800 nm波段范围内的684和763 nm两处波峰, 是由于CAT活性在684和736 nm处的发射对应的波峰。 通过对比不同叶片荧光强度可知, CAT活性不同甜瓜叶片荧光强度大小表现不同, 且不同CAT活性甜瓜的荧光强度曲线变化比较明显, 较为容易区分[12]。
校正集和预测集的样本应具有代表性和均匀性。 300个样本, 取其中的2/3(200)作为校正集, 1/3(100)作为预测集。 通过采用KS、 (random sampling, RS)、 (sample set partitioning based on joint x-y distance, SPXY)等三种样本集划分方法对300个样本集进行选取。 表2为荧光光谱的校正集和预测集所对应的CAT活性的偏最小二乘回归(partial-least-squares regression, PLSR)模型结果。
![]() | 表2 三种样本划分的模型对比 Table 2 Model comparison of the three sample divisions |
由表2可知, 在三种样本划分方法中, KS和RS法的相关系数RC相差不大, 但是KS法的均方根误差RMSEC、 RMSECV低于RS法, 其值分别为5.231、 6.070。 同时, KS法的RC、 RCV均高于SPXY法, 其值分别为0.798、 0.717; 除此之外, KS法的RC和RP之和最高, 综合参数考虑, 最终选择KS法划分甜瓜叶片CAT活性的样本集。
采用S-G、 Baseline、 Normalize、 MA等预处理, 并结合PLSR模型性能参数对比分析, 选出CAT活性样本的最优预处理方法, 结果如表3所示。
![]() | 表3 不同预处理方法PLSR模型统计 Table 3 PLSR model statistics for different pretreatment methods |
从表3可知, 与原始光谱的结果比较, SG、 MA和Normalize预处理后的校正集相关系数值均有所降低。 其中, SG虽然在一定程度上对光谱数据进行了优化, 但不能完全解决信息失效的问题[13]。 归一化过程中可能出现了噪声的干扰, 导致Normalize法效果低于原始光谱效果, 建模效果都有一定的下降。 综合分析, 采用Baseline建模之后, 校正集相关系数有所增加, 模型性能有所提高。 RC值为0.830, RP值为0.746。
荧光光谱在372.66~1 039.65 nm范围内可以扫描得到176个波段的光谱数据信息, 为了降低数据处理量, 进行特征波长提取。 采用iVISSA、 CARS、 GAPLS、 IRIV及VCPA五种特征波长提取方法来消除冗余和噪声波长。
图4显示了五种方法选择特征波长的运行过程。 图4(a)为CARS算法筛选特征变量过程。 蓝色竖线所在位置表明, 在第28次采样时RMSECV最小得到15个特征波段, 说明在前27次采样中剔除了CAT活性无关的波长变量, 而在后23次采样中可能剔除了与CAT活性相关的关键变量[14], 唯有在第27次时模型的预测性能达到最优。 由图4(b)可知, 当VCPA采样次数为41时, RMSECV最低, 经过VCPA法筛选出的8个特征波长分别为: 372.66、 390.75、 408.89、 416.16、 419.79、 544.90、 653.71和665.07 nm。 VCPA运用二进制矩阵采样法(BMS)采样, 策略次数为50, 优秀子集所占比例为4.5%, 通过EDF压缩变量空间消除无关变量, 重要变量被最终选择的几率相对较大, 所以最终保留的变量较少。 当运用GAPLS算法提取CAT活性光谱特征波长时, 需要重复调试相关参数。 经过多次实验, 设置参数: 种群数=30; 交叉概率=50%; 变异概率=1%; 最大遗传因子=30; 迭代次数=100[15]。 当175个波长变量被选择时, RMSECV获得最小, 表明175个波长与CAT活性有强烈的相关性, 同时这175个波长也是特征波长的最优子集, 并作为最终的最优特征波长, 如图4(c、 d)所示。 采用iVISSA算法的迭代次数提取了87个条带, 各波长的采样权值随迭代次数的变化如图4(e)所示, 每个波长的权重系数经过15次迭代后基本保持不变, 得到最优波长子集。 基于IRIV算法提取特征变量的迭代过程如图4(f)所示, 设置IRIV最大主因子数为15, 交叉验证为5次。 当完成2次迭代时, 变量从176个快速减少到87个, 这是因为原始的176个变量中存在着较多非相关性的变量, IRIV在迭代初期便快速地过滤掉了这些非相关信息和干扰信息[16]。 当迭代到第5次时, 所有无效信息变量已被筛除掉, 最后经过反向消除得到特征变量38个, 占总光谱变量的21.6%。 随着迭代次数的增加, 由于大部分冗余变量已经被筛除, 因此剩余的变量个数逐渐趋于稳定。
由表4可知, 不同提取特征波长方法的对比, GAPLS提取的特征波长构建的CAT活性的PLSR模型相关系数高于其他几种算法, Rc=0.840, 但Rcv=0.718, Rp=0.744均低于IRIV。 而CARS法所提取波长的相关系数比GAPLS低很多, 可能由于CARS法所提取的特征波长较少, 这说明特征波长越多含有CAT活性含量相关的有效信息越多, 但是特征波长数过多数据在二次处理过程中也会损失一定有效信息并同时会引入一定的噪音[17]。 与此同时, IRIV的Rcv=0.769, Rp=0.793均高于其他方法, 且均方根误差低于其余几种算法, RMSECV=5.567, RMSEP=5.487, 所以IRIV法构建的模型有效性最优。
![]() | 表4 不同特征波长选择的PLSR模型 Table 4 The PLSR models based on different characteristic wavelengths selections |
为了选出最优的特征波长模型, 通过PCR、 MLR、 LSSVM以及CNN法提取的波长构建相应模型, 结果如表5所示。
![]() | 表5 不同建模方法对比分析 Table 5 Comparative analysis of the different modelling methods |
由表5可得, CNN所建立的CAT活性模型的相关系数Rc值高于其他模型, 其值为0.976, 由于CNN模型容易受到较多因素的影响, 且在实际环境中的泛化能力较差, 出现了过拟合的现象[18]。 而LSSVM的Rp值为0.506均低于MLR和PCR, 同时MLR均方根误差RMSEC、 RMSEP均低于PCR建模方法, 其值分别为5.066、 4.545。 除此之外, MLR的Rc和Rp之和最高, 综合分析MLR是四种建模方法中最优模型。 因此, 优选MLR模型结合IRIV法建立的CAT活性校正集模型, 如图5所示。
光照强度与植物生长有着密切关系, 研究发现T2处理下, 甜瓜叶片CAT、 POD、 SOD活性增加。 这可能因为甜瓜叶片生长在高光强环境中, 叶片光合器官产生的活性氧使膜脂过氧化程度加剧, 膜脂过氧化物产物MDA增加, 细胞受损, 叶片试图提高酶活性以减少高光强对植物体造成的伤害[19]。 此外, T3、 T4处理下发现CAT、 POD和SOD活性降低, 推测可能是高温强光胁迫下, 大量产生的ROS破坏了酶活性中心, 改变了酶的结构或者抑制了酶的表达, 致使抗氧化酶活性下降[20]。 与此同时, 对比CAT、 POD、 SOD活性差异, 其中CAT的活性值在不同处理中均呈现出显著性差异。 这可能由于CAT的独特结构使得其倾向于清除光胁迫下积累的H2O2, 光胁迫不仅会促进CAT的表达, 同时也会通过磷酸化等提高CAT的活性和稳定性[21]。 针对甜瓜叶片CAT活性建粒的荧光高光谱成像技术MLR-IRIV模型分析如下:
(1)光谱波段与甜瓜叶片CAT活性呈先上升后下降趋势, 通过对光谱曲线反射值的分析可以发现, 光谱曲线趋势相似。 在两个波峰处和一个波谷处荧光反射值有明显的差异, 这两个波峰分别在684和736 nm附近, 波谷在713 nm附近, 表明通过荧光光谱对甜瓜叶片CAT活性的研究是可行的。
(2)MLR模型结合IRIV法建立的甜瓜叶片CAT活性的预测模型最优, 提出了一种荧光光谱分析甜瓜叶片CAT活性IRIV-MLR的预测模型。 通过IRIV的变量选择结果消除MLR的无用变量, 首先运用IRIV进行强信息变量、 弱信息变量、 无信息变量和干扰变量分类, 根据强信息变量和弱信息变量再进行MLR波长选择, 以解决MLR筛选出的变量子集中可能包含一些无信息变量甚至干扰变量的问题[22], 结果表明IRIV-MLR模型优于其他算法, 提高了甜瓜叶片CAT活性预测精度, 简化了模型的复杂度。
在甜瓜叶片CAT活性的无损检测研究中, 将荧光光谱372.66~1 039.65 nm波长范围作为有效原始光谱, 对不同样本集分类方法进行分析判定, 最终确定KS法为最优样本划分方法。 其次采用多种预处理方法选出最佳预处理方法Baseline。 通过5种特征提取方法对原始光谱提取特征波长来达到降维的目的, 并建立相应的IRIV预测模型。 结果表明, 基于荧光光谱的MLR-IRIV模型对于甜瓜叶片CAT活性在不同光强处理下数据的预测结果最优, 其中Rc=0.852, RMSEC=5.066, Rp=0.852, RMSEP=4.545, 该研究为甜瓜种植过程中光强参数研究提供借鉴。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|