作者简介: 翁士状, 1989年生, 安徽大学电子与信息工程学院副教授 e-mail: weng_1989@126.com;潘美静, 女, 1998年生, 安徽大学电子与信息工程学院硕士研究生 e-mail: p21301126@stu.ahu.edu.cn; 翁士状, 潘美静: 并列第一作者
苹果风味独特, 清脆可口, 深受全世界消费者的广泛喜爱。 糖度是衡量苹果品质的关键指标。 高光谱成像(HSI)由于含有丰富的图谱信息在糖度无损检测中有着广泛的应用前景, 然而仍面临仪器笨重昂贵、 操作耗时等问题。 光谱超分辨率(SSR)可通过建立映射关系从低光谱维度RGB图像获得对应高光谱维度HSI图像, 在HSI图像的高效获取上有着极大的优势。 因而, 将探索苹果RGB图像的SSR, 并基于SSR数据进行糖度预测。 首先, 选取大小均匀的苹果作为研究对象, 利用黑色哑光胶纸对感兴趣区域(ROI)进行标定。 采集苹果RGB图像和HSI图像后, 利用全局阈值法确定ROI并经过图像分割得到220个RGB-HSI图像对。 然后, 使用密集连接网络、 多尺度层级回归网络和Transformer网络实现苹果RGB图像的SSR。 最后, 提取SSR后图像的反射率光谱, 采用全光谱和竞争性自适应重加权选择后的有效波长光谱结合偏最小二乘回归(PLSR)、 随机森林(RF)和极限学习机(ELM)构建糖度预测模型。 结果表明, 基于Transformer网络 SSR结果最好。 在SSR预测集中, 平均相对绝对值(MRAESP)为0.135 9, 均方根误差(RMSESP)为0.026 2; SSR后方法的反射率光谱与真实光谱一致性最好。 在糖度预测的过程中, 全光谱下ELM模型预测效果最好, 预测集决定系数(
WENG Shi-zhuang and PAN Mei-jing: joint first authors
Apples have a unique flavor, crisp and delicious, and are widely loved by consumers worldwide. Soluble solid content (SSC) is an important internal quality indicator of apples. Hyperspectral imaging (HSI) has been widely used as a non-destructive tool to predict SSC in apples because it can simultaneously acquire spatial and spectral information. However, the widespread application of HSI is hindered due to expensive equipment and time-consuming operations. Spectral super-resolution (SSR) is an efficient way to acquire HSI images by establishing a mapping relationship from low spectral resolution images to corresponding high spectral resolution images. Hence, this study aims to adopt SSR to obtain HSI images from apples RGB images and use the hyperspectral data to predict the SSC of apples. Firstly, the apples of uniform size are selected as samples. Each apple is marked using the black grid matte paper to label the region of interest (ROI), and RGB and HSI images of apples are measured. Then, the global thresholding method generates 220 ROI image pairs of RGB and HSI. Secondly, a dense connection network, a multi-scale hierarchical regression network, and a Transformer network are used to achieve SSR of Apple RGB images to gain HSI images. Finally, the reflectance spectra of HSI images were extracted, and a competitive adaptive reweighted sampling algorithm was applied to obtain the spectra of effective wavelengths (EWs). Partial least squares regression (PLSR), random forest (RF), and extreme learning machine (ELM) are used to predict the SSC of apples by using the full spectra and spectra of EWs. The results show that the Transformer network achieves the best SSR with the mean relative absolute error (MRAESP) of 0.135 9 and the root mean square error (RMSESP) of 0.026 2 in the SSR prediction set, and the spectra obtained after SSR are most consistent with the ground truth. As for the full spectra, ELM provides the best prediction performance for SSC analysis with the coefficient of determination (
苹果由于营养丰富、 口感脆爽而深受人们的喜爱。 随着生活水平的提升, 人们对于苹果品质的要求越来越高。 其中, 糖度是衡量苹果品质的重要指标, 它不仅决定了苹果口感的好坏, 还关系到营养价值的高低。 传统糖度检测方法需要破坏果实, 过程繁琐且费时费力。 相比之下, 高光谱成像(hyperspectral imaging, HSI)可同时获取检测对象的光谱和图像信息, 具有表征信息丰富和无损检测等优点, 已广泛用于如苹果、 红提、 猕猴桃等果实糖度的检测[1, 2, 3]。 然而, 笨重昂贵的成像设备、 耗时的操作和复杂的数据处理严重限制了HSI的进一步应用拓展。 虽然一些研究改进与设计了新型成像系统, 如采用时间复用照明和双相机编码孔径快照成像等[4, 5], 仍难以解决成本高以及使用条件受限的难题。
近年来, 光谱超分辨率(spectral super-resolution, SSR)利用低光谱维度RGB图像获得对应高光谱维度HSI图像, 具有设备成本低、 操作方便等优势, 在HSI图像的高效获取方面具有巨大优势。 传统基于稀疏字典的SSR方法需要低-高维空间字典对, 依赖于特定的高光谱先验和RGB相机光谱响应曲线, 存在泛化能力差和超分精度低等问题[6]。 基于深度学习的SSR方法结合深度学习网络建模RGB-HSI图像对的端到端映射关系, 其中网络架构多采用卷积网络。 一些卷积网络结构被用来提升SSR成效: 残差块结构可以增加网络的深度, 更好地融合浅层信息与深层信息; 密集连接模块可以加强特征的传递, 解决梯度消失的问题[7]; 除此之外, 多尺度层级回归结构与卷积神经网络相结合, 也进一步提高了超分的精度[8]。 由于卷积网络在捕捉非局部自相似性和长距离依赖方面存在限制, 因而 SSR结果仍受到一定限制[9]。 Transformer网络中多头自注意力机制可以捕捉更加丰富的全局特征信息, 不再受限于固定的局部感受野, 而是能够同时考虑各个位置的信息, 在特征提取上有着更好的表征能力, 因此Transformer网络可以很好解决上述挑战。
因此, 利用Transformer网络实现苹果RGB图的SSR, 并结合超分后的HSI数据进行糖度检测。 首先, 分别采集苹果的RGB图像和HSI图像。 然后, 利用RGB-HSI图像对结合Transformer网络建立SSR模型完成苹果RGB图向HSI图的变换。 最后, 由所得HSI图提取的反射率光谱结合多元回归方法构建苹果糖度预测模型。
HSI图像采集系统由高光谱相机(SOC710-E, Surface Optics Corporation, San Diego, USA)、 RGB相机、 照明光源、 升降台、 果托和计算机组成, 如图1所示。 为避免外部杂散光线的干扰, 所有设备均放置于暗箱内部(计算机除外)。 高光谱相机设定的空间分辨率为696× 696像素; 涵盖了在374~1 030 nm波长范围内的260个波段。 SRANL710软件用于捕获和分析HSI图像。 RGB相机拍摄图像的空间分辨率为1 920× 1 080。 图像采集系统的照明光源由一对20 W的卤素灯组成。 糖度检测直接使用LH-B55数显糖度计。
以“ 红富士苹果” 为研究对象, 先后分批次购自山东烟台当地果园, 共选取外观颜色大体相同的健康苹果55个, 以提高实验的多样性与严谨性。 为保证实验的可靠性, 苹果赤道直径均控制约为75~80 mm。 采集数据前, 将样本提前放置到实验室环境中12 h, 使其温度与室温基本一致(20 ℃)。
为增加实验样本, 减少浪费, 利用2× 2正方形网格黑色胶纸将每个苹果划分为4个感兴趣区域(region of interest, ROI)。 图像采集完成后, 用消毒后的水果刀切割ROI的长和宽均为2 cm, 厚为2 cm的立方体果肉。 每次切割样本后, 需用无菌蒸馏水对水果刀进行冲洗, 以保证糖度测试的准确性。 最后, 将切割后ROI的果肉放入手动榨汁器, 挤压出2 mL左右的汁液, 均匀摇晃作为原始糖度测量样本。 使用LH-B55数显糖度计进行糖度测量。 用滴管取0.2 mL的果汁, 滴入仪器的棱镜槽中, 按“ 开始” 键进行测量, 仪器显示的结果记为该测量点的糖度。
(1)图像采集
测量之前, 打开仪器10 min使光照稳定。 为获得清晰且不失真的图像, 要确保移动相机物体与镜头之间的距离、 曝光时间和光源强度的匹配。 经过调整参数, 设定物体与镜头之间的距离及曝光时间分别为22 cm和8.04 ms。 为更好采集苹果实际形态, 将苹果放置在相机正下方升降台中心的果托上。 每拍完一张RGB图像后, 保持同一位置拍摄HSI图像。
(2)图像校正
为消除光源光谱功率分布, 以及减少摄像机暗电流对结果的影响, 原始HSI数据需要进行黑白归一化。 式(1)用于校正原始图像。
式(1)中, I是经过校准的图像; Ir是原始HSI图像; Iw是由反射率为99.9%的标准白板获得的白色参考图像; Id是通过关闭光源并用黑色盖子覆盖相机镜头获得的黑色参考图像。
(3)图像处理
首先, 对采集后的图像进行全局阈值法处理, 得到对应的苹果二值图像。 然后, 确定二值图像中ROI的质心, 并将二值图像应用掩膜于原始图像。 最后, 利用ROI质心的位置确定最小外部矩形, 完成对ROI的框选和裁剪。 保证裁剪后图像尺寸均为64× 64, 共生成220个RGB-HSI图像对。 图像处理基于Matlab 2020a(The Math Works, Natick, USA)软件。
(1)基于密集连接的SSR方法
在基于卷积神经网络光谱下采样投影恢复高光谱图像算法(CNN-based hyperspectral image recovery from spectrally under sampled projections, HSCNN)基础之上, 提出了基于密集连接的SSR方法HSCNN-D, 在特征提取时利用卷积层替换了频谱上采样操作, 由此避免了对未知光谱响应函数的依赖。 在特征映射的过程中, 利用路径加宽的融合方案, 使用了密集连接块代替了残差块, 缓解了残差网络增加网络深度带来的梯度消失的问题。 最后经过卷积层融合已处理的特征完成SSR。 虽然该方法能够更适当地学习映射关系, 但是在图像空间分辨率特征的应用仍然不足。
(2)基于多尺度层级回归网络的SSR方法
基于多尺度层级回归网络的SSR方法通过并行多分支网络提取不同尺度下的特征, 然后融合相应特征得到最终特征。 基于层级回归网络算法(hierarchical regression network, HRNet)为层间交互的四级回归网络。 首先利用PixelUnShuffle层对输入图像进行空间下采样, 使图像空间分辨率降低。 根据分辨率的高低分别从上至下作为层级输入。 下层低分辨率图像依次经过卷积层、 残差密集块和残差全局块提取出特征, 再利用PixelShuffle层对特征图完成上采样, 然后与上层高分辨率图像特征拼接, 再完成当层的特征提取[10]。 由于特征在底层较为紧凑, 需要在上采样前利用卷积层进行通道加权, 加强映射。 残差密集块连接方法, 有助于去除噪声和减少伪影。 残差全局块的应用使得从输入端跳过连接, 通过注意力机制来扩大感受野。 虽然基于多尺度层级回归网络的SSR方法能够提取不同尺度下的特征, 但是会造成运算量过大的问题。
(3)基于Transformer的SSR方法
多级光谱Transformer(multi-stage spectral-wise transformer, MST++)算法为基于Transformer的SSR方法, 将每一个光谱通道的特征图输入光谱多头注意力层进行计算响应值。 光谱注意块由光谱多头注意力层和前馈网络组成。 通过在光谱多头注意力层和前馈网络组成前面添加归一化层可以缓解梯度消失的问题, 加快网络的收敛。 然后, 利用U形网络结构将光谱注意块构建了一个单级光谱转换器, 由此更好地提取上下文信息。 最后, MST++将由多个单级光谱转换器级联, 从粗糙到精细逐步提高SSR质量。 基于Transformer的SSR方法具有优异的长距离依赖关系和全局信息捕捉能力。
1.5.1 有效波长光谱提取
建立苹果糖度预测模型时, 原始数据的全光谱波段数多并且波段间相关性高, 将全光谱输入模型将导致计算时间长以及预测精度较低。 通过有效波长光谱的提取可以减少大量的冗余信息和噪声, 提高建模的准确性和稳定性。 有效波长提取采用竞争性自适应重加权(competitive adaptive reweighted sampling, CARS)[10], 将筛选后的有效波长光谱作为模型输入。
1.5.2 回归建模方法
偏最小二乘回归(partial least squares regression, PLSR)[11]被广泛应用于化学计量学和光谱定量分析。 该方法结合主成分分析、 典型关联分析和多元线性回归三种方法, 有效地解决多重相关性问题。 利用样本的光谱数据作为自变量以及测量参考值作为因变量完成回归模型建立。
随机森林(random forest, RF)[12]是一种机器学习的统计方法, 通常应用于处理高维度数据。 该方法基于决策树的集成算法, 首先对原始样本随机选择样本子集, 然后在不同的样本子集上训练每个决策树, 最后对预测取平均以进行整体预测。
极限学习机(extreme learning machine, ELM)[3]是一种单隐层前馈神经网络, 具有速度快和参数调整简单的特点。 该方法可以随机初始化输入权重和偏移量并利用广义逆得到相应的输出权重。 在进行回归预测时, 需设置隐层节点数, 从而得到唯一最优解。
为了评估SSR的效果, 将220对苹果RGB图像与HSI图像按6∶ 5分为SSR训练集和SSR预测集, 即120对作为SSR训练集和100对作为SSR预测集。 采用平均相对绝对值误差(mean relative absolute error, MRAE)、 均方根误差(root mean square error, RMSE)和峰值信噪比(peak signal-to-noise ratio, PSNR)三个评价指标来评价模型性能。 分别采用MRAET、 RMSET、 PSNRT和MRAEP、 RMSEP来评价模型在SSR训练集和SSR预测集中的性能。 MRAE和RMSE计算公式如式(2)和式(3)
$\operatorname{RMSE}(Y, \hat{Y})=\sqrt{\frac{1}{N} \sum_{i=1}^{N}(Y[i]-\hat{Y}[i])^{2}}$(3)
其中, Y为真实高光谱立方体数据,
提取SSR预测集得到的HSI数据光谱反射率, 共得到100条光谱数据。 为了评估糖度回归的效果, 对光谱数据1∶ 4划分为回归训练集和回归预测集。 选用观测值与预测值之间的决定系数R2和均方根误差(root mean square error, RMSE)两种评价指标。 分别采用
采集图像前, 对实验样本张贴黑色哑光2× 2方格胶纸, 哑光材质可以减少反光。 通过人工标定确定ROI, 不仅可以增加样本量而且可以减少ROI配准。 采集图像后, 首先对原始RGB图像以及HSI伪RGB图像进行阈值化处理得到二值图像, 其中伪RGB图像为从HSI图像中抽取三个波段(468、 530以及703 nm)进行合成的图像。 然后采用二值图像掩膜至原始图像确定ROI质心, 最后根据质心位置完成ROI框选并完成裁剪, 得到样本图像。 为避免裁剪ROI区域内存在黑色区域, 保证裁剪后图像尺寸均为64× 64。 图2为ROI裁剪的过程。 经过图像处理后, 共生成220个RGB-HSI图像对作为训练模型的输入。
SSR可以从低光谱维度苹果RGB图像获得对应高光谱维度苹果HSI图像。 本工作使用基于密集连接的SSR方法、 基于多尺度层级回归网络的SSR方法和基于Transformer的SSR方法三种SSR方法。 在训练过程中, Epoch设置为300。 表1为不同SSR方法的结果。 经对比分析, HSCNN-D结果最差。 相比之下, HRNET结果略优, MST++在SSR结果中表现最好, 其MRAEST为0.121 1, RMSEST为0.021 7, PSNRST为33.961 7, MRAESP为0.135 9, RMSESP为0.026 2。 在三种SSR方法中基于Transformer的SSR方法MST++加强了全局信息的特征提取, 取得了最好的效果。
![]() | 表1 不同SSR方法的结果 Table 1 The results of different SSR methods |
选取三种SSR方法的结果以及真实值进行平均化处理, 得到SSR后反射率光谱与真实光谱对比图, 如图3所示。 在400~1 000 nm范围内, HSCNN-D与HRNET反射率光谱值比真实光谱值整体略高, MST++反射率光谱与真实光谱一致性更好。 在750~800与900~950 nm之间的波峰处SSR后的光谱值比真实值略低。 在三种SSR方法中, 基于Transformer的MST++的SSR效果最好。 通过学习RGB图像响应值与对应HSI图像光谱响应之间的映射关系来完成SSR。 同时, HSI图像也可以补充更多RGB图像的缺失细节信息。 RGB相机的拍摄图像波段范围为300~1 100 nm, 涵盖了SSR后HSI图像的光谱波段。 因此, 通过 SSR可以由苹果RGB图像低成本高效率得到HSI图像。
2.3.1 全光谱糖度回归建模
用全光谱作为输入, 采用PLSR、 RF以及ELM三种方法进行糖度预测, 结果如表2所示。 在糖度回归训练集中, PLSR模型和ELM模型表现较好。 其中PLSR模型的
![]() | 表2 利用全光谱糖度回归结果 Table 2 The regression results of SSC using full spectra |
2.3.2 有效波长光谱糖度回归建模
全光谱包含的信息冗余, 导致模型运算时间增加, 存在耗时久的问题。 采用CARS提取有效波长, 减少多余信息的干扰。 设定蒙特卡罗采样50次, 采用10折交叉验证, 设置有效波长光谱的变化范围为6~50, 计算PLSR模型的交叉验证均方根误差。 最终从全光谱中有效波长数由260个下降至42个, CARS提取的有效波长分布图4所示, 选择的波长如表3所示。
![]() | 表3 CARS提取的有效波长 Table 3 The effective wavelengths selected by CARS algorithm |
将提取后的有效波长作为糖度回归模型输入, 同样采用PLSR, RF以及ELM三种方法进行糖度预测, 结果如表4所示。 经过有效波长提取后, 模型预测结果均有提升。 从结果来看, ELM的模型效果最好,
![]() | 表4 利用提取有效波长糖度回归结果 Table 4 The regression results of SSC using effective wavelengths |
采用SSR的方法利用苹果RGB图像获得HSI图像并完成了苹果糖度的准确检测。 通过比较密集连接网络、 多尺度层级回归网络和Transformer网络三种不同SSR方法的结果, MST++获得了最佳的SSR效果, MRAESP为0.135 9, RMSESP为0.026 2; 同时SSR的反射率光谱与真实光谱重叠程度最高。 在糖度预测中, 利用全光谱并采用PLSR、 RF以及ELM构建模型进行了比较, 其中ELM模型预测最好,
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|