基于改进加权欧氏距离的光谱反射率重建样本选择方法研究
马媛, 李日浩, 张伟峰*
华南农业大学数学与信息学院, 广东 广州 510642
*通讯作者 e-mail: zhangwf@scau.edu.cn

作者简介: 马 媛, 女, 1997年生, 华南农业大学数学与信息学院硕士研究生 e-mail: 2236180296@qq.com

摘要

获取物体的光谱反射率是准确再现物体在各种光照条件下真实颜色的关键保证, 这对纺织服装、 出版印刷、 网络电商、 远程医疗等对颜色有较高要求的行业有重要作用。 光谱反射率重建的目的是利用训练样本建立数码相机等通用设备所获取的RGB三色值和光谱反射率高维向量间的映射关系, 从而避免使用分光光度计等专业设备所带来的成本高、 操作复杂、 分辨率低等问题。 训练样本的选择是影响光谱反射率重建算法效果的重要因素。 从物理角度看, 光谱反射率是一条关于波长的光滑曲线, 光谱反射率向量最大的相关性特征就是其光滑性, 因此, 训练样本的选择应同时考虑空间距离和形状的相似性。 针对局部学习方法中局部样本选择问题, 提出一种能同时考虑光谱反射率向量形状相似和空间距离相近的更加有效的训练样本选取方法, 以提高光谱反射率重建的精度。 该方法利用待测样本与训练样本之间的加权欧氏距离与向量夹角距离结合后赋予不同权重作为相似性度量, 根据样本容量动态地选出相似度较高的样本。 实验以孟赛尔半光泽数据集(munsell matte)为样本集, 基于伪逆法进行光谱反射率重建, 以光谱均方根误差和色差为评价指标, 与加权欧氏距离方法从样本选择的有效性和重构精度两方面进行比较。 实验结果表明, 基于改进加权欧氏距离的样本选择, 能够在保证均方误差最小的条件下, 显著降低色度误差, 同时添加不同噪声水平后, 文中方法的均方根误差和平均色差依旧保持最小, 该方法能够更好地利用局部样本的信息, 而且具有较好的抗干扰能力, 可以有效地提高光谱反射率重建的实际应用效果, 进而为颜色的真实再现提供保障。

关键词: 光谱反射率重建; 样本选择; 改进加权欧氏距离
中图分类号:TS801.3 文献标志码:A
Research on the Training Samples Selection for Spectral Reflectance Reconstruction Based on Improved Weighted Euclidean Distance
MA Yuan, LI Ri-hao, ZHANG Wei-feng*
School of Mathematics & Informatics, South China Agricultural University, Guangzhou 510642, China
*Corresponding author
Abstract

Obtaining the spectral reflectance of an object is the key to accurately reproducing an object's true color under various lighting conditions, which plays an important role in industries with high color requirements, such as textiles and clothing, publishing and printing, online e-commerce, telemedicine, etc. The purpose of spectral reflectance reconstruction is to use training samples to establish the mapping relationship between RGB trichromatic values and high-dimensional vector of spectral reflectance obtained by general equipment such as digital cameras to avoid the problems of high cost, complex operation and low resolution caused by the use of a spectrophotometer and other professional equipment. Due to the limitation of uneven or inconsistent training sample distribution, the selection of training sample sets greatly impacts the spectral reflectance reconstruction processes. The representative color samples selection for local learning-based spectral reflectance reconstruction are discussed in this paper. From a physical point of view, the spectral reflectance vector is a smooth curve, and the selection of training samples should consider both the spatial distance and the similarity of the shape. A method based on improved weighted Euclidean distance is proposed for sample selection. The weighted Euclidean distance between the testing sample and the training sample is combined with the vector angle distance, and different weights are given as the similarity measure, which aims to ensure the similarity between training samples and target samples. The experimental results show that the proposed method can significantly reduce the chromaticity error while ensuring the minimum root mean square error. Moreover, after adding noise, it maintains the minimum root mean square error and chromaticity error, showing the method has good generalization performance.

Keyword: Spectral reflectance reconstruction; Sample selection; Improved weighted Euclidean distance
引言

颜色是人们观察和理解事物的重要信息, 但它并非是固定不变的, 而是人眼对特定环境下光刺激的视觉感受。 物体的真实颜色是由其表面的光谱反射率决定[1], 即对照射在它上面的不同波长的可见光反射的光通量与入射的光通量之比。 获取光谱反射率的专用仪器价格昂贵、 步骤繁杂缓慢、 空间分辨率低, 使得其无法满足广泛的应用需求。 因此利用民用设备如相机、 扫描仪等进行光谱反射率重建的问题得到了广泛的关注与研究, 如壁画艺术品的颜色复原[2]等。

光谱反射率重建可以看作是利用训练样本找到相机的RGB三维响应值向量与对应的高维光谱反射率向量间的映射关系, 这是一个病态的反问题。 重建算法中训练样本的选择至关重要, 从样本的使用角度可以分为全局学习方法[3, 4, 5, 6, 7]和局部学习方法[8, 9], 前者利用所有训练样本构建适用于所有待测样本的单一映射模型, 其存在的问题是严重依赖于大量分布较好的训练样本, 而在实际情况中较难满足。 有学者研究从全部训练样本中选择最有代表性的样本来克服样本分布偏差问题, 如Hardeberg等[5]提出了比较所选训练样本的光谱反射率矩阵的最大最小奇异值之比的最小条件数法; Mohammadi等[6]提出了基于光谱空间距离进行聚类的方法; Shen等[7]提出了特征向量和虚拟成像结合的方法, 通过最小化总反射率均方根误差来选择样本。 局部学习方法根据每个待测样本挑选一组局部训练样本构建独立的映射模型, 这种方法模型简单且自适应能力强, 具有良好的泛化能力, 适用性更广。 局部学习方法中的局部样本选择方法是一个重要的研究问题, 最常见的局部样本选择方法是基于向量夹角距离, 曾茜等[8]提出了将向量夹角大小作为待测样本与训练样本的相似度度量, 其出发点是考虑光谱向量的形态信息; 任澳等[9]提出了基于加权欧氏距离来选取训练样本, 目的是克服欧氏距离不同维度度量的影响。 上述局部样本选择方法都为了达到少而精的效果, 挑选出具有典型代表性的样本, 但都没有同时考虑光谱反射率向量空间与色彩空间的信息, 仅考虑了单一的一种空间, 并不是最优的样本选择方法。 光谱反射率向量是一条光滑的曲线[10], 训练样本的选择应该既要考虑光谱反射率空间距离相近, 也要考虑光谱反射率向量形状相似, 针对曾茜等提出的向量夹角距离忽略了光谱反射率向量空间距离的相近和任澳等提出的加权欧氏距离忽略了光谱反射率中形状的相似性, 本文提出一种改进加权欧氏距离, 该距离可以同时满足以上两个光谱特性来进行光谱反射率重建, 同时兼顾欧氏空间与色度空间的精度, 实验结果表明本文方法能更有效且全面地利用信息, 提高重建精度。

1 光谱反射率重建问题

相机成像的数学模型可以表示为

Pi=λR(λ)E(λ)Qi(λ)dλ+δi(1)

式(1)中: i为相机成像的第i个通道, i=1, 2, 3分别表示相机成像的RGB三个通道; Pi为相机成像的第i个通道的输出值; R(λ )为物体表面在波长为λ 下的光谱反射率; E(λ )为光照条件在波长为λ 下的光谱能量; Qi(λ )为相机第i个通道在波长为λ 下的光谱感应值; δ i为第i个通道的系统噪声。 通常, 在可见光波长范围400~700 nm按10 nm等间距采样得到一个列向量为31× 1的光谱反射率y。 因此式(1)可以用离散形式表示为

x=My+δ(2)

式(2)中: x为相机生成的3× 1 RGB响应值向量; M为3× 31的光谱响应矩阵, 该矩阵包含了成像环境的先验信息, 即传感器的光谱感应度信息和光照的光谱能量信息; y为31× 1的光谱反射率向量; δ 为3× 1的系统噪声向量。

式(2)的逆过程称为光谱反射率重建, 即通过RGB响应值x估计出对应像素点的光谱反射率向量 y^, 使得 y^尽可能的接近真实的光谱反射率y, 见式(3)

y^=Cx(3)

式(3)中: y^为重建的光谱反射率; C为RGB响应值到重建光谱反射率的转换矩阵, 由于光谱响应矩阵信息较难获得, 所以该转换矩阵的求解一般是由一组训练样本的RGB响应值矩阵Xtrain和光谱反射率矩阵Ytrain通过相应算法获得, 目前常用的算法有有限维法[4]、 伪逆法[8]、 主成分分析法[11]等方法。 通常, 使用计算过程简单的伪逆法重建光谱反射率, 其方法见式(4)

y^=Ytrain[Xtrain]-1xtest(4)

式(4)中: y^为重建的光谱反射率向量; Ytrain为已知训练样本的光谱反射率矩阵; []-1为伪逆符号; Xtrain为训练样本的RGB响应值矩阵; xtest为测试样本的RGB响应值向量。

2 样本选择的方法

训练样本的选择对光谱重建的效果至关重要, 从式(4)可见, 光谱重建的结果 y^可以看作训练样本的光谱反射率向量的线性组合, 因此训练样本的选择原则上要尽可能和待测样本的光谱曲线接近, 这里的接近既要保证在空间距离上的接近, 也就是能量的接近, 又要保证在曲线形态上的接近, 也就是色度学上的接近。

2.1 向量夹角方法

曾茜等[8]提出了利用待测样本与训练样本之间的向量夹角距离大小判断两者间的相似度, 进而筛选出更有效的样本重建光谱反射率, 如式(5)所示

ei=arcsinabi|a||bi|, (i=1, 2, , l)(5)

式(5)中: a为待测样本向量; bi为第i个训练样本向量; l为训练样本集的数量; ei为待测样本与第i个训练样本的相似度。 将向量夹角大小作为相似度, 选取前p个构成矩阵形式的色差值权重e[8], 见式(6)

e=e1000e20000epp×p(6)

将权值e赋予训练样本后得到重构的光谱反射率 y^[8], 见式(7)

y^=Ystraine[Xstraine]-1xtest(7)

式(7)中: Ystrain为前p个与测试样本相似度较高的训练样本子集的光谱反射率向量, Xstrain为对应的RGB响应值向量。 该训练样本选择方法仅考虑了光谱反射率向量中曲线形态的信息, 却忽略了光谱反射率向量空间距离的相近信息。

2.2 加权欧氏距离方法

最经典的基于欧氏距离的训练样本选择方法只考虑了直线距离的接近, 没有考虑每个维度上样本分散程度的影响, 为了改善这一问题, 任澳等[9]提出了加权欧氏距离来选取训练样本, 如式(8)所示

d1=k=13uk-vksk2(8)

式(8)中: d1为三维待测样本RGB向量u(u1, u2, u3)与训练样本RGB向量v(v1, v2, v3)的加权欧氏距离; sk为第k维的标准差。 该方法避免了数据各维度之间尺度不一致问题, 首先, 将各维度标准化使其满足标准正态分布, 其次, 将加权欧氏距离作为相似度并进行排序, 最后, 选取前p个相似性较高的训练样本子集并对训练样本给予不同大小的权重, 缩小欧氏距离较远的样本在重建时的影响, 该方法可以提高光谱重建的效果, 但是却忽虑了光谱反射率向量曲线形态上的接近。

2.3 本文方法

针对以上两种方法均单一地考虑光谱反射率空间距离的相近或光谱反射率曲线形状的接近, 于是提出了一种基于改进加权欧氏距离的光谱重建训练样本选择方法, 其原理是既考虑光谱反射率空间距离的接近, 又考虑曲线形状上的接近。

首先, 式(9)是计算待测样本向量a=(z1, z2, z3)与所有训练样本向量bi=(xi1, xi2, xi3)之间的夹角余弦

Ci=abi|a||bi|, (i=1, 2, , l)(9)

然后, 考虑到光谱反射率向量可以看成31维向量, 其实质是一条光滑的曲线, 为了筛选出与待测样本曲线形状更相似的训练样本, 于是, 将该夹角余弦转换为具有几何距离意义的距离d2, 目的是为了让其与加权欧氏距离在同一个量纲下进行结合, 见式(10)

d2=|bi|1-Ci2(10)

为了选择与待测样本相似度更高的训练样本, 本文结合加权欧氏距离d1, 提出改进加权欧氏距离d, 见式(11)

d=gd1+hd2(11)

式(11)中: g, h的值是由经验给定, 以均方根误差最小为目的进行调参, 经过多次实验分析, 发现当g=5, h=2时重构误差最小, 在之后实验中, 均使用此参数。 本文权值函数e依照相似度d考虑到距离越近赋予的权重越大, 见式(12)

e=11+d(12)

2.4 三种样本选择方法在RGB中的图示比较

从图1(a— c)可以直观地看出在RGB空间中曾茜方法的向量夹角距离仅单一地考虑了光谱反射率向量形状的相似, 任澳方法的加权欧氏距离仅单一地考虑了光谱反射率向量空间中距离的相近, 而本文提出的改进加权欧氏距离, 该距离既考虑了光谱反射率曲线空间距离的接近, 又考虑光谱反射率曲线形状上的接近, 以这种改进的距离选择出最优的训练样本, 可以在保证光谱均方根误差最小的条件下, 显著降低色度误差, 提高光谱重建精度。

图1 在RGB中不同样本选择方法的图示比较
(a): 曾茜方法; (b): 任澳方法; (c): 文中方法
Fig.1 Graphical comparison of different sample selection methods in RGB
(a): Zeng Qian's method; (b): Ren Ao's method; (c): The proposed method

3 实验结果与讨论

选用孟赛尔半光泽数据集(Munsell Matte), 该数据集来源于芬兰约恩苏大学[12], 其中包含了1269块在可见光波长范围内等距采样获得的31维光谱反射率样本向量。 光谱反射率对应的RGB响应值为模拟Sony DXC-930 3CCD相机的光谱敏感曲线[13], 使用CIE D65标准光照, 进行数值模拟并经标准化变换到区间[0, 1]上。 为了确保实验的客观性与真实性, 文中对数据集进行了随机采样的两组实验, 如图2所示, 实验一为首先随机选出1 100个样本, 再从中随机抽取200个作为测试样本, 剩余的900个作为训练样本, 通过使测试样本均方误差最小来选择模型最优参数, 并将数据集剩余的169个作为验证样本来检验光谱重建的效果; 实验二为考虑噪声影响的情况, 给RGB响应值分别添加标准差为0.01与0.001的高斯随机噪声, 模拟出有噪声数据, 随机选出800个样本, 将其分为600个训练样本和200个测试样本, 剩余的369个作为验证样本进行光谱重建效果的比较。

图2 数据集分配Fig.2 Data set allocation

实验结果的对比使用均方根误差RMSE和色度误差Δ Eab, 见式(13)和式(14)。

RMSE=y^-y231(13)

ΔEab=(ΔL)2+(Δa)2+(Δb)2(14)

式中: y^为估计的光谱反射率向量; y为测试集对应的真实光谱反射率向量; L通道表示亮度信息; a通道表示颜色从红到绿的过度信息; b通道表示颜色从绿到蓝的过度信息。

3.1 样本选择的效果

为了更加直观地验证文中方法样本选择的效果, 随机挑选4个验证样本进行重构, 得到光谱反射率曲线以及误差曲线, 图3(a— d)中可以看出, 文中方法重建的光谱反射率与实际的基本吻合, 其中样本8#、 41#、 113#, 曲线十分接近, 效果较好, 除了样本130#曲线尾部重建效果稍微逊色一点。 图3(e— h)直观地展示了文中方法重建的光谱反射率误差与理想误差基本接近, 除了样本130#曲线只有尾部误差波动幅度稍大, 其他波段几乎重合。 由此说明文中的方法重建的样本与实际测量数据更接近, 重建效果更佳。

图3 重构光谱反射率曲线及误差波动曲线的比较
(a): 样本8#; (b): 样本41#; (c): 样本113#; (d): 样本130#; (e): 8#样本反射率误差; (f): 41#样本反射率误差; (g): 113#样本反射率误差; (h) 130#样本反射率误差
Fig.3 Comparison of reconstructed spectral reflectance curve and error fluctuation curve
(a): Sample 8#; (b): Sample 41#; (c): Sample 113#; (d): Sample 130#; (e): 8# sample reflectance error; (f): 41# sample reflectance error; (g): 113# sample reflectance error; (h) 130# sample reflectance error

3.2 重建光谱反射率精度比较

表1可以看出, 在两种实验条件下, 文中方法的光谱平均均方根误差和平均色差均是最小的, 从实验一的平均色差降低到0.587 9, 最大色差为4.511 6, 色差的标准差为0.584 9, 平均均方根误差降低到0.009 8, 最大均方根误差为0.048 8, 均方根误差的标准差为0.009 3, 本文的方法在保证均方根误差最小的条件下, 重建后的色度误差有明显地降低; 实验二的平均色差降低到0.689 2, 最大色差为16.378 5, 平均均方根误差降低到0.011 3, 最大均方根误差为0.109 1。 从实验一与实验二的结果可以看出来训练样本集最大误差会相对小一点, 这是因为训练样本与测试样本可以筛选出更接近的样本。 相比任澳方法, 该方法在保证均方根误差最小的条件下, 能够显著地降低色度误差, 光谱反射率的重建精度有了大幅度地提升。 为了考虑采集颜色数据中的噪声, 本文给RGB数据在三个通道添加噪声分别为均值为0, 标准差为0.01和0.001的高斯噪声, 从表2中可以看出, 添加噪声后, 文中方法的光谱平均均方根误差和平均色差依旧保持最小, 说明该方法能够更好的利用局部样本的信息, 而且具有较好的抗干扰能力, 根据改进距离的大小从而施加不同的权重, 对模型进行修正, 因此, 基于改进加权欧氏距离选择样本的重建光谱精度明显提高。

表1 2种局部样本选择方法的重建精度比较 Table 1 Comparison of reconstruction accuracy of two local sample selection methods
表2 不同噪声对2种局部样本选择方法的重建精度比较 Table 2 Comparison of reconstruction accuracy of two local sample selection methods with different noises
4 结论

针对光谱反射率重建中如何选择更有效的训练样本问题, 基于向量夹角距离仅考虑光谱反射率向量形状的相似, 与加权欧氏距离仅考虑光谱反射率向量空间距离的相近, 本文提出了改进加权欧氏距离, 该距离同时考虑了光谱反射率向量形状的相似与空间距离的相近, 与待测样本越相似的训练样本施加较大的权重, 在光谱重构精度与样本选择的效果两方面进行对比分析。 实验结果表明本文的方法重建光谱反射率的平均色差与平均光谱均方根误差均最小, 尤其在保证均方根误差最小的条件下, 显著地降低了色度误差, 不仅能够充分利用样本信息, 而且在添加噪声后依旧保持最小均方根误差与色度误差, 具有较好的抗干扰能力, 较显著地提高了色度精度与光谱精度, 能够更好地满足颜色的真实再现。

参考文献
[1] Wang W Z, Deng N, Xin B J. Optik, 2020, 208: 164491. [本文引用:1]
[2] WANG Ke, WANG Hui-qin, YIN Ying, et al(王可, 王慧琴, 殷颖, ). Laser Technology(激光技术), 2019, 43(2): 280. [本文引用:1]
[3] Heikkinen V. IEEE Transactions on Image Processing, 2018, 27(7): 3358. [本文引用:1]
[4] Dai D Q, Zhang W F. Journal of the Optical Society of America A, 2008, 25(9): 2286. [本文引用:2]
[5] Hardeberg J Y, Schmitt F, Brettel H, et al. Optical Engineering, 2002, 41(10): 2532. [本文引用:2]
[6] Mohammadi M, Nezamabadi M, Berns R S, et al. //12th Color Imaging Conference, Color Science and Engineering Systems Technologies, Application Scottsdale 2004: 59. [本文引用:2]
[7] Shen H L, Zhang H G, Xin J H, et al. Applied Optics, 2008, 47(13): 2494. [本文引用:2]
[8] ZENG Xi, KONG Ling-jun, ZHAN Wen-jie (曾茜, 孔玲君, 占文杰). Packaging Engineering(包装工程), 2018, 39(15): 216. [本文引用:5]
[9] REN Ao, KONG Ling-jun, LIU Zhen, et al(任澳, 孔玲君, 刘真, ). Packaging Engineering(包装工程), 2020, 41(15): 253. [本文引用:3]
[10] van Trigt C V. Journal of the Optical Society of America A, 1990, 7(10): 1891. [本文引用:1]
[11] LI Chan, WAN Xiao-xia, LIU Qiang, et al(李婵, 万晓霞, 刘强, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(5): 1400. [本文引用:1]
[12] Spectral Color Research Group, University of Eastern Finland , http://www.uef.fi/web/spectral/-spectral-database. [本文引用:1]
[13] Barnard K, Martin L, Funt B, et al. Color Research & Application, 2002, 27(3): 147. [本文引用:1]