Gath-Geva联合模糊聚类的生菜近红外光谱聚类分析
武斌1, 周树斌2, 武小红3, 贾红雯1
1.滁州职业技术学院信息工程学院, 安徽 滁州 239000
2.江苏大学科技信息研究所, 江苏 镇江 212013
3.江苏大学电气信息工程学院, 江苏 镇江 212013

作者简介: 武 斌, 1978年生, 滁州职业技术学院副教授 e-mail: wubind2003@163.com

摘要

生菜的新鲜程度是影响生菜品质的最重要因素之一, 其主要取决于生菜的储藏时间, 因此, 对不同储藏时间的生菜进行准确鉴别具有重要研究价值。 由于不同储藏时间生菜的近红外光谱数据具有差异性的特点, 因而使用近红外为不同储藏时间的生菜进行鉴别分类是可行的。 通过将联合模糊C均值聚类(allied fuzzy c-means, AFCM)中的欧式距离测度替换为指数距离测度从而提出了一种GG联合模糊聚类(Gath-Geva AFCM, GGAFCM)分析算法。 GGAFCM通过迭代计算得到模糊隶属度值和典型值, 再结合近红外光谱实现了对不同存储时间生菜的高效精准鉴别。 以新鲜的生菜样本作为研究对象, 使用傅里叶近红外光谱仪(Antaris Ⅱ型)每隔12 h对生菜样本采集漫反射光谱数据, 光谱的波数范围介于10 000~4 000 cm-1之间。 首先, 通过主成分分析(principal component analysis, PCA)对采集到的1 557维生菜近红外光谱数据进行数据压缩将其降至22维, 然后通过模糊线性判别分析(fuzzy linear discriminant analysis, FLDA)对降维后的近红外漫反射光谱数据的鉴别信息进行提取。 设定鉴别向量数为2, 即通过FLDA将22维的生菜近红外光谱数据转换为了2维数据。 最后将模糊C均值聚类(fuzzy c-means, FCM)的聚类中心作为GGAFCM和AFCM的初始聚类中心, 通过运行FCM, GGAFCM和AFCM完成对不同储藏时间生菜的鉴别分类, 并对三种模糊聚类算法得到的聚类准确率、 模糊隶属度、 迭代次数进行分析。 实验结果表明: 在初始化条件相同的情况下, 采用的GGAFCM算法与FCM和AFCM算法相比具有更高的鉴别准确率。 在 m=2的情况下, GGAFCM的鉴别准确率达到了95.56%, 而AFCM的聚类准确率为91.11%。 GGAFCM迭代4次达到收敛, 而AFCM与FCM均需要8次迭代计算才能达到收敛。 基于近红外光谱技术, 通过GGAFCM结合PCA与FLDA算法可以高效快速且无损的完成对储存时间不同的生菜的准确鉴别分类, 为生菜储存时间的准确、 快速鉴别提供了实验依据和参考方法, 具有一定的实际应用价值。

关键词: 近红外光谱; 生菜; 储藏时间; 模糊线性判别分析; 指数距离测度; 模糊聚类
中图分类号:TP391 文献标志码:A
Gath-Geva Allied Fuzzy C-Means Clustering Analysis of NIR Spectra of Lettuce
WU Bin1, ZHOU Shu-bin2, WU Xiao-hong3, JIA Hong-wen1
1. School of Information Engineering, Chuzhou Polytechnic, Chuzhou 239000, China
2. Institute of Scientific and Technical Information, Jiangsu University, Zhenjiang 212013, China
3. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China
Abstract

The freshness of lettuce is one of the most important factors affecting the lettuce quality, and it depends on the storage time. Therefore, it has important research value to identify the lettuce samples with different storage time accurately. Because the near-infrared reflectance (NIR) spectra of lettuce with different storage time have different characteristics, it is feasible to use NIR technology to identify lettuce with different storage time. Gath-Geva allied fuzzy c-means (GGAFCM) clustering was proposed to replacing the Euclidean distance in allied fuzzy c-means (AFCM) clustering with the exponential distance. By iterative computations, GGAFCM can produce fuzzy membership and typical values, which combine with near-infrared reflectance spectroscopy (NIRS) to achieve the classification of the lettuce samples with different storage time accurately. The experiment was conducted on fresh samples of lettuce, which were collected with Antaris Ⅱ spectrometer every 12 hours. The spectral wavenumber ranges from 10 000 to 4 000 cm-1. At first, by principal component analysis (PCA), the 1 557-dimensional spectra of lettuce samples were compressed to the 22-dimensional data whose discriminant information was extracted by fuzzy linear discriminant analysis (FLDA). As a result, the 22-dimensional data were transformed into the two-dimensional data by FLDA with two discriminant vectors. At last, the cluster centers of fuzzy c-means (FCM) clustering acted as the initial cluster centers of both GGAFCM and AFCM, and lettuce samples with different storage time were identified by FCM, GGAFCM and AFCM whose clustering accuracies, fuzzy membership values and iterative times were analyzed. Experimental results indicated that with the same initialization conditions, the GGAFCM algorithm adopted in this study has higher discrimination accuracy than FCM and AFCM. In the case of m=2, the discrimination accuracy of GGAFCM reached 95.56%, while the clustering accuracy of FCM and AFCM was 91.11%. GGAFCM converged after 4 iterations, while both AFCM and FCM needed 8 iterations to reach convergence. Based on NIRS, GGAFCM combined with PCA and FLDA can efficiently, quickly and nondestructively complete the accurate identification of lettuce samples with different storage time. It provides the experimental foundation and reference method for accurate and rapid identification of lettuce storage time and has certain practical application value.

Keyword: Near-infrared reflectance spectroscopy; Lettuce; Storage time; Fuzzy linear discriminant analysis; The exponential distance; Fuzzy clustering
引言

生菜是最为常见的绿色蔬菜之一, 不仅为社会带来了极大的经济效益, 同时具有食用、 药用以及保健价值, 富含抗氧化成分(如抗坏血酸、 类胡萝卜素)、 膳食纤维以及矿物质元素(如钙和铁)等有益物质。 生菜有益健康且便于食用, 被消费者喜爱, 保障市场上生菜的新鲜品质就很有必要。 对于生菜的新鲜程度, 生菜的储存时间是重要的影响因素, 生菜储藏时间过长易积聚大量的硝酸盐以及微生物, 从而对人体健康构成潜在威胁。 因此, 对生菜的储藏时间实现高效精准的鉴别就十分必要。

近红外光谱技术是一种无损检测技术, 具有设备简单、 检测速度快且绿色环保的特点。 近年来, 近红外光谱技术以其优越的性能在食品、 农业、 石化等众多领域得到了广泛的应用[1, 2, 3]。 例如: Subedi等利用近红外光谱技术对鳄梨果实干物质(dry matter content, DMC)含量进行评估, DMC的增长率可以预测作物何时达到目标规格从而对果实的成熟度进行检测, 结果表明该技术可以用于确定果园区域的收获顺序[4]。 Mo等利用可见近红外和近红外高光谱成像技术对鲜切生菜生物污染物进行鉴别, 结果表明高光谱反射成像技术具有检测新鲜生菜蠕虫的潜力[5]。 Sun等基于高光谱成像技术对番茄叶片镉残留量进行研究与分析, 提出了一种涉及小波变换和最小二乘支持向量机回归的方法来选择最优波长并建立检测模型[6]。 Bert等利用可见/近红外反射光谱对野苣的前期贮藏期进行估算, 通过偏最小二乘回归将可见/近红外光谱与存储时间联系起来, 最终表明可见/近红光谱技术可以作为一种有价值、 快速和无损的方法来识别和量化野苣的前期贮藏期[7]。 Shubhangi等利用近红外光谱技术和分级聚类分析方法对昆虫侵染的水稻品种进行鉴定分析[8]。 近红外光谱技术结合主成分分析(PCA)与排序判别分析实现了对红富士、 花牛苹果的精准鉴别, 为苹果的鉴别分类提供了一种创新的方法思路[9]。 武小红等采用近红外光谱技术, 提出了一种模糊判别C均值聚类(fuzzy discriminant c-means, FDCM)算法完成了对苹果品种的鉴别分类, 证明了将近红外光谱与PCA和FDCM相结合聚类可以成功区分苹果品种的可行性[10]。 武小红等利用傅里叶变换近红外光谱和Adaboost-ULDA对猪肉贮藏时间进行了准确预测[11]

模糊聚类是非监督学习的最重要方法之一, 在常规聚类方面有明显优势。 模糊C均值聚类(FCM)算法、 可能性C均值聚类(possibilistic c-means, PCM)是经典的模糊聚类算法, 但都具有一定的局限性[12], PCM相比于FCM处理噪声性能更好, 但对初始值比较敏感, 而联合模糊C均值聚类(AFCM)将FCM与PCM结合起来, 能够同时产生隶属度和典型值, 在更好地处理噪声的同时, 避免了一致性聚类, 提高了聚类准确性[13]。 在基于欧式距离测度的AFCM基础上引入指数距离测度从而提出了一种GG联合模糊聚类(GGAFCM)分析算法, 并应用该算法进行不同储藏时间生菜的模糊聚类分析。

首先使用傅里叶近红外光谱仪采集不同储藏时间生菜样本的原始光谱, 然后经过主成分分析和模糊线性判别分析(FLDA)的数据降维处理和鉴别信息提取, 最终通过GGAFCM聚类算法实现对不同储藏时间生菜近红外漫反射光谱数据的聚类分析。 实验结果表明, 本方法可完成对不同储藏时间生菜的快速准确鉴别。

1 实验部分
1.1 生菜近红外漫反射光谱采集

共采集了60个生菜样本, 将其清洁处理后放入贴有标签的保鲜袋内, 而后置于5 ℃的冰箱内存储, 每隔一段时间将其取出进行近红外漫反射光谱检测, 检测时间间隔设定为12 h, 共计3次, 总获取180个生菜的近红外漫反射光谱。 采集光谱时, 实验室温度和相对湿度保持相对恒定。 AntarisⅡ 傅里叶近红外光谱分析仪开机预热1 h, 通过反射积分球模式采集生菜的近红外漫反射光谱, 扫描各生菜样品32次以获取样品的漫反射光谱均值。 光谱扫描波数范围介于10 000~4 000 cm-1之间, 扫描间隔是3.857 cm-1, 采集到的各个生菜样品的光谱为1 557维的数据。 为尽可能的减少实验误差, 对各样本采样3次, 取平均值作为后续研究所使用的最终实验数据。 采集到生菜样本的近红外漫反射光谱图如图1所示。

图1 生菜样本的近红外光谱图Fig.1 FT-NIR spectra of lettuce samples

1.2 指数距离测度模糊聚类算法描述

GG联合模糊聚类(GGAFCM)算法描述如下:

(1)初始化: 设置阈值ε > 0, 模糊加权参数m∈ (1, +∞ ), 系数a> 0, b> 0, 类别数为c; 确定最大迭代次数rmax, 并且初始迭代计数器r0=1; 运行模糊C均值聚类得到的模糊隶属度值和聚类中心值分别作为初始模糊隶属度值 uik(0)和初始聚类中心 vik(0);

(2)计算参数γ i

γi=det(Sfi(0))1nk=1nuik(0)Sfi(0)=k=1n(uik(0))m(xk-vi(0))(xk-vi(0))Tk=1n(uik(0))m, 1ic

式中, nc分别代表测试样本数据的数量和类别数。

(3)进行以下迭代计算直至收敛:

步骤1 计算距离测度

Dik=det(Sfi)1nk=1nuikexp12(xk-vi)(Sfi)-1(xk-vi)T

其中, Sfi=k=1n(uik)m(xk-vi)(xk-vi)Tk=1n(uik)m

步骤2 计算模糊隶属度

uik=j=1cDikDjk1m-1-1

步骤3 计算典型值

tik=exp-bDikγi, i, k

步骤4 计算聚类中心值

vi=k=1n(auikm+btik)xkk=1n(auikm+btik), i

vi是第i类的聚类中心值; 模糊隶属度值uik表示第k个样本xk属于类别i的模糊隶属度值; 典型值tik表示第k个样本xk属于类别i的典型值。

2 结果与讨论
2.1 生菜近红外光谱的降维处理与鉴别信息提取

采集到的生菜近红外光谱数据中包含了大量的冗余信息, 不利于后续的光谱分析, 需要对其进行降维压缩处理。 通过PCA将生菜光谱数据由1557维压缩至22维时的累积贡献率达到99.99%, 剔除光谱数据中绝大部分无用的冗余信息。 将生菜样本分为三种类型的储藏时间, 即“ 储藏时间1” 、 “ 储藏时间2” 、 “ 储藏时间3” , 其依次代表了第1次采集生菜近红外漫反射光谱, 再每隔12 h各采集一次生菜近红外光谱。 根据储藏时间的不同将生菜的光谱数据分为3类, 每类光谱数据60个, 共计180个生菜的近红外漫反射光谱数据。 从每类生菜样本中选取30个样本作为训练样本, 即训练集样本数为90个, 同样选取30个样本作为测试样本, 即测试集样本数为90个。 所有程序的设计和运行采用Matlab7.0软件。

而后通过模糊线性判别分析(FLDA)方法对降维的光谱数据进行特征提取以便于提取出有用的鉴别信息。 设置训练样本数为N1=90, 测试样本数为n=90, 权重指数m=2, 类别数c=3, 鉴别向量(由训练集样本计算得出)数为2, 经FLDA将22维的测试集样本投影到其鉴别向量上得到了新的测试样本, 其得分图如图2所示。 其中“ * , o, +” 分别代表了“ 储藏时间1” 、 “ 储藏时间2” 和“ 储藏时间3” 等三种类型的生菜数据。 观察得分图可知, 三类生菜测试样本中, “ 储藏时间1” 和“ 储藏时间2” 的生菜光谱数据存在部分重叠的现象, 而“ 储藏时间3” 的数据则与另外两类数据基本不存在重叠。 数据的部分重叠会使得生菜数据在分类时存在一定的误分类。

图2 FLDA得分图Fig.2 Scores plot of FLDA

2.2 模糊聚类分析

2.2.1 设置聚类分析初始参数

GGAFCM和AFCM的初始参数设置为: 测试集样本数为n=90, 模糊加权参数m=2, 系数a=1, b=1, 类别数c=3; ε =0.000 01; 最大迭代次数rmax=100, 初始迭代计数器r0=1; 对图2得到的二维光谱数据运行模糊C均值聚类(FCM), 将FCM得到的模糊隶属度值和聚类中心值分别作为GGAFCM和AFCM的初始模糊隶属度值和初始聚类中心。

2.2.2 生菜储藏时间鉴别分类

把经过FLDA处理后的新的测试样本数据作为模糊聚类分析的数据样本。 GGAFCM的模糊隶属度和典型值分别如图3和图4所示。 在权重指数均为m=2的情况下, 运行FCM后的模糊隶属度聚类准确率为91.11%, GGAFCM的模糊隶属度和典型值鉴别准确率均为95.56%, AFCM的模糊隶属度和典型值鉴别准确率均为91.11%。 可知, GGAFCM具有更高的鉴别准确率, AFCM与FCM的鉴别准确率相同。 GGAFCM迭代4次达到收敛, AFCM与FCM均为8次达到收敛。 GGAFCM收敛速度比AFCM和FCM更快。

图3 GGAFCM模糊隶属度值Fig.3 Fuzzy membership values from GGAFCM

图4 GGAFCM典型值Fig.4 Typical values from GGAFCM

3 结论

在联合模糊C均值聚类(AFCM)基础上引入指数距离测度从而提出GG联合模糊聚类(GGAFCM)分析算法。 GGAFCM算法相比于FCM和AFCM算法鉴别准确率更高。 实验结果表明: 使用近红外光谱技术对生菜进行检测, 结合主成分分析和模糊线性判别分析后, GGAFCM方法可对生菜存储时间实现高效、 精准的分类, 相比于FCM和AFCM具有明显更高的聚类准确率。

参考文献
[1] Matheus A C, Bruno B A, Larissa M S T, et al. Journal of King Saud University-Science, 2020, 32: 784. [本文引用:1]
[2] Ripoll G, Lobón S, Joy M. Meat Science, 2018, 143: 24. [本文引用:1]
[3] Wang J J, Zareef M, He P H, et al. Journal of the Science of Food and Agriculture, 2019, 99: 5019. [本文引用:1]
[4] Subedi P P, Walsh K B. Postharvest Biology and Technology, 2020, 161: 111078. [本文引用:1]
[5] Mo C, Kim G, Kim M S, et al. Infrared Physics & Technology, 2017, 85: 1. [本文引用:1]
[6] Sun J, Zhou X, Wu X H, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 212: 215. [本文引用:1]
[7] Bert A J G J, Bert E V, Els B, et al. Postharvest Biology & Technology, 2016, 113: 95. [本文引用:1]
[8] Shubhangi S, Gayatri M, Hari N M. Food Chemistry, 2018, 268: 402. [本文引用:1]
[9] Wu X H, Wu B, Sun J, et al. International Journal of Food Properties, 2016, 19(5): 1016. [本文引用:1]
[10] Wu X H, Wu B, Sun J, et al. Journal of Food Process Engineering, 2017, 40(2): e12355. [本文引用:1]
[11] Wu X H, Fu H J, Tian X Y, et al. Journal of Food Process Engineering, 2017, 40(6): e12566. [本文引用:1]
[12] Askari S, Montazerin N, Zarand i M H F. Applied Soft Computing, 2017, 53: 262. [本文引用:1]
[13] Wu X H, Zhou J J. Transactions of Nanjing University of Aeronautics & Astronautics, 2006, 23(3): 208. [本文引用:1]