模糊非相关鉴别C均值聚类的茶叶傅里叶红外光谱分类
武小红1,2, 翟艳丽1, 武斌3, 孙俊1,2, 戴春霞1,4
1. 江苏大学电气信息工程学院, 江苏 镇江 212013
2. 江苏大学机械工业设施农业测控技术与装备重点实验室, 江苏 镇江 212013
3. 滁州职业技术学院信息工程系, 安徽 滁州 239000
4. 江苏大学食品与生物工程学院, 江苏 镇江 212013

作者简介: 武小红, 1971年生, 江苏大学电气信息工程学院副教授 e-mail: wxh_www@163.com

摘要

茶是一种让人喜爱的健康饮品, 不同品种的茶叶其功效和作用是不相同的。 研究出一种可靠、 简单易行、 分类速度快的茶叶品种鉴别方法具有重要的意义。 在模糊非相关判别转换(FUDT)算法和模糊C均值聚类(FCM)算法的基础上提出了一种模糊非相关鉴别C均值聚类(FUDCM)算法。 FUDCM可以在聚类过程中动态提取光谱数据的模糊非相关鉴别信息。 用FTIR-7600型傅里叶红外光谱分析仪分别采集优质乐山竹叶青、 劣质乐山竹叶青和峨眉山毛峰三种茶叶的傅里叶中红外光谱, 波数范围为4 001.569~401.121 1 cm-1。 先用多元散射校正(MSC)进行光谱预处理, 然后用主成分分析法(PCA)将光谱数据降维到20维, 再利用线性判别分析(LDA)提取光谱数据中的鉴别信息。 最后分别运行FCM和FUDCM进行茶叶品种鉴别。 实验结果表明: 当权重指数 m=2时, FCM的聚类准确率为63.64%, FUDCM的聚类准确率为83.33%; FCM经过67次迭代计算实现了收敛, 而FUDCM仅需17次迭代计算就可以实现收敛。 用傅里叶红外光谱技术结合主成分分析、 线性判别分析和FUDCM的方法能快速、 有效地实现茶叶品种的鉴别分析, 且鉴别准确率比FCM更高。

关键词: 红外光谱; 茶叶; 主成分分析; 模糊非相关判别转换; 模糊C均值聚类
中图分类号:O657.3 文献标志码:A
Classification of Tea Varieties Via FTIR Spectroscopy Based on Fuzzy Uncorrelated Discriminant C-Means Clustering
WU Xiao-hong1,2, ZHAI Yan-li1, WU Bin3, SUN Jun1,2, DAI Chun-xia1,4
1. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China
2. Key Laboratory of Facility Agriculture Measurement and Control Technology and Equipment of Machinery Industry, Jiangsu University, Zhenjiang 212013, China
3. Department of Information Engineering, Chuzhou Vocational Technology College, Chuzhou 239000, China
4. School of Food and Biological Engineering, Jiangsu University, Zhenjiang 212013, China
Abstract

Tea, as a kind of healthy drink, is loved by many people. But its function and effect vary from different varieties. Therefore, it is of great significance to find a fast, easy and simple method for the identification of tea varieties. In order to classify different tea varieties quickly and accurately, fuzzy uncorrelated discriminant c-means clustering algorithm (FUDCM) was proposed based on the fuzzy uncorrelated discriminant transformation (FUDT) algorithm and fuzzy c-means clustering (FCM) algorithm in this paper. FUDCM can extract the fuzzy uncorrelated discriminant information from spectral data dynamically in the process of fuzzy clustering. To start with, Fourier transform infrared spectroscopy (FTIR) data of three kinds of tea samples (i. e. Emeishan Maofeng, high quality Leshan trimeresurus and low quality Leshan trimeresurus) was collected using FTIR-7600 spectrometer in the wave number range of 4 001.569~401.121 1 cm-1,. Secondly, multiple scattering correction (MSC) was applied to preprocess these spectra. Thirdly, principal component analysis (PCA) was employed to reduce the dimensionality of spectral data from 1 868 to 20 and linear discriminant analysis (LDA) was used to extract the identification information of the spectral data. Finally, FCM and FUDCM were performed to identify the tea varieties respectively. The experimental results showed that when the weight index m=2, the clustering accuracy rate of FCM was 63.64% and that of FUDCM was 83.33%. After 67 iterations, FCM achieved convergence while FUDCM did that after only 17 iterations. Tea varieties could be quickly and efficiently identified by combining FTIR technology with PCA, LDA and FUDCM, and the identification accuracy of FUDCM was higher than that of FCM.

Keyword: Infrared spectroscopy; Tea; Principal component analysis; Fuzzy uncorrelated discriminant transformation; Fuzzy c-means clustering
引 言

茶叶中含有茶多酚, 茶多糖和茶氨酸等有益人体健康的物质。 我国民间有饮茶风俗, 茶文化一度风靡全国。 目前, 市场上茶叶品种众多, 人们都希望喝到放心的好茶, 茶叶质量的重要性已渐渐被人们所重视[1]。 但是, 市场上茶叶良莠不齐, 其优劣难以分辨。 另外, 假冒伪劣的茶叶在市场上屡见不鲜。 这些都给茶叶生产者和消费者带来一定的利益损害。 因此, 研究出一种快速有效的鉴别茶叶品种的方法十分重要。

红外光谱技术作为一种无损检测技术, 近年来, 已经在农产品和食品检测等领域得到广泛应用[2]。 例如: 杨新河等利用傅里叶红外光谱法对黑茶进行鉴别研究[3]。 Ayvaz等用便携式中红外系统收集马铃薯汁的中红外光谱, 利用归一化和Savitzky-Golay二阶多项式滤波器进行光谱预处理, 再用偏最小二乘回归(PLSR)建立校正模型预测七种不同颜色马铃薯的花青素, 酚醛物质和糖含量[4]。 张荣香等用以傅里叶红外光谱仪采集茶叶的红外光谱, 应用特征基理论对茶叶光谱提取特征信息, 实现了对重度发酵茶和非重度发酵茶的分类以及普洱熟茶和非普洱熟茶的识别[5]。 Cai等利用傅里叶红外光谱结合偏最小二乘和自组织神经网络对七种茶叶进行分类研究[6]。 李栋玉等用傅里叶变换红外光谱仪获得普洱熟茶在不同陈化时间的中红外光谱, 通过曲线拟合能反映茶多酚等化学成分的变化情况。 Mecozz等利用傅里叶红外光谱, 二维相关分析和双二维相关分析研究了精油对蚕豆的蛋白质二级结构所造成的影响[7]。 Kokalj等利用中红外光谱和多变量数学方法对药草茶的鉴定进行了一系列研究, 得出了高准确率的分类结果[8]

傅里叶红外光谱通常是高维的复杂数据[9], 计算量大, 需要经过特征提取以降低数据维数和提取有用的特征信息。 常用的特征提取方法有主成分分析(PCA)[10], Fisher线性鉴别分析(LDA)[11], Foley-Sammon线性鉴别分析(FSDA)[12]和非相关线性鉴别转换(UDT)[13]。 用UDT可以计算得到一组最优的非相关鉴别矢量, 数据在它们的投影是非相关的。 模糊非相关判别转换(FUDT)是将模糊K近邻法和UDT相结合, 建立在模糊集理论上的模糊特征提取方法[14]。 我们在模糊C均值聚类(FCM)和FUDT的基础上, 提出模糊非相关鉴别C均值聚类(FUDCM)算法。 FCM在聚类时是不能提取特征的, 而FUDCM可以在聚类过程中提取光谱数据的模糊非相关鉴别信息。 实验结果表明, 在处理茶叶红外光谱的分类方面FUDCM效果要优于FCM。

用傅里叶红外光谱分析仪采集三种茶叶的傅里叶红外光谱, 利用多元散射校正(MSC)对茶叶的红外光谱进行预处理, 然后用主成分分析法对茶叶红外光谱进行维数压缩, 最后分别用FCM和FUDCM进行聚类分析。 由聚类结果可知, 傅里叶红外光谱结合FUDCM可实现快速有效的茶叶品种鉴别。

1 茶叶傅里叶红外光谱采集

分别采集优、 劣质乐山竹叶青和峨眉山毛峰三种茶叶各32个样本, 样本总数为96。 将这96个样本研碎后用40目筛进行过滤, 然后每个样本均取0.5 g粉碎物与溴化钾按照1∶ 100的比例均匀搅拌混合, 每个样本取1 g混合物压膜。 在室温约为25 ℃左右用FTIR-7600型傅里叶红外光谱分析仪收集茶叶样本的傅里叶中红外光谱。 扫描次数为32次/样本, 扫描的波数范围为4 001.569~401.121 1 cm-1, 扫描间隔为1.928 5 cm-1。 采集每个茶叶样本中红外光谱三次, 其平均值作为光谱原始数据, 该数据的维数是1 868维。 茶叶样本的傅里叶中红外光谱图见图1所示。

图1 茶叶样本的傅里叶红外光谱图Fig.1 FTIR spectra of tea samples

2 模糊非相关鉴别C均值聚类算法描述

步骤一: 初始化过程, 设置类别数c, 权重指数m, m∈ (1, +∞ ); 设置迭代次数r的初始值和最大迭代次数为rmax; 设置迭代最大误差参数ε

初始类中心 vi(0)和初始模糊隶属度 uik(0)分别计算如下

vi(0)=v1(0)v2(0)v3(0)=xmean1xmean2xmean3uik(0)=j=1cxk-vi(0)xk-vj(0)2m-1-1, i, k

其中, 初始类中心 vi(0)由每类训练样本的样本均值组成。 v1(0)为第一类训练样本的类中心值, v1(0)的值和第一类训练样本的均值相等, 即 v1(0)=xmean1; v2(0)为第二类训练样本的类中心值, v2(0)的值和第二类训练样本的均值相等, 即 v2(0)=xmean2; v3(0)为第三类训练样本的类中心值, v3(0)的值和第三类训练样本的均值相等, 即 v3(0)=xmean3xk为第k个测试样本, vi(0)为第i类训练样本的类中心值, vj(0)为第j类训练样本的类中心值, m为权重指数。

步骤二: 计算模糊类间散射矩阵SfB

SfB=i=1ck=1n[uik(r)]m(vi(r)-x̅)(vi(r)-x̅)T

其中, uik(r)为第r次迭代时第k个样本xk隶属于第i类的模糊隶属度; c为类别数, vi(r)为第r次迭代时第i类的类中心值, x̅为测试样本的均值, x̅=1nj=1nxj, n为测试样本数, xj为第 j个测试样本, 上标T代表矩阵转置运算。

步骤三: 计算模糊总体散射矩阵SfT

SfT=i=1ck=1n[uik(r)]m(xk-x̅)(xk-x̅)T

其中, xk为第k个测试样本。

步骤四: 计算特征向量

SfT-1SfBΨ=λΨ

其中, SfT-1为模糊总体散射矩阵的逆矩阵, SfB为模糊类间散射矩阵, λ 是特征向量Ψ 所对应的特征值。 将计算所得的最大特征值λ 1对应的特征向量Ψ 1作为模糊非相关鉴别转换向量的第1个向量, 若p个模糊非相关鉴别转换向量为Ψ 1, Ψ 2, …, Ψ p, 则计算第p+1个模糊非相关鉴别转换向量如下:

QSfBΨp+1=βSfTΨp+1Q=I-STfTΨT(ΨSfTΨT)-1Ψ, Ψ=[Ψ1, Ψ2, , ΨP]

步骤五: 将xkRq转换到由Ψ 1, Ψ 2, …, Ψ p组成的特征空间中

yk=xTk[Ψ1, Ψ2, , Ψp] (ykRp)

其中, pq均为样本的维数, Ψ p为第p个特征向量。

步骤六: 同样将 vi(r)Rq空间转化到Rpv 'i(r)

v'i(r)=vi(r)[Ψ1, Ψ2, , Ψp]

步骤七: 在Rp空间计算yk的模糊隶属度函数值

u'ik(r+1)=j=1cyk-v'i(r)yk-v'j(r)2m-1-1, i, k

其中, ykRp空间里第k个样本, u 'ik(r+1)是第r+1次迭代时样本yk隶属于类别i的模糊隶属度值; v 'i(r)v 'j(r)分别是第r次迭代计算的第i类和第j类的类中心值。

步骤八: 在Rp空间中计算i类的类中心值v 'i(r+1)

v'i(r+1)=k=1n[u'ik(r+1)]mykk=1n[u'ik(r+1)]m, i, k

其中, v 'i(r+1)是第r+1次迭代计算的第i类的类中心值。

步骤九: 增加迭代数r值, 即r=r+1; 直到‖ v 'i(r+1)-v 'i(r)‖ < ε 或者r> rmax计算终止, 否则将u 'ik(r+1)的值赋给变量 uik(r), v 'i(r+1)的值赋给变量 vi(r), 继续从步骤二开始重新计算。

3 结果与讨论
3.1 茶叶傅里叶红外光谱的预处理

由于不同茶叶样品的颗粒大小和形状等存在差异性导致所采取的红外光谱受到不同散射影响, 为了消除散射影响常采用多元散射校正(MSC)进行光谱预处理[15]。 对图1的红外光谱进行MSC处理后得到的光谱如图2所示。

图2 MSC预处理后的茶叶红外光谱Fig.2 FTIR spectra pretreated with MSC

实验结果: p=2, 迭代终止时r=17次, 类中心矩阵为

v'1(17)v'2(17)v'3(17)=-0.21830.08470.36440.12800.0577-0.1216

3.2 茶叶红外光谱的主成分分析和线性判别分析

茶叶的傅里叶红外光谱数据是1 868维的数据, 直接用来分类则计算量很大, 故一般先采用PCA将光谱数据进行降维处理。 用PCA将茶叶的红外光谱数据维数降为8维, 再用LDA提取降维后数据中的鉴别信息。 从三种茶叶样本中各取10个样本构成茶叶样本训练集, 则训练集样本数为30个, 其余的样本构成茶叶样本测试集, 则测试集样本总数为66个。 运行LDA计算20维的训练集样本的鉴别向量, 将20维的测试集样本投影到前2个鉴别向量上, 其LDA的得分图如图3所示。 在图3中, 星号“ * ” 表示“ 峨眉山毛峰” , 圆圈“ ○” 和加号“ +” 分别表示“ 优、 劣质乐山竹叶青” 。 由图3可知, 三种茶叶测试样本的数据重叠非常少。 数据重叠少有利于提高聚类准确率。

图3 LDA的得分图Fig.3 Scores plot of linear discriminant analysis

3.3 计算初式聚类中心

FCM和FUDCM的初始类中心均为LDA变换后得到的训练样本的均值

v1(0)v2(0)v3(0)=0.3453-0.0877-0.17300.1673-0.3108-0.2099

3.4 FCM和FUDCM的聚类分析

FCM和FUDCM的初始参数值设置: 品种数c=3, 测试样本数n=96, 权重指数m=2, 最大迭代次数rmax=100, 迭代最大误差参数为ε =0.000 01, FCM和FUDCM的初始类中心见本文3.3中所述。

3.4.1 聚类准确率

运行FCM和FUDCM算法对茶叶红外光谱测试集样本进行聚类分析。 当FCM和FUDCM的权重指数m取不同值时其聚类准确率如图4所示。 所以, 当FCM的权重指数m=2~10时, FUDCM的准确率均高于FCM的准确率。

图4 FCM和FUDCM的聚类准确率Fig.4 The clustering accuracy of FCM and FUDCM

3.4.2 聚类收敛状况分析

FCM和FUDCM的收敛状况如图5所示。 迭代次数越多则收敛速度越慢, 反之则越快。 由图5可知, FCM经过67次迭代后达到了收敛, 而FUDCM经过17次迭代就达到收敛。 所以, FUDCM的收敛速度比FCM快。

图5 FCM和FUDCM的收敛状况Fig.5 Convergence of FCM and FUDCM

3.4.3 茶叶种类判别方法

本节所指的训练样本和测试样本是指经过LDA计算后得到的数据样本。 训练样本是已知的三个品种茶叶(即优质乐山竹叶青、 劣质竹叶青和峨眉山毛峰), 计算每种茶叶的训练样本的平均值为: 峨眉山毛峰平均值为 x̅1=[0.345 3 -0.087 7]; 优质竹叶青平均值为 x̅2=[-0.173 0 0.167 3]; 劣质竹叶青的平均值为 x̅3=[-0.310 8 -0.209 9]。

判断测试样本的茶叶的三个类别分别属于哪个品种茶叶的方法是: 分别计算测试样本的某个聚类中心和训练样本三类茶叶的平均值的欧式距离, 某个聚类中心离哪种训练茶叶品种的欧式距离最小则判定该聚类中心所属茶叶品种和这种训练茶叶品种是相同品种。 具体计算和分析如下:

判断以v '1(17)为类中心的茶叶所属类别

v'1(17)-x̅1=0.5894, v'1(17)-x̅2=0.0942, v'1(17)-x̅3=0.3088

很明显v '1(17)距离 x̅2最近, 则判定v '1(17)为类中心的茶叶是优质竹叶青。 同样方法可判定v '3(17)为类中心的茶叶是峨眉山毛峰, v '2(17)为类中心的茶叶是劣质竹叶青。

对于第k个测试样本xk, 判断其属于哪一类的方法是: 如果其模糊隶属度u 'ik(17)> 0.5, 则判定xk属于v 'i(17)所属的类别。 具体举例分析如下:

FUDCM迭代终止后的模糊隶属度值如图6所示。 第1个样本的模糊隶属度为u '11(17)=0.847 4, u '21(17)=0.027 4, u '31(17)=0.125 2。 所以u '11(17)> 0.5, 则判定第1个样本属于v '1(17)所属的类别, 即优质乐山竹叶青。 其余测试样本同样方法判断其所属的茶叶种类。

图6 模糊隶属度值Fig.6 Value of fuzzy membership

4 结 论

将模糊C均值聚类(FCM)和模糊非相关判别转换(FUDT)结合起来, 提出了一种模糊非相关鉴别C均值聚类(FUDCM)。 FUDCM实现了在FCM聚类过程中动态提取光谱数据的模糊非相关鉴别信息, 获得比FCM更高的聚类准确率, 收敛速度比FCM更快。 实验结果表明: 利用傅里叶红外光谱, 结合PCA和LDA的FUDCM方法可以快速、 有效地将茶叶品种鉴别出来, 其鉴别准确率明显高于FCM。

The authors have declared that no competing interests exist.

参考文献
[1] Panigrahi N, Bhol C S, Das B S, et al. Journal of Food Engineering, 2016, 190: 101. [本文引用:1]
[2] Wu X H, Wu B, Sun J, et al. International Journal of Food Properties, 2016, 19: 1016. [本文引用:1]
[3] YANG Xin-he, WANG Li-li, HUANG Jian-an, et al(杨新河, 王丽丽, 黄建安, ). Food Science(食品科学), 2012, 33(14): 203. [本文引用:1]
[4] Ayvaz H, Bozdogan A, Giusti M M, et al. Food Chemistry, 2016, 211: 374. [本文引用:1]
[5] ZHANG Rong-xiang, ZHANG Wei, ZHANG Yan-wei, et al(张荣香, 张玮, 张艳伟, ). Infrared Technology(红外技术), 2013, 35(5): 304. [本文引用:1]
[6] Cai J X, Wang Y F, Xia X G, et al. International Journal of Biological Macromolecules, 2015, 78: 439. [本文引用:1]
[7] Mecozzi M, Sturchio E. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2015, 137: 90. [本文引用:1]
[8] Kokalj M, Stih K, Kreft S. Planta Medica, 2014, 80(12): 1023. [本文引用:1]
[9] Jiang X, Li S, Xiang G, et al. Food Chemistry, 2016, 212: 585. [本文引用:1]
[10] Xing Z, Du C, Tian K, et al. Talanta, 2016, 158: 262. [本文引用:1]
[11] Salman A, Shufan E, R. K. Sahu R K, et al. Vibrational Spectroscopy, 2016, 83: 17. [本文引用:1]
[12] Wang Y, Shui P, Fan X, et al. Electronics Letters, 2016, 52(7): 513. [本文引用:1]
[13] Hou S, Riley C B. Chemometrics and Intelligent Laboratory Systems, 2015, 142: 49. [本文引用:1]
[14] WU Xiao-hong, WU Bin, ZHOU Jian-jiang(武小红, 武斌, 周建江). Chinese Journal of Image and Graphics(中国图形图像学报), 2009, 14(9): 1832. [本文引用:1]
[15] Anjos O, Campos M G, Ruiz P C, et al. Food Chemistry, 2015, 169: 218. [本文引用:1]