模糊线性判别QR分析的茶叶近红外光谱鉴别分析
胡彩平1, 何成遇2, 孔丽微3, 朱优优3,*, 武斌4, 周浩祥3, 孙俊2
1.金陵科技学院计算机工程学院, 江苏 南京 211169
2.江苏大学电气信息工程学院, 江苏 镇江 212013
3.浙江大学台州研究院, 浙江 台州 317700
4.滁州职业技术学院信息工程学院, 安徽 滁州 239000
*通讯作者 e-mail: Zhx1377099026@163.com

作者简介: 胡彩平, 1977年生, 金陵科技学院计算机工程学院副教授 e-mail: hucp@jit.edu.cn

摘要

不同品种茶叶因其所含的有机化学成分不同, 其效果也会有差别。 所以, 寻找出一种能准确迅速的鉴别茶叶品种的技术方法是非常重要的。 近红外光谱(NIR)分析是一种无损检测技术, 能很好的鉴别茶叶品种。 使用NIR光谱仪采集茶叶的NIR数据。 为了对包含噪声信号的茶叶近红外光谱进行准确鉴别, 提出了一种模糊线性判别QR分析的新方法, 可以对茶叶近红外光谱进行准确分类。 通过使用模糊线性判别分析(FLDA)将由主成分分析(PCA)压缩的茶叶近红外光谱数据进行降维, 由模糊线性判别分析得出的特征向量构建鉴别向量矩阵, 对鉴别向量矩阵进行矩阵的QR分解, 得到新的鉴别向量矩阵。 经过模糊线性判别QR分析后使用K近邻算法进行分类, 具有准确率高等优点。 以岳西翠兰、 六安瓜片、 施集毛峰和黄山毛峰四种茶叶为研究样本, 每类65个, 茶叶样本总数为260个。 采集茶叶近红外光谱数据的仪器为AntarisⅡ型傅里叶近红外光谱仪对光谱数据进行预处理, 采用多元散射校正, 由于采集到的茶叶光谱数据存在散射干扰。 以此得到的近红外光谱数据的维数为1557维, 通过主成分分析压缩数据集的维数, 使得光谱数据集的维数达到7维。 经压缩过后的光谱数据集中的鉴别信息再通过模糊线性判别QR分析进行提取, 使得光谱数据的维数降低到3维。 利用K近邻算法对茶叶样本进行分类, 实现对茶叶品种的准确分类。 最后进行三种算法分析结果的比较, 分别是主成分分析结合K近邻算法、 主成分分析和线性判别分析结合K近邻算法、 主成分分析和模糊线性判别QR分析结合K近邻算法。 在权重指数 m=2, K=1条件下, 最后的分类准确率分别为83.89%, 87.78%和98.33%。 实验结果显示: 模糊线性判别QR分析可以实现茶叶近红外光谱的准确鉴别分析, 其展现出来的效果比主成分分析和线性判别分析表现的效果更好。

关键词: 模糊线性判别分析; 主成分分析; 近红外光谱; K近邻算法
中图分类号:O657.33 文献标志码:A
Identification of Tea Based on Near-Infrared Spectra and Fuzzy Linear Discriminant QR Analysis
HU Cai-ping1, HE Cheng-yu2, KONG Li-wei3, ZHU You-you3,*, WU Bin4, ZHOU Hao-xiang3, SUN Jun2
1. Department of Computer Engineering, Jinling Institute of Technology, Nanjing 211169, China
2. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China
3. Taizhou Institute of Zhejiang University, Taizhou 317700, China
4. Department of Information Engineering, Chuzhou Polytechnic, Chuzhou 239000, China
*Corresponding author
Abstract

The effects of different varieties of tea are different because of their different organic chemical components. Therefore, it is essential to find a technical method that can accurately and quickly identify tea varieties. Near-infrared (NIR) spectroscopy is a nondestructive detection technology correctly identifying tea varieties. Due to noise signals in the NIR spectra of tea samples collected by the NIR spectrometer, a fuzzy linear discriminant QR analysis method was proposed to accurately identify the NIR spectra of tea samples containing noise signals. After the dimensionality of NIR spectra was compressed by principal component analysis (PCA), it was reduced using fuzzy linear discriminant analysis (FLDA). The discriminant vector matrix was constructed from the eigenvectors obtained by FLDA. The discriminant vector matrix was decomposed by QR decomposition to obtain a new discriminant vector matrix. Then, the K-nearest neighbor (KNN) algorithm was used for classification, which has the advantage of high accuracy. Four kinds of tea samples, namely Yuexi Cuilan, Lu'an Guapian, Shiji Maofeng and Huangshan Maofeng, were taken as the experimental samples. There were 65 tea samples in each category, and the total number of tea samples was 260. Firstly, the NIR spectral data of tea samples were collected by the Fourier NIR spectrometer Antaris Ⅱ. Secondly, the obtained NIR spectral data of tea were preprocessed, and the scattering effect of spectral data was reduced through multiple scattering correction. Thirdly, the dimensionality of NIR data is 1 557, so PCA was used to reduce the dimensionality of the spectra to 7. Then, fuzzy linear discriminant QR analysis was performed to extract the identification information from the compressed NIR spectra, and the dimensionality of the data was further reduced to 3 dimensions. Finally, KNN was used to classify tea samples and achieved the accurate classification of tea varieties. Furthermore, the experimental results were compared including three algorithms, which are PCA combined with KNN, PCA and linear discriminant analysis (LDA) combined with KNN, PCA and fuzzy linear discriminant QR analysis combined with KNN. Under the weight index m=2 and K=1, the final classification accuracies of the three algorithms were 83.89%, 87.78% and 98.33%, respectively. The experimental results showed that fuzzy linear discriminant QR analysis provided a method for the identification of NIR spectra of tea, and its effect was better than PCA and LDA.

Keyword: Fuzzy linear discriminant analysis; Principal component analysis; Near-infrared spectroscopy; K-nearest neighbor algorithm
引言

中国是饮茶大国, 作为茶叶的故乡, 拥有非常悠久的饮茶历史和深厚的饮茶文化。 茶的作用和功效非常多, 富含多种有益人体健康的物质, 茶在中国受到很多人的喜欢。 中国的茶叶种类非常丰富, 就绿茶而言就有几百种, 各个地方的知名春茶, 如安徽省的岳西翠兰、 六安瓜片、 施集毛峰和黄山毛峰; 浙江省的龙井茶和安吉白茶等。 各个不同品种的茶叶蕴含的功效也不尽相同[1, 2, 3]。 因此, 要对不同品种茶叶进行鉴别分析, 挑选出更加优质的茶叶品种。

近红外光谱分析样品具有分析速度快, 应用范围广等特点, 因此是一种经常被用于农产品和食品等诸多领域的检测技术, 近些年来被国内外的学者广泛应用[4, 5, 6]。 如Wang等利用近红外高光谱成像技术结合偏最小二乘回归模型的回归系数为茶多酚含量的可视化以及茶叶品种的鉴定提供了一种快速无损的鉴别方法[7]。 Wu等提出了联合Gustafson-Kessel聚类算法对茶叶样品的傅里叶变换红外光谱(Fourier transform infrared spectroscopy, FTIR)进行聚类, 建立一个能进行茶叶品种准确分类的有效判别模型[8]。 Firmani等通过使用近红外光谱技术结合最小二乘鉴别分析和软独立建模(soft independent modelling of class analogy, SIMCA)区分有地理标志的大吉岭茶与其他掺假大吉岭茶时取得了非常好的分类效果[6]。 Luo等使用可见-近红外光谱, 以随机蛙跳作为特征选择方法提取特征波长建立的最小二乘支持向量机的预测模型可以快速检测茶叶中茶多酚的含量[9]。 Thangavel等通过采用漫反射傅里叶变换近红外光谱法快速定量测定姜黄根茎中姜黄素、 淀粉和水分含量, 该方法可以用于香料的加工鉴定分级[10]。 Qian等提出傅里叶变换近红外光谱结合偏最小二乘分析方法实现了对绿豆原产地的鉴别, 提供了一种新的保护绿豆地理标志产品品牌途径[11]。 Wu等建立基于近红外光谱和随机森林法的分类模型, 并结合偏最小二乘回归算法实现了对不同产地五味子的鉴定[12]。 Diniz等使用连续投影算法线性判别分析(successive projections algorithm linear discriminant analysis, SPA-LDA)根据茶叶的化学成分对茶叶品种进行简化鉴别分类[13]

茶叶的近红外光谱数据通常是高维数据, 数据比较复杂, 计算量大, 需要通过特征提取和特征选择对数据进行降维分析以获取有用的特征信息。 目前常见的用于特征提取的方法分别有主成分分析(PCA), 线性判别分析(LDA)[14]以及模糊线性判别分析(FLDA)[15]。 线性判别分析将高维的数据样本投影到低维的矢量空间中, 其主导思想是保证投影到低维空间的数据样本的类间距离最大以及类内的距离最小, 以此达到压缩信息和对高维数据的降维目的。 FLDA将模糊集的理论融入到传统的线性判别分析中, 实现对样本的特征提取。 本工作在FLDA的基础上, 对模糊类间散射矩阵和模糊类内散射矩阵进行计算, 得出矩阵的特征值和特征向量, 对由散射矩阵的特征向量构成的鉴别向量矩阵进行QR分解, 以新的鉴别向量矩阵实现数据转换。 实验结果表明, 模糊线性判别QR分析对茶叶近红外光谱数据分类处理的准确率高于线性判别分析。

利用傅里叶近红外光谱仪对茶叶样本进行检测, 获取四种茶叶样本的近红外漫反射光谱数据, 然后采用主成分分析法对茶叶的近红外光谱数据进行降维, 将降维后的光谱数据存储在计算机里。 利用模糊线性判别QR分析方法提取光谱数据的模糊鉴别信息, 最后采用K近邻算法对数据集进行分类分析。 最后实验结果发现, 傅里叶近红外光谱结合模糊线性判别QR分析方法可对不同品种的茶叶实现快速准确的鉴别分析。

1 实验部分
1.1 茶叶傅里叶近红外光谱数据采集

实验所用茶叶样本为黄山毛峰、 岳西翠兰、 施集毛峰和六安瓜片等四种不同品种的茶叶。 每个品种的茶叶各采集65个茶叶样本, 样本的总数为260。 将所有采集的茶叶样本进行研磨粉碎, 经40目筛过滤。 实验室的温度和相对湿度保持稳定, 采集茶叶傅里叶近红外光谱数据所使用的AntarisⅡ 型的FT-NIR光谱仪需要开机预热1 h。 茶叶的近红外光谱数据通过反射积分球模式采集, 每个茶叶样本扫描32次, 扫描的光谱波数范围是4 000~10 000 cm-1, 光谱的波数间隔为3.857 cm-1, 得到的茶叶近红外光谱的维数为1 557维。 为避免出现较大偏差, 每个茶叶的近红外光谱均采集三次, 取三次的平均值作为茶叶样品光谱原始数据。 使用MatlabR2014b进行程序的编写, 在Windows10的系统环境运行, RAM 4GB。

1.2 模糊线性判别QR分析描述

模糊线性判别QR分析方法提取由主成分分析降维压缩后的茶叶近红外光谱数据中的鉴别信息, 具体的步骤如下:

步骤一: 初始化参数。 开始时设置类别数为K, 设置茶叶的训练样本数为N1, 测试样本数为N2, 类别数为c, 权重指数为m, 其中, 1< K< N2, 1< m< +∞ 。

步骤二: 类中心和模糊隶属度的计算。 利用模糊K近邻算法计算茶叶的第j(1≤ jN1)个训练样本xj[为第t(1≤ tc)类训练样本]隶属于第i(1≤ ic)类的模糊隶属度μ ij

μij=0.51+(ni/K)×0.49ift=i(ni/K)×0.49ifti(1)

式(1)中, ni是隶属于第i类的近邻样本数, K为模糊K近邻算法的参数。 第i类初始类中心γ i

γi=j=1N1[μij]mxjj=1N1[μij]m(2)

步骤三: 计算模糊类间散射矩阵Sfb和模糊类内散射矩阵Sfw

Sfb=i=1cj=1N1[μij]m(γi-x-)(γi-x-)T(3)

Sfw=i=1cj=1N1[μij]m(xj-γi)(xj-γi)T(4)

式(3)和式(4)中, x-为所有训练样本的均值, x-=1N1j=1N1xj

步骤四: 根据模糊类内散射矩阵Sfw和模糊类间散射矩阵Sfb计算出模糊类内散射矩阵Sfw的逆矩阵 Sfw-1与模糊类间散射矩阵Sfb乘积矩阵的特征值λ 以及特征向量α

Sfw-1Sfbα=λα(5)

式(5)中, Sfw-1Sfb 的特征值为λ , α 为特征值λ 所对应的特征向量。 将特征值λ 从大到小进行排列, 取前c-1个特征值为{λ 1, λ 2, …, λ c-1}, 其中特征值对应的特征向量为{α 1, α 2, α 3, …, α c-1}, 鉴别向量矩阵G=[α 1, α 2, α 3, …, α c-1]T的第一个列向量就是最大的特征值λ 1所对应的特征向量α 1

步骤五: 对鉴别向量矩阵G进行QR分解, G= QR, 其中, QRm× p, RRp× c, p=rank(G), 得到新的鉴别向量矩阵 Q

步骤六: 根据新的鉴别向量矩阵 Q, 将测试样本集投影到 Q, 对数据实现转换。 把第k(1≤ kN2)个测试样本yk投影到 Q, 可得到

zk=ykQ(6)

2 结果与讨论
2.1 茶叶红外光谱的主成分分析和线性判别分析

由于茶叶样本颗粒和形状大小影响, 采集到的茶叶近红外光谱数据会出现散射问题, 因而要对茶叶近红光谱数据进行预处理, 通过多元散射校正(MSC)来降低因散射带来的影响, 提高实验的准确度[16, 17]

茶叶的近红外光谱数据的维数是1 557维, 维数很高, 直接进行分类处理, 计算量相当大, 并且得出分类准确率会比较低。 因此需要先使用主成分分析将光谱数据的维数进行压缩, 将数据的维数降到7维, 再使用模糊线性判别QR分析提取降维后的光谱数据集中的鉴别信息。 从四类茶叶样本中随机各抽取20个样本茶叶组成训练样本集, 训练样本集的总数为80个, 则测试样本集由四种茶叶每类45个样本作为测试样本集, 测试样本集的总数为180个。 运行模糊线性判别QR分析计算20维的训练样本集的鉴别向量, 将20维的测试样本集投影到前三个鉴别向量上, 模糊线性判别QR分析处理后的数据如图1所示。 在图中, 圆点“ · ” 表示“ 岳西翠兰” , 星号“ * ” 表示“ 六安瓜片” , 圆圈“ ○” 表示“ 施集毛峰” , 加号“ +” 表示“ 黄山毛峰” 。

图1 模糊线性判别QR分析处理后的数据图Fig.1 The data after fuzzy linear discriminant QR analysis

2.2 模糊隶属度和类中心

运行模糊线性判别QR分析之前需要设置算法的初始参数: 设置模糊K近邻的参数K=1, 算法的权重指数m=2, 类别数c=4。 聚类中心由式(2)计算得出, 初始的模糊隶属度如图2所示。

图2 模糊隶属度值Fig.2 Fuzzy membership values

先用主成分分析对茶叶近红外光谱数据进行降维, 后直接使用K近邻算法进行分类, 得到的分类准确度比较低; 其次分别用LDA和模糊线性判别QR分析提取数据的鉴别信降维息后再使用K近邻算法进行分类分析; 结果表明: 当K取不同的值得到的分类准确率, 模糊线性判别QR分析得到的分类准确率均高于PCA和PCA+LDA。 其中, 当K=7时, 模糊线性判别QR分析得到的分类效果最好, 其分类准确率结果如表1

表1 三种模型的分类准确率(%) Table 1 Accuracies of three models (%)
3 结论

模糊线性判别分析结合矩阵的QR分解, 提出了模糊线性判别QR分析方法。 模糊线性判别QR分析通过提取经主成分分析降维后的茶叶光谱数据中的鉴别信息, 得到有效光谱数据的鉴别信息, 分类准确率比线性判别分析更高。 实验结果显示: 在利用茶叶的近红外光谱数据信息, 经主成分分析进行数据的降维处理, 分别使用模糊线性判别QR分析和线性判别分析提取降维后的光谱数据中的鉴别信息, 最后利用K近邻分类器进行分类处理。 由模糊线性判别QR分析建立的模型可以准确有效的鉴别茶叶品种, 且准确率高于用线性判别分析建立的模型。

参考文献
[1] Mahdavi-Roshan M, Salari A, Ghorbani Z, et al. Complementary Therapies in Medicine, 2020, 51: 102430. [本文引用:1]
[2] Vilela M M, Salvador L S, Teixeira L G I, et al. Archives of Oral Biology, 2020, 114: 104727. [本文引用:1]
[3] Gartenmann S J, Steppacher S L, Weydlich Y V, et al. Journal of Herbal Medicine, 2020, 21: 100337. [本文引用:1]
[4] Qi Z, Wu X, Yang Y, et al. Foods, 2022, 11: 763. [本文引用:1]
[5] Zhang T, Wu X, Wu B, et al. Journal of Food Process Engineering, 2022, 45(8): e14040. [本文引用:1]
[6] Firmani P, De Luca S, Bucci R, et al. Food Control, 2019, 100: 292. [本文引用:2]
[7] Wang Y J, Liu Y, Chen Y Y, et al. LWT-Food Science and Technology 2021, 148: 111737. [本文引用:1]
[8] Wu X H, Zhu J, Wu B, et al. Computers and Electronics in Agriculture, 2018, 147: 64. [本文引用:1]
[9] Luo W, Tian P, Fan G Z, et al. Infrared Physics and Technology, 2022, 123: 104037. [本文引用:1]
[10] Thangavel K, Dhivya K. Engineering in Agriculture, Environment and Food 2019, 12: 264. [本文引用:1]
[11] Qian L L, Li D W, Song X J, et al. Journal of Food Composition and Analysis, 2022, 105: 104203. [本文引用:1]
[12] Wu L, Gao Y, Ren W C, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2022, 264: 120327. [本文引用:1]
[13] Diniz D G H P, Pistonesi F M, Alvarez B M, et al. Journal of Food Composition and Analysis, 2015, 39: 103. [本文引用:1]
[14] Anowar F, Sadaoui S, Selim B. Computer Science Review, 2021, 40: 100378. [本文引用:1]
[15] Wu X H, Zhou J J. Pattern Recognition, 2006, 39(11): 2236. [本文引用:1]
[16] Li Q, Wu X, Zheng J, et al. Foods, 2022, 11(14): 2101. [本文引用:1]
[17] Xu Q, Wu X, Wu B, et al. Journal of Food Process Engineering, 2022, 45(4): e13993. [本文引用:1]