手持式LIBS结合随机森林用于鱼产品的快速鉴别分析
闫文豪1, 杨晓莹1, 耿鑫1, 王乐山1, 吕亮1, 田野1,*, 李颖1, 林洪2
1.中国海洋大学信息科学与工程学部物理与光电工程学院, 山东 青岛 266100
2.中国海洋大学食品科学与工程学院, 山东 青岛 266003
*通讯作者 e-mail: ytian@ouc.edu.cn

作者简介: 闫文豪, 1999年生, 中国海洋大学物理与光电工程学院本科生 e-mail: yanwenhxx@163.com

摘要

中国是水产品生产和消费大国。 由于不同鱼产品的品质和价格差距悬殊, 近缘鱼类外观质地相似等特点, 鱼产品掺假和错贴标签的现象频发, 直接损害了消费者的消费和健康权益, 因此实现鱼产品品种品质的快速检测具有重要的现实意义。 激光诱导击穿光谱(LIBS)技术采用脉冲激光烧蚀样品表面产生激光诱导等离子体, 通过探测等离子体的发射光谱实现待测样品元素组分的定性和定量分析, 具有无需(或少量)样品预处理、 多元素同时检测, 分析速度快的优势, 在食品快速检测分析方面具有很大的应用潜力。 将LIBS技术结合随机森林(RF)算法用于不同种类鱼产品快速鉴别分析。 首先对6种鱼肉样品进行压片处理, 采用手持式LIBS分析仪采集其光谱数据, 可探测到清晰的C、 Mg、 CN、 Ca、 Na、 H、 K、 O等元素组分的特征谱线。 将原始光谱数据进行归一化预处理, 采用主成分分析方法(PCA)进行聚类, 发现海水鱼和淡水鱼样品可以区分, 而不同海水鱼之间和不同淡水鱼之间的样品则难以有效区分, 说明PCA方法对鱼肉LIBS光谱分类能力有限。 之后采用非线性的随机森林算法建立分类模型, 经过优化RF模型的决策树个数与决策深度, 得到鱼肉样品的整体识别正确率为90%。 为进一步提高模型识别精度和分析效率, 通过RF模型输出的变量重要性进行光谱特征提取, 识别正确率提高到94.44%, 且模型输入变量由23 431个减少到597个, 模型运算时间显著降低。 表明RF模型结合变量重要性提取可以很好地将LIBS光谱中变量重要性高、 对分类贡献大的弱信号提取出来, 有效剔除了谱线噪声、 背景、 以及其他不相关变量的干扰, 提高模型的识别精度和分析效率。 也验证了手持式LIBS设备结合机器学习方法用于市场鱼产品快速鉴别分析的可行性。

关键词: 鱼产品; 快速鉴别; 手持式LIBS; 随机森林; 特征提取
中图分类号:O433.4 文献标识码:A
Rapid Identification of Fish Products Using Handheld Laser Induced Breakdown Spectroscopy Combined With Random Forest
YAN Wen-hao1, YANG Xiao-ying1, GENG Xin1, WANG Le-shan1, LÜ Liang1, TIAN Ye1,*, LI Ying1, LIN Hong2
1. College of Physics and Optoelectronic Engineering, Ocean University of China, Qingdao 266100, China
2. College of Food Science and Engineering, Ocean University of China, Qingdao 266003, China
*Corresponding author
Abstract

China is a big country of aquatic products production and consumption. Due to the great quality and price gap between the fish products from closely related species, the phenomena of adulteration and mislabeling of fish products have occurred frequently, which greatly encroached on the consumers’ legitimate rights. Therefore, it is important to realize a rapid detection of the variety and quality of fish products. Laser-induced breakdown spectroscopy (LIBS) utilizes a pulsed laser to ablate the sample surface and generate a laser-induced plasma. Then the emission spectrum from the plasma is used for a qualitative or quantitative analysis of the elemental components of the sample. LIBS has shown great potential to be used in the food fast detection field with no or minimal sample preparation, multi-elemental analysis, and rapid detection capabilities. This paper applied LIBS combined with the random forest (RF) method to rapidly identify different fish products. Firstly, six fish samples were prepared into pellets, and the LIBS spectra were acquired using a handheld LIBS device. Clear spectral lines of C, Mg, CN, Ca, Na, H, K and O can be observed in the hand held-LIBS spectrum. After normalization of the raw spectral data, the principal component analysis (PCA) was used for clustering, and it was shown that the salt water fishes and freshwater fishes could be distinguished. In contrast, the different types inside the saltwater fishes or freshwater fishes can hardly be distinguished, indicating a limited capability of PCA method for the classification. Then, a nonlinear RF method was used to build the classification model. After optimizing the model parameters, including the decision tree number and the maximum depth, the RF model got an overall classification accuracy of 90%. In order to further improve the classification accuracy and efficiency, a feature selection method was performed by utilizing the variable importance of the RF model. It was shown that after feature selection, the classification accuracy was improved to 94.44%, and the number of input variables of the RF model was reduced from 23 431 to 597. Thus the computing time of the RF model was clearly reduced. The obtained results suggested that the RF model combined with variable importance selection can successfully distinguish the weak LIBS signals which have high impacts on the classification and eliminate the interferences from the spectral noise, background and other redundant variables, and therefore have a good classification accuracy and efficiency. This work proves the feasibility of handheld LIBS combined with machine learning for the application of rapid fish product identification in the market.

Key words: Fish products; Rapid identification; Handheld LIBS; Random forest; Feature selection
引言

中国是水产品的生产和消费大国, 水产品生产总量约占全球的33%, 自2002年到2017年, 中国水产品出口年均增长率更是达到了11.08%[1]。 由于不同鱼类产品的品质和价格差距悬殊, 近缘鱼类外观质地相似等特点, 市场上鱼产品以假乱真、 以次充好的现象层出不穷, 损害了消费者的消费和健康权益。 因此实现鱼产品品种品质的快速检测具有重要的现实意义[2]。 目前, 肉类鉴别检测方法主要包括感官分析、 色谱技术、 酶联免疫吸附(ELISA)技术以及DNA技术等[3]。 感官分析的可靠性、 可比性较差。 色谱技术需要对样品进行复杂的预处理、 分析成本高。 ELISA技术受抗原抗体特异性反应的影响应用范围受到限制。 DNA技术时间成本高, 且操作繁琐。 因此迫切需求一种能够进行现场快速检测且环境友好的新型肉品检测技术[4]

激光诱导击穿光谱(laser induced breakdown spectroscopy, LIBS)技术具有样品预处理简单、 多元素同时检测, 分析速度快的优势, 在食品成分检测分析领域应用潜力很大[5], 已被用于面粉[6]、 红酒[7]、 茶叶[8]等不同种类的食品检测。 在肉品检测方面也有不少相关研究, 包括定量检测牛肉和鸡肉中的Ca、 Mg、 K、 Na等元素含量[9]、 猪肉中重金属元素Cr的定量检测[10]、 以及不同肉类品种的分类鉴别[11]。 本课题组前期也进行了LIBS技术用于鳕鱼中P、 Fe、 Al、 Mn、 K、 Mg、 Ca、 Na八种元素的定量检测[12], 以及鳕鱼、 扇贝、 青虾三种水产品中P元素的定量检测[13]。 以上研究采用的均是实验室台式LIBS分析设备, 难以满足现场便携式的快速检测需要。 近年来, 随着激光器、 光谱仪、 探测器等关键部件的小型化和低功耗, 手持式LIBS分析设备获得了快速发展, 主要用于合金和地质样品的成分检测[14], 而在食品分析尤其是肉品快速检测中则未见报道。

旨在评估手持式LIBS结合机器学习用于不同种类鱼产品快速鉴别分析的可行性, 利用手持式LIBS设备采集6种鱼肉压片样本的光谱数据, 采用随机森林(random forest, RF)算法建立分类模型, 并通过模型参数寻优、 变量重要性提取等提高模型分类效果。 结果表明采用RF模型结合变量重要性提取可以很好的将特征光谱中变量重要性高、 对分类判别贡献大的弱信号提取出来, 分类效果更加优秀, 且缩短了模型分析时间, 更加符合现场快速检测的实际需求。

1 实验部分

选购了三种海水鱼: 鲅鱼、 黄花鱼、 牙鲆, 和三种淡水鱼: 草鱼、 鲤鱼、 鲫鱼, 共六种鱼肉样品。 将新鲜鱼肉样品用肉糜搅拌机打碎成匀浆烘干, 并进行压片处理, 以提高LIBS信号强度。 取鱼肉粉末与微晶纤维素[(C6H10O5)n]粘合剂按质量比3:2混合均匀, 准确称量0.35 g混合粉末, 转移至粉末压片机中, 在15 MPa的压力下保持3 min, 得到片状样品。 每种鱼肉样品制备3个平行压片样品。 用SciAps公司生产的Z-200C+型手持式LIBS分析仪采集LIBS光谱, 激光波长为1 064 nm, 单脉冲能量为5 mJ, 重复频率为50 Hz, 聚焦光斑直径为50 μ m, 内置光谱仪的波长范围为190~950 nm。 手持式LIBS分析仪进行鱼肉压片样品检测的实物照片如图1所示。 每个压片样品在不同位置采集20条光谱, 每条光谱为5次连续测量的平均。

图1 本实验所用的手持式LIBS分析仪实物图Fig.1 Photo of the handheld LIBS device used in this experiment

手持式LIBS分析仪采集到的典型鱼肉压片样品的光谱如图2所示。 与常规的LIBS台式装置相比, 由于手持式LIBS分析仪采用的激光能量较小, 导致谱线背景噪声较大, 但仍然可以探测到清晰的C、 Mg、 CN、 Ca、 Na、 H、 K、 O等元素组分的特征谱线, 为后续基于多变量分析的分类研究提供了可能。 另外, 由于实验过程中可能存在击穿颗粒飞溅影响激光聚焦效果的问题, 以及脉冲激光能量本身的抖动, 导致手持式LIBS采集到的光谱信号存在较为明显的波动性。 因此在分类前对采集到的原始光谱数据进行全谱面积归一化预处理, 以提高光谱数据的稳定性和分类效果。

图2 手持式LIBS分析仪采集的典型鱼肉光谱图Fig.2 Typical fish spectrum obtained by the handheld LIBS device

2 结果与讨论
2.1 主成分分析(PCA)

主成分分析(principal component analysis, PCA)是一种非监督的聚类分析方法。 在Matlab R2019软件下, 将鱼肉光谱数据转换到前k个特征向量构造的新空间中降维。 图3给出了PCA对鱼肉LIBS光谱数据的聚类分析结果, 当k=3时, 累积贡献率达到85.9%。 从图中可以看出, 经过PCA降维后, 海水鱼和淡水鱼的样品可以较为明显的聚类(因为海水鱼中的Na元素含量显著高于淡水鱼), 但不同海水鱼之间和不同淡水鱼之间则边界模糊, 难以有效区分。 因此PCA对鱼肉LIBS光谱数据的总体分类能力不强, 需采用其他算法进行分类。

图3 PCA对鱼肉LIBS光谱数据的聚类分析结果Fig.3 PCA clustering analysis result of the fish LIBS spectral data

2.2 RF模型训练和参数优化

随机森林(random forest, RF)是一种非线性的并行机器学习算法。 由于数据集和决策树节点分裂特征的随机性, 使随机森林模型在保证识别精度的同时提高抗干扰能力。 此外, 随机森林可以检测到变量之间的互相影响, 进而得到变量重要性这一指标, 有利于模型输入变量的特征提取和优化[15]。 对全部鱼肉LIBS光谱数据采用Bootstrap重采样方法进行随机采样, 选取75%的光谱数据作为训练集, 剩余25%作为检验集。 所涉及的光谱数据包含23 431个特征变量。 将训练集光谱数据输入Python软件自带的sklearn库的RandomForestClassifier模块中, 生成多颗决策树构成RF模型。 将检验集输入所构建的RF模型, 生成的每颗决策树都会输出一个识别结果, 模型最终结果由众多决策树识别结果的众数决定。

RF模型参数优化的关键包括决策树的个数与决策深度。 当决策树个数过少时, 模型易发生欠拟合现象, 而决策树个数过多时, 又容易发生过拟合现象。 当限制了合适的决策深度后, 决策树在分裂时不会超过最大深度, 可以在保持准确度的情况下减少模型计算时间。 采用网格寻优的方法, 计算模型袋外数据(OOB)误差, 确定最佳决策树个数与决策深度。 如图4所示, 当决策树数量一定时, 随着决策深度的增加, OOB误差从0.49迅速减小到0.15左右。 当决策深度为5, 决策树数量为350时, 模型的OOB误差最小为0.144, 表明模型的拟合效果最好, 即采用该参数完成RF模型的训练。 将检验集光谱数据代入RF模型, 表1给出了采用全部特征变量时六种鱼肉样品的识别正确率。 结果显示, 通过优化随机森林参数, 模型的整体识别正确率可以达到90%。 三种海水鱼的识别精度较高, 而三种淡水鱼同属鲤科鱼类, 物种间差异较小, 识别正确率明显低于海水鱼。

图4 随机森林模型OOB误差与决策数深度和决策树个数的关系图Fig.4 OOB error of RF model as a function of the decision tree number and maximum depth

表1 RF模型进行变量重要性提取前后的识别正确率 Table 1 Classification accuracy of RF model before and after variable importance selection
2.3 RF模型变量重要性提取

由于LIBS光谱波长范围广, 整个光谱波长范围内有23 431个特征变量, 数据量大, 且手持式LIBS分析仪采用的激光能量较小, 光谱受背景噪声干扰严重。 因此期望通过随机森林计算各个特征变量的重要性, 提取变量重要性较大的波长进行光谱特征筛选, 剔除谱线噪声、 背景等不相关变量的干扰, 提高模型识别精度并减少模型运算时间。 通过RF模型输出光谱数据中每个波长变量对应的变量重要性, 由大到小对其进行排序, 依次增加提取的变量个数, 得到模型识别正确率随变量重要性个数之间的变化关系曲线, 如图5所示。 可以看出, 随着提取变量个数的增加, 模型的识别正确率先迅速升高, 之后保持在一个较为稳定的区间范围内, 当变量个数为597个时, 识别正确率最高, 达到94.44%。

图5 RF模型识别正确率随重要变量个数的变化Fig.5 Classification accuracy of RF model as a function of the number of important variables

表1给出了RF模型经过变量重要性提取前后, 六种鱼肉识别正确率的对比。 可以看出, 特征提取后的RF模型对六种鱼肉的整体识别正确率提高到94.44%。 与采用全部变量的RF模型相比, 三种淡水鱼样品经过特征提取后, 模型分类效果得到明显改善, 草鱼、 鲫鱼、 鲤鱼的识别正确率分别由82.35%, 81.25%和90%提高到94.11%, 87.5%和95%。 且经过特征提取后, RF模型的输入变量由23 431个减少到597个, 模型运算时间由1 h降低到15 min以内。 因此通过RF模型输出变量重要性进行特征提取, 模型识别精度和运算效率均得到了明显提升。

为了评估鱼肉中的不同元素对模型判别分类的贡献, 对RF输出的变量重要性由大到小排序, 得到变量重要性在前8位的元素分别是Na、 K、 Mg、 Ca、 P、 Rb、 H、 C, 如图6所示。 C、 H、 O、 N作为鱼肉中的有机基体元素, 尽管其含量最高, 但对模型分类的贡献远低于Na、 K、 Mg、 Ca、 P、 Rb等常量和微量元素。 这也证明了利用RF变量重要性进行特征提取, 能够很好地将对模型分类贡献大的特征变量筛选出来。 进一步地, 图7给出了C Ⅰ 193.1 nm和P Ⅰ 213.6 nm两条特征谱线及其所对应的变量重要性, 可以看出, 尽管P元素的谱线强度明显低于C元素, 但其变量重要性却明显高于C元素。 这体现了RF模型结合变量重要性提取对弱信号的鉴别能力, 将其作为特征变量进行模型的训练和预测, 能够有效避免模型出现过拟合的情况, 提高模型的识别精度。

图6 按照RF变量重要性大小排序的前8种元素组分Fig.6 The first eight elements based on the ranking of variable importance

图7 C Ⅰ 193.1 nm和P Ⅰ 213.6 nm谱线及其RF变量重要性Fig.7 C Ⅰ 193.1 nm and P Ⅰ 213.6 nm lines together with their variable importance

3 结论

将LIBS技术结合随机森林算法用于不同鱼肉种类的快速鉴别分析。 首先采用手持式LIBS分析仪采集6种鱼肉压片样品的光谱数据, 通过PCA聚类分析发现不同海水鱼之间和不同淡水鱼之间的样品难以有效区分。 之后采用随机森林算法建立分类模型, 通过优化决策树个数和决策深度, 实现RF模型对训练集数据的最佳拟合, 检验集的整体识别正确率为90%。 为进一步提高模型识别精度和分析效率, 采用RF模型输出的变量重要性进行光谱特征提取。 结果表明, 经过特征提取后, 整体识别正确率提高到94.44%, 且模型输入变量由23 431个减少到597个, 模型运算时间显著降低。 通过对比RF输出的变量重要性与LIBS特征谱线, 发现Na、 K、 Mg、 Ca、 P、 Rb等常量和微量元素所对应的特征波长具有较高的变量重要性, 表明RF模型结合变量重要性提取可以很好地将LIBS光谱中变量重要性高的弱信号提取出来, 有效剔除了谱线噪声、 背景、 以及其他不相关变量的干扰, 提高模型的识别精度和分析效率。 该工作验证了手持式LIBS设备结合机器学习方法用于市场鱼产品快速鉴别分析的可行性。

参考文献
[1] SHAO Gui-lan, DUAN Hui-xia, LI-Chen(邵桂兰, 段会霞, 李晨). Journal of Hunan Agricultural University·Social Sciences(湖南农业大学学报·社会科学版), 2019, 20(6): 56. [本文引用:1]
[2] WANG Zhi-ying, LI Ting-ting, ZHANG Gui-lan, et al(王之莹, 李婷婷, 张桂兰, ). Food Science(食品科学), 2019, 40(11): 277. [本文引用:1]
[3] SHI Zi-he, Josef Voglmeir, LIU Li(施姿鹤, Josef Voglmeir, 刘丽). Food Science(食品科学), 2019, 40(23): 319. [本文引用:1]
[4] Kumar Y, Karne S C. Trends in Food Science & Technology, 2017, 62: 59. [本文引用:1]
[5] Markiewicz-Keszycka M, Cama-Moncunill X, Casado-Gavalda M P, et al. Trends in Food Science & Technology, 2017, 65: 80. [本文引用:1]
[6] Markiewicz-Keszycka M, Casado-Gavalda M P, Cama-Moncunill X, et al. Food Chemistry, 2018, 244: 324. [本文引用:1]
[7] Tian Y, Yan C, Zhang T, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2017, 135: 91. [本文引用:1]
[8] Baskali-Bouregaa N, Milliand M L, Mauffrey S, et al. Talanta, 2020, 211: 120674. [本文引用:1]
[9] Leme F O, Silvestre D M, Nascimento A N, et al. Journal of Analytical Atomic Spectrometry, 2018, 33(8): 1322. [本文引用:1]
[10] Huang L, Chen T, He X, et al. Applied Optics, 2017, 56(1): 24. [本文引用:1]
[11] Chu Y W, Tang S S, Ma S X, et al. Optics Express, 2018, 26(8): 10119. [本文引用:1]
[12] LIN Yu-qing, TIAN Ye, CHEN Qian, et al(林雨青, 田野, 陈倩, ). Food Science(食品科学), 2020, 41(14): 8. [本文引用:1]
[13] Tian Y, Chen Q, Lin Y, et al. Spectrochimica Acta Part B: Atomic Spectroscopy, 2021, 175: 106027. [本文引用:1]
[14] Senesi G S, Harmon R S, Hark R R. Spectrochimica Acta Part B: Atomic Spectroscopy, 2021, 175: 106013. [本文引用:1]
[15] Tang H, Zhang T, Yang X, et al. Analytical Methods, 2015, 7(21): 9171. [本文引用:1]