近红外光谱烟叶质量等级快速检测与等级特征分析
王超1, 李朋成2, 杨凯1, 张甜甜2, 刘艺琳2, 李军会2,*
1.上海烟草集团有限责任公司, 上海 200082
2.中国农业大学信息与电气工程学院, 北京 100083
*通讯作者 e-mail: caunir@cau.edu.cn

作者简介: 王 超, 1991年生, 上海烟草集团有限责任公司助理工程师 e-mail: cwecust@yeah.net

摘要

烤烟等级质量对配方设计和卷烟工业生产的稳定起着重要的作用。 采用传统外观分级法对2018年全国40个地级市产地的768份烤烟烟叶样品进行分类定级, 包括7个不同烟叶质量等级。 应用近红外光谱建立烟叶质量等级预测模型, 分析不同等级烟叶化学基团及相关成分的近红外吸收光谱特征。 结果表明: 不分产区建立全国烟叶等级预测模型, 建模集与预测集的预测标准差不大于1.35。 将样品按五大产区分区后, 建立各产区模型, 发现较全国模型, 分区后各个产区所建模型的预测标准差有所降低, 其中东南、 西南、 黄淮烟区模型提高较大, 检验集与预测标准差均不大于1.07。 对不同质量等级烟叶的平均光谱进行标准正态变量变换预处理后, 依据近红外光在不同频率范围吸收的有机基团及相关物质成分信息, 发现质量等级较好的烟叶, 纤维素含量较低, 淀粉等糖类物质含量较高; 质量等级较差的烟叶, 纤维素含量较高, 淀粉等糖类物质含量较低; 质量等级最差(上部低等)烟叶, 同时具有蛋白质类物质含量较高的特点。 因此, 应用近红外光谱可实现烟叶质量等级的快速预测, 预测偏差基本在相邻等级之间, 满足实际应用要求, 通过建立不同产区预测模型可进一步提高预测准确度; 同时, 不同等级烟叶在以纤维素、 淀粉和糖类、 蛋白质类等物质为主产生的基团吸收特征不同, 这也是应用近红外光谱实现烟叶质量等级快速检测的信息基础。 该研究结果对完善烟叶分级评价体系, 进一步优化分级方案, 为产品质量和维护等方面可提供了更加科学的方法指导和技术支撑。

关键词: 近红外光谱技术; 烟草工业分级; 烟草质量等级; 烟草产区
中图分类号:O657.33 文献标志码:A
Rapid Detection of Tobacco Quality Grade and Analysis of Grade Characteristics by Using Near-Infrared Spectroscopy
WANG Chao1, LI Peng-cheng2, YANG Kai1, ZHANG Tian-tian2, LIU Yi-lin2, LI Jun-hui2,*
1. Shanghai Tobacco Group Co., Ltd., Shanghai 200082, China
2. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
*Corresponding author
Abstract

The grade quality of flue-cured tobacco plays an important role in the formulation design and the stability of the cigarette industry. In this paper, 768 tobacco samples from 40 prefecture-level cities in China, 2018 are selected for the experiment. The samples were classified and graded by traditional industrial grading method, including 7 different grade grades of tobacco leaves. The way to establish a tobacco quality grade prediction model by near-infrared spectroscopy and the near-infrared absorption spectrum characteristics of chemical groups and related components in different grades of tobacco are studied. The results show that the national tobacco grades prediction model is established in the non-segregated area, and the prediction standard deviation between the modeling set and the test set is not more than 1.35. After the samples are divided into five major production areas, models of each production area are established, and the prediction standard deviation of the models built in each production area after the division is found to be lower than that of the national model. The model in the Southeast region, the Southwest region and the Huanghuai region increased greatly, and the standard deviation of the test set was no more than 1. 07. After the standard normal transform (SNV) pretreatment of the average spectrum of different quality grades tobacco samples, the analysis is performed based on the information of the organic groups and related substances absorbed by the near-infrared light in different frequency ranges. It is found that tobacco with better quality grades has the characteristics of lower cellulose content and higher sugar content such as starch. The tobacco with lower quality grades has the characteristics of higher cellulose content and lower sugar content such as starch. At the same time, the worst quality grade (the upper and lower) tobacco has the characteristics of higher protein content. The results show that the application of near-infrared spectroscopy can realize the rapid prediction of the quality level of tobacco leaves. The prediction deviation is basically between adjacent levels, which meets the actual application requirements, and the prediction accuracy can be further improved by establishing prediction models of different production areas. At the same time, different grades of tobacco have different absorption characteristics of groups mainly composed of cellulose, starch, sugars, and proteins, which is also the information basis for applying near-infrared spectroscopy to achieve rapid detection of tobacco quality grades. This has important practical significance for improving the tobacco leaf grading evaluation system, further optimizing the grading scheme, and providing more scientific method guidance and technical support for product quality and maintenance.

Keyword: Near infrared spectroscopy; Classification of tobacco industry; Quality classification of tobacco; Tobacco production areas
引言

近红外光谱技术具备绿色高效的分析特点[1, 2, 3], 通过扫描样品的近红外光谱, 可得到样品中有机分子含氢基团的特征信息[2]; 随着该技术的日趋成熟[3], 其已经在各个领域发挥着举足轻重的作用[4]

近年来, 近红外光谱技术在烟草产业的应用有着突破性的进展[5, 6, 7, 8, 9, 10]。 许多研究成果实现了应用近红外光谱技术对烟草特定化学成分的定量分析[11, 12], 以及研究了烟草内关键化学指标含量对烟草质量等级的影响[13], 揭示了烟草关键化学指标含量与烟草质量等级间存在着密切关系。

为了更好的指导烟草企业进行原料采购和配方使用, 需根据我国烟叶资源的现状制定合适的烤烟工业分级体系。 国内烟叶质量等级的评价目前仍延用传统的方法, 即以烟叶的感官质量或外观质量(烟叶的部位、 颜色、 成熟度、 油分、 色度)为主, 加以物理特性或化学成分为辅进行分析。 在一定程度上对烟叶外观质量的评价主观依赖性较强, 导致评价偏差较大, 较为耗时耗力, 增加了生产成本, 不利于可持续的稳定生产。 应用近红外光谱技术实现对烟叶质量等级的快速检测, 可避免传统方法的不足, 高效率的实现烟草的工业分级, 对烤烟质量等级划分可提供更加实用的客观指导依据。

收集了来自全国14个省份40个地市级产地不同质量等级的烟叶样品, 进行近红外光谱与质量等级分析研究, 实现对上部低等、 下部低等、 中部低等、 上部上等、 下部上等、 中部中等、 中部上等, 等主要烟叶质量等级的快速检测。 这对完善烟叶工业分级评价体系, 指导企业进行原料采购和配方使用具有实际意义。

1 实验部分
1.1 材料

2018年度的768份烟草样品来自全国五大主要产区, 产地覆盖14个省份40个地市级, 样品产地来源分布见表1

表1 烟草样品产地分布 Table 1 Distribution of tobacco samples
1.2 仪器与光谱采集

实验用近红外仪器为美国赛默飞仪器公司的Antaris型傅里叶变换近红外光谱仪, 并配备中国农业大学近红外建模软件(CAUNIR7.2)使用。

光谱扫描条件: 波长扫描, 波长范围为12 000~4 000 cm-1, 分辨率8 cm-1, 扫描次数为64次, 每隔30 min扫描一次背景。

1.3 方法

1.3.1 方法概述

应用偏最小二乘定性判别方法(partial least squares-discriminant analysis, PLS-DA或DPLS)[14, 15]建立基于近红外光谱的定性判别模型, 在应用PLS-DA建立分类模型的编码中可采用多维二进制(0, 1)方式进行类别量化[14], 即使用多个二进制定量模型实现定性判别, 该方式对类别间相似性关系不确定的类别量化编码较为合理有效。 样品根据外观标准划分为7个质量等级, 并经感官评价依次得出了7个等级的质量梯度, 等级间的相似性关系较为确定, 因此在类别量化编码中采用连续数字编码方式, 即使用一个定量模型实现定性判别, 7个质量等级的对应编码见表2

表2 烟叶质量等级编码 Table 2 Grade coding of tobacco leaves

采用多次随机划分方式确定建模集和检验集, 得到的建模和预测结果基本一致, 文中使用其中一次的结果。 建模过程中采用内部交叉验证方法确定PLS主因子数[15, 16]

1.3.2 光谱预处理方法

导数和平滑方法结合既可以消除基线漂移或平缓背景干扰的影响, 也可以有效降低随机噪声[2, 3]。 采用一阶导数加15点平滑对原光谱进行预处理。

1.3.3 模型评价方法

评价模型的指标性参数为交叉验证集与预测集的相关系数(r)、 内部交叉验证预测标准差(standard error of cross-validation/prediction, SECV)、 预测集标准偏差(standard error of prediction, SEP)[2, 3]

2 结果与讨论
2.1 全国40个产地所有样品建模结果

应用全部样品建立全国烟叶质量等级模型的建模和预测结果如表3所示。

表3 所有样品建模结果 Table 3 Modeling results of samples from all regions

表3中模型的内部交叉验证和预测验证结果表明: 建模集与预测集的预测标准差不大于1.35, 预测偏差基本在相邻等级之间, 满足实际应用要求, 应用近红外光谱可基本实现烟叶质量等级的快速预测。 同时, 实验样品来自全国40个地级市产地, 相同质量等级不同产地烟叶间会存在较大差异, 因此通过缩小产地范围有望进一步提高模型预测结果。

2.2 分五大产区建模结果

烟叶质量受地域等生长环境的影响较大, 相同质量等级不同产地烟叶间会存在较大差异, 将全部样品按表1中的5大生态产区分类后进行建模的结果情况见表4

表4 不同产区建模结果 Table 4 Modeling results of different regions

表4中结果可以看出分产区后, 各个产区所建模型的预测标准差均有所降低, 其中东南、 西南、 黄淮烟区模型预测偏差降幅较大, 验证集的预测标准差不大于1.07, 较全国模型预测标准差降低幅度可达25%左右, 因此通过建立不同产区预测模型可进一步提高预测准确度, 预测偏差可进一步缩小在相邻等级之间, 满足实际应用要求。

2.3 不同等级烟叶的近红外光谱特征

近红外光在不同频率范围内吸收的有机基团及相关物质信息见表5[2]。 由于样品光谱的采集时间较为分散, 将不同等级烟叶样品光谱进行标准正态变量变换(standard normal variable transformation, SNV)预处理, 不同等级烟叶预处理后的平均光谱见图1, 在4 200~5 200 cm-1波数范围内放大的平均光谱见图2。

表5 近红外光在不同频率范围吸收的有机基团及相关物质成分信息 Table 5 Organic groups and related substance composition information absorbed in different frequency ranges

图1 SNV预处理后的平均光谱Fig.1 SNV-preprocessed spectra

图2 4 200~5 200 cm-1波数范围内的光谱Fig.2 Enlarged spectra in the range of 4 200~5 200 cm-1

表5, 图1及图2可知, 不同质量等级的烟叶光谱在不同波数范围内时, 存在不同特征。 在4 200~4 400 cm-1波数范围内, 是以纤维素等为主的碳氢基团等的吸收, 质量等级较低的1~4等级烟叶的吸光度较高, 质量等级较高的5~7等级的吸光度较低。 在4 700~4 800 cm-1波数范围内, 是以淀粉糖类等为主的氧氢基团等的吸收, 质量等级最差的1等级烟叶吸光度最低, 2和3等级烟叶也具有较低吸光度, 4~7等级烟叶具有较高吸光度。 在5 100~5 200 cm-1波数范围内, 是以蛋白质类等为主的氮氢基团等的吸收, 质量等级较低的1等级烟叶吸光度明显偏高。

依据近红外光在不同频率范围吸收的有机基团及相关物质成分信息, 以及不同等级烟叶在不同波段的吸收特征可以推测得出: 质量等级较好的烟叶, 具有纤维素含量较低, 淀粉等糖类物质含量较高的特点; 质量等级较差的烟叶, 具有纤维素含量较高, 淀粉等糖类物质含量较低的特点, 其中质量等级最差(上部低等)烟叶, 同时具有蛋白质类物质含量较高的特点。 不同等级烟叶在以纤维素、 淀粉和糖类、 蛋白质类等物质为主产生的基团吸收特征不同, 是应用近红外光谱实现烟叶质量等级快速检测的信息基础。

3 结论

基于不同产地烟叶样品, 分别建立了全国和分产区的烟叶质量等级预测模型。 全国及五大产区的模型预测结果表明, 应用近红外光谱可实现烟叶质量等级的快速预测, 通过建立不同产区预测模型可进一步提高预测准确度, 检验集与预测标准差均不大于1.07, 预测偏差基本在相邻等级之间, 满足实际应用要求。

依据近红外光在不同频率范围吸收的有机基团及相关物质成分信息, 以及不同等级烟叶在不同波段的吸收特征可以推测了解不同质量等级烟叶的纤维素、 淀粉和糖类、 蛋白质类等物质成分的含量有差异, 同时, 这些差异也是应用近红外光谱实现烟叶质量等级快速检测的物质和光谱信息基础。

本研究结果对优化烟叶工业等级方案, 以及产品质量和维护等方面可提供更加科学的方法指导和技术支撑, 对建立其他农产品质量等级的快速检测模型和质量等级的特征分析具有参考价值。

参考文献
[1] DING Ying(丁莹) . Infrared(红外), 2012, 33(7): 1. [本文引用:1]
[2] YAN Yan-lu(严衍禄). Principle, Technology and Application of NIR Spectra Analysis(近红外光谱分析的原理、 技术与应用). Beijing: China Light Industry Press(北京: 中国轻工业出版社), 2013. [本文引用:5]
[3] CHU Xiao-li, LIU Hui-ying, YAN Ze-cheng, et al(褚小立, 刘慧颖, 燕泽程, ). Practical Hand book for Near Infrared Spectroscopy(近红外光谱分析技术实用手册). Beijing: China Machine Press(北京: 机械工业出版社), 2016. 3. [本文引用:4]
[4] Swarbrick Brad. NIR News, 2016, 27(1): 39. [本文引用:1]
[5] Lin C, Chen X, Jian L, et al. Food Chemistry, 2014, 162: 10. [本文引用:1]
[6] ZHAO An-xin, TANG Xiao-jun, ZHANG Zhong-hua, et al(赵安新, 汤晓君, 张钟华, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2016, 36(5): 1340. [本文引用:1]
[7] Liudmil Antonov. Journal of Near Infrared Spectroscopy, 2017, 25(2): 145. [本文引用:1]
[8] FU Yi, ZHANG Yong-jun, CHEN Hua-cai, et al(傅谊, 张拥军, 陈华才, ). Food Science and Technology(食品科技), 2012, 37(5): 42. [本文引用:1]
[9] ElMasry G, Sun D W, Allen P, et al. Journal of Food Engineering, 2012, 100(1): 127. [本文引用:1]
[10] CAI Jian-hua, XIAO Yong-liang, LI Xiao-qin(蔡剑华, 肖永良, 黎小琴). China Tobacco(中国烟草学报), 2017, 23(4): 9. [本文引用:1]
[11] ZHOU Ji-yue, YANG Pan-pan, LIU Lei, et al(周继月, 杨盼盼, 刘磊, ). China Tobacco(中国烟草学报), 2018, 24(1): 6. [本文引用:1]
[12] XIA Jun, LU Yang, SU Yan, et al(夏骏, 陆扬, 苏燕, ). China Tobacco(中国烟草学报), 2015, 2: 19. [本文引用:1]
[13] WANG Jian-wei, LIU Hai-lun, DUAN Wei-dong, et al(王建伟, 刘海轮, 段卫东, ). Tobacco Science & Technology(烟草科技), 2016, 49(2): 7. [本文引用:1]
[14] GB/T 37969—2019, Stand ard Guidelines for Near Infrared Qualitative Analysis(近红外光谱定性分析通则), 2019. 15. [本文引用:2]
[15] Luan Lili, Wang Yuheng, Li Xueying, et al. Journal of Near Infrared Spectroscopy, 2016, 24(4): 363. [本文引用:2]
[16] Yang Yuqing, Ma li, Du Guorong, et al. Spectroscopy, 2018, 33(6): 27. [本文引用:1]