漫反射近红外光谱技术快速识别马尾松松脂和湿地松松脂
严军1, 黄晓萍1, 黄尹宁1, 吴叶宇1, 梁忠云2, 雷福厚1,*, 谭学才1
1. 广西民族大学化学化工学院, 广西高校食品安全与药物分析化学重点实验室,广西林产化学与工程重点实验室, 广西 南宁 530008
2. 广西林业科学研究院, 广西 南宁 530001
*通讯联系人 e-mail: yanjun03@163.com

作者简介: 严 军, 1982年生, 广西民族大学化学化工学院副教授 e-mail: 94711297@qq.com

摘要

不同种类的松脂因其化学组成的差异而对松脂下游产品的质量产生影响, 因此确保松脂种类的稳定性是保证松脂下游产品质量的关键, 针对在松脂原料采购过程中松脂种类识别困难的问题, 提出了一种基于漫反射近红外光谱和偏最小二乘判别分析(PLSDA)相结合的分析技术, 该技术能够快速识别马尾松松脂和湿地松松脂, 为松脂原料采购提供可靠的种类信息。 以在广西区内武鸣、 防城、 富川、 梧州、 百色、 乐业共6个不同松脂产区采集所得的82个松脂样本进行建模, 包括湿地松松脂51个, 马尾松松脂31个, 利用i-spec型近红外光谱仪采集松脂样本在900~1 700 nm范围内的近红外光谱。 利用子窗口随机化分析法(SPA)进行变量选择, 从510个波长点中优选出300个波长点组成的变量子集, 再通过重复双重交叉检验技术(RDCV)确定偏最小二乘判别分析建模的潜变量数( n=7)。 结果表明, 所建立的分类模型能够准确识别两种不同种类的松脂, 模型对于外部测试集中的松脂样本识别准确率为96.30%, 能够满足松脂行业在原料采购过程中质量控制的需要。 该方法具有分析速度快、 操作简便、 分析成本低、 样本无损等优势, 适用于松脂原料采购环节的质量控制。

关键词: 马尾松松脂; 湿地松松脂; 近红外光谱; 种类识别
中图分类号:O657.3 文献标识码:A
Discrimination of Oleoresins from Pinus msssoniana and Pinus elliottii by Near Infrared Spectroscopy
YAN Jun1, HUANG Xiao-ping1, HUANG Yin-ning1, WU Ye-yu1, LIANG Zhong-yun2, LEI Fu-hou1,*, TAN Xue-cai1
1. School of Chemistry Engineering, Guangxi University for Nationalities, Key Laboratory of Guangxi Colleges and Universities for Food Safe and Pharmaceutical Analytical Chemistry, Guangxi Key Laboratory of Chemistry and Engineering of Forest Products, Nanning 530008, China
2. Guangxi Research Institute of Forestry, Nanning 530001, China
Abstract

It is crucial to ensure the quality stability of rosin material since the different chemical constituents of various kinds of rosins will obviously influence the quality of down-stream product. Herein, a method based on near infrared spectroscopy and partial least squares discriminant analysis was proposed to discriminate oleoresins from Pinus msssoniana and Pinus elliottii, which could be helpful to identify the species of oleoresins during the purchasing process. Eighty-two oleoresin samples from six different producing areas of Guangxi, i. e. Wuming, Fangcheng, Fuchuan, Wuzhou, Baise and Leye, were collected to develop classification model. These collected samples were consisted of 51 Pinus msssoniana and 31 Pinus elliottii. Diffuse reflection modes were applied to obtain near infrared spectrum range from 900~1 700 nm. Then, several chemometrics techniques such as sub-window permutation analysis and repeated double cross validation were used to select optimal variables and the number of principal component. Finally, 300 variables were extracted from the original variable pool and the optimal number of principal component was set to 8. Results showed that the obtained model can accurately discriminate oleoresins from Pinus msssoniana and Pinus elliottii, and the classification accuracy of external test is 96.30%, which can meet the need of quality control. The proposed method is less time-consuming, easy to operate and low-cost, and it is suitable for the quality control of purchasing process.

Key words: Pinus msssoniana; Pinus elliottii; Near infrared spectroscopy; Species discrimination
引言

松脂是林产工业的重要原料, 其质量直接影响下游的松香、 松节油等林化产品。 随着我国的松脂产业由原料初加工向产品精深加工转型, 如何在松脂原料采购环节从源头保证松脂质量是松脂产业进一步发展的关键问题之一。 一直以来, 松脂原料质量问题主要集中在松脂掺杂方面, 即商贩为获取利益而在松脂中掺杂工业盐、 淀粉、 木屑、 高岭土等杂质。 值得注意的是, 不同种类的松脂由于化学成分的种类和含量差异, 也会对下游产品的质量产生不同的影响, 比如松香的颜色、 软化点、 杂质和结晶等主要质量指标。 松脂种类的混淆将导致两个问题, 其一是以特定种类松脂为原料的松香及其下游产品在相同的工艺条件下无法得到合格的产品; 其二是由于不同种类的松脂混杂引起化学组成成分及含量的差异, 导致松脂化学组成稳定性无法得到保证, 影响到统一的生产作业。 但是, 由于不同种类的松脂在化学组成上具有较高的相似性, 因此通过传统的鉴别方法无法实现有效的质量控制, 亟需开发新的快速可行的检测方法。

本工作以马尾松和湿地松的松脂为研究对象, 马尾松是中国在国际市场上最具号召力的松脂树种, 马尾松松香产品也是目前全球质量最好的松香, 而湿地松是中国由国外引种, 并在近年来开始大规模采集松脂的新型松脂树种。 已有研究表明, 马尾松松脂和湿地松松脂的化学组成和含量均有差异, 这必然对下游产品的开发带来不同的影响。 由于马尾松松脂的价格高于湿地松松脂, 供应商或脂贩在供货过程中有时会存在假报松脂种类的现象, 从而引起松脂质量问题。

由于松脂种类识别是松脂产业近年来才出现的问题, 因此专门的研究报道较少。 传统的松脂分析方法为气相色谱分析, 通过定性定量地解析松脂的化学成分, 可以识别出不同种类的松脂[1, 2]。 然而气相色谱法的样品前处理繁琐、 分析时间较长、 且无法实现现场分析, 不适于在采购环节快速检测产品质量。 近红外光谱技术是一种快速无损的分析方法, 近年来在农业、 食品等领域应用广泛[3, 4, 5]。 目前, 近红外光谱技术也开始被引入林产化学领域, Silvana Nisgoski等利用近红外光谱技术识别巴西南部不同种类的柳杉[6]。 本研究利用近红外光谱技术结合化学计量学方法, 通过建立不同种类松脂的分类模型, 利用该模型能够对新的松脂样本进行快速准确地识别。 近红外分析方法具有快速、 简便、 无损、 分析成本低等优势, 适合于在采购环节进行松脂的质量控制。

1 实验部分
1.1 原料、 试剂与仪器

原料: 82个松脂样本由广西林业科学院梁忠云工程师负责采集鉴定, 单个样本采集量为50 g, 采样时间为2016年6月— 7月, 采集地点为广西壮族自治区内的武鸣、 防城、 富川、 梧州、 百色、 乐业, 松脂样本包括马尾松松脂31个和湿地松松脂51个。 松脂样本采集后去除树皮、 枝叶等杂质导入样品瓶, 密封, 存于冰箱冷藏待测定。

仪器: i-spec型近红外光谱仪(美国必达泰克公司), 附件: 积分球采集模块。 所有化学计量学算法均通过matlab2010b编程实现, 部分算法通过化学计量学软件ChemSolv实现。

1.2 方法

移取适量松脂装入3 cm× 4 cm的透明密封袋, 压平松脂, 制备得到厚度约5 mm, 面积约2 cm× 2 cm的饼状松脂样本, 呈粘稠固体形态。 近红外光谱仪预热30 min后开始测量, 首先关闭光源测得仪器暗电流, 以白色底板测得参比光谱, 再通过积分球以漫反射方式直接采集松脂样本的近红外光谱信息。 实验参数: 扫描波段900~1 700 nm, 积分时间4 000 ms, 扫描次数10次, 单个样本采集光谱数据点511个。 建模过程包括光谱预处理(平滑去噪、 奇异值筛选、 特征选择等)、 模型训练、 模型校验等步骤, 待测样本引入模型中并进行种类识别, 流程如图1所示。

图1 分类模型建模流程图Fig.1 Flow chart of modeling

2 结果与讨论
2.1 光谱预处理

按照1.2的实验方法测得松脂样本的近红外光谱。 由于测量过程中存在的光谱噪声以及因样本物理性状差异所引起的散射影响, 建模之前需要对近红外光谱进行光谱预处理。 考虑到松脂样本兼具固体和浆状物的特点, 采用S-G平滑和多元散射校正(multiplicative scatter correction, MSC)相结合的预处理技术, S-G平滑能够有效减小光谱的噪声, 而MSC是基于统计的方法, 能够修正光谱因散射所发生的线性变化。 预处理后的光谱如图2所示。

图2 预处理后的松脂近红外光谱图Fig.2 NIR spectrum after pre-treatment

主成分分析是一种经典的数据降维技术, 通过将高维数据在低维空间可视化, 从而了解样本分布的基本情况。 从图3可以看出, 82个样本在第一主成分和第二主成分的投影上具有比较明显的两类趋势, 这说明利用近红外光谱作为松脂种类识别具有理论上的可行性。 但是, 马尾松松脂和湿地松松脂依然存在部分重叠, 因此用无监督模式的分类方法很难对两种松脂的种类进行准确识别。

图3 样本空间的主成分投影Fig.3 Projection of principal component for sample space

2.2 奇异值检验

奇异值影响模型的性能, 光谱矩阵和响应矩阵两个方面的离群现象均有可能导致奇异值的产生, 也被称为x奇异值和y奇异值, 其中x奇异值主要是由于样本的组成与整体差异过大、 光谱测量误差等因素所导致, 而y奇异值通常是因为样本的指标值测量或识别错误所致。 为了消除奇异值对建模的影响, 采用基于蒙特卡洛采样的奇异值诊断技术对校正集中的奇异值进行筛选(方法原理见文献[7])。 本实验中均值取0.80, 方差取0.181, 超出阈值的12号、 15号、 33号、 35号、 77号样本为奇异值, 见图4, 所有奇异值均不参与建模。 数据集中剩余的样本数为77个(湿地松48个, 马尾松29个)。

去除奇异值的样本被随机划分为训练集与测试集, 训练集样本数50个(18个马尾松松脂和32个湿地松松脂), 测试集样本数27个(11个马尾松松脂和16个湿地松松脂)。 利用训练集的50个样本建模, 测试集中的样本不参与建模的任何过程, 仅用于检验模型的预测能力。

图4 基于蒙特卡洛采样的异常样本诊断结果示意图Fig.4 Outlier diagnosis based on Monte Carlo sampling

2.3 偏最小二乘判别分析

偏最小二乘判别分析(partial least squares discriminant analysis, PLSDA)是一种广泛应用的有监督模式识别方法, 即用已知的样本进行训练, 让计算机从这些样本的数据中“ 学习” , 从而得到一个对同类样本具有预测功能的判别模型, 该方法特别适合于样本数较少、 变量数较多的数据集。 本研究中, 设训练集的光谱矩阵为X50× 511, 即有50个松脂样本, 每个样本有511个光谱数据点; 训练集的响应矩阵为y50× 1, 其中马尾松松脂由“ +1” 表示, 湿地松松脂由“ -1” 表示。

2.3.1 子窗口随机分析变量选择

近红外光谱的信息复杂且不同波长间的信号存在关联, 其中信息变量、 非信息变量以及干扰变量共存。 如何从大量的光谱数据中选择合适的波段进行分析是近红外光谱建模中重要问题, 早期研究中一般认为偏最小二乘利用潜变量建模能够达到去噪和变量选择的目的, 但是最近研究表明, 变量选择与潜变量建模相结合能够简化模型, 提高模型的稳健性和预测精度[8, 9]

本实验采用子窗口随机化分析法(sub-window permutation analysis, SPA)进行变量选择, 从511个原始光谱数据点中选择了300个变量进行建模。 子窗口随机化分析变量选择是基于模型集群的思想, 通过不同的训练子集和变量子集反复地建立子模型, 通过对大量子模型的统计分析, 筛选出最佳的变量集。 图5将算法选择出的变量与样本的近红外光谱图进行对照, 可以发现有效变量出现的区域与近红外光谱吸收峰的位置一致。

2.3.2 重复双重交叉检验确定潜变量数

偏最小二乘判别分析是一种利用潜变量建模的方法, 因此, 如何选择合适的潜变量数是影响模型性能的关键。 潜变量数选择过少, 模型欠拟合; 选择过多, 则会引起模型过拟合。 交互检验可以有效地利用样本信息, 在进行建模的同时进行样本校验, 并据此获得最佳模型。 重复双重交叉检验(repeated double cross validation, RDCV)是一种新的交互检验方法, 它将蒙特卡洛交叉校验与双重交叉校验结合到一起, 兼具二者的优势, 能够给出预测误差的分布信息。 本实验中利用重复双重交叉检验建立1000个子模型, 统计最优模型潜变量数的最高频度值最终确定为模型的潜变量数(n=7), 结果如图6所示。

图5 子窗口随机化分析变量选择Fig.5 Variable selection by SPA

图6 重复双重交叉校验潜变量数频度图Fig.6 Frequency diagram of RDCV

表1 偏最小二乘判别分析模型参数及结果 Table 1 Model parameters and results of PLSDA

2.3.3 分类模型建立及评价

经过光谱预处理、 奇异值筛选、 波长选择和确定潜变量数等步骤后, 利用偏最小二乘判别分析法建立模型, 并通过测试集中的未知样本对模型的预测能力进行评估。 表1可见, 测试集中的27个样本, 除17号湿地松松脂被错判为马尾松松脂, 其余26个样本均能正确识别, 准确率达到96.30%。

3 结 论

偏最小二乘判别分析能够有效地区分马尾松松脂和湿地松松脂的近红外光谱, 为松脂行业在松脂原料采购过程中进行快速的质量控制提供了一种新的分析技术, 该技术具有分析时间短、 成本较低、 操作方便等优势。 在将来的研究中, 通过扩大样本建立覆盖范围更广的数据库将有利于进一步提高模型的稳健性。 此外, 基于近红外光谱和数据库技术开发相关的松脂类产品专用型分析仪器, 也将有利于进一步实现松脂类别的自动分析和在线分析。

The authors have declared that no competing interests exist.

参考文献
[1] DONG Jing-xi, GUO Hui-jun, ZHANG Zi-yi(董静曦, 郭辉军, 张子翼). Scientia Silvae Sinicae(林业科学), 2016, 52(12): 112. [本文引用:1]
[2] AN Ning, DING Gui-jie(安宁, 丁贵杰). Journal of Central South University of Forestry & Technology(中南林业科技大学学报), 2012, 32(2): 59. [本文引用:1]
[3] Galtier O, Abbas O, Le Dreau Y, et al. Vib. Spectrosc, 2011, 55(1): 132. [本文引用:1]
[4] Fan Wei, Li Hongdong, Shan Yang, et al. Anal. Methods, 2011, 3: 1872. [本文引用:1]
[5] Thyholt K, Isaksson T. J. Sci. Food Agric. , 2015, 73(4): 525. [本文引用:1]
[6] Silvana N, Felipe Z S, Francielli R, et al. Wood Sci. Technol. , 2016, 50: 71. [本文引用:1]
[7] Cao Dongsheng, Liang Yizeng, Xu Qingsong, et al. J. Chomb. Chem. , 2010, 31(3): 592. [本文引用:1]
[8] Norinder U. J. Chemom. , 2015, 10(2): 95. [本文引用:1]
[9] Li Hongdong, Zeng Maomao, Tan Bingbing, et al. Metabolomics, 2010, 6(3): 353. [本文引用:1]