近红外光谱分析杨木-桉木混合纸浆原料
吴珽1, 房桂干1,2,*, 梁龙1, 邓拥军1, 熊智新2,3
1. 中国林业科学研究院林产化学工业研究所, 国家林业局林产化学工程重点开放性实验室, 江苏省生物质能源与材料重点实验室, 江苏 南京 210042
2. 南京林业大学林业资源高效加工利用协同创新中心, 江苏 南京 210037
3. 南京林业大学轻工科学与工程学院, 江苏 南京 210037
*通讯联系人 e-mail: fangguigan@icifp.cn

作者简介: 吴 珽, 1988年生, 中国林业科学研究院林产化学工业研究所博士研究生 e-mail: wtjoanpulp@163.com

摘要

近年来, 随着林纸一体化战略的推进, 多使用混合原料制浆。 而混合原料比例及成分含量的快速分析难以实现已成为制约制浆工业发展的瓶颈。 为解决此问题, 以广泛使用的杨木-桉木混合原料为研究对象, 用傅里叶近红外光谱仪采集了131个不同比例的杨木-桉木混合样品和30个单一杨木、 桉木样品的近红外光谱; 用化学法测定其综纤维素、 聚戊糖及Klason木素含量。 因主要化学成分含量的近红外光谱信息集中于7 600~4 000 cm-1区间, 对该区间的光谱数据进行平滑、 标准正态变换和一阶导数的预处理, 运用LASSO算法建立了杨木含量与聚戊糖含量模型; 对该区间数据进行平滑、 标准正态变换和二阶导数预处理后结合LASSO算法建立了综纤维素含量模型; 对该区间数据进行平滑、 多元信号校正和二阶导数预处理后结合LASSO算法建立了Klason木素含量模型。 杨木含量、 综纤维素、 聚戊糖、 Klason 木素含量模型的预测均方根误差分别为1.82%, 0.52%, 0.67%和0.59%; 绝对偏差范围分别为-3.01%~2.94%, -0.91%~0.83%, -0.91%~1.07%, -0.79%~0.92%。 4种模型的性能总体上略优于传统偏最小二乘法所建的模型且满足实际需求, 可以用于工业生产。

关键词: 近红外技术; LASSO算法; 预处理; 混合原料
中图分类号:O433 文献标识码:A
Analysis of Poplar-Eucalyptus Mixed Pulp Raw Materials Based on Near-Infrared Spectroscopy
WU Ting1, FANG Gui-gan1,2,*, LIANG Long1, DENG Yong-jun1, XIONG Zhi-xin2,3
1. Institute of Chemical Industry of Forest Products, Chinese Academy of Forestry, National Engineering Lab for Biomass Chemical Utilization; Key Lab of Biomass Energy and Material, Jiangsu Province, Nanjing 210042, China
2. Collaborative Innovation Center for High Efficient Processing and Utilization of Forestry Resources, Nanjing Forestry University, Nanjing 210037, China
3. College of Light Industry Science and Engineering, Nanjing Forestry University, Nanjing 210037, China
Abstract

In recent years, with the advance of forest and paper integration strategy, we often use mixed raw materials pulping. It is difficult to realize the rapid analysis of mixing degree and chemical composition content of raw materials, which has become the bottleneck constraints of pulping industry development. In order to solve this problem, the research chose the widely used poplar-eucalyptus wood mixed raw materials as study object, the near infrared spectrums of 131 poplar-eucalyptus wood samples which poplar content was artificially controlled and 30 single poplar and eucalyptus wood samples were collected with Fourier near infrared spectrometer, then the content of holocellulose, pentosan and Klason lignin was measured by chemical methods. The near-infrared spectra of these major chemical components are concentrated in the 7 600~4 000 cm-1 interval. The model of poplar content and the model of pentosan content were established by LASSO(the least absolute shrinkage and selection operator) algorithm combined with spectral data of 7 600~4 000 cm-1 which was pretreated by smoothing, standard normal variate and first derivative. The holocellulose content model was established with LASSO algorithm combined with same range of spectral data which was pretreated by smoothing, standard normal variate and second derivative. The Klason lignin content model was developed with the same algorithm , the same range of spectral data with the pretreatment of smoothing, multipicative scatter correction and second derivative. Poplar content, holocellulose, pentosan and Klason lignin models have root mean square error of prediction of 1.82%, 0.52%, 0.67% and 0.59% respectively. Absolute deviation (AD) range were -3.01%~2.94%, -0.91%~0.83%, -0.91%~1.07%, -0.79%~0.92%. The models have good performance better than the traditional partial least squares models that can be applied in actual industrial production.

Key words: Near-infrared spectroscopy technology; LASSO algorithm; Pretreatment; Mixed raw materials
引言

基于制浆工业及林纸一体化现状, 近年来我国推广运用速生杨目与速生桉木混合制取化学机械浆。 此举可缓解山东、 河南、 广西等地的地区性单一纸浆原料需求, 提高纸浆质量, 避免出现产能降低或混用低等级枝桠材等问题[1]。 但在实际生产中, 无法保证大批量原料处处混合均匀; 且原料因来源与贮存情况的不同, 决定纸浆得率的综纤维素, 提高纸页结合强度的半纤维素, 影响纸浆白度的木素等成分含量不同; 如按原定制浆工艺参数进行生产, 将无法满足纸浆的标准要求[2]。 传统化学分析手段较为繁琐, 苯醇、 硫酸、 溴化物、 亚氯酸钠等污染性药品用量高, 无法应用于现场且难以确定原料混合情况。 因此有必要实现杨木-桉木混合原料的实时分析, 以便在线调整用药量、 电耗等参数, 保证纸浆合格率, 确保生产稳定[3]

近红外光谱(near-infrared spectroscopy)目前不仅在农林[4]、 医药[5]、 石化[6]等领域得到了较为普遍的应用, 在常见制浆原料的鉴定识别[7]、 物理性质研究[8]及特定化学成分含量的测定[9]等方面发挥作用。 本研究采集杨木和桉木混合原料及杨木桉木单一原料的近红外光谱, 结合样本外分析能力强, 多用于信息统计分析[10]的LASSO算法建立材性分析模型, 实现对混合原料的树种比例及综纤维素、 聚戊糖、 Klason木素等重要材性指标的分析预测。

1 实验部分
1.1 原料

选取制浆用混合杨木片, 产地山东, 由树龄5~6年的三倍体毛白杨、 欧美杨、 意大利杨木片混合而成。 选取制浆用混合桉木片, 采集自广西, 由树龄4~6年的尾叶桉、 尾巨桉及蓝桉木片混合而成。 两种样本树龄均符合制浆行业原料的要求, 将两种木片用粉碎机磨粉后过振动筛, 截取40~60目之间的木粉。 待木粉水分含量稳定在12%左右, 且相隔24 h水分含量差不超过0.1%时, 认为木粉水分含量已经充分平衡。 将杨木粉和桉木粉按人为设置的不同质量比例均匀混合成131个样品, 记为S1, 其混合情况以混合样品中杨木的质量分数表示, 设定数据均匀分布在0%到100%之间。 另外选取单一树种的三倍体毛白杨、 欧美杨、 意大利杨样本各5个制作木粉样品, 记杨木含量为100%; 选取单一树种的尾叶桉、 尾巨桉及蓝桉样品各5个制作木粉样品, 记杨木含量为0%。 以上30个单一树种样品记为S2, S2配合S1作为训练集, 其作用在于极限情况的模拟, 可以扩展模型的适用性。 此外, 将单一树种样本制成木粉, 按含量梯度设定比例混合成32个样品, 记下其中杨木含量, 记为S3。 S3作为验证集, 考察模型对于各种复杂组成的杨木-桉木混合原料的分析能力。

1.2 光谱采集

用Thermo Fisher Scientific公司的Antaris Ⅱ 型傅里叶近红外光谱仪采集所有样品S1, S2, S3的近红外光谱, 设定仪器参数如下: 波数范围为10 000~4 000 cm-1; 光谱重复扫描次数为64次; 采样点为1 557个。 采用置顶旋转测样方式采集光谱, 每个样品装样采集5次, 取平均光谱数据以减小测量时环境和装样造成的误差。

1.3 含量测定

记录训练集131个混合样品及30个单一样品的杨木含量, 记录验证集32个混合样品的杨木含量。 用国标法测定训练集验证集所有样品的成分含量。 综纤维素含量的测定参照GB/T 2677.10— 1995; 聚戊糖含量的测定按照GB/T 2677.9— 1994; Klason木素含量则由GB/T 2677.8— 1994确定。

1.4 算法与分析

LASSO(the least absolute shrinkage and selection operator)算法由Tibshirani提出, 是一种处理具有复共线性数据的有偏估计。 该算法添加约束条件, 令回归系数的绝对值和(L1范数)小于可调整的常数, 并最小化残差平方和(residual sum of squares, RSS), 从而将一些回归系数压缩为零, 减少不重要的相关特征或干扰, 得到更准确的模型。

设有p个自变量x1, x2, …, xp和因变量y, 两者满足线性关系

y=α+β1x1+β2x2++βpxp+ε(1)

其中α 是常数项, β 1, β 2, …, β p是回归系数, ε 是随机扰动项。

设(xi1, xi2, …, xip; yi), i=1, 2, …, n, 是自变量x1, x2, …, xp的观测值, 对其运用中心标准化, 即: i=1nyi=0, i=1nxij=0, i=1nxij2=1, j=1, 2, , p, β=(β1, β2, , βp)T

对L1范数进行惩罚, 用RSS的最小值加上罚函数来表示

(α˙, β˙)=arg mini=1n(yi-α-j=1pβjxij)2, subject toj=1p|βj|λ(2)

在式(2)中λ ≥ 0是约束常数。 数据经过了中心标准化, 因此对任意约束常数λ ≥ 0, α 都存在解 α˙=0。 同时, 因为带约束的优化能够转化为带罚函数的无约束优化, 式(2)转化为

β˙(Lasso)=arg mini=1nyi-j=1pβjxij2+μj=1p|βi|(3)

其中μ 是惩罚系数。 随着μ 值增加, 最优解的 j=1p|βi|项将减小, 在此过程中一些自变量的系数将收缩为0, 从而实现高维变量集的降阶。 通过对L1范数的惩罚, LASSO算法得以去除干扰项, 筛选出负载信息更加密集, 具有代表性的自变量, 同时模型拟合程度更好。 式(3)中, 每个μ 值都对应唯一LASSO解, 因而该算法建模的关键是最优调整参数μ 的确定[11]。 通常用Matlab 8.0软件和交叉验证法拟合模型, 计算预测残差平方和(prediction residual error sum of squares, PRESS)或校正标准偏差(root mean square error of cross validation, RMSECV), 其值最小时, μ 值最优, 模型性能最好。

1.5 模型评价标准

决定系数 Rval2通常用于确定预测模型的拟合程度。 Rval2越趋近于1, 往往显示预测值和实际测定值拟合程度越高, 但 Rval2的大小常受到样品含量范围的制约。 其计算公式如下

Rval2=1-t=1n(yt, measured-yt, predicted)2t=1n(yt, measured-y̅measured)2

其中n是验证集样品数目, yt, measuredyt, predicted分别是验证集中第t个样品的实际测定值和预测值, y̅t, measured是验证集全部样品测定值的均值。

预测均方根误差(root mean square error of prediction, RMSEP)可以反映所建模型对验证集的预测情况, RMSEP的值越低, 预测精度越高, 准确性就越好。 其计算公式为

RMSEP=t=1n(yt, measured-yi, predicted)2n-1

相对分析误差(relative percent deviation, RPD)是验证集标准偏差与RMSEP的比值, 与 Rval2存在RPD= 1-(1-Rval2)的关系。 本研究尝试以样本含量范围与RMSEP的比值(RER)代替RPD, RER通过样本含量范围对RESEP进行标准化, 通常RER值越高越好, 但当样本含量范围较广或过窄时, 其值与RPD值同样, 将失去评价的准确性。

绝对偏差(absolute deviation, AD)是预测值与实际测定值两者的差, 其范围取决于单次预测误差的上限及下限。 制浆工业中, 其范围小于实验允许误差范围3倍以内, 可以用作较精确的分析。 高于误差范围3倍则用于非精确测定或筛选。 最后通过偏移值(Bias), 即绝对偏差代数和的平均值, 反映样品分析过程中的系统误差。

2 结果与讨论
2.1 测定值的分布

训练集和验证集样品的混合比例(以杨木含量表示)及化学成分含量情况如表1所示, 其中杨木含量在训练集的S1部分和验证集S3中均匀分布, 在训练集S2部分中, 或为0或为100%, 其目的在于更好的确定工业生产中处于极端状况(某次进样全部为杨木或桉木)时的分析能力。 训练集S1部分综纤维素含量在75.43%~81.55%之间, 验证集S3综纤维素含量在75.60%~81.35%之间, 均包含在训练集S2中单一树种综纤维素含量范围内。 S1中聚戊糖含量范围为24.09%~30.65%, S3中聚戊糖含量范围为24.01%~30.62%, 包含在S2样品的聚戊糖含量范围内。 S1中Klason木素含量范围为17.82%~26.48%, S3中Klason木素含量范围为17.99%~26.51%, 同样包含在S2样品的Klason木素含量范围内。 总体上训练集S1混合样品和训练集S2单一样品涵盖了杨木-桉木混合原料可能遇到的实际混合情况, 由此可以建立实用性较强的模型。

表1 样品含量分布情况(%) Table 1 Content distribution of samples(%)
2.2 样品的近红外光谱

温度(20± 0.5)℃时采集的训练集近红外光谱如图1所示, x轴为波数, y轴表示吸光度。 训练集中无论是S1混合样品还是S2单一样品谱图均相似, 难以区分。 其原因一是木材原料成分复杂, 除了含有纤维素聚戊糖等多糖类物质、 木素等芳香族化合物, 还含有树脂、 单宁、 色素及矿物质等成分; 二是光谱带重叠干扰严重。 而综纤维素(纤维素和聚戊糖的总和), 聚戊糖, Klason木素等主要化学成分信息集中于7 600~4 000 cm-1之间[12], 为了降低无关信息的影响, 选取7 600~4 000 cm-1区间的光谱经预处理后建模。

图1 样品的近红外光谱Fig.1 The near infrared spectra of samples

2.3 光谱预处理及模型的建立

尝试通过平滑、 一阶导数、 二阶导数、 标准正态变换(standard normal variate, SNV)和多元信号校正(multipicative scatter correction, MSC)等方法预处理光谱, 其中信号平滑用于降低噪声干扰, 导数处理用以消除基线和背景干扰, SNV或MSC用以消除木粉颗粒大小不均匀导致的非特异性散射的影响。 按表2设置9种预处理方式, 并以不经预处理的方式作为比对。 分别预处理7 600~4 000 cm-1区间的训练集光谱数据, 并导入Matlab 8.0中。 同时加载LASSO算法及训练集测定值, 运用留一法(leave-one-out method) 进行交叉验证建立模型, 即每次从训练集共161个样品中留1个样品作为预测对象, 其他样品用于建模并预测该样品, 不断重复上述流程, 最终训练集的每个样品均被预测1次且用于建模160次。 当杨木、 综纤维素、 聚戊糖、 Klason 木素模型RMSECV值最小时, 模型性能最好, 此时的为最优调整参数。 表2记录了10种预处理条件下的近红外光谱建模效果, 其中未经预处理的原始光谱建立的模型, Rcv2和RMSECV值均为最差。 光谱数据经过平滑, SNV和一阶导数的方法预处理后所建杨木含量模型有着最低的RMSECV 1.66%, 模型最优调整参数为12.96; 经过平滑, SNV和二阶导数方法预处理后所建综纤维素模型RMSECV最低, 为0.44%, 其最优调整参数为24.13; 经过平滑, SNV和一阶导数预处理后建立的聚戊糖模型RMSECV最低, 为0.54%, 模型最优调整参数值为16.04; 经过平滑, MSC和二阶导数预处理后所建Klason木素模型RMSECV最低, 为0.49%, 最优调整参数μ 为9.81。 4个最优模型的 Rcv2较大, 相关性好。

2.4 独立验证

以验证集中32个混合样品对4种最优模型进行独立验证从而确定模型性能, 预测值和实验测定值见表3, 两者分别作为纵坐标和横坐标, 得到散点图2, 可以描述模型的预测情况。 4个模型的偏移值分别是0.115 0%, -0.001 9%, -0.026 3%及0.023 8%, 其中杨木含量模型存在偏移, 散点分布在45° 线左侧较多, 导致预测的结果偏高。 综纤维素模型较稳定, 不存在明显的偏移, 预测结果基本没有受到外界影响。 聚戊糖模型、 Klason木素模型则存在少量偏移。

表2 预处理方法选择与模型参数 Table 2 Preprocessing method selection and model parameters
表3 模型的测定值与预测值 Table 3 Measured and predicted values of models

图2 测定值-预测值散点图
(a): 杨木; (b): 综纤维素; (c): 聚戊糖; (d): Klason 木素
Fig.2 The scatter diagram of measured values and predicted values
(a): Poplar; (b): Holocellulose; (c): Pentosan; (d): Klason lignin

为确定LASSO算法与常见计量学方法在建模精度方面存在的差异, 在Matlab中加载偏最小二乘法(partial least squares, PLS)运算程序, 建立四种PLS模型并用以预测S3样品, 两种方法的模型参数见表4。 杨木含量LASSO模型和PLS模型的RMSEP值分别为1.82%和1.96%, AD范围分别为-3.01%~2.94%和-3.18%~3.22%。 综纤维素含量LASSO模型和PLS模型的的RMSEP值分别为0.52%和0.57%, AD范围分别为-0.91%~0.83%和-0.96%~0.90%。 可见LASSO法用于混合原料中杨木含量测定及综纤维素分析优于PLS法。 聚戊糖含量LASSO模型和PLS模型的RMSEP值分别为0.67%和0.64%, AD范围分别为-0.91%~1.07%和-0.88%~1.00%, 用于聚戊糖分析PLS法略优于LASSO法。 Klason木素含量LASSO模型和PLS模型的RMSEP值分别为0.59%和0.68%, AD分别为-0.79%~0.92%和-1.05%~0.83%, AD范围相近, 但LASSO模型的RMSEP值显然更小, LASSO法在Klason木素分析方面也优于PLS法。 可见LASSO法用于制浆混合原料的分析除了提供更多思路, 其精确度也比传统方法有了一定的提升。

表4 LASSO模型评价与对比 Table 4 The evaluation of the models by LASSO

制浆工业中, 混合原料中混合比例分析研究很少, 因而没有行业标准; 综纤维素、 聚戊糖、 Klason木素的化学分析标准规定, 单次实验误差分别不超过± 0.4%, ± 0.4%和± 0.2%。 综纤维素模型AD范围和聚戊糖模型AD范围均在3倍单次实验误差以内, 因此 LASSO算法所建的综纤维素、 聚戊糖模型可以用于较精确的定量成分分析; 而LASSO法建立的Klason木素模型AD范围高于3倍单次实验误差, 模型适合用于非精确性的定性分析或筛选。

3 结 论

采集杨木-桉木混合样品及单一杨木、 桉木样品的近红外光谱, 取7 600~4 000 cm-1波段的光谱数据, 通过LASSO算法选择了预处理方式并建立了杨木含量、 综纤维素、 聚戊糖、 Klason木素模型, 模型的最优调整参数分别为12.96, 24.13, 16.04和9.81。 4个模型的 Rval2值分别为0.996 3, 0.904 7, 0.881 0和0.951 8, RMSEP值分别为1.82%, 0.52%, 0.67%和0.59%, RER值分别为54.95, 11.07, 9.88和14.44, 绝对偏差范围分别为-3.01%~2.94%, -0.91%~0.83%, -0.91%~1.07%, -0.79%~0.92%。 模型性能总体上优于用传统PLS法建立的模型, 其中综纤维素模型和聚戊糖模型可用于较精确的成分分析, Klason木素模型适用于定性分析或筛选。 本研究首次针对混合纸浆原料进行分析, 样品覆盖面较广, 对其中混合比例进行了定量预测, 适用于制浆生产线上的混合度检测及原料质检, 这在制浆工业生产中有较为实际的意义。

The authors have declared that no competing interests exist.

参考文献
[1] TIAN Chao, XUE Chong-yun, CHEN Bin(田超, 薛崇昀, 陈彬). China Pulp & Paper(中国造纸), 2010, 29(12): 10. [本文引用:1]
[2] Muhammad A J, Ong S S, Ratnam W. Journal of Forestry Research, 2017, (2): 1. [本文引用:1]
[3] Tsuchikawa S, Schwanninger M. Applied Spectroscopy Reviews, 2013, 48(7): 560. [本文引用:1]
[4] Stirling R. The Forestry Chronicle, 2013, 89(5): 654. [本文引用:1]
[5] ZHONG Yong-cui, YANG Li-wei, QIU Yun-qi, et al(钟永翠, 杨立伟, 邱蕴绮, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(6): 1771. [本文引用:1]
[6] Balabin R M, Safieva R Z, Lomakina E I. Microchemical Journal, 2011, 98(1): 121. [本文引用:1]
[7] Bouslamti M A, Irle M A, Belloncle C, et al. International Wood Products Journal, 2013, 4(4): 116. [本文引用:1]
[8] Fagan C C, Everard C D, Mcdonnell K. Bioresource Technology, 2011, 102(8): 5200. [本文引用:1]
[9] Mora C R, Schimleck L R. Wood Science and Technology, 2010, 44(4): 561. [本文引用:1]
[10] JIANG Cui-xia, LIU Yu-ye, XU Qi-fa(蒋翠侠, 刘玉叶, 许启发). Journal of Management Sciences in China(管理科学学报), 2016, 19(3): 107. [本文引用:1]
[11] Tibshirani R. Journal of the Royal Statistical Society, 2011, 73(3): 267. [本文引用:1]
[12] He Wenming, Hu Huiren. Bioresource Technology, 2013, 140(7): 299. [本文引用:1]