海南制浆树种中主要成分的近红外分析与模型优化
吴珽1,2,3, 梁龙1,3, 朱华3, 邓拥军1,3, 房桂干1,3,*
1.中国林业科学研究院林产化学工业研究所, 生物质化学利用国家工程实验室, 国家林业和草原局林产化学工程重点实验室, 江苏省生物质能源与材料重点实验室, 江苏 南京 210042
2.金东纸业(江苏)股份有限公司, 江苏 镇江 212132
3.江苏省林业资源高效加工利用协同创新中心, 江苏 南京 210037
*通讯作者 e-mail: ppfangguigan@163.com

作者简介: 吴珽, 1988年生, 中国林业科学院林产化学工业研究所助理研究员 e-mail: wuting@icifp.cn

摘要

为提高制浆树种的利用效率, 缓解国内制浆造纸原料短缺的现状, 降低行业污染与总体成本, 尝试将近红外光谱技术用于海南省制浆树种的成分含量分析, 以期根据实时所得成分含量相应调整工艺参数。 用结构简单、 易改装的全息光栅分光近红外光谱仪采集了海南省常见的适龄制浆树种(尾细桉、 尾巨桉、 尾叶桉、 马占相思和粗果相思)共205个样本的近红外光谱, 按传统实验室方法分析其主要成分——综纤维素和木质素的含量。 选择合适的预处理方法与偏最小二乘法结合, 建立了两种分析模型, 并通过遗传算法剔除不相关的变量, 筛选出特征波段, 明确综纤维素和木质素的特征吸收, 优化了模型。 其中综纤维素分析模型建立时采用Savitzky-Golay 13点3倍平滑、 矢量归一化和一阶导数预处理原始光谱, 1 150.3~2 362.0 nm波段参与建模。 筛选出的波段包含了1 188~1 196 nm之间CH3中C—H伸缩振动的二级倍频吸收, 1 742~1 633 nm区间内O—H伸缩振动的一级倍频, 2 112 nm附近O—H变形振动、 O—H伸缩振动的合频等纤维素的特征吸收; 也包含了1 470~1 495 nm之间O—H伸缩振动的一级倍频, 1 906和1 911 nm附近C=O伸缩振动的二级倍频等聚戊糖的特征吸收。 模型RMSEP值为0.55%, 绝对偏差范围为-0.91%~0.87%。 木质素分析模型建立时采用Savitzky-Golay 13点3倍平滑、 多元信号校正和二阶导数预处理原始光谱, 1 137.6~1 872.5和2 131.0~2 424.1 nm波段参与建模。 筛选出的波段包含了1 143 nm附近苯环C—H伸缩振动的二级倍频吸收和CH3的C—H伸缩振动的二级倍频吸收, 1 670~1 684 nm处苯环C—H伸缩振动的一级倍频, 2 205 nm附近C—H、 C=O伸缩振动的合频等木质素的特征吸收。 模型RMSEP值为0.45%, 绝对偏差范围为-0.76%~0.79%。 两个模型的RPD值分别为4.71和3.47, 均能满足制浆树种主要成分在线快速分析测定的工业需求。 同时, 本研究为制浆树种近红外表征体系的建立提供了理论依据, 对近红外技术助力制浆造纸工业由自动化向智能化转变具有较为显著的意义。

关键词: 近红外; 遗传算法; 特征波段; 综纤维素; 木质素
中图分类号:O433 文献标志码:A
Near-Infrared Analysis and Models Optimization of Main Components in Pulpwood of Hainan Province
WU Ting1,2,3, LIANG Long1,3, ZHU Hua3, DENG Yong-jun1,3, FANG Gui-gan1,3,*
1. Institute of Chemical Industry of Forest Products, CAF; National Engineering Lab for Biomass Chemical Utilization; Key Lab of Chemical Engineering of Forest Products, National Forestry and Grassland Administration; Key Lab of Biomass Energy and Material, Jiangsu Province, Nanjing 210042, China
2. Gold East Paper (Jiangsu) Co., Ltd., Zhenjiang 212132, China
3. Co-Innovation Center of Efficient Processing and Utilization of Forest Resources, Jiangsu Province, Nanjing 210037, China
*Corresponding author
Abstract

In order to improve the utilization efficiency of pulpwood in Hainan Province, alleviate the shortage of domestic pulping and papermaking materials, and reduce pollution and overall costs in the pulping and papermaking industry, this study aimed to use near-infrared spectroscopy for the analysis of pulpwood. A holographic grating spectroscopic near-infrared spectrometer with a simple structure and easy modification was used to collect the near-infrared spectrum of 205 samples of pulpwood common in Hainan ( E. urophlla× E. tereticornis, Eucalyptus urophylla× grandis, Eucalyptus urophylla, Acacia mangium, Acacia crassicarpa Benth.), and the content of holocellulose and lignin were measured according to the traditional laboratory methods. Suitable pretreatment methods were selected in combination with partial least squares to establish analysis models holocellulose and lignin. Then genetic algorithm was usedto eliminate the irrelevant variables and clarifythe feature absorption of holocellulose and lignin in order to optimize the models. The holocellulose model was established by pretreatment methods of Savitzky-Golay 13 points 3 times smoothing, vector normalization, the first derivative of the original spectrum, with 1 150.3~2 362.0 nm bands participated in modeling. The optimal bands included the characteristic absorption of cellulose such as the 2nd overtone of C—H stretching vibration in CH3 between 1 188~1 196 nm, the 1st overtone of O—H stretching vibration between 1 742~1 633 nm, the group frequencies of formation and stretching vibration of O—H near 2 112 nm. The optimal bands also included the characteristic absorption of pentosan such as the 1st overtone absorption of O—H stretching vibration between 1 470~1 495 nm, and the 2nd overtone absorption of C=O stretching vibration around 1 906 and 1 911 nm. The RMSEP value of the model was 0.55%, and the absolute deviation range was -0.91%~0.87%. The lignin model was established by pretreatment methods of Savitzky-Golay 13 points 3 times smoothing, MSC, the second derivative of the original spectrum, with 1 137.6~1 872.5 and 2 131.0~2 424.1 nm bands participated in modeling. The optimal bands included the characteristic absorption of lignin such as the 2nd overtone of the C—H stretching vibration in the benzene ring and in the CH3 near 1 143 nm, the 1st overtone of the C—H stretching vibration in the benzene ring between 1 670~1 684 nm, the group frequencies of stretching vibration of C—H and C=O near 2 205 nm. The RMSEP value of the model was 0.45%, and the absolute deviation range was -0.76%~0.79%. The two models’ RPD values were 4.71 and 3.47, respectively, which can meet the actual needs of online quick analysis and measurement of the main components of pulpwood. At the same time, this study provides a theoretical basis for the establishment of a near-infrared characterization system for pulpwood, and has a significant significance for the near-infrared technology to help the pulping and papermaking industry to change from automation to intelligence.

Keyword: Near-infrared; Genetic algorithm; Characteristic wavelengths; Holocellulose; Lignin
引言

制浆造纸产业是关乎国计民生的重要产业, 自2008年至2017年, 我国以纸与纸板产量年均增长2.4%左右的速度, 跃居成为世界第一的制浆造纸大国。 然而, 2018年和2019年全年纸和纸板生产量较上年均出现下滑[1]。 究其原因, 一是国内加大了限制进口废纸(废纸浆)的力度, 二是木浆供应不足。 随着贸易战的开展与新冠疫情影响, 国内对进口废纸(废纸浆)的限制只会趋严, 国内木浆供应量短期内无法大幅度增长, 提高国内制浆树种的利用效率已成为解决制浆造纸原料危机的可行方法[2]。 制浆树种因生长和来源情况不同, 主要化学成分的含量存在明显差异, 为实现生产输入端的均一化以保证产品质量, 通常采用高磨浆电耗, 过量加药等方式, 也引发了纸浆得率低, 污染严重等问题。 制浆树种中, 综纤维素和纸浆得率直接相关, 木质素则关系着产品的白度, 在生产输入端实现两者的在线分析, 并据此调控制浆工艺参数, 有望提高制浆树种的利用效率, 降低行业污染与总体成本[3]

目前近红外光谱技术已成为常用的在线分析方法, 在农林[4]、 生化等领域均发挥了重要作用。 将近红外光谱技术用于制浆树种的成分分析, 除解决制浆造纸工业的实际问题, 对于明确综纤维素、 木质素等复杂化学成分的特征吸收, 以期进一步形成制浆树种的近红外表征体系同样具有显著的理论意义[5]。 海南省气候、 土壤、 降水等自然条件优越, 拥有丰富的森林资源和优良的生态系统。 本研究以海南岛内常见制浆树种为样本, 通过传统偏最小二乘法(PLS)建立分析模型, 并以遗传算法优化模型提高其准确性和稳定性, 根据筛选出的综纤维素、 木质素特征波长, 从组分结构角度加以阐释。 最终为制浆树种的主要成分在线分析提供可能, 为其近红外表征体系的建立提供理论依据。

1 实验部分
1.1 样品选择

海南省制浆造纸原料林以尾细桉、 尾巨桉、 尾叶桉等树种为主, 混交部分马占相思和粗果相思, 同时种植少量木麻黄树(作防护林用, 鲜有用于制浆造纸的记录)。 从某集团下属乐东、 昌江、 琼中等原料林基地采集尾细桉、 尾巨桉、 尾叶桉、 马占相思、 粗果相思等5个制浆树种, 树龄5~6年, 去皮后在树干处等距离采集205个样本, 切片, 置于空气中充分平衡水分(此时的木片可认为性质接近纸浆用商业木片)并磨粉, 取粒径40~60目之间的木粉作为样品。 采集光谱并测定化学成分后, 按总体4:1的比例, 每个树种筛选8~9个样品用于模型独立验证; 另外164个样品作为训练集用于模型的建立, 样品情况见表1

表1 海南制浆树种样品情况 Table 1 Details of Hainan pulpwood samples
1.2 光谱采集

适应于制浆造纸生产线的近红外光谱仪有易搭建、 易改装、 低成本、 环境适应性强等实际要求。 选择结构简单的全息光栅分光近红外光谱仪(上海复享, NIR2510)采集海南制浆树种样本的近红外光谱, 其光谱范围为900~2 500 nm, 波长点256个。 采集光谱时, 每个制浆树种样品取样5次取平均光谱。

1.3 成分含量分析

205个训练集和验证集样品在采集完近红外光谱后按GB/T 2677.10— 1995和GB/T2677.8— 1994测定综纤维素含量和木质素含量。

1.4 模型建立与评价

选择光谱预处理方法组合分别与偏最小二乘法(PLS)结合建模, 并通过遗传算法(genetic algorithm, GA)筛选出特征波长, 进一步优化综纤维素和木质素分析模型。 以交互验证决定系数 Rcv2和RMSECV(交互验证均方根误差)评价建模交互验证情况。 以独立验证决定系数 Rval2、 预测均方根误差(RMSEP)、 相对分析误差(RPD)、 绝对偏差范围(AD)等参考指标评价模型性能, 以偏移值(Bias)表征模型系统误差。

2 结果与讨论
2.1 海南制浆材种主要成分测定值分布

根据国标方法分析5种海南制浆树种共205个样本的综纤维素及木质素含量, 测定结果如表2所示(国标方法中, 提取出的综纤维素、 木质素往往含有杂质, 两者之和可能超过100%)。 3种桉木的综纤维素含量均分布在77.59%~81.63%之间, 相思的综纤维素含量显著低于桉木, 分布在72.96%~78.45%之间。 桉木和相思的木质素含量总体差异不大, 均分布在21.01%~27.96%之间, 比国内北方常见制浆树种如杨木等, 木质素含量高出约5%, 相对难于漂白[6]。 样本覆盖了海南主要制浆树种, 有望建立具有代表性、 适用性好的分析模型。

表2 样本成分含量分布情况 Table 2 Chemical compositioncontent distribution of samples
2.2 光谱预处理与模型建立

在温度20 ℃, 相对湿度50%条件下, 采集205个制浆树种样本的近红外光谱(如图1所示), 其中x轴为波长点数, y轴为漫反射吸光度。 可见原始光谱吸收带宽、 重叠较为严重, 其原因一是采集过程中无关信息的干扰, 二是制浆树种作为木质纤维原料, 除了综纤维素、 木质素等主要成分外, 还含有一定比例的树脂、 无机盐、 脂肪等物质, 有着复杂的物理化学结构。

图1 制浆树种样本原始光谱Fig.1 Original near infrared spectrum of pulpwood samples

常见预处理方法中, 平滑法用于消除噪声; 导数法用于处理基线与背景干扰; 矢量归一化用于降低微小光程差异带来的光谱变动; 而多元散射校正(MSC)往往用于减轻木粉颗粒均一性差造成的散射影响[7]。 在Matlab8.0中对原始光谱使用Savitzky-Golay 13点3倍平滑消除噪声后, 将其他预处理方法联用并协同PLS法对训练集中164个制浆树种样本分别进行留一法交互验证建模分析, 采用不同预处理对建模分析的影响如表3所示。 当采用原始光谱直接建立模型的性能较差, 此时综纤维素和木质素模型均有最低的 Rcv2值和最高的RMSECV值, 单独采用平滑预处理, 模型性能有一定提升。 而对于综纤维素, 采用平滑、 矢量归一化、 一阶导数组合预处理后[如图2(a)]建模分析, Rcv2最高, 为0.974 7; RMSECV最低, 为0.43%, 此时模型最佳, PLS建模最佳主成分数为8。 对于木质素, 采用平滑、 MSC、 二阶导数组合预处理后[如图2(b)]建模分析, Rcv2最高, 为0.944 1; RMSECV最低, 为0.38%, 此时模型最佳, PLS建模最佳主成分数为11。

表3 预处理方法与建模分析 Table 3 Pretreatment methods selection and modeling analysis

图2 制浆树种近红外光谱的预处理
(a): 综纤维素; (b): 木质素
Fig.2 Pretreatment of original spectrum of pulpwood for holocellulose and lignin analysis
(a): Holocellulose; (b): Lignin

2.3 波长选择与模型优化

预处理方法联用可以有效减轻环境、 样品颗粒大小等因素造成的干扰, 但仪器波长区域内存在大量与综纤维素、 木质素成分结构关系不大的冗余信息, 对模型性能造成一定影响。 在确定建模过程中采用的特定预处理方法后, 选用遗传算法筛选光谱信息中与综纤维素和木质素相关性强的特定波长/波段, 从而优化分析模型性能。 对光谱区间900~2 500 nm间256个波长点进行二进制编码, 被选中时标注为1, 被剔除则标注为0, 人为设定筛选波长数目范围为10~200, 种群规模400, 进化代数150, 交叉概率0.65, 变异概率0.08, 在Matlab8.0软件中运行。

针对制浆树种中的综纤维素含量, 将每代进化后筛选出的波长点数变量集进行PLS建模, 以RMSECV值作为评价标准。 最终筛选出的最优波段为1 150.3~2 362.0 nm。 综纤维素包括纤维素和半纤维素, 在海南省制浆树种桉木、 相思等阔叶材种中, 半纤维素以聚戊糖的形式出现。 因此综纤维素的近红外特征吸收主要是纤维素和聚戊糖的近红外特征吸收。 就纤维素而言, 特征吸收多出现在1 188~2 335 nm之间, 如: 1 188~1 196 nm之间存在着CH3中C— H伸缩振动的二级倍频吸收, 1 366 nm附近可能存在CH3中C— H伸缩振动的一级倍频和变形振动的合频吸收; 1 742~1 633 nm区间内存在着O— H伸缩振动的一级倍频。 CH2中C— H伸缩振动的一级倍频吸收在1 703 nm附近, 1 720 nm附近则集中存在CH3中C— H伸缩振动的一级倍频吸收; 2 112 nm处有O— H变形振动、 O— H伸缩振动的合频; 2 275 nm附近存在O— H和C— C伸缩振动的合频吸收以及C— H变形和伸缩振动的合频吸收。 就聚戊糖而言, 1 350~1 370 nm的光谱区间内存在CH3中C— H伸缩振动一级倍频和变形振动的合频; 1 470~1 495 nm之间存在O— H伸缩振动的一级倍频; 1 665, 1 680和1 721 nm处存在CH3中C— H伸缩振动的一级倍频; 而1 704 nm处则存在CH2中C— H伸缩振动的一级倍频; 1 906和1 911 nm附近存在 C=O 伸缩振动的二级倍频吸收; 2 085 nm附近存在着O— H伸缩和变形振动以及C— H变形振动的合频; 2 325~2 335 nm之间存在C— H伸缩振动和C— H变形振动的合频吸收[8, 9]。 综纤维素中纤维素的特征吸收范围约为1 188~2 335 nm; 聚戊糖的特征吸收约为1 350~2 335 nm, 基本包含在利用遗传算法筛选出的波段内。

针对制浆树种中木质素含量, 采用同样方法, 将每代进化后筛选出的波长点数变量集进行PLS建模, 以RMSECV作为适应度评价指标。 最终筛选出的最优波段为1 137.6~1 872.5和2 131.0~2 424.1 nm。 木质素主要基团为甲氧基(— OCH3)、 羟基(— OH)、 羰基(C=O)和苯环, 其近红外谱中: 苯环中C— H伸缩振动的二级倍频吸收和CH3中C— H伸缩振动的二级倍频吸收在1 143 nm附近, HC=CH中C— H非对称伸缩振动的二级倍频吸收在1 172 nm附近; 1 408和1 449 nm处可能存在酚羟基O— H伸缩振动的一级倍频; 1 670~1 684 nm区间上存在苯环中C— H伸缩振动的一级倍频; 1 695~1 815 nm区间上存在C— H伸缩振动的一级倍频吸收; 2 205 nm附近有C— H, C=O伸缩振动的合频吸收; 2 268 nm附近存在O— H和C— O伸缩振动的合频; 2 337 nm附近存在C— H伸缩振动、 CH2变形振动的合频吸收[10, 11]。 可见木质素的特征吸收包含在经过遗传算法选出的波段内。

用所得两种模型分析验证集样本的近红外光谱进行独立验证, 并与900~2 500 nm完整波段建立的模型性能对比, 如表4所示。 波长选择后建立的两种主要成分含量模型预测均方根误差(RMSEP)分别为0.55%和0.45%, 绝对偏差范围分别为-0.91%~0.87%和-0.76%~0.79%, 相比完整波段建立的模型有着更小的RMSEP和更窄的绝对偏差范围, 说明遗传算法剔除了不相关的变量, 消除了无关信息干扰, 可有效进行波长筛选, 简化模型的同时使得模型预测能力增强且有着更好的稳健性。 两种主要成分模型的RPD值分别为4.71和3.47, 可应用于生产线上的快速分析与实时控制。 根据两种模型对验证集预测情况作散点图, 如图3。 可见综纤维素模型所得点在y=x直线左侧较多, 其Bias值约为0.046 6%, 说明总体上预测值略高于实际测定值, 模型存在较小的系统误差。 而木质素模型所得点在y=x直线右侧较多, Bias值约为-0.045 6%, 总体预测值略低于测定值, 模型同样存在较小的系统误差。

表4 制浆树种主要成分模型性能评价 Table 4 Performance evaluation of main component models of pulpwood

图3 模型独立验证散点分布图
(a): 综纤维素; (b): 木质素
Fig.3 The distribution of scatter plots in independent verification
(a): Holocellulose; (b): Lignin

3 结论

针对海南常见制浆树种的主要成分进行近红外光谱分析, 选择合适的预处理方法与偏最小二乘法结合, 建立了综纤维素和木质素的分析模型, 并通过遗传算法筛选了特征波段, 明确了综纤维素和木质素的特征吸收, 优化了模型。 其中综纤维素分析模型建立时采用平滑、 矢量归一化、 一阶导数预处理原始光谱, 1 150.3~2 362.0 nm波段参与建模。 模型RMSEP值为0.55%, 绝对偏差范围为-0.91%~0.87%。 木质素分析模型建立时采用平滑、 MSC、 二阶导数预处理原始光谱, 1 137.6~1 872.5和2 131.0~2 424.1 nm波段参与建模。 模型RMSEP值为0.45%, 绝对偏差范围为-0.76%~0.79%。 两个模型均能满足制浆树种在线快速分析测定的实际需求, 对近红外技术在制浆造纸行业的规模化应用具有一定意义。

参考文献
[1] ZHAO Wei(赵伟). China Pulp & Paper Industry(中华纸业), 2020, (1): 16. [本文引用:1]
[2] SHEN Kui-zhong, CHEN Yuan-hang, FANG Gui-gan, et al(沈葵忠, 陈远航, 房桂干, ). China Pulp & Paper Industry(中华纸业), 2019, 21: 54. [本文引用:1]
[3] Liang L, Fang G, Deng Y, et al. Forest Science, 2019, 65: 548. [本文引用:1]
[4] LI Shui-fang, LI Yi-fan, FU Hong-jun, et al(李水芳, 李一帆, 付红军, ). Journal of Forestry Engineering(林业工程学报), 2017, 2(6): 45. [本文引用:1]
[5] LIU Yao-yao, XIONG Zhi-xin, WANG Yong, et al(刘耀瑶, 熊智新, 王勇, ). Journal of Forestry Engineering(林业工程学报), 2019, 4(4): 93. [本文引用:1]
[6] Sun X, Hou Q, Shi H, et al. BioResources, 2018, 13: 5408. [本文引用:1]
[7] Tong P, Du Y, Zheng K, et al. Chemometrics and Intelligent Laboratory Systems, 2015, 143: 41. [本文引用:1]
[8] Ishizuka S, Sakai Y, Tanaka-Oda A, et al. Journal of Forest Research, 2014, 19(1): 236. [本文引用:1]
[9] Hein P R G, Campos A C M, Mendes R F, et al. European Journal of Wood & Wood Products, 2011, 69(3): 436. [本文引用:1]
[10] Liang L, Wei L, Fang G, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 225: 117515. [本文引用:1]
[11] Dwivedi P, Vivekanand V, Pareek N, et al. Applied Biochemistry & Biotechnology, 2010, 160(1): 255. [本文引用:1]