废旧纺织品近红外光谱定量分析的新模型
韩松辰, 刘胜*
北京林业大学理学院, 北京 100083
*通讯作者 e-mail: lshlxc@163.com

作者简介: 韩松辰, 1996年生,北京林业大学理学院硕士研究生 e-mail: 542820879@qq.com

摘要

根据废旧纺织品所含成分对它们做分类回收和处理可节省大量纺织原材料。 目前, 在废旧纺织品的回收过程中往往使用人工分拣方法。 这种方法成本高且效率低。 近红外光谱分析是21世纪发展最迅速的技术之一, 可以在不破坏样本的情况下快速测定样本的成分及每种成分的含量。 利用该技术对废旧纺织品进行分析, 预先判断废旧纺织品所含的成分及各种成分的含量, 可为废旧纺织品的大规模精细分类回收提供帮助。 多模型方法通过将各子模型的预测值做加权平均得到最终的预测值, 用该方法建立的近红外光谱分析模型一般具有较好的稳定性。 以废旧纺织品样本的锦纶含量为例, 先用多模型方法建立了锦纶含量的近红外光谱分析模型。 方法如下: 将反射率向量按照波长划分为15组。 用每组数据建立一个近红外光谱分析子模型。 对子模型的预测值做加权平均得出锦纶含量的最终预测值。 然后在多模型方法基础上, 根据锦纶含量预测值与实验值之间的近似线性关系, 通过用变量代替常量并对变量做标准化处理, 给出了一种便于优化的预测锦纶含量的近红外光谱分析新模型。 优化后的每个子模型中的参数比优化前减少了6个, 这样可防止模型过拟合。 将上述两个模型与常见的用偏最小二乘法建立的模型进行了对比。 交叉验证的结果表明: (优化后的)新模型的拟合优度的平均值为0.820 7, 单纯使用多模型方法所建模型的拟合优度的平均值为0.769 1, 用偏最小二乘法建立的模型的拟合优度的平均值为0.746 7。 因此, 使用多模型方法建立的模型的预测效果好于用偏最小二乘法建立的模型的预测效果。 新模型的预测效果明显好于其他两个模型的预测效果。 该研究主要创新之处是新模型的建立和优化。 文中建模方法有望用于废旧纺织品样本其他成分的含量预测。

关键词: 近红外光谱; 定量分析; 多模型方法; 新模型
中图分类号:O657.33 文献标志码:A
A New Model for Quantitative Analysis of Waste Textiles Using Near-Infrared Spectroscopy
HAN Song-chen, LIU Sheng*
College of Science, Beijing Forestry University, Beijing 100083, China
*Corresponding author
Abstract

If the waste textiles are classified, recycled and disposed of according to their components, many textile raw materials can be saved. At present, the manual sorting method is often used in the recycling process of waste textiles. This method is costly and inefficient. Near-infrared spectroscopy analysis is one of the most rapidly developing technologies in the 21st century. It can quickly determine the components of the sample and the content of each component without destroying the sample. Using this technology to analyze the waste textiles and prejudge the components and contents of various components of waste textiles can be helpful for the large-scale fine classification and recycling of waste textiles. In the multi-model method, the final predicted value is obtained by a weighted average of the predicted values of each sub-model. The near-infrared spectroscopy analysis model established by this method generally has good stability. In this paper, taking the nylon content of waste textile samples as an example, a near-infrared spectral analysis model for predicting the nylon content is first established using the multi-model method. The method is as follows: The reflectance vectors are divided into 15 groups according to their wavelengths. A sub-model of near-infrared spectral analysis is established with each data group. The final predicted value of the nylon content is obtained by a weighted average of the predicted values of sub-models. Then, based on the multi-model method, according to the approximately linear relationship between the predicted values and the experimental values of the nylon content, by replacing constants with variables and by standardizing the variables, a new model for predicting the nylon content by near-infrared spectral analysis is presented, and the model is convenient for optimization. After optimization, the parameters of each sub-model are reduced by 6. This can prevent overfitting of the model.The above two models are compared with the common model established by the partial least squares method. The results of cross-validation show that: the average of the goodness of fit of the (optimized) new model is 0.820 7. The average goodness of fit of the model built using the multi-model method alone is 0.769 1. The average goodness of fit of the model built by the partial least squares method is 0.746 7. Therefore, the prediction effect of the model built by the multi-model method is better than that of the model built by the partial least squares method. The prediction effect of the new model is better than that of the other two models. The main innovation of this paper is the establishment and optimization of the new model. The modeling method in this paper is expected to predict the content of other components in waste textile samples.

Keyword: Near-infrared spectroscopy; Quantitative analysis; Multi-model method; New model
引言

废旧纺织品的回收往往使用人工分拣方法, 这种方法成本高, 效率低。 如果能利用近红外光谱分析判断废旧纺织品所含成分及每种成分的含量, 则可为废旧纺织品的大规模分类分级回收提供帮助。 近红外光谱分析在食品、 石油、 医药等领域应用广泛[1, 2, 3, 4, 5, 6, 7, 8, 9], 在纺织领域也有一些应用[10, 11, 12]。 高升[9]等在二次特征波段提取的基础上用PLS方法建立了红提Vc等含量的预测模型; 陈慧[12]等探讨了利用弹性分量回归算法测定纺织品中羊毛含量的可行性。 范雅婷[13]等以多模型方法为工具, 用相思树的Klason木质素含量数据优化了苯醇抽提物含量的近红外光谱分析模型。 李海洋[14]等结合多模型方法与PCA-SVM方法建立了棉涤混纺和棉锦混纺样本的近红外光谱定性分析模型。 本工作以废旧纺织品的锦纶含量为例, 先用多模型方法建立锦纶含量的近红外光谱分析模型(简称为普通模型), 然后利用锦纶含量预测值与实验值之间的近似线性关系给出了一种便于优化的预测锦纶含量的新模型, 并对模型进行了优化。 最后将上述两个模型与用偏最小二乘法建立的模型(PLS模型)进行了对比。

1 实验部分
1.1 样本制备

为了获得更加准确的样本成分含量实验数据, 本研究所使用的样本经由实验室制备。 具体制作方法为: 先将收集到的含锦纶、 涤纶、 蚕丝废旧纺织品布样都用植物粉碎机打成可以通过八十目筛子的粉末。 然后根据预先设定的比例, 使用分析天平(感量0.1 mg)称取三种布样粉末进行混合。 通过调节每种粉末量, 获得含有不同成分占比的废旧纺织品样本。 共制得90个含有锦纶成分的样本, 以每个样本的实际锦纶含量占比(百分比)作为该样本的锦纶含量实验值进行建模。

1.2 光谱数据采集

使用日本Hitachi公司生产的UH4150近红外分光光度计采集样本的近红外光谱数据。 此仪器可以实现低噪音, 低偏振和高精度镜面反射率测定, 具有大型样品室, 适合测量固体样本。 近红外分光光度计的具体扫描参数为: 分辨率5 nm, 狭缝2 nm, 扫描速度1 200 nm· min-1, 扫描谱区700~2 500 nm。 样本光谱数据采集方法如下: 将空白样本放入事先预热好的仪器中进行扫描得到空白基底; 然后把干燥后的含锦纶废旧纺织品样本放入样本池进行扫描, 扫描后扣除本底光谱, 得到建模所用的近红外光谱数据。 样本的近红外光谱数据由样本在不同波长处的反射率值组成, 每个样本对应361个反射率值。

2 结果与讨论
2.1 数据的分组

将90个废旧纺织品样本按照锦纶含量从高到低的次序排列, 以便更合理的划分校正集和验证集。 为了便于对结果进行交叉检验, 将90个样本均分为3组。 取序号为1+3N(N=0, 1, ···, 29)的30个样本为A组, 取序号为2+3N和3+3N的样本为B组和C组。

先用A, B两组样本作为校正集, C组样本作为验证集。 将校正集中的样本重新编号为1— 60, 将验证集中的样本编号为61— 90。 设yi是第i个样本的锦纶含量实验值(i=1, 2, 3, ···, 90), 令YC=(y1, y2, y3, ···, y60), YV=(y61, y62, y63, ···, y90)。 校正集的光谱数据中每个波长的反射率形成一个60维的向量, 将这些向量按照波长从大到小的次序排列。 为了便于对光谱数据进行分组, 只取前360个反射率向量建模, 依次记为 X1C, X2C, X3C, ···, X360C。 将与之对应的验证集的反射率向量依次记为 X1V, X2V, X3V, ···, X360V。 由于反射率之间的多重共线性会影响模型的预测效果, 下面将反射率向量按波长分为15组。 校正集第k(k=1, 2, 3, ···, 15)组的反射率向量为 XkC, Xk+15C, Xk+30C, ···, Xk+345C, 验证集第k组的反射率向量为 XkV, Xk+15V, Xk+30V, ···, Xk+345V

2.2 用多模型方法建模

用第k组的反射率向量来建立第k个子模型。 设向量 Xk+15(j-1)C的分量的均值和标准差分别为μk+15(j-1)σ k+15(j-1), 令

M(k, j)C=1σk+15(j-1)(Xk+15(j-1)C-μk+15(j-1)IC)(j=1, 2, ···, 24)(1)

式(1)中, IC为分量都是1的60维的向量, 则第k个子模型可由等式

YC=a(k, 0)IC+j=124a(k, j)M(k, j)C+εk(2)

确定。 其中 a(k, 0), a(k, 1), ···, a(k, 24)为参数, εk为误差向量, a(k, 0)IC+j=124a(k, j)M(k, j)C则是 YC的一个近似值向量, 记为 YkC。为防止模型过拟合, 需要对模型进行优化(即适量减少子模型中的参数, 具体做法见2.5节)。 然后用多元线性回归方法求出各参数的值, 并计算 YkCYkC所对应的拟合优度 Rk2YkC做加权平均可得 YC的最终近似值向量 ZC=k=115bkYkC, 其中 bk=(1-Rk2)-2n=115(1-Rn2)-2-1。令

M(k, j)V=1σk+15(j-1)(Xk+15(j-1)V-μk+15(j-1)IV)(j=1, 2, ···, 24)(3)

式(3)中, IV为分量都是1的30维向量, 则 YkV=a(k, 0)IV+j=124a(k, j)M(k, j)V是由第k个子模型得出的 YV的预测值向量, ZV=k=115bkYkV则是 YV的最终预测值向量。

2.3 新模型的建立

仍使用第k组的反射率向量来建模, 设2.2节的ZC=(z1, z2, z3, z4, ···, z60), 设式(1)中的 M(k, j)C=(m(k, j)[1], m(k, j)[2], m(k, j)[3], ···, m(k, j)[60])。 由于yizi之间应该近似地具有线性关系, 所以可用a+bzi作为yi的近似值(i=1, 2, ···, 60), 其中a, b为常数。 为了减小误差, 分别用和光谱数据有关的变量 c(k, 0)+j=124c(k, j)m(k, j)[i]d(k, 0)+j=124d(k, j)m(k, j)[i]取代常数a和b, 则 yi可近似地由 (c(k, 0)+j=124c(k, j)m(k, j)[i])+(d(k, 0)+j=124d(k, j)m(k, j)[i])zi表示, 其中 c(k, j), d(k, j)为参数(j=0, 1, 2, ···, 24)。定义

M(k, j)CZC=(m(k, j)[1]z1, m(k, j)[2]z2, ···, m(k, j)[60]z60)(4)

则有

YCc(k, 0)IC+j=124c(k, j)M(k, j)C+d(k, 0)ZC+j=124d(k, j)M(k, j)CZC(5)

为了便于改进模型的预测效果, 下面对向量 M(k, j)CZC做标准化处理。 设 M(k, j)CZC的分量的均值和标准差分别为μ(k, j)σ (k, j), 令

H(k, j)C=1σ(k, j)(M(k, j)CZC-μ(k, j)IC)(j=1, 2, 3, ···, 24)(6)

H(k, j)C取代式(5)中的 M(k, j)CZC, 可得式(7)子模型

YC=c(k, 0)IC+j=124c(k, j)M(k, j)C+d(k, 0)ZC+j=124d(k, j)H(k, j)C+εk(7)

因该模型中的参数太多, 下面用式(8)和式(9)两个等式代替式(7)

YC=c(k, 0)IC+j=112c(k, 2j-1)M(k, 2j-1)C+d(k, 0)ZC+j=112d(k, 2j)H(k, 2j)C+εk, 1(8)

YC=c(k, 0)IC+j=112c(k, 2j)M(k, 2j)C+d(k, 0)ZC+j=112d(k, 2j-1)H(k, 2j-1)C+εk, 2(9)

式(8)和式(9)各代表一个子模型(误差向量分别为ε k, 1ε k, 2)。 由式(8)可得YC的一个新的近似值向量

Yk, 1C=c(k, 0)IC+j=112c(k, 2j-1)M(k, 2j-1)C+d(k, 0)ZC+j=112d(k, 2j)H(k, 2j)C(10)

仿照式(4)可定义 M(k, j)VZV, H(k, j)V=1σ(k, j)(M(k, j)VZV-μ(k, j)IV),

Yk, 1V=c(k, 0)IV+j=112c(k, 2j-1)M(k, 2j-1)V+d(k, 0)ZV+j=112d(k, 2j)H(k, 2j)V(11)

YV的一个新的预测值向量。 由(9)式同样可得YC的另一个新的近似值向量 Yk, 2CYV的另一个新的预测值向量 Yk, 2V。 为防止模型过拟合, 需要对模型进行优化(具体做法见2.5节)。 然后求出每个子模型中各参数的值, 并计算 Yk, 1C, Yk, 2C和它们所对应的拟合优度 Rk, 12, Rk, 22YV的新的最终预测值向量由 NV=k=115[pkYk, 1V+qkYk, 2V]给出, 其中$\begin{aligned} p_{k} &=\left(1-R_{k, 1}^{2}\right)^{-2}\left[\sum_{n=1}^{15}\left(\left(1-R_{n, 1}^{2}\right)^{-2}+\left(1-R_{n, 2}^{2}\right)^{-2}\right)\right]^{-1}, \\ q_{k} &=\left(1-R_{k, 2}^{2}\right)^{-2}\left[\sum_{n=1}^{15}\left(\left(1-R_{n, 1}^{2}\right)^{-2}+\left(1-R_{n, 2}^{2}\right)^{-2}\right)\right]^{-1} 。 \end{aligned}$

2.4 模型预测结果及其交叉验证

2.2节的ZV所对应的拟合优度(即模型的拟合优度)为0.767 6, 2.3节的NV所对应的拟合优度为0.817 8, (优化后的)普通模型和新模型的锦纶含量预测值与实验值的对比情况如图1所示。 如果用A, C两组样本作校正集, 用B组样本作验证集, 则ZV对应的拟合优度为0.782 3, NV对应的拟合优度为0.816 4。 如果用B, C作校正集, 用A作验证集, 则ZV对应的拟合优度为0.753 9, NV对应的拟合优度为0.827 8。 所以新模型的预测效果明显好于普通模型的预测效果。

图1 废旧纺织品样本锦纶含量的预测值和实验值的对比情况
(a): 普通模型; (b): 新模型
Fig.1 Comparison of the predicted and the experimental values of nylon content in waste textile samples
(a): Common model; (b): New model

2.5 模型的优化方法

普通模型的优化方法: 求出式(2)中25个参数a(k, 0), a(k, 1), ···, a(k, 24)的值, 设使|a(k, j)|(j=1, 2, ···, 24)最小的系数为 a(k, j1)(1≤ j1≤ 24), 令 a(k, j1)=0; 重新计算其余24个参数的值, 设使|a(k, j)|(1≤ j≤ 24, jj1)最小的系数为 a(k, j2), 令 a(k, j2)=0; 重复使用上述方法7次完成该子模型的优化, 优化后每个子模型含参数18个。

新模型的优化方法: 以式(8)所示的子模型为例, 先求出全部26个参数的值, 在24个参数c(k, 2j-1), d(k, 2j)(j=1, 2, ···, 12)里, 将绝对值最小的参数挑出并令其值为零; 重 新计算其余25个参数的值, 在c(k, 2j-1), d(k, 2j)(j=1, 2, ···, 12)里, 将剩余的23个参数中绝对值最小的参数挑出并令其值为零; 重复使用上述方法6次完成该子模型的优化, 优化后每个子模型含参数20个。

建立普通模型时将子模型的参数数目减少为18, 是因为作者尝试了校正集和验证集的多种划分情况, 对每种情况, 每减少各子模型的一个参数, 用2.2节的方法得到一个最终预测值向量, 计算该向量所对应的拟合优度。 观察上述拟合优度随子模型参数个数减少的变化情况发现: 若参数个数高(低)于18, 拟合优度往往随参数个数的减少而增加(减少); 若参数个数等于18, 模型的预测效果一般比较好。 建立新模型时将子模型的参数数目减少为20, 其原因与建立普通模型时的情况类似。 在建立新模型时用 H(k, j)C代替 M(k, j)CZC是为了使2.5节的优化方法具有合理性。 作者还建立了预测锦纶含量的PLS模型, 对于校正集和验证集的前述三种划分方式, 该模型的拟合优度依次为0.735 2, 0.774 2和0.730 8。 所以普通模型和新模型的预测效果均好于PLS模型的预测效果。

3 结论

使用多模型方法建立了废旧纺织品锦纶含量的近红外光谱分析模型(普通模型), 并对模型进行了优化。 然后利用锦纶含量预测值与实验值之间的近似线性关系, 给出了一种便于优化的预测锦纶含量的近红外光谱分析新模型, 并对新模型进行了优化。 将上述两个优化后的模型与常见的PLS模型进行对比发现: 新模型的预测效果明显好于普通模型的预测效果, 普通模型的预测效果好于PLS模型的预测效果。 文中建模方法有望用于废旧纺织品样本其他化学成分含量的测定。

致谢: 本文所用实验数据由浙江理工大学材料与纺织学院提供, 感谢张勇副教授、 姚胜博士的帮助!

参考文献
[1] Farthadi R, Afkari-Sayyah A H, Jamshidi B, et al. International Journal of Food Engineering, 2020, 16(4): 395. [本文引用:1]
[2] Rahi Sahar, Mobli Hossein, Jamshidi Bahareh, et al. Infrared Physics and Technology, 2020, 108: 103355. [本文引用:1]
[3] Gabriëls Suzan H E J, Mishra P, Mensink M G J, et al. Postharvest Biology and Technology, 2020, 166: 111206. [本文引用:1]
[4] MO Xin-xin, SUN Tong, LIU Mu-hua, et al(莫欣欣, 孙通, 刘木华, ). Chinese Journal of Analytical Chemistry(分析化学), 2017, 45(11): 1694. [本文引用:1]
[5] Rainha K P, do Carmo Rocha J T, Rodrigues Rayza Rosa Tavares, et al. Analytical Letters, 2019, 52(18): 2914. [本文引用:1]
[6] Razuc M, Grafia A, Gallo L, et al. Drug Development and Industrial Pharmacy, 2019, 45(10): 1565. [本文引用:1]
[7] Yin Lianghong, Zhou Junmei, Chen Dand an, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 221: 117208. [本文引用:1]
[8] ZHANG Feng, TANG Xiao-jun, TONG Ang-xin, et al(张峰, 汤晓君, 仝昂鑫, ). Journal of Infrared and Millimeter Waves(红外与毫米波学报), 2020, 39(3): 318. [本文引用:1]
[9] GAO Sheng, WANG Qiao-hua, LI Qing-xu, et al(高升, 王巧华, 李庆旭, ). Chinese Journal of Analytical Chemistry(分析化学), 2019, 47(6): 941. [本文引用:2]
[10] Yan H, Siesler H W. Journal of Near Infrared Spectroscopy, 2018, 26(5): 311. [本文引用:1]
[11] Zhou Chengfeng, Han Guangting, Via Brian K, et al. Textile Research Journal, 2019, 89(17): 3610. [本文引用:1]
[12] Chen Hui, Tan Chao, Lin Zan. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2018, 201: 229. [本文引用:2]
[13] FAN Ya-ting, LIU Sheng(范雅婷, 刘胜). Journal of Agricultural Science and Technology(中国农业科技导报), 2017, 19(2): 131. [本文引用:1]
[14] LI Hai-yang, LIU Sheng(李海洋, 刘胜). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2019, 39(7): 2142. [本文引用:1]