太赫兹光谱结合机器学习算法快速测定冻干胡萝卜的水分含量

引用本文

孙梦, 成军, 刁庶, 韩天宇, 于志龙, 李璟文, 谢云飞. 太赫兹光谱结合机器学习算法快速测定冻干胡萝卜的水分含量[J]. 光谱学与光谱分析, 2025,45(7): 1924-1931.
SUN Meng, CHENG Jun, DIAO Shu, HAN Tian-yu, YU Zhi-long, LI Jing-wen, XIE Yun-fei. Rapid Determination of Moisture Content of Freeze-Dried Carrots by Terahertz Spectroscopy Combined With Machine Learning Algorithms[J]. Spectroscopy and Spectral Analysis, 2025,45(7): 1924-1931.
Doi:10.3964/j.issn.1000-0593(2025)07-1924-08 复制到剪切板

Permissions

《光谱学与光谱分析》期刊社所有

太赫兹光谱结合机器学习算法快速测定冻干胡萝卜的水分含量

孙梦¹, 成军¹, 刁庶¹, 韩天宇², 于志龙¹, 李璟文², 谢云飞^1,^*

1.江南大学食品学院, 江苏无锡 214122

2.江南大学理学院, 江苏无锡 214122

*通讯作者 e-mail: xieyunfei@jiangnan.edu.cn

作者简介: 孙梦,女, 2000年生,江南大学食品学院硕士研究生 e-mail: 6220112072@stu.jiangnan.edu.cn

收稿日期: 2024-12-17 修回日期: 2025-03-01 接受日期: 2025-03-01

基金: 国家自然科学基金项目(32261133623),江苏省重点研发计划现代农业项目(BE2023310)资助

摘要

水分含量对冻干胡萝卜的质量和货架期具有至关重要的影响。然而, 传统的水分测量方法费时低效。因此, 该研究旨在探索一种基于太赫兹时域光谱(THz-TDS)与机器学习(ML)技术相结合的快速、无损检测方法, 用于测定冻干胡萝卜的水分含量。试验采集140个不同水分含量样本的时域光谱数据, 基于光学参数提取模型, 获得样品的吸收系数和折射率光谱。为了提升光谱数据的质量, 对获得的光谱进行移动平均(MA)平滑和SG平滑预处理, 随后采用竞争自适应重加权采样(CARS)、连续投影算法(SPA)、无信息变量消除(UVE)三种特征提取算法, 从原始光谱数据中筛选出与水分含量密切相关的特征光谱变量。最后, 采用偏最小二乘回归(PLSR)、反向传播人工神经网络(BPANN)和极端梯度提升(XGBoost)三种机器学习算法构建了定量预测模型, 并利用模型评价指标对这些模型进行了全面评估, 以确定检测冻干胡萝卜水分含量的最佳光学参数与最优算法组合。结果表明, 吸收系数光谱准确有效地反映了水分信息, 预处理有效去除了光谱噪声, 特征提取确定了与水分相关的关键变量, BPANN展现出最优的定量预测性能。其中, 基于吸收系数光谱的SG-CARS-BPANN模型表现出最强的预测性能($R_{C}^{2}=0.971 2$, RMSEC=0.007 3, $R_{P}^{2}=0.936 6$, RMSEP=0.010 7)。这些发现表明, 太赫兹和机器学习的结合可以实现冻干胡萝卜水分含量的快速无损检测, 所建立的方法具有用于在加工和储存期间实时监测冻干果蔬中水分含量的潜力。

关键词: 太赫兹时域光谱; 冻干果蔬; 化学计量学; 吸收系数; 无损定量分析

中图分类号:O657.3 文献标志码:A

Rapid Determination of Moisture Content of Freeze-Dried Carrots by Terahertz Spectroscopy Combined With Machine Learning Algorithms

SUN Meng¹, CHENG Jun¹, DIAO Shu¹, HAN Tian-yu², YU Zhi-long¹, LI Jing-wen², XIE Yun-fei^1,^*

1. School of Food Science and Technology, Jiangnan University, Wuxi 214122, China

2. School of Science, Jiangnan University, Wuxi 214122, China

*Corresponding author

Abstract

Moisture content (MC) is vital to freeze-dried carrots' quality and shelf life. However, traditional moisture measurement methods are time-consuming and inefficient. Therefore, this study aimed to develop a rapid, nondestructive detection method utilizing terahertz time-domain spectroscopy (THz-TDS) and machine learning (ML) technology to determine the moisture content of freeze-dried carrots. The time-domain spectral data for 140 samples with varying moisture content were collected. Based on the optical parameter extraction model, the' absorption coefficient spectrum and refractive index spectrum of these samples within the terahertz frequency band were obtained. To enhance the quality of the spectral data, the acquired spectra underwent preprocessing through moving average (MA) smoothing and Savitzky-Golay (SG) smoothing. Subsequently, three feature extraction algorithms: competitive adaptive reweighting sampling (CARS), successive projection algorithm (SPA), and uninformative variable elimination (UVE), were employed to filter out the spectral variables most closely related to water content from the original spectral data. Finally, three machine learning algorithms: partial least squares regression (PLSR), back propagation artificial neural networks (BPANN), and extreme gradient boosting (XGBoost) were utilized to construct quantitative prediction models. These models were then comprehensively evaluated using model evaluation indices to determine the optimal optical parameters and the most effective algorithm combination for detecting the moisture content of freeze-dried carrots. The results indicated that the absorption coefficient spectrum accurately and effectively captured the moisture information. Pretreatment effectively reduced spectral noise, and feature extraction identified the key variables related to moisture. BPANN exhibited the best quantitative prediction performance among the machine learning algorithms tested. Specifically, the SG-CARS-BPANN model, which was based on the absorption coefficient spectrum, demonstrated the strongest predictive capability ($R_{C}^{2}=0.971 2$, RMSEC=0.007 3, $R_{P}^{2}=0.936 6$, RMSEP=0.010 7). These findings demonstrated that the combination of THz-TDS and machine learning algorithms can realize rapid and nondestructive moisture detection in freeze-dried carrots, and the established method has the potential to monitor moisture content in freeze-dried fruits and vegetables in real time during drying and storage.

Keyword: Terahertz time-domain spectroscopy; Freeze-dried fruits and vegetables; Chemometrics; Absorption coefficient; Nondestructive quantitative analysis

文章图片

引言

胡萝卜是全球公认的高营养蔬菜, 但高水分含量导致其易腐败, 因此, 脱水技术被广泛用于延长胡萝卜的货架期^[1]。与传统的干燥方法相比, 真空冷冻干燥因其干燥温度低、干燥时间短和冷冻速度快而能保持更多的营养成分, 从而满足消费者对高品质食品的需求。水分含量作为衡量冻干胡萝卜质量的核心指标之一, 其精准控制对保持产品口感、延缓微生物变质及延长保质期至关重要^[2]。冻干工艺赋予胡萝卜多孔海绵状结构, 使其在贮藏期间极易吸收环境水分, 这对干燥产品的质量产生负面影响。因此, 建立一种准确、快速、无损的检测方法来测量冻干胡萝卜在干燥和贮藏过程中的水分含量具有重要意义。

传统的水分测定方法分为破坏性和非破坏性检测方法, 如干燥法、化学法、电阻法和电容法。这些方法具有程序复杂、检测周期长、不连续和检测精度不均匀的局限性, 因此不适合快速和无损检测。目前, 主要有核磁共振和振动光谱分析技术用于快速检测食品中的水分含量。核磁共振可用于无损测定食品中的水分含量和分布, 但成本高且复杂^[3]。近红外光谱利用水的近红外吸收特性, 通过测量特征吸收峰的强度来计算含水量, 但这是一种穿透性差的表面测量技术, 通常不适合测量低含水量^[4]。此外, 拉曼光谱的检测精度较高, 但其散射信号较弱且易受荧光干扰, 使其检测深度受到限制。太赫兹(Terahertz, THz)是一种新兴无损检测技术, 具有非破坏性、非电离和非接触的优势。 THz波频率范围为100 GHz~10 THz, 其兼具红外波的指纹性与微波的穿透性^[5]。水对THz波具有强烈的吸收作用, 是因为水分子间氢键动力学的旋转光谱、振动光谱位于太赫兹范围内。水分子作为一种具有复杂氢键网络的极性分子, 在THz波段具有较强的共振吸收与介电弛豫现象。 Shen等^[6]使用太赫兹时域光谱(terahertz time-domain spectroscopy, THz-TDS)结合禁忌搜索算法来预测小麦的水分, 所建立偏最小二乘回归(partial least squares regression, PLSR)模型的R_P和RMSEP分别为0.953 1和0.539 6, 该结果证实了THz技术检测小麦水分含量的可靠性。 Gong等^[7]将银杏果实的THz吸收系数与PLSR和指数拟合算法结合, 实现了对水分含量的精确监测。这些研究都表明了THz光谱技术具有检测水分含量的潜力。

机器学习是一种强大的工具, 它利用具有高度通用性和鲁棒性的分析模型, 能够有效地将太赫兹光谱数据与食品样品中的不同成分联系起来^[8]。尽管如此, 将太赫兹技术与机器学习融合以实现对冻干食品水分含量的精确量化检测仍有待探索。据此, 本研究旨在验证THz-TDS结合机器学习方法快速无损检测冻干胡萝卜水分含量的可行性和有效性。 THz-TDS用于获得不同含水量的冻干胡萝卜的时域光谱数据。随后基于光学参数提取模型, 计算样品在太赫兹频段的吸收系数和折射率数据。采用不同的预处理和特征提取算法对原始光谱数据进行优化。在此基础上, 分别构建了基于吸收系数和折射率的水分含量预测模型。最后利用模型评价指标对模型进行评估, 筛选出针对冻干胡萝卜水分含量检测的最佳光学参数与最优算法组合。

1 实验部分

1.1 材料

新鲜的永昌胡萝卜购自无锡市的叮咚买菜。将其切成直径30 mm, 厚度3 mm圆形薄片, 随后放入真空冷冻干燥机中不同时间后取出, 共获得140个冻干样品。为了探究水分含量对冻干胡萝卜光谱特性的影响, 将样品按水分含量(w.b.)分为四个区间: 6%~10%、 10%~14%、 14%~18%和18%~22%, 每个区间内的样本水分含量相近, 便于对比分析不同水分含量条件下光谱数据的差异性及潜在关联。

1.2 仪器

太赫兹时域光谱系统(QT-TRS1000, 青岛青源峰达科技有限公司)、电热鼓风干燥箱(DHG-91013SA, 上海市三发科学仪器有限公司)、分析天平(AB104-N, 梅特勒托利多国际股份有限公司)、真空冷冻干燥机(SCIENTZ-10YD/A, 宁波新芝冻干设备股份有限公司)、数显千分测厚仪(YHT 103251, 深圳市源恒通科技有限公司)。

1.3 太赫兹光谱的采集与光学参数的提取

图1(a)中的THz-TDS系统用于收集0.1~4.0 THz范围内的光谱数据。 QT-TRS1000的工作原理如图1(b)所示, 太赫兹光路模式为透射式。为保证太赫兹波的强度和信噪比, 实验在受控湿度和温度下进行。使用聚乙烯板作为支撑平台, 以空气信号作为参考信号。每个胡萝卜样本设置5个光谱检测点, 这些检测点均匀分布于以样品中心为圆心、 2 mm为直径的圆上, 样品信号为5次时域信号的平均值。同时, 利用重复精度为0.001 mm的数显测绘仪对各样品的5个检测点进行厚度测定, 并取平均值。共收集140个样本的太赫兹时域数据和厚度数据。

	Figure Option View Download New Window
	图1 THz-TDS系统 (a): 仪器图; (b): 原理图Fig.1 THz-TDS system (a): Instrument diagram; (b): Schematic diagram

THz-TDS采用相干探测技术收集太赫兹电场信息, 对参考信号和样品信号进行快速傅里叶变换(fast Fourier transform, FFT)得到样品的频谱^[9]。利用菲涅耳数据处理模型提取各样品的光学参数^{[10, 11]}。光学参数是表征物质宏观光学特性的重要物理量。折射率n(ω )定义为光在真空中的传播速度与光在介质中的传播速度之比, 表示样品的色散特性。吸收系数α (ω )的定义是样品单位厚度的吸光度, 表示样品的吸收特性。

$n (ω) = \frac{Φ (ω) c}{ωd} + 1$ (1)

$α (ω) = \frac{2}{d} \ln \frac{4 n (ω)}{A (ω) [n {(ω) + 1]}^{2}}$ (2)

其中, A(ω )为样品信号与参考信号的振幅比; ω 为角频率; Φ (ω )为样品信号与参考信号的相位差; c为光速; d为样品厚度。

1.4 冻干胡萝卜的水分含量测定

水分含量参照GB 5009.3— 2016中第一法直接干燥法规定的方法进行测定, 计算公式如式(3)

$X = \frac{m_{1} - m_{2}}{m_{1}} \times 100 %$ (3)

式(3)中, X为样品水分含量; m₁为样品的新鲜质量(g); m₂为样品干燥后的质量(g)。

1.5 数据处理

采用Matlab2022a、 Unscrambler10.4软件完成THz光谱数据的处理分析和模型构建, 使用Origin2021进行作图。采用随机划分算法将全部样本以3∶ 1的比例分为训练集(n=105)和测试集(n=35), 以便后续进行模型构建与性能评估。

1.5.1 光谱数据预处理

采集的原始光谱除了包含水分信息外, 还包含基线漂移、随机噪声和光散射等干扰因素。本文采用移动平均(moving average, MA)和Savitzky-Golay(SG)平滑两种预处理对原始信号进行处理。 MA用于在不破坏关键特征峰的情况下消除样本光谱的随机噪声^[12]。 SG用于最小化信号失真, 从而更有效地分辨和精确识别重叠的信号成分^[13]。

1.5.2 特征提取

原始THz光谱包含大量的冗余信息和噪声, 增加计算复杂度并影响模型性能。特别地, 胡萝卜样品因其内含多种具有THz光谱吸收特性的成分, 使得全光谱数据呈现出复杂的重叠干扰现象。为应对此挑战, 使用竞争自适应加权采样(competitive adaptive reweighting sampling, CARS)、连续投影算法(successive projection algorithm, SPA)和无信息变量消除(uninformative variable elimination, UVE)三种特征提取方法降低光谱数据的维度, 识别对建模效果有显著贡献的光谱变量, 并提高建模效率和模型精度^[14]。

CARS^[15]算法基于蒙特卡罗抽样筛选最优特征变量, 以PLS模型的回归系数为指标评估每个变量的权重, 过滤掉低权重的变量后, 利用交叉验证选出交叉验证均方根误差(RMSECV)最低的子集, 该子集即为与目标属性相关的最优特征变量。 SPA^[16]是一种前向迭代搜索方法, 其原理是选择具有最大投影向量的波长作为待选变量, 最后基于PLS模型的均方根误差确定最终的特征变量。 UVE^[17]是一种基于PLS模型回归系数稳定性的特征提取方法, 稳定性大于标准的变量被保留作为特征变量。 UVE可以剔除对建模贡献小和无贡献的变量, 从而降低模型的复杂性。

1.6 模型建立与评价

采用PLSR, 反向传播人工神经网络(back propagation artificial neural networks, BPANN), 极端梯度提升(extreme gradient boosting, XGBoost)三种机器学习方法来建立预测冻干胡萝卜水分含量的预测模型。 PLSR^[18]是太赫光谱学成分含量分析中常用的多元线性回归方法, 能够用尽可能少的维度来表达最多的有效原始数据信息。它具有良好的鲁棒性和分析性能, 具有解决自变量和因变量间多重共线性的作用。 BPANN^[19]作为前馈多层网络, 具备非线性映射、自学、泛化等核心能力, 适用于复杂数据处理。在BPANN方法中, 最大训练次数设置为1 000, 训练精度设置为0.001。 XGBoost^[20]是基于梯度提升决策树的集成学习方法, 它通过引入正则化项和二阶导数信息, 结合并行树模型构建与剪枝技术, 提升了模型的性能、泛化能力和稳定性。

采用决定系数( $R_{C}^{2}$ 和 $R_{P}^{2}$ )与均方根误差(RMSE)评估模型的准确性和稳定性。 R²表示THz光谱与水分含量之间的线性关系的强度, $R_{C}^{2}$ 和 $R_{P}^{2}$ 值越接近1, 模型的回归和预测效果越好。 RMSE用于评估预测值和实际值之间的偏差, 校正均方根误差(RMSEC)代表模型的拟合精度, 预测均方根误差(RMSEP)显示模型的预测能力。 RMSE越接近0, 表明预测偏差越小, 预测能力越强。

2 结果与讨论

2.1 不同水分含量冻干胡萝卜的原始光谱分析

图2(a)为冻干胡萝卜样品的时域光谱图。随着水分含量的增加, 时域信号峰值强度逐渐降低。这一现象归因于胡萝卜中水分对THz信号的衰减作用, 具体而言, 水分含量较高的样品对THz波的吸收能力更强, 导致透射后的THz信号强度减弱。出峰时间出现规律性延迟是因为THz脉冲穿过样品时的波速和光程与折射率相关, 样品的水分含量越大, 折射率越高, THz波在样品中的传播速度越慢^[21]。

	Figure Option View Download New Window
	图2 不同MC样品的THz信号 (a): 时域信号; (b): 频域信号; (c): 吸收系数; (d): 折射率Fig.2 THz spectral signals of samples with different moisture levels (a): Time domain signal; (b): Frequency domain signal; (c): Absorption coefficient; (d): Refractive index

样品的频域信号通过FFT获得[图2(b)]。随着水分含量的增加, 样品信号的振幅逐渐降低, 有效频谱范围也相应缩减。振幅的衰减是由THz脉冲在样品中能量消耗的差异导致的。此外, 系统漂移、仪器性能的限制以及样品对THz波的散射和反射作用, 共同导致了高频区域信号的失真和信噪比的降低。因此1.2~4.0 THz频率范围的信号被移除, 而0.1~1.2 THz被保留为光谱信息的有效频谱范围用于后续的光学参数提取。

通过应用光学参数提取模型, 获取胡萝卜样品在0~1.2 THz频段内的吸收系数光谱以及0~1.1 THz频段内的折射率光谱。如图2(c)所示, 胡萝卜样品的吸收系数随着频率的增加而增加, 这一现象可能归因于冻干过程中胡萝卜微观结构的改变(碳水化合物的排列方式、水分状态的转变)以及其他多种复杂因素的交互作用。图2(d)显示了折射率随频率的增加而缓慢降低, 样品之间的折射率差异非常小, 从1.02到1.17不等。在THz频率内, 冻干胡萝卜的水分含量与其吸收系数及折射率均呈现出正相关关系, 这一结果与之前时域频域分析所得结论相吻合。

2.2 THz光谱的预处理

冻干胡萝卜的THz光谱因缺少特征峰而难以区分不同水分含量的样品。因此, 采用化学计量学方法提取光谱中的化学信息至关重要。为提高光谱信噪比, 减少噪声和散射的影响, 对原始光谱进行了MA和SG预处理(表1)。通过建模比较原始光谱与预处理光谱对水分含量的预测能力, 发现MA和SG预处理模型较未处理模型具有更高的 $R_{P}^{2}$ 值和更低的RMSEP值。这表明预处理改善了THz光谱的预测性能, 且不同预处理方法对模型性能有不同影响。

表1 不同预处理方法的定量预测模型 Table 1 Quantitative prediction models of different pretreatment methods

光学参数	预处理	模型	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP
吸收系数		PLSR	0.985 1	0.005 2	0.871 3	0.014 1
	/	BPANN	0.977 8	0.006 4	0.903 8	0.013 2
		XGBoost	0.999 9	0.000 1	0.877 6	0.014 9
		PLSR	0.966 6	0.007 8	0.876 9	0.013 8
	MA	BPANN	0.966 9	0.007 9	0.921 0	0.011 9
		XGBoost	0.999 9	0.000 1	0.918 0	0.012 2
		PLSR	0.970 9	0.007 3	0.885 2	0.013 6
	SG	BPANN	0.970 5	0.007 4	0.916 2	0.012 3
		XGBoost	0.999 9	0.000 1	0.881 2	0.014 6
折射率		PLSR	0.913 4	0.012 7	0.561 5	0.023 6
	/	BPANN	0.932 0	0.011 7	0.783 1	0.018 8
		XGBoost	0.999 9	0.000 2	0.472 8	0.029 3
		PLSR	0.789 9	0.018 7	0.634 3	0.021 5
	MA	BPANN	0.885 9	0.015 1	0.833 6	0.016 5
		XGBoost	0.999 9	0.000 5	0.546 1	0.027 2
		PLSR	0.853 7	0.016 0	0.668 8	0.020 9
	SG	BPANN	0.899 5	0.014 2	0.804 8	0.017 8
		XGBoost	0.999 9	0.000 4	0.451 5	0.029 9

表1 不同预处理方法的定量预测模型 Table 1 Quantitative prediction models of different pretreatment methods

图3展示了吸收系数光谱在预处理前后的变化, 原始光谱存在较强的噪声干扰和基线漂移。在MA和SG预处理后, 光谱曲线在保持基线带宽与原始信号一致的同时更加平滑, 噪声尖峰明显减少。表明这两种方法能够有效保留光谱的关键信息, 增强不同水分含量样品的光谱的分辨率。 MA和SG预处理光谱的数据被用于进一步的数据分析。

	Figure Option View Download New Window
	图3 THz光谱的预处理图 (a): RAW; (b): MA; (c): SGFig.3 Preprocessing of THz spectra (a): RAW; (b): MA; (c): SG

2.3 THz光谱的特征提取

胡萝卜样品中含有多种有助于吸收太赫兹光谱并导致光谱峰重叠的成分, 因此根据太赫兹特征峰识别和定量水具有挑战性。为降低数据维度并精确识别表征冻干胡萝卜水分的光谱频率变量, 在预处理后有必要使用特征提取算法从全频率中筛选特征频率。以经SG预处理后吸收系数谱为例, 图4描述了三种特征提取算法的运行过程和所选择的特征频率。

Figure Option
View Download New Window

图4 SG预处理后吸收系数谱的特征频率筛选
(a): CARS运行过程; (b): SPA运行过程; (c): UVE运行过程; (d): CARS特征频率分布; (e): SPA特征频率分布; (f): UVE特征频率分布Fig.4 Screening of characteristic frequency of absorption coefficient spectra after SG pretreatment
(a): CARS operation process; (b): SPA operation process; (c): UVE operation process; (d): Characteristic frequencies distribution of CARS; (e): Characteristic frequencies distribution of SPA; (f): Characteristic frequencies distribution of UVE

由图4[a(Ⅰ )]可知CARS算法的蒙特卡洛循环采样次数设定为100, 当采样次数达到75时, RMSECV值最小, 表明与水分相关性较小或负相关的频率已被移除。图4[a(Ⅱ )]显示吸收系数谱保留的频率数量随着迭代次数的增加而减少, 结合图4[a(Ⅲ )]中回归曲线的路径图, 最终选取第75次运行获取的特征变量子集作为为最优变量子集, 提取了6个与水分显著相关的特征频率, 分别位于0.178 8、 0.252 5、 0.339 4、 0.342 4、 0.366 7和0.951 6 THz。图4(b)是SPA算法采样期间选择不同数目变量时RMSEP的变化趋势图, 随着所选特征频率数量的增加, RMSEP迅速降低。当变量数量为21时, 模型的RMSEP达到最低值0.011 8, 这意味着模型的预测准确性达到最高, SPA算法最终筛选出21个与水分相关的特征频率, 主要集中于0.1~0.3和0.9~1.1 THz。 UVE算法的运行过程如图4(c)所示。在THz光谱变量的右侧引入一组与其数量相同的随机噪声作为参考, 稳定性指数和阈值用于评估各光谱变量的可靠性。基于筛选阈值, UVE算法删除了阈值线内的无信息变量, 最终保留109个特征变量, 主要分布在0.1~0.6 THz范围。

许多报告表明, UVE更适合光谱的粗选, 原因是保留的特征变量数过多, 而CARS、 SPA筛选出较少的特征波段^[22]。在本文中, 三种特征提取方法均有效降低了THz吸收系数谱的维度, CARS、 SPA和UVE算法筛选出的特征频率数量分别占0.1~1.2 THz范围内总频率数量的1.65%、 5.79%和30.03%。不同的特征提取方法导致不同的特征频率子集, 这可能导致模型性能产生差异。

2.4 模型建立与评估

为了评估不同特征提取算法的有效性, 以吸收系数为例, 将筛选得到的特征频率光谱作为自变量, 水分含量为因变量, 建立特征频率模型, 并与全频率模型的预测性能进行比较(表2)。与其他特征提取方法相比, 经CARS特征提取后的模型预测精度普遍提高, 表现为 $R_{P}^{2}$ 增加和RMSEP值减小, 这表明CARS有效消除了冗余变量, 准确提取了与胡萝卜冻干过程中与水分相关性高的有用频率, 提高了建模效率和模型性能。然而, 在UVE和SPA特征筛选后, 部分模型的预测性能却略有下降。这可能是由于SPA筛选出的频率未能充分涵盖用于准确量化水分含量的光谱信息, 而UVE则可能保留了过多的冗余和干扰变量, 导致对模型精度产生负面影响。 Mao^[23]等的工作支持了这一观点, 他们的研究表明, CARS的预测性能优于SPA和UVE。总的来说, 在MC预测方面, CARS算法表现出卓越的有效变量选择和冗余变量剔除性能, 即使变量数量从360减少到5, 模型预测性能仍得到改善。相较于SPA和UVE, CARS的筛选效果略胜一筹。

表2 基于吸收系数光谱的定量预测模型汇总 Table 2 Summary of quantitative prediction models based on absorption coefficient

方法	变量	PLSR				BPANN				XGBoost
方法	变量	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP
CARS	14	0.963 3	0.008 1	0.891 9	0.012 4	0.973 7	0.007 0	0.922 5	0.011 8	0.999 9	0.000 1	0.923 9	0.011 7
MA-CARS	5	0.962 7	0.008 2	0.899 8	0.012 6	0.969 0	0.007 6	0.929 2	0.011 3	0.999 9	0.000 4	0.915 0	0.012 4
SG-CARS	6	0.965 0	0.008 0	0.904 7	0.012 2	0.971 2	0.007 3	0.936 6	0.010 7	0.999 9	0.000 4	0.916 4	0.012 3
SPA	18	0.957 6	0.008 7	0.924 5	0.011 1	0.965 6	0.008 0	0.923 1	0.011 8	0.999 9	0.000 1	0.890 0	0.014 1
MA-SPA	18	0.967 9	0.007 6	0.912 3	0.012 1	0.971 9	0.007 3	0.928 5	0.011 4	0.999 9	0.000 1	0.880 2	0.014 7
SG-SPA	21	0.973 7	0.006 9	0.909 8	0.011 8	0.979 5	0.006 2	0.932 4	0.011 0	0.999 9	0.000 1	0.871 9	0.015 2
UVE	89	0.981 2	0.005 9	0.897 4	0.012 9	0.987 5	0.004 8	0.919 4	0.012 1	0.999 9	0.000 1	0.895 3	0.013 7
MA-UVE	117	0.970 3	0.007 3	0.888 5	0.013 2	0.968 3	0.007 7	0.928 6	0.011 3	0.999 9	0.000 1	0.923 9	0.0117
SG-UVE	109	0.975 3	0.006 7	0.885 5	0.013 1	0.978 2	0.006 4	0.924 2	0.011 7	0.999 9	0.000 1	0.875 1	0.015 0

表2 基于吸收系数光谱的定量预测模型汇总 Table 2 Summary of quantitative prediction models based on absorption coefficient

为了有效比较吸收系数和折射率两种光学参数对水分含量预测模型的影响, 基于吸收系数和折射率两类数据分别建立冻干胡萝卜水分含量预测模型并进行对比分析。结果表明, 与折射率相比(表3), 基于吸收系数谱的模型整体建模稳定性和预测精度更高, 预测集 $R_{P}^{2}$ 均大于0.87(表2), 表明吸收系数谱可以更准确地预测冻干胡萝卜的水分含量。这主要是因为吸收系数光谱直接反映了THz波被水分吸收后在样品中的能量衰减程度, 因此其信号变化对水分含量的响应更为显著。相较之下, 折射率光谱主要受样品介电特性的影响, 对水分变化的敏感度较低, 同时折射率光谱的特征频率分布较为离散, 可能未能充分表达关键水分信息, 从而影响建模效果。此外, 吸收系数的数值与太赫兹波的功率稳定性有直接的联系, 折射率与光谱系统内延迟线的稳定性与重现性有关, 前者在测试过程中可能具有更高的稳定性。

表3 基于折射率光谱的定量预测模型汇总 Table 3 Summary of quantitative prediction models based on refractive index

方法	变量	PLSR				BPANN				XGBoost
方法	变量	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP	$R_{C}^{2}$	RMSEC	$R_{P}^{2}$	RMSEP
/	330	0.913 4	0.012 7	0.561 5	0.023 6	0.932 0	0.011 7	0.783 1	0.018 8	0.999 9	0.000 2	0.472 8	0.029 3
MA	330	0.789 9	0.018 7	0.634 3	0.021 5	0.885 9	0.015 1	0.833 6	0.016 5	0.999 9	0.000 5	0.546 1	0.027 2
SG	330	0.853 7	0.016 0	0.668 8	0.020 9	0.899 5	0.014 2	0.804 8	0.017 8	0.999 9	0.000 4	0.451 5	0.029 9
CARS	183	0.854 4	0.016 0	0.574 0	0.022 2	0.888 2	0.015 0	0.746 7	0.020 3	0.999 9	0.000 2	0.449 4	0.030 0
MA-CARS	32	0.854 8	0.016 0	0.739 3	0.019 1	0.903 2	0.013 9	0.887 2	0.013 6	0.999 4	0.001 1	0.564 2	0.026 7
SG-CARS	31	0.845 2	0.016 4	0.735 3	0.018 3	0.857 2	0.016 9	0.893 2	0.013 2	0.999 4	0.001 1	0.668 5	0.023 3
SPA	13	0.736 9	0.020 5	0.575 1	0.020 3	0.819 0	0.019 1	0.725 2	0.021 2	0.999 9	0.000 5	0.319 4	0.033 3
MA-SPA	5	0.792 3	0.018 6	0.798 0	0.015 8	0.841 9	0.017 8	0.869 4	0.014 6	0.998 1	0.001 9	0.580 4	0.026 2
SG-SPA	8	0.716 1	0.021 1	0.777 6	0.017 0	0.791 5	0.020 5	0.833 7	0.016 5	0.999 7	0.000 8	0.582 3	0.026 1
UVE	307	0.921 1	0.012 1	0.629 7	0.022 0	0.855 1	0.017 1	0.830 9	0.016 6	0.999 9	0.000 3	0.509 6	0.028 3
MA-UVE	321	0.859 6	0.015 7	0.716 3	0.019 3	0.924 0	0.012 4	0.842 5	0.016 0	0.999 9	0.000 5	0.572 1	0.026 4
SG-UVE	321	0.885 6	0.014 4	0.642 1	0.020 7	0.947 9	0.010 2	0.833 8	0.016 5	0.999 9	0.000 4	0.468 5	0.029 4

表3 基于折射率光谱的定量预测模型汇总 Table 3 Summary of quantitative prediction models based on refractive index

表2和表3比较了三种机器学习方法的建模性能。与其他回归模型相比, BPANN在预测水分含量方面比PLSR和XGBoost表现得更好。在本研究中, 基于树的XGBoost方法性能表现不佳, 出现了严重的过拟合问题, 即使通过特征提取将光谱变量缩减至5个, 其预测效果仍然未能达到预期。这可能是因为XGBoost不适合高维稀疏数据集和小规模数据集。此外, 模型参数设置可能加剧过拟合, 例如较大的树深度、较小的子采样率和较弱的正则化可能导致模型过度拟合训练数据。与PLSR线性模型相比, BPANN非线性模型具有更大的 $R_{P}^{2}$ 和更小的RMSEP, 表现出更准确、稳健和可靠的预测能力。这与Zhao等^[24]的研究结果一致, 他们发现BPANN模型获得的预测结果普遍优于PLSR模型, 非线性模型可以更准确地阐明光谱与理化指标的关系。胡萝卜作为一种混合物, 其THz光谱数据为各组分光谱的非线性叠加。 PLS只能处理光谱数据中的线性信息, 而BPANN较强的非线性映射能力可以一定程度上克服胡萝卜各组分的非线性干扰, 因此BPANN能够充分利用THz光谱的线性及非线性信息。图5为基于吸收系数谱特征提取的BPANN模型对水分含量的预测结果散点图, 从模型的拟合效果来看, 样本的预测值分布接近回归线, 说明基于吸收系数的模型具有较好的稳健性, 可以用于定量预测胡萝卜冻干过程中的水分含量。结果表明, BPANN方法处理高维度、非线性数据的能力更强, 更适用于冻干胡萝卜水分含量的定量分析。

	Figure Option View Download New Window
	图5 BPANN模型预测集的预测值与实际值的散点图Fig.5 Scatter plot of predicted versus actual values of BPANN model prediction sets

3 结论

开发了一种采用THz-TDS技术结合机器学习算法快速检测冻干胡萝卜样品水分含量的方法。从不同方法的比较来看, 使用适当的预处理和变量筛选算法优化光谱数据是有效的。 MA和SG预处理有效去除了光谱噪声, CARS筛选的特征频率能够代表原始光谱的有效信息, BPANN非线性模型可以更准确地阐明与光谱的关系。在所有模型中, 使用吸收系数谱结合SG预处理和CARS算法筛选确定的具有6个特征频率的BPANN模型具有最强的预测性能( $R_{C}^{2}$ =0.971 2, RMSEC=0.007 3, $R_{P}^{2}$ =0.936 6, RMSEP=0.010 7)。该研究证实了利用太赫兹技术识别冻干胡萝卜水分含量的准确性和可靠性。然而, 当从时域信号中提取光学参数时, 精确测量每个样品的厚度是必要的, 这对于在线或实时检测并不理想。此外, 目前的样本主要针对特定水分含量范围, 尚未涵盖更广泛的冻干果蔬种类或不同加工条件下的样本。未来的研究应考虑增加样本数量与种类, 并集成太赫兹成像技术, 提高模型的适用性和鲁棒性, 以探索在各种冻干水果和蔬菜的干燥或储存过程中实时太赫兹监测水分含量空间变化的潜力。

参考文献

文献列表

[1]	Keser D, Guclu G, Kelebek H, et al. Food and Bioproducts Processing, 2020, 119: 350. [本文引用:1]
[2]	Crichton S, Shrestha L, Hurlbert A, et al. Drying Technology, 2018, 36(7): 804. [本文引用:1]
[3]	Zhang Lihui, Zhang Min, Mujumdar A S. Food Reviews International, 2023, 39(3): 1733. [本文引用:1]
[4]	Zambrano M V, Dutta B, Mercer D G, et al. Trends in Food Science & Technology, 2019, 88: 484. [本文引用:1]
[5]	Gezimati M, Singh G. Optical and Quantum Electronics, 2023, 55(2): 151. [本文引用:1]
[6]	Shen Yin, Zhao Chunjiang, Li Bin, et al. Analytical Methods, 2021, 13(36): 4120. [本文引用:1]
[7]	Gong Zhiyuan, Deng Di, Sun Xudong, et al. Infrared Physics & Technology, 2022, 120: 103997. [本文引用:1]
[8]	Helal S, Sarieddeen H, Dahrouj H, et al. IEEE Signal Processing Magazine, 2022, 39(5): 42. [本文引用:1]
[9]	Sun Xudong, Xu Chao, Luo Chagen, et al. Food Quality and Safety, 2023, 7(2): 2399. [本文引用:1]
[10]	Dorney T D, Baraniuk R G, Mittleman D M. Journal of the Optical Society of America A-Optics Image Science and Vision, 2001, 18(7): 1562. [本文引用:1]
[11]	Duvillaret L, Garet F, Coutaz J L. IEEE Journal of Selected Topics in Quantum Electronics, 1996, 2(3): 739. [本文引用:1]
[12]	Wang Junyi, Fu Dand an, Hu Zhigang, et al. Foods, 2024, 13(5): 783. [本文引用:1]
[13]	Wang Haipeng, Chen Pu, Dai Jiawei, et al. Trends in Analytical Chemistry, 2022, 153: 116648. [本文引用:1]
[14]	HU Jun, LÜ Hao-hao, QIAO Peng, et al(胡军, 吕豪豪, 乔鹏, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2024, 44(7): 1896. [本文引用:1]
[15]	Hu Jun, Chen Rui, Xu Zhen, et al. Sensors, 2021, 21(9): 3238. [本文引用:1]
[16]	Chen Yuanzhe, Chen Zhuoting, Yan Qian, et al. International Journal of Biological Macromolecules, 2024, 262: 130002. [本文引用:1]
[17]	Hu Jun, Zhan Chaohui, Shi Hongyang, et al. Infrared Physics & Technology, 2023, 131: 104448. [本文引用:1]
[18]	Tang Zhengmin, Miao Jianbo, Liu Quancheng, et al. Microchemical Journal, 2021, 169: 106635. [本文引用:1]
[19]	Ouyang Qin, Rong Yanna, Wu Jiaqi, et al. Food Chemistry, 2023, 420: 136078. [本文引用:1]
[20]	Wei Yunpeng, Yuan Minghua, Hu Huiqiang, et al. Journal of Food Composition and Analysis, 2024, 128: 106079. [本文引用:1]
[21]	Chen Tao, Ma Lingjie, Tang Zongqing, et al. Journal of Food Science, 2022, 87(3): 1108. [本文引用:1]
[22]	Jin Peilin, Fu Yifan, Niu Renzhong, et al. Foods, 2023, 12(14): 2756. [本文引用:1]
[23]	Mao Yilin, Li He, Wang Yu, et al. Foods, 2022, 11(16): 2537. [本文引用:1]
[24]	Zhao Songguang, Adade S Y S S, Wang Zhen, et al. Foof Chemistry, 2023, 423: 136208. [本文引用:1]

2020

0.0

... 引言胡萝卜是全球公认的高营养蔬菜, 但高水分含量导致其易腐败, 因此, 脱水技术被广泛用于延长胡萝卜的货架期^[1] ...

2018

0.0

... 水分含量作为衡量冻干胡萝卜质量的核心指标之一, 其精准控制对保持产品口感、延缓微生物变质及延长保质期至关重要^[2] ...

2023

0.0

... 核磁共振可用于无损测定食品中的水分含量和分布, 但成本高且复杂^[3] ...

2019

0.0

... 近红外光谱利用水的近红外吸收特性, 通过测量特征吸收峰的强度来计算含水量, 但这是一种穿透性差的表面测量技术, 通常不适合测量低含水量^[4] ...

2023

0.0

... THz波频率范围为100 GHz~10 THz, 其兼具红外波的指纹性与微波的穿透性^[5] ...

2021

0.0

... Shen等^[6]使用太赫兹时域光谱(terahertz time-domain spectroscopy, THz-TDS)结合禁忌搜索算法来预测小麦的水分, 所建立偏最小二乘回归(partial least squares regression, PLSR)模型的R_P和RMSEP分别为0 ...

2022

0.0

... Gong等^[7]将银杏果实的THz吸收系数与PLSR和指数拟合算法结合, 实现了对水分含量的精确监测 ...

2022

0.0

... 机器学习是一种强大的工具, 它利用具有高度通用性和鲁棒性的分析模型, 能够有效地将太赫兹光谱数据与食品样品中的不同成分联系起来^[8] ...

2023

0.0

... THz-TDS采用相干探测技术收集太赫兹电场信息, 对参考信号和样品信号进行快速傅里叶变换(fast Fourier transform, FFT)得到样品的频谱^[9] ...

2001

0.0

... 利用菲涅耳数据处理模型提取各样品的光学参数^[10,11] ...

1996

0.0

... 利用菲涅耳数据处理模型提取各样品的光学参数^[10,11] ...

2024

0.0

... MA用于在不破坏关键特征峰的情况下消除样本光谱的随机噪声^[12] ...

2022

0.0

... SG用于最小化信号失真, 从而更有效地分辨和精确识别重叠的信号成分^[13] ...

2024

0.0

... 为应对此挑战, 使用竞争自适应加权采样(competitive adaptive reweighting sampling, CARS)、连续投影算法(successive projection algorithm, SPA)和无信息变量消除(uninformative variable elimination, UVE)三种特征提取方法降低光谱数据的维度, 识别对建模效果有显著贡献的光谱变量, 并提高建模效率和模型精度^[14] ...

2021

0.0

... CARS^[15]算法基于蒙特卡罗抽样筛选最优特征变量, 以PLS模型的回归系数为指标评估每个变量的权重, 过滤掉低权重的变量后, 利用交叉验证选出交叉验证均方根误差(RMSECV)最低的子集, 该子集即为与目标属性相关的最优特征变量 ...

2024

0.0

... SPA^[16]是一种前向迭代搜索方法, 其原理是选择具有最大投影向量的波长作为待选变量, 最后基于PLS模型的均方根误差确定最终的特征变量 ...

2023

0.0

... UVE^[17]是一种基于PLS模型回归系数稳定性的特征提取方法, 稳定性大于标准的变量被保留作为特征变量 ...

2021

0.0

... PLSR^[18]是太赫光谱学成分含量分析中常用的多元线性回归方法, 能够用尽可能少的维度来表达最多的有效原始数据信息 ...

2023

0.0

... BPANN^[19]作为前馈多层网络, 具备非线性映射、自学、泛化等核心能力, 适用于复杂数据处理 ...

2024

0.0

... XGBoost^[20]是基于梯度提升决策树的集成学习方法, 它通过引入正则化项和二阶导数信息, 结合并行树模型构建与剪枝技术, 提升了模型的性能、泛化能力和稳定性 ...

2022

0.0

... 出峰时间出现规律性延迟是因为THz脉冲穿过样品时的波速和光程与折射率相关, 样品的水分含量越大, 折射率越高, THz波在样品中的传播速度越慢^[21] ...

2023

0.0

... 许多报告表明, UVE更适合光谱的粗选, 原因是保留的特征变量数过多, 而CARS、 SPA筛选出较少的特征波段^[22] ...

2022

0.0

... Mao^[23]等的工作支持了这一观点, 他们的研究表明, CARS的预测性能优于SPA和UVE ...

2023

0.0

... 这与Zhao等^[24]的研究结果一致, 他们发现BPANN模型获得的预测结果普遍优于PLSR模型, 非线性模型可以更准确地阐明光谱与理化指标的关系 ...