作者简介: 孙 梦,女, 2000年生,江南大学食品学院硕士研究生 e-mail: 6220112072@stu.jiangnan.edu.cn
水分含量对冻干胡萝卜的质量和货架期具有至关重要的影响。 然而, 传统的水分测量方法费时低效。 因此, 该研究旨在探索一种基于太赫兹时域光谱(THz-TDS)与机器学习(ML)技术相结合的快速、 无损检测方法, 用于测定冻干胡萝卜的水分含量。 试验采集140个不同水分含量样本的时域光谱数据, 基于光学参数提取模型, 获得样品的吸收系数和折射率光谱。 为了提升光谱数据的质量, 对获得的光谱进行移动平均(MA)平滑和SG平滑预处理, 随后采用竞争自适应重加权采样(CARS)、 连续投影算法(SPA)、 无信息变量消除(UVE)三种特征提取算法, 从原始光谱数据中筛选出与水分含量密切相关的特征光谱变量。 最后, 采用偏最小二乘回归(PLSR)、 反向传播人工神经网络(BPANN)和极端梯度提升(XGBoost)三种机器学习算法构建了定量预测模型, 并利用模型评价指标对这些模型进行了全面评估, 以确定检测冻干胡萝卜水分含量的最佳光学参数与最优算法组合。 结果表明, 吸收系数光谱准确有效地反映了水分信息, 预处理有效去除了光谱噪声, 特征提取确定了与水分相关的关键变量, BPANN展现出最优的定量预测性能。 其中, 基于吸收系数光谱的SG-CARS-BPANN模型表现出最强的预测性能($R_{C}^{2}=0.971 2$, RMSEC=0.007 3, $R_{P}^{2}=0.936 6$, RMSEP=0.010 7)。 这些发现表明, 太赫兹和机器学习的结合可以实现冻干胡萝卜水分含量的快速无损检测, 所建立的方法具有用于在加工和储存期间实时监测冻干果蔬中水分含量的潜力。
Moisture content (MC) is vital to freeze-dried carrots' quality and shelf life. However, traditional moisture measurement methods are time-consuming and inefficient. Therefore, this study aimed to develop a rapid, nondestructive detection method utilizing terahertz time-domain spectroscopy (THz-TDS) and machine learning (ML) technology to determine the moisture content of freeze-dried carrots. The time-domain spectral data for 140 samples with varying moisture content were collected. Based on the optical parameter extraction model, the' absorption coefficient spectrum and refractive index spectrum of these samples within the terahertz frequency band were obtained. To enhance the quality of the spectral data, the acquired spectra underwent preprocessing through moving average (MA) smoothing and Savitzky-Golay (SG) smoothing. Subsequently, three feature extraction algorithms: competitive adaptive reweighting sampling (CARS), successive projection algorithm (SPA), and uninformative variable elimination (UVE), were employed to filter out the spectral variables most closely related to water content from the original spectral data. Finally, three machine learning algorithms: partial least squares regression (PLSR), back propagation artificial neural networks (BPANN), and extreme gradient boosting (XGBoost) were utilized to construct quantitative prediction models. These models were then comprehensively evaluated using model evaluation indices to determine the optimal optical parameters and the most effective algorithm combination for detecting the moisture content of freeze-dried carrots. The results indicated that the absorption coefficient spectrum accurately and effectively captured the moisture information. Pretreatment effectively reduced spectral noise, and feature extraction identified the key variables related to moisture. BPANN exhibited the best quantitative prediction performance among the machine learning algorithms tested. Specifically, the SG-CARS-BPANN model, which was based on the absorption coefficient spectrum, demonstrated the strongest predictive capability ($R_{C}^{2}=0.971 2$, RMSEC=0.007 3, $R_{P}^{2}=0.936 6$, RMSEP=0.010 7). These findings demonstrated that the combination of THz-TDS and machine learning algorithms can realize rapid and nondestructive moisture detection in freeze-dried carrots, and the established method has the potential to monitor moisture content in freeze-dried fruits and vegetables in real time during drying and storage.
胡萝卜是全球公认的高营养蔬菜, 但高水分含量导致其易腐败, 因此, 脱水技术被广泛用于延长胡萝卜的货架期[1]。 与传统的干燥方法相比, 真空冷冻干燥因其干燥温度低、 干燥时间短和冷冻速度快而能保持更多的营养成分, 从而满足消费者对高品质食品的需求。 水分含量作为衡量冻干胡萝卜质量的核心指标之一, 其精准控制对保持产品口感、 延缓微生物变质及延长保质期至关重要[2]。 冻干工艺赋予胡萝卜多孔海绵状结构, 使其在贮藏期间极易吸收环境水分, 这对干燥产品的质量产生负面影响。 因此, 建立一种准确、 快速、 无损的检测方法来测量冻干胡萝卜在干燥和贮藏过程中的水分含量具有重要意义。
传统的水分测定方法分为破坏性和非破坏性检测方法, 如干燥法、 化学法、 电阻法和电容法。 这些方法具有程序复杂、 检测周期长、 不连续和检测精度不均匀的局限性, 因此不适合快速和无损检测。 目前, 主要有核磁共振和振动光谱分析技术用于快速检测食品中的水分含量。 核磁共振可用于无损测定食品中的水分含量和分布, 但成本高且复杂[3]。 近红外光谱利用水的近红外吸收特性, 通过测量特征吸收峰的强度来计算含水量, 但这是一种穿透性差的表面测量技术, 通常不适合测量低含水量[4]。 此外, 拉曼光谱的检测精度较高, 但其散射信号较弱且易受荧光干扰, 使其检测深度受到限制。 太赫兹(Terahertz, THz)是一种新兴无损检测技术, 具有非破坏性、 非电离和非接触的优势。 THz波频率范围为100 GHz~10 THz, 其兼具红外波的指纹性与微波的穿透性[5]。 水对THz波具有强烈的吸收作用, 是因为水分子间氢键动力学的旋转光谱、 振动光谱位于太赫兹范围内。 水分子作为一种具有复杂氢键网络的极性分子, 在THz波段具有较强的共振吸收与介电弛豫现象。 Shen等[6]使用太赫兹时域光谱(terahertz time-domain spectroscopy, THz-TDS)结合禁忌搜索算法来预测小麦的水分, 所建立偏最小二乘回归(partial least squares regression, PLSR)模型的RP和RMSEP分别为0.953 1和0.539 6, 该结果证实了THz技术检测小麦水分含量的可靠性。 Gong等[7]将银杏果实的THz吸收系数与PLSR和指数拟合算法结合, 实现了对水分含量的精确监测。 这些研究都表明了THz光谱技术具有检测水分含量的潜力。
机器学习是一种强大的工具, 它利用具有高度通用性和鲁棒性的分析模型, 能够有效地将太赫兹光谱数据与食品样品中的不同成分联系起来[8]。 尽管如此, 将太赫兹技术与机器学习融合以实现对冻干食品水分含量的精确量化检测仍有待探索。 据此, 本研究旨在验证THz-TDS结合机器学习方法快速无损检测冻干胡萝卜水分含量的可行性和有效性。 THz-TDS用于获得不同含水量的冻干胡萝卜的时域光谱数据。 随后基于光学参数提取模型, 计算样品在太赫兹频段的吸收系数和折射率数据。 采用不同的预处理和特征提取算法对原始光谱数据进行优化。 在此基础上, 分别构建了基于吸收系数和折射率的水分含量预测模型。 最后利用模型评价指标对模型进行评估, 筛选出针对冻干胡萝卜水分含量检测的最佳光学参数与最优算法组合。
新鲜的永昌胡萝卜购自无锡市的叮咚买菜。 将其切成直径30 mm, 厚度3 mm圆形薄片, 随后放入真空冷冻干燥机中不同时间后取出, 共获得140个冻干样品。 为了探究水分含量对冻干胡萝卜光谱特性的影响, 将样品按水分含量(w.b.)分为四个区间: 6%~10%、 10%~14%、 14%~18%和18%~22%, 每个区间内的样本水分含量相近, 便于对比分析不同水分含量条件下光谱数据的差异性及潜在关联。
太赫兹时域光谱系统(QT-TRS1000, 青岛青源峰达科技有限公司)、 电热鼓风干燥箱(DHG-91013SA, 上海市三发科学仪器有限公司)、 分析天平(AB104-N, 梅特勒托利多国际股份有限公司)、 真空冷冻干燥机(SCIENTZ-10YD/A, 宁波新芝冻干设备股份有限公司)、 数显千分测厚仪(YHT 103251, 深圳市源恒通科技有限公司)。
图1(a)中的THz-TDS系统用于收集0.1~4.0 THz范围内的光谱数据。 QT-TRS1000的工作原理如图1(b)所示, 太赫兹光路模式为透射式。 为保证太赫兹波的强度和信噪比, 实验在受控湿度和温度下进行。 使用聚乙烯板作为支撑平台, 以空气信号作为参考信号。 每个胡萝卜样本设置5个光谱检测点, 这些检测点均匀分布于以样品中心为圆心、 2 mm为直径的圆上, 样品信号为5次时域信号的平均值。 同时, 利用重复精度为0.001 mm的数显测绘仪对各样品的5个检测点进行厚度测定, 并取平均值。 共收集140个样本的太赫兹时域数据和厚度数据。
THz-TDS采用相干探测技术收集太赫兹电场信息, 对参考信号和样品信号进行快速傅里叶变换(fast Fourier transform, FFT)得到样品的频谱[9]。 利用菲涅耳数据处理模型提取各样品的光学参数[10, 11]。 光学参数是表征物质宏观光学特性的重要物理量。 折射率n(ω )定义为光在真空中的传播速度与光在介质中的传播速度之比, 表示样品的色散特性。 吸收系数α (ω )的定义是样品单位厚度的吸光度, 表示样品的吸收特性。
其中, A(ω )为样品信号与参考信号的振幅比; ω 为角频率; Φ (ω )为样品信号与参考信号的相位差; c为光速; d为样品厚度。
水分含量参照GB 5009.3— 2016中第一法直接干燥法规定的方法进行测定, 计算公式如式(3)
式(3)中, X为样品水分含量; m1为样品的新鲜质量(g); m2为样品干燥后的质量(g)。
采用Matlab2022a、 Unscrambler10.4软件完成THz光谱数据的处理分析和模型构建, 使用Origin2021进行作图。 采用随机划分算法将全部样本以3∶ 1的比例分为训练集(n=105)和测试集(n=35), 以便后续进行模型构建与性能评估。
1.5.1 光谱数据预处理
采集的原始光谱除了包含水分信息外, 还包含基线漂移、 随机噪声和光散射等干扰因素。 本文采用移动平均(moving average, MA)和Savitzky-Golay(SG)平滑两种预处理对原始信号进行处理。 MA用于在不破坏关键特征峰的情况下消除样本光谱的随机噪声[12]。 SG用于最小化信号失真, 从而更有效地分辨和精确识别重叠的信号成分[13]。
1.5.2 特征提取
原始THz光谱包含大量的冗余信息和噪声, 增加计算复杂度并影响模型性能。 特别地, 胡萝卜样品因其内含多种具有THz光谱吸收特性的成分, 使得全光谱数据呈现出复杂的重叠干扰现象。 为应对此挑战, 使用竞争自适应加权采样(competitive adaptive reweighting sampling, CARS)、 连续投影算法(successive projection algorithm, SPA)和无信息变量消除(uninformative variable elimination, UVE)三种特征提取方法降低光谱数据的维度, 识别对建模效果有显著贡献的光谱变量, 并提高建模效率和模型精度[14]。
CARS[15]算法基于蒙特卡罗抽样筛选最优特征变量, 以PLS模型的回归系数为指标评估每个变量的权重, 过滤掉低权重的变量后, 利用交叉验证选出交叉验证均方根误差(RMSECV)最低的子集, 该子集即为与目标属性相关的最优特征变量。 SPA[16]是一种前向迭代搜索方法, 其原理是选择具有最大投影向量的波长作为待选变量, 最后基于PLS模型的均方根误差确定最终的特征变量。 UVE[17]是一种基于PLS模型回归系数稳定性的特征提取方法, 稳定性大于标准的变量被保留作为特征变量。 UVE可以剔除对建模贡献小和无贡献的变量, 从而降低模型的复杂性。
采用PLSR, 反向传播人工神经网络(back propagation artificial neural networks, BPANN), 极端梯度提升(extreme gradient boosting, XGBoost)三种机器学习方法来建立预测冻干胡萝卜水分含量的预测模型。 PLSR[18]是太赫光谱学成分含量分析中常用的多元线性回归方法, 能够用尽可能少的维度来表达最多的有效原始数据信息。 它具有良好的鲁棒性和分析性能, 具有解决自变量和因变量间多重共线性的作用。 BPANN[19]作为前馈多层网络, 具备非线性映射、 自学、 泛化等核心能力, 适用于复杂数据处理。 在BPANN方法中, 最大训练次数设置为1 000, 训练精度设置为0.001。 XGBoost[20]是基于梯度提升决策树的集成学习方法, 它通过引入正则化项和二阶导数信息, 结合并行树模型构建与剪枝技术, 提升了模型的性能、 泛化能力和稳定性。
采用决定系数(
图2(a)为冻干胡萝卜样品的时域光谱图。 随着水分含量的增加, 时域信号峰值强度逐渐降低。 这一现象归因于胡萝卜中水分对THz信号的衰减作用, 具体而言, 水分含量较高的样品对THz波的吸收能力更强, 导致透射后的THz信号强度减弱。 出峰时间出现规律性延迟是因为THz脉冲穿过样品时的波速和光程与折射率相关, 样品的水分含量越大, 折射率越高, THz波在样品中的传播速度越慢[21]。
样品的频域信号通过FFT获得[图2(b)]。 随着水分含量的增加, 样品信号的振幅逐渐降低, 有效频谱范围也相应缩减。 振幅的衰减是由THz脉冲在样品中能量消耗的差异导致的。 此外, 系统漂移、 仪器性能的限制以及样品对THz波的散射和反射作用, 共同导致了高频区域信号的失真和信噪比的降低。 因此1.2~4.0 THz频率范围的信号被移除, 而0.1~1.2 THz被保留为光谱信息的有效频谱范围用于后续的光学参数提取。
通过应用光学参数提取模型, 获取胡萝卜样品在0~1.2 THz频段内的吸收系数光谱以及0~1.1 THz频段内的折射率光谱。 如图2(c)所示, 胡萝卜样品的吸收系数随着频率的增加而增加, 这一现象可能归因于冻干过程中胡萝卜微观结构的改变(碳水化合物的排列方式、 水分状态的转变)以及其他多种复杂因素的交互作用。 图2(d)显示了折射率随频率的增加而缓慢降低, 样品之间的折射率差异非常小, 从1.02到1.17不等。 在THz频率内, 冻干胡萝卜的水分含量与其吸收系数及折射率均呈现出正相关关系, 这一结果与之前时域频域分析所得结论相吻合。
冻干胡萝卜的THz光谱因缺少特征峰而难以区分不同水分含量的样品。 因此, 采用化学计量学方法提取光谱中的化学信息至关重要。 为提高光谱信噪比, 减少噪声和散射的影响, 对原始光谱进行了MA和SG预处理(表1)。 通过建模比较原始光谱与预处理光谱对水分含量的预测能力, 发现MA和SG预处理模型较未处理模型具有更高的
![]() | 表1 不同预处理方法的定量预测模型 Table 1 Quantitative prediction models of different pretreatment methods |
图3展示了吸收系数光谱在预处理前后的变化, 原始光谱存在较强的噪声干扰和基线漂移。 在MA和SG预处理后, 光谱曲线在保持基线带宽与原始信号一致的同时更加平滑, 噪声尖峰明显减少。 表明这两种方法能够有效保留光谱的关键信息, 增强不同水分含量样品的光谱的分辨率。 MA和SG预处理光谱的数据被用于进一步的数据分析。
胡萝卜样品中含有多种有助于吸收太赫兹光谱并导致光谱峰重叠的成分, 因此根据太赫兹特征峰识别和定量水具有挑战性。 为降低数据维度并精确识别表征冻干胡萝卜水分的光谱频率变量, 在预处理后有必要使用特征提取算法从全频率中筛选特征频率。 以经SG预处理后吸收系数谱为例, 图4描述了三种特征提取算法的运行过程和所选择的特征频率。
由图4[a(Ⅰ )]可知CARS算法的蒙特卡洛循环采样次数设定为100, 当采样次数达到75时, RMSECV值最小, 表明与水分相关性较小或负相关的频率已被移除。 图4[a(Ⅱ )]显示吸收系数谱保留的频率数量随着迭代次数的增加而减少, 结合图4[a(Ⅲ )]中回归曲线的路径图, 最终选取第75次运行获取的特征变量子集作为为最优变量子集, 提取了6个与水分显著相关的特征频率, 分别位于0.178 8、 0.252 5、 0.339 4、 0.342 4、 0.366 7和0.951 6 THz。 图4(b)是SPA算法采样期间选择不同数目变量时RMSEP的变化趋势图, 随着所选特征频率数量的增加, RMSEP迅速降低。 当变量数量为21时, 模型的RMSEP达到最低值0.011 8, 这意味着模型的预测准确性达到最高, SPA算法最终筛选出21个与水分相关的特征频率, 主要集中于0.1~0.3和0.9~1.1 THz。 UVE算法的运行过程如图4(c)所示。 在THz光谱变量的右侧引入一组与其数量相同的随机噪声作为参考, 稳定性指数和阈值用于评估各光谱变量的可靠性。 基于筛选阈值, UVE算法删除了阈值线内的无信息变量, 最终保留109个特征变量, 主要分布在0.1~0.6 THz范围。
许多报告表明, UVE更适合光谱的粗选, 原因是保留的特征变量数过多, 而CARS、 SPA筛选出较少的特征波段[22]。 在本文中, 三种特征提取方法均有效降低了THz吸收系数谱的维度, CARS、 SPA和UVE算法筛选出的特征频率数量分别占0.1~1.2 THz范围内总频率数量的1.65%、 5.79%和30.03%。 不同的特征提取方法导致不同的特征频率子集, 这可能导致模型性能产生差异。
为了评估不同特征提取算法的有效性, 以吸收系数为例, 将筛选得到的特征频率光谱作为自变量, 水分含量为因变量, 建立特征频率模型, 并与全频率模型的预测性能进行比较(表2)。 与其他特征提取方法相比, 经CARS特征提取后的模型预测精度普遍提高, 表现为
![]() | 表2 基于吸收系数光谱的定量预测模型汇总 Table 2 Summary of quantitative prediction models based on absorption coefficient |
为了有效比较吸收系数和折射率两种光学参数对水分含量预测模型的影响, 基于吸收系数和折射率两类数据分别建立冻干胡萝卜水分含量预测模型并进行对比分析。 结果表明, 与折射率相比(表3), 基于吸收系数谱的模型整体建模稳定性和预测精度更高, 预测集
![]() | 表3 基于折射率光谱的定量预测模型汇总 Table 3 Summary of quantitative prediction models based on refractive index |
表2和表3比较了三种机器学习方法的建模性能。 与其他回归模型相比, BPANN在预测水分含量方面比PLSR和XGBoost表现得更好。 在本研究中, 基于树的XGBoost方法性能表现不佳, 出现了严重的过拟合问题, 即使通过特征提取将光谱变量缩减至5个, 其预测效果仍然未能达到预期。 这可能是因为XGBoost不适合高维稀疏数据集和小规模数据集。 此外, 模型参数设置可能加剧过拟合, 例如较大的树深度、 较小的子采样率和较弱的正则化可能导致模型过度拟合训练数据。 与PLSR线性模型相比, BPANN非线性模型具有更大的
开发了一种采用THz-TDS技术结合机器学习算法快速检测冻干胡萝卜样品水分含量的方法。 从不同方法的比较来看, 使用适当的预处理和变量筛选算法优化光谱数据是有效的。 MA和SG预处理有效去除了光谱噪声, CARS筛选的特征频率能够代表原始光谱的有效信息, BPANN非线性模型可以更准确地阐明与光谱的关系。 在所有模型中, 使用吸收系数谱结合SG预处理和CARS算法筛选确定的具有6个特征频率的BPANN模型具有最强的预测性能(
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|