作者简介: 袁 荔, 女, 1995年生, 贵州大学物理学院硕士研究生 e-mail: zhengguxu@foxmail.com
移动窗口平滑集成CARS算法(MWS-ECARS)是一种稳定的特征变量提取算法。 在前人研究的基础上, 提出了两种基于不同窗口平滑算法改进的MWS-ECARS对红茶光谱降维, 并与原始的MWS-ECARS、 常用的连续投影算法(SPA)、 竞争性自适应重加权算法(CARS)、 移动窗口偏最小二乘法(MWPLS)比较, 建立偏最小二乘算法回归模型(PLSR), 选择出最优红茶等级判别模型。 两种改进的MWS-ECARS方法分别是窗口高斯滤波平滑集成CARS(gaussian filter ECARS, GF-ECARS)、 窗口中值滤波平滑集成CARS(median filter ECARS, MF-ECARS)。 CARS算法运行 n次(该研究 n=1 000), 整合波长及其对应的挑选频率并用不同的窗口平滑算法对挑选频率进行平滑, 窗口宽度均为3~31, 窗口步长均为2; 将通过不同窗口宽度和平滑算法平滑过的挑选频率进行阈值的设定, 起始阈值及步长均为20; 最后选择出挑选频率大于阈值的波长, 建立PLSR模型, 以预测集相关系数(
Moving window smoothing ensemble CARS (MWS-ECARS) is a stable algorithm for extracting characteristic variables. Based on the previous studies, two improved MWS-ECARS are proposed to reduce the dimension of black tea spectrum based on different window smoothing algorithms in this paper, and compared with the original MWS-ECARS, the commonly used successive projections algorithm (SPA), the competitive adaptive reweighting algorithm (CARS) and the moving window partial least squares method (MWPLS). A partial least square regression model (PLSR) was established to select the best black tea grade discrimination model. Two improved MWS-ECARS methods are Gaussian filter ECARS (GF-ECARS) and Median filter smoothing ECARS (MF-ECARS), respectively. The CARS algorithm runs n times ( n=1 000 in this paper). The wavelength and its corresponding selected frequency are sorted out and different window smoothing algorithms are used to smooth the selection frequency. The window widths are all 3~31, and the window step sizes are all 2. The threshold is set through the selection frequency smoothed by different window widths and smoothing algorithm, and the starting threshold and step size are both 20. Finally, the wavelength whose selection frequency is higher than the threshold is selected and the PLSR model is established. The correlation coefficient of prediction set (
化学计量学是光谱分析技术中的重要组成部分, 它包括光谱预处理, 光谱降维, 光谱定量、 定性模型建立等内容。 在实际应用中, 由于光谱数据可能具有信号强度弱、 信号重叠、 外界噪声干扰大等问题, 导致分析结果精度低, 稳定性差[1]。 在此背景下, 运用光谱降维算法与日俱增。 常用的降维方法有主成分分析(principal component analysis, PCA)、 竞争自适应重加权采样(the competitive adaptive reweighting algorithm, CARS)、 连续投影算法(successive projections algorithm, SPA)、 移动窗口偏最小二乘法(the moving window partial least squares method, MWPLS)等。 Omar等使用PCA算法对烟草光谱降维, 结合偏最小判别分析算法(PLS-DA)对烟草商标进行判别[2]。 Leqian等基于可见-近红外光谱利用蚁群算法和CARS算法检测与分类葡萄酒的品质参数[3]。 Dong等采用协同区间偏最小二乘法(partial least square regression, PLSR)和极值学习机结合自适应增强算法将红茶的发酵质量与近红外光谱建立定量分析模型, 结果表明该算法能够对红茶发酵品质实行在线监测[4]。 Song等利用Haar, Sym, Coif和Bior小波对遗传算法选择的光谱数据再次压缩, 然后根据各小波函数压缩的变量建立PLS模型[5]。
红茶是全球范围内饮用最广的茶叶之一, 遍及亚洲、 非洲、 欧洲等各个国家。 红茶带有独特的物质成分(茶黄素, 茶红素, 茶褐素等), 使其受到医药、 食品和各个相关领域的关注与研究[6, 7]。 Dey等发现口服红茶提取物(BTE)会改变实验性白化大鼠妊娠期和哺乳期大鼠血液和肝脏的参数[8]。 Ji等发现红茶多糖可以显著抑制H22肿瘤细胞的生长, 有效保护肿瘤小鼠的胸腺和脾脏[9]。 Lantano等通过对不同茶的冷热浸泡, 研究出提高绿茶与红茶中活性物质含量的新的浸渍方法[10]。 Dash等在海水体系中利用首次冲泡后产生的红茶残渣生产生物乙醇, 以减少生物乙醇工业对淡水的消耗[11]。
尽管现有的光谱数据降维算法层出不穷, 研究人员仍然不断在改善这些算法的不利之处[12, 13]。 在中国农业大学宋相中提出的基于移动窗口平滑集成策略的特征波段挑选算法(moving window smoothing ensemble CARS, MWS-ECARS)基础上, 考虑在该算法中使用不同的窗口平滑算法来挑选特征变量, 并筛选出用于红茶等级判别效果最优的光谱数据降维算法, 为光谱数据的选择性降维提供参考。
微型植物粉碎机, 天津市泰斯特仪器有限公司生产。 荷兰Avantes公司生产的Avaspec-2408标准型光纤光谱仪, 测定范围为350~1 100 nm, 光谱采样间隔为4 cm-1, 扫描次数为10次, 探头视场角为15° 。
5个等级的红茶样本均购自贵州省太升茶行, 分别为特级、 一级、 二级、 三级、 四级, 每个等级茶叶样品数分别为40个, 每个等级人为随机以3:1的比例划分为校正集与预测集, 最后得到校正集150个, 预测集50个样品。 校正集用于建模, 预测集用于验证模型的可靠性。 将200个红茶样本通过微型植物粉碎机粉碎后, 用40目标准分样筛筛滤, 最后盛放在高为0.4 cm、 直径为2.2 cm的黑色培养皿中, 压平样品表面, 减少粗糙表面造成的光能量损失。 在密不透光的环境中测样品光谱, 保持光纤头距离样品表面1.6 cm, 每次测量先进行“ 白板” 校正, 后采集样品光谱, 以减少环境和仪器带来的误差。
使用The Unscrambler X(CAMO Software AS公司)及Matlab(2015)(MathWorks公司)软件进行数据的处理与分析, MWS-ECARS计算过程由自编Matlab程序和The Unscrambler X软件共同实现。
MWS-ECARS算法原理是: 采用窗口平滑算法对多次重复运行CARS得到的波长累积被选频率做平滑处理, 以保留高频波长点及其附近的有效波长; 通过设定频率阈值, 将大于阈值的波长选出作为特征波长, 由于特征波长点邻近的有效波长频率往往略低于高频特征波长, 也会保留, 所以最后被挑选出来的特征变量通常会形成特征波段[9]。
200个红茶样本的可见-近红外光谱如图1所示, 光谱范围为350~1 100 nm。 由于在350~400和1 000~1 100 nm波段内的光谱受噪声影响较大, 选取400~1 000 nm范围的波段参与后续的鉴别建模。
在采集光谱的过程中, 为了尽可能地减小噪声的影响, 实验选择移动均值平滑(MA-Smoothing), 高斯滤波平滑(GF-Smoothing), 中值滤波平滑(MF-Smoothing), 卷积平滑(SG-Smoothing), 去趋势(De-trending)和多元散射校正(MSC)6种平滑算法对原始光谱平滑, GF-Smoothing的
![]() | 表1 不同预处理方式与PLSR建模结果 Table 1 The PLSR model result of different pretreatments |
2.3.1 基于MWS-ECARS的光谱数据降维
设定CARS运行次数为1 000, 三种平滑算法的频率平滑窗口宽度均为3~31, 宽度步长为2, 频率阈值为20~700, 阈值步长为20。 由于篇幅限制, 仅列出特征变量挑选变化明显的结果, 黑色曲线是预处理以后的光谱曲线, 彩色柱形图是特征变量区域, 柱形图与黑色曲线重叠区域是算法选择的特征变量。 图2是基于MA-ECARS挑选的特征变量, 平滑窗口宽度分别是3, 17和31, 阈值均为140, 窗口宽度较小时, 特征变量区间小且数目多, 覆盖范围广。 随着平滑窗口宽度增加, 特征变量离散程度逐渐降低, 特征波段区间变大, 且大窗口宽度的区间数目比小窗口少。 在三种MWS-ECARS算法中(MA-ECARS, MF-ECARS, GF-ECARS)都不同程度上展现出这种规律。
图3是以窗口中值滤波为平滑算法的MF-ECARS提取的特征变量部分情况, 平滑窗口宽度为5, 15和23, 阈值均为80。 从图中可知, 随着窗口宽度的增加, 提取的变量区间数目减少, 连续性增强。 但选择的平滑算法不同, 挑选的特征变量仍与MA-ECARS提取有所不同。
图4是以窗口高斯滤波为平滑算法的GF-ECARS挑选特征变量部分情况, 平滑窗口宽度分别为5, 19和31, 阈值均为200。 GF-ECARS提取特征变量的情况也有所不同。
2.3.2 基于连续投影算法(SPA)和竞争自适应重加权算法(CARS)的光谱数据降维
使用SPA算法和CARS算法从预处理后的光谱数据中挑选出特征波长, 分别如图5, 图6所示。 SPA挑选出5个特征波长: 400.29, 430.90, 472.54, 673.17和943.50 nm。 CARS挑选出93个特征波长, 几乎分布在光谱变化明显的位置。
2.3.3 移动窗口偏最小二乘法(MWPLS)挑选特征波段
基于MWPLS算法挑选的特征波段如表2所示。 设定窗口宽度为90~210, 窗口步长取10, 主成分数目为4~10。 对于每一个特定宽度的窗口, 在主成分数为10时, 交叉验证均方根误差为最小值。 由表中知道, 选择的特征变量为796.69~913.73 nm区间, 因为此时预测集均方根误差(RMSEP)最小。
![]() | 表2 基于移动窗口偏最小二乘法挑选(MWPLS)的特征波段 Table 2 Characteristic bands selected by moving window partial least squares (MWPLS) |
基于四种降维方法挑选出的有效波长(波段)建立偏最小二乘回归模型(PLS), 结果如表3所示。 同时可以从
![]() | 表3 不同特征变量挑选方法与PLSR建模 Table 3 The PLSR model of different selection methods of characteristic variables |
为了较大程度上消去外界因素对模型建立的干扰, 将获得的200个样本光谱进行6种方法预处理, 其中高斯滤波平滑的建模效果最好, 预测集相关系数最高, 所以选择经高斯滤波平滑后的数据进行后续的实验处理。 其次, 使用MWS-ECARS, SPA, CARS以及MWPLS 4种数据降维方式对预处理后的数据提取特征变量。 结果显示, MWS-ECARS算法中的GF-ECARS算法提取的特征变量建立的偏最小二乘回归模型结果最好, 相关系数达到0.969 2。
对于四种不同的降维算法, SPA由于选择的特征变量数目过少, 失去了样品光谱中部分细节信息。 通过CARS得到的特征变量尽管建模的效果不错, 但由于该算法中引入了随机参数, 每次运行后得到的特征变量和数目都不相同, 所以建立的定性定量模型稳健性较差。 同时, 从光谱建模的角度上发现用特征波段的建模结果通常比用特征波长好, 因为具有样品信息的某一波长点邻近的部分波长也具有样品的光谱信息, 所以, 用MWPLS和改进的MWS-ECARS提取特征波段建模效果相对较好。 MWPLS选择的特征变量仅为某段光谱区域, 不够全面, 建模效果不会十分出色。 改进的三种MWS-ECARS虽然提取的特征变量情况不同, 但都在很大程度上覆盖了光谱信息, 提取的特征波段区间大小可变, 具有特征波长与波段同时选择, 在一定程度上降低了变量的冗余性和保留了有效信息的连续性。 尽管窗口平滑算法不同, 但它们建模的结果都显示出MWS-ECARS的稳定性和优异性, 对于基于可见-近红外光谱的红茶样品等级判别GF-ECARS算法是最合适的。 在前人的基础上, 提出基于不同窗口平滑算法的两种MWS-ECARS算法对红茶等级进行光谱判别是可行的。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|