基于共聚焦拉曼光谱技术的苹果轻微损伤早期判别分析
陈思雨1, 张舒慧2, 张纾1, 谭佐军1,*
1. 华中农业大学理学院, 湖北 武汉 430070
2. 华中农业大学工学院, 湖北 武汉 430070
*通讯联系人 e-mail: tzj@mail.hzau.edu.cn

作者简介: 陈思雨, 女, 1994年生, 武汉华中农业大学理学院硕士研究生 e-mail: 15129232791@163.com

摘要

苹果在采摘、 分拣、 储存和运输过程中容易受到挤压、 振动和碰撞而损伤, 轻微损伤早期肉眼很难识别, 轻微损伤部位易被病原微生物入侵而导致自身和周围水果腐烂, 因此, 苹果轻微损伤的早期快速准确地判别能有效地降低经济损失, 对苹果的采后处理和储存具有重要意义。 本研究应用拉曼光谱结合化学计量学方法对苹果早期轻微损伤进行快速识别。 采用Savitzky-Golay(SG)卷积对原始拉曼光谱进行平滑去噪, 用自适应迭代重加权惩罚最小二乘(airPLS)算法进行基线校正, 用非线性的支持向量机(SVM)回归算法建立分类判别模型, 采用KS法划分训练集和验证集后, 基于线性和多项式核函数建立SVM分类模型的分类准确率可达到97.8%。 结果表明, 拉曼光谱技术结合化学计量学方法可快速识别苹果的早期轻微损伤, 展示了拉曼光谱技术用于判别苹果早期轻微损伤的应用前景。

关键词: 苹果; 早期轻微损伤; 拉曼光谱; 支持向量机
中图分类号:TP391.41 文献标志码:A
Detection of Early Tiny Bruises in Apples using Confocal Raman Spectroscopy
CHEN Si-yu1, ZHANG Shu-hui2, ZHANG Shu1, TAN Zuo-jun1,*
1. College of Sciences, Huazhong Agricultural University, Wuhan 430070, China
2. College of Engineering, Huazhong Agricultural University, Wuhan 430070, China
Abstract

Mechanical damage of apple can result from compression, vibrations and collisions during harvesting, handling, transport operation and storing process. The part of tiny bruise apple is unable to be identified by the naked eye and is more likely to be invaded by micro-organism and pathogen, which will not only cause the affected fruit to rot, but will also affect other intact fruit. Therefore, it is significant for the postharvest treatment and storage to a identify the early tiny bruise of apple quickly and accurately, which can reduce economic losses. Raman spectroscopy combined with chemometric methods was used to rapidly classify apple flesh with early tiny bruising. SG (Savitzky-Golay) was used to smooth spectroscopy. AirPLS (adaptive iteratively reweighted penalized least squares) was used to correct the baseline of spectroscopy. After using KS method to divide training set and verification set, classified models were developed with non-linear support vector machine (SVM) regression which were based on the linear and polynomial kernel functions. The classification accuracy rate was 97.8%. The results showed that Raman spectroscopy combined with chemometric methods can quickly identify the early tiny bruise of apple, demonstrating the application prospect of Raman spectroscopy to discriminate the early tiny bruise apple.

Keyword: Apple; Early tiny bruise; Raman spectroscopy; SVM

引 言

苹果作为中国栽培的主要水果种类之一, 在我国现代农业生产和果蔬人均消费上占有举足轻重的地位。 苹果在采摘、 分拣、 储存和运输过程中容易受到挤压, 振动和碰撞而造成机械损伤, 尤其是早期轻微损伤在外观上与完好部位区别不大, 肉眼很难识别, 其损伤组织通常位于果皮以下的近表处。 轻微损伤的苹果随着时间的推移, 损伤部位会引起微生物、 有害病原体等入侵, 从而导致腐烂, 甚至会使同批优质水果的品质下降, 大大降低了苹果的品质与经济价值。 因此, 快速准确进行苹果早期轻微损伤的检测对苹果的采后处理和储存具有重要意义。

国内外一直不断探索苹果早期轻微损伤的检测方法。 可见/近红外光谱分析技术、 X射线成像、 核磁共振成像、 热像仪检测、 高光谱成像技术等已用于轻微损伤检测, 并取得一定的成效。 Luo等[1]利用可见/近红外光谱分析技术对“ 富士” 苹果轻微损伤进行分类识别, 发现三组特征波段的分类准确率高于全波段, 误判率低于2%, 但缺点在于特征波段选择的复杂性。 Zhou等[2]利用核磁共振成像技术检测水果的轻微损伤, 可排除损伤时间对检测结果的影响, 并确定内部褐变的严重程度, 识别准确率达到92.1%, Shallin等[3]以苹果为代表, 融合X射线成像技术、 逐步回归法及神经网络分类器对水果内部品质进行快速无损检测, 预测准确率达到92.1%, 虽然这两种方法具有一定的判断准确率, 但是其存在辐射并且依赖于大型昂贵设备, 难以适应水果等食品行业的检测。 Doosti等[4]通过热像仪检测轻微损伤苹果损伤部位的径向长度, 其检测准确率能达到90%, 但热像仪的检测需要样品长时间放置于封闭检测装置, 以确保样品和封闭装置达到一致稳定的设定温度, 才能进行检测, 其检测速度太慢, 且水果在保持长时间整体受热下, 会加大损伤果的腐烂和正常果软化, 缩减水果保质期。 高光谱成像技术可以同时获取样品图像和光谱信息, 从而了解到样品的表面缺陷和化学物质的组成。 陈欣欣等[5]以库尔勒梨为研究对象, 利用高光谱成像技术, 结合化学计量法对早期损伤进行快速识别, 识别率达到93.75%, 但是高光谱成像是扫描处理, 速度慢, 而且生成的大量数据很难快速分析[6]。 上述技术虽然取得一定成效, 但都具有一定的局限性, 水果的早期轻微损伤检测至今仍是一个难以克服的问题。

拉曼光谱是一种能够反映分子结构信息的散射光谱, 拉曼峰的位置、 形状和强度与被测物质分子的结构和含量相关, 可以实现物质的定性鉴别和定量分析, 已经广泛应用于食品科学、 分析化学、 分子生物学等领域[7]。 近些年, 利用拉曼光谱检测果蔬成熟度、 内部主要成分等也逐渐受到国内外研究者的重视。 Trebolazabala等[8]利用便携式拉曼光谱仪原位检测番茄成熟度, 分析了番茄在不同成熟阶段叶绿素、 番茄红素以及类胡萝卜素等的含量变化。 国内学者杨宇等[9]搭建拉曼点扫描系统, 以新鲜胡萝卜为研究对象, 建立一种快速无损检测胡萝卜中的β -胡萝卜素的多元线性回归模型。

目前, 国内外研究均是利用拉曼技术对果蔬成分和非法添加物进行定性、 定量分析, 未见采用拉曼技术对苹果早期轻微损伤检测的报道。 本研究以富士苹果为研究对象, 使用785 nm近红外激光激发, 采集完好和轻微损伤苹果的荧光和拉曼混合光谱, 用SG卷积法进行平滑去噪后, 用自适应迭代重加权惩罚最小二乘算法提取拉曼光谱, 用非线性支持向量机建立分类判别模型并验证, 展示了拉曼光谱用于判断苹果早期轻微损伤的应用前景。

1 实验部分
1.1 材料及制备

实验样品为山东烟台极品富士苹果, 选取50个无病虫害、 无机械损伤、 大小、 形状基本一致的苹果, 质量280~300 g, 果实直径8~9 cm, 用去离子水洗净表面后晾干。 苹果赤道垂直于手心, 手心向下, 使苹果从20 cm的高度自由跌落到钢板上, 使果实赤道处触地, 为防止弹起会造成二次摔伤, 及时用手接住苹果。 轻微损伤符合中国农业部发布的《苹果等级规格(NY/T 1793— 2009)》标准, 轻微损伤为内部损伤, 没有致使苹果表面破损, 人眼几乎无法辨别正常表面和损伤区域。

图1(a)和(b)分别为苹果果肉有损和无损的图像, 从图1中可以看出苹果果肉有一定的轻微损伤。 (a1)和(b1)分别为有损和无损的苹果果肉在光学显微镜下放大100倍得到的显微图, 显微图像显示无损苹果果肉细胞形状近圆形, 排列紧密, 细胞壁及细胞表面较为平滑, 显微视野较为清晰。 有损苹果骨肉细胞失去张力, 细胞皱缩, 细胞排列不规则, 细胞壁发生皱褶弯曲且破裂[(b1)中红色圆圈中的细胞壁破裂], 细胞内溶物流出, 表面高低不平, 导致显微镜聚焦变得困难以至于显微视野模糊。

图1 实验样本
(a): 无损苹果果肉; (a1): 显微放大100倍无损苹果果肉; (b): 有损苹果果肉; (b1): 显微放大100倍有损苹果果肉
Fig.1 Experimental samples
(a): No bruising apple flesh; (a1): No bruising apple flesh with 100× magnification; (b): Bruising apple flesh; (b1): Bruising apple flesh with 100× magnification

1.2 仪器及方法

采用英国Renishaw公司的Renishaw Invia拉曼光谱仪, 将样品放置在温度为5 ℃, 湿度为90%的恒温恒湿的环境下。 在损伤中心处标记直径2.5 cm圆形表皮区域, 用小刀切出10~15 mm厚度的样品, 无损苹果用同样的方法切得实验样品。 在苹果薄片上标记号码并在果实赤道处标记等距离的3个光谱采集点。 获取拉曼光谱所用的软件为Wire 2.0, 光谱采集时的仪器参数为: 测试条件为室温, 相对湿度为90%, 激发波长为785 nm, 激发功率100%, 光斑直径约为1.5 μ m, 波长范围300~2 000 cm-1, 扫描时间为40 s, 累积扫描3次, 样品采集时使用50倍的长焦镜头。

1.3 光谱的预处理

拉曼光谱仪噪声的来源主要是CCD探测器的噪声、 激发激光的波动、 环境中的黑体辐射等, 进行拉曼光谱检测时, 苹果样品本身也存在较大的荧光背景, 导致基线漂移, 给后续的分析造成一定的影响。 为了提高拉曼光谱的有效性, 要对拉曼光谱进行去噪平滑和基线校正处理。 本研究比较基于不同参数的Savitzky-Golay(SG)卷积法和基于小波变换(wavelet transform, WT)的自适应阈值去噪算法这两种去噪方式。 Savitzky-Golay(SG)卷积法是采用多项式移动窗口对数据进行最小二乘法拟合去除噪音, 保留光谱的原始轮廓; 小波变换去噪算法对拉曼光谱进行多尺度分解, 剔除高频噪声和低频背景, 从而达到去噪平滑的效果。 去噪后采用自适应迭代重加权惩罚最小二乘(adaptiveiteratively reweighted penalized least squares , airPLS)[10]算法剔除荧光背景, 从而达到基线校正的目的。

1.4 建立分类模型

主成分分析(principal component analysis, PCA)作为无监督降维方法, 其原理是运用线性变换将原始数据转换成一组按方差递减的不相关综合变量, 在线性变换过程中, 数据本身的协方差保持一致[11]。 根据主成分的累计可信度累计贡献率(ACR)(ACR> 85%), 选择合适的主成分数建立模型, 观察样品的聚类情况[12]

支持向量机(support vector machine, SVM)是基于统计学习理论的方法, 能够在有限且复杂的样本信息中运用无差别的学习能力寻求最佳的数学模型。 其主要思想是通过非线性映射函数(核函数)将输入向量映射到一个高维特征空间, 然后在此空间构造最优分类平面, 使数据形成的点集到此平面的最小距离最大[13]。 与其他分类方法相比, SVM通过引入惩罚项C, 降低了过度拟合的风险[14]。 SVM的主要优点是无论样本分布如何, 都可以有效地对小样本进行分类。 在本研究中, 样本数量少, 样本分布不明确, 所以可以通过SVM对苹果早期轻微损伤进行快速识别。

选择代表性样本进行建模不仅可以提高模型的运算速度, 还可提高模型的稳定性和可靠性。 通过KS(Kennard-Stone)法划分不同数量的训练集和验证集, KS方法是一种典型而有效的保证测试集信息量的划分方法, 可将光谱差异大的样本选入训练集, 其余样本归入测试集。 本研究中使用的程序都由Matlab R2015b和LIBSVM-3.22工具箱[15]实现。

2 结果与讨论
2.1 光谱的预处理

图2为基于coif3小波基的小波自适应阈值去噪算法和一阶3次15点SG卷积法平滑前后苹果果肉的拉曼光谱图, 截取了拉曼位移在350~1 250 cm-1波段范围, 通过对比更清楚地看到平滑效果, 两种去噪方法都除去了大部分系统噪音, 使曲线较为平滑, 但是小波自适应阈值去噪在个别峰位出现了伪峰[图2(a)红色圆圈标记的为伪峰], 可能会给分类判别造成一定的影响, 而一阶3次15点SG卷积法可以更有效的保留苹果样品的特征拉曼位移, 在2.3.2也对这两种去噪方法的分类判别准确率进行了比较。 图3为一阶3次15点SG卷积法去噪后再使用airPLS法基线校正前后苹果的拉曼光谱图, 剔除了荧光背景, 提高了特征拉曼峰的对比度和准确性。

图2 苹果果肉平滑前后的部分拉曼光谱图
(a): 小波变换算法去噪曲线(红色圆圈标记的为伪峰); (b): SG卷积法去噪曲线; (c): 原始曲线
Fig.2 Part of Raman spectra of the flesh sample before and after smoothing
(a): WT smoothing spectra (false peaks marked as red circle); (b): SG smoothing spectra; (c): Raw spectra

图3 AirPLS 去除荧光背景效果图Fig.3 The effect of removing the fluorescence background by airPLS method

2.2 拉曼光谱分析

无损与有损的苹果果肉的原始拉曼光谱如图4所示, 无损与有损的苹果果肉预处理后的拉曼光谱如图5所示, 由于拉曼光谱仪的噪声干扰和果蔬样品本身较高的荧光背景导致原始光谱上的许多强度较低的峰位难以识别, 经过预处理, 可以有效的去噪和去除荧光背景, 使拉曼光谱上所获取的光谱信息更加准确完整, 因此, 在后期的分析中均采用预处理后的拉曼光谱。

图4 共焦拉曼显微镜测量的苹果果肉原始光谱Fig.4 Original Raman spectra of apple flesh obtained with the confocal Raman microscope

Trebolazabala[8]和杨宇[9]等研究表明, 苹果、 梨、 番茄等果蔬中, 类胡萝卜素、 叶绿素a、 果糖、 番茄红素、 酚类化合物等碳水化合物的拉曼峰较为明显。 由于无损苹果果肉里的营养成分较为复杂, 在拉曼光谱上也显示了多个峰, 而有损苹果果肉的拉曼特征峰只分布在600~960和1 200~1 500 cm-1这两个特征波段, 不同特征波段的分布反映有损与无损的差异。 无损苹果果肉测得的拉曼光谱(图5), 其中871, 960, 1 270和1 521 cm-1处为胡萝卜素(Carotene)的特征峰, 871 cm-1由C(1)— H振动引起, 960 cm-1与— CH3的平面摇摆有关, 1 270 cm-1与C— H平面振动有关, 反映了C— H基团的弯曲振动程度, 1 521 cm-1由C=C振动引起; 455和645 cm-1处为番茄红素的特征峰; 1 631 cm-1对应C=C振动, 为酚类化合物(phenolic compounds)的特征峰。 将其与损伤苹果果肉光谱进行比较, 观察到455, 645, 871, 1 270, 1 521和1 631 cm-1处的特征峰有降低趋势甚至消失, 这表明了在苹果损伤的过程中, 果肉中的胡萝卜素、 番茄红素、 酚类化合物等的含量有降低的趋势。 742, 916, 982和1 334 cm-1处是叶绿素a(Chlorophyll a)的特征峰, 其中742 cm-1与叶绿素a分子中的N— C— C伸缩振动有关, 损伤后该峰强增加, 可能是损伤后N— C— C伸缩振动增强, 916 cm-1则归属于多碳链的伸缩振动, 982 cm-1与叶绿素a中CH3伸缩振动有关, 1 334 cm-1由— CH伸缩振动引起; 824 cm-1为果糖的特征峰, 由C(1)— H和CH2振动引起; 1 422, 708, 1 037, 1 086, 1 370和1 463 cm-1对应的分子振动模式尚不明确。 因此, 尽管通过上述分析, 能看到有损和无损样品拉曼光谱之间的一些差异, 但是对于大批量的样品这样的逐个比较方法没有意义, 因此需要进一步通过化学计量学的方法对苹果的损伤进行分类识别。

图5 共焦拉曼显微镜测量的苹果果肉平均光谱
(a): 损伤样品; (b): 未损伤样品
Fig.5 Average Raman spectra of apple flesh obtained with the confocal Raman microscope
(a): Bruising sample; (b): No bruising sample

2.3 判别模型的建立

2.3.1 主成分分析

图6是果肉经过PCA降维后的前两个主成分分布图, 前两个主成分包含了92.4%以上信息。 从图6看出果肉的样

品有一定区域性分布, 损伤样品分布集中左下, 无机械损伤的集中在右上, 呈现出拥有同一起点的不同集中分布情况。 综上所述, 果肉的前两主成分有一定的分布规律, 需要建立模型用于苹果早期轻微损伤的判别。

图6 苹果果肉拉曼光谱的PC图Fig.6 The PCA results of apple flesh Raman spectra of all the samples

2.3.2 支持向量机(SVM)

通过KS法划分不同数量的训练集和验证集以及选择不同的核函数, 都会影响SVM分类的准确性。 选择60个样品为训练集, 40个为验证集, SVM分类核函数为多项式核函数, 首先比较了基于不同小波基的小波变换算法和不同参数下的SG卷积法两种预处理后的SVM分类的准确性, 如表1所示。 从表1中可以看出, 选取不同的小波基和相同的分解层数, 基于coif3小波基的小波变换处理后的分类准确率最高为92.5%; 选取同样的小波基和不同的分解层数, 分解层数为4层的分类准确率较高, 而一阶3次15点SG卷积法处理后的分类准确率高达97.5%, 只有一个无损样品被误判, 这也验证了小波变换去噪出现的伪峰影响了SVM分类的准确性。 由于小波变换有不同的小波基和不同的分解层数, 组合的方式多样, 不易选取基于最优参数的小波变换去噪算法, 而SG卷积法调整参数少, 易于实现, 相对简单快捷, 因此优先选择一阶3次15点SG卷积平滑方法。 为找到最优的条件, 尝试了各种核函数和不同的训练集样本数, 分类结果见表2表2说明, 多项式核函数和线性核函数训练效果更好, 准确性更高。 由于样本量并不是很大, 且样本是包含特征峰的光谱数据, 因此具有较多的特征。 此时应用线性核函数就已经可以得到很好的分类效果, 而这种情况下非线性核函数不仅会提升SVM计算复杂度, 而且存在降低泛化能力的风险[16]。 在确定最优核函数后, 训练集样本数从50个增加到55个, 准确率也增加到97.8%, 训练集样本数越多, 误判的样本就越少。 随着训练集样本数继续增加, 误判的样本数仍然只有一个, 且误判样品在验证集中的标号均为7, 可能是该样品在测量过程中操作不当导致很大误差, 剔除该数据准确率可到100%。

表1 基于不同去噪方法的SVM分类结果 Table 1 The result of SVM based on different smoothing methods
表2 苹果果肉在不同核函数和不同的训练集下的SVM分类结果 Table 2 Results of SVM for apple flesh by selecting different kernel function and training samples
3 结 论

应用共聚焦拉曼光谱技术结合化学计量学方法对对苹果早期轻微损伤进行快速识别。 针对拉曼光谱采集过程中伴随着随机噪声, 采用Savizky-Golay平滑法和小波变换算法去除噪声, 结果表明一阶3次15点Savizky-Golay平滑法去噪分类准确率较高且简单快捷; 采用airPLS法去除荧光背景, 实现基线校正。 采用KS法划分训练集和验证集, 基于线性和多项式核函数建立SVM分类模型, 分类准确率可达到97.8%。 本研究分析了完好和有轻微损伤苹果的拉曼光谱特性, 建立了苹果早期轻微损伤的判别模型, 为检测苹果早期轻微机械损伤提供了一种有效手段。 本工作所研究的是单一品种的苹果早期轻微机械损伤情况, 下一步将扩展到不同品种的苹果和其他果蔬, 同时可进一步探讨拉曼光谱技术判别损伤程度的可能性。 目前, 便携式拉曼光谱仪也已广泛使用, 为实现苹果早期轻微机械损伤原位及实时检测提供了有效的方法。

The authors have declared that no competing interests exist.

参考文献
[1] Luo X, Takahashi T, Zhang S. Journal of Computational & Theoretical Nanoscience, 2013, 19(9): 2654. [本文引用:1]
[2] Zhou S Q, Shang D S, Ying Y B, et al. Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2010, 41(8): 107. [本文引用:1]
[3] Shahill M A, Tollner E W, McClendon R W, et al. Trallsactions of the American Society of Agricultural Engineers, 2002, 45(5): 1619. [本文引用:1]
[4] Doosti Irani O, Golzarian M R, Aghkhani M H, et al. Postharvest Biology & Technology, 2016, 116: 75. [本文引用:1]
[5] CHEN Xin-xin, GUO Chen-tong, ZHANG Chu, et al(陈欣欣, 郭辰彤, 张初, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2017, 37(1): 150. [本文引用:1]
[6] Ferrari C, Foca G, Calvini R, et al. Intell. Lab. Syst. , 2015, 146, 108. [本文引用:1]
[7] Craig A P, Franca A S, Irudayaraj J. Annual Review of Food Science & Technology, 2013, 4(1): 369. [本文引用:1]
[8] Trebolazabala J, Maguregui M, Morillas H, et al. Spectrochimica Acta Part A Molecular & Biomolecular Spectroscopy, 2017, 180: 138. [本文引用:2]
[9] YANG Yu, ZHAI Chen, PENG Yan-kun, et al(杨宇, 翟晨, 彭彦昆, ). Journal of Food Safety & Quality(食品安全质量检测学报), 2016, 7(10): 4016. [本文引用:2]
[10] Zhang Z M, Chen S, Liang Y Z. Analyst, 2010, 135(5): 1138 . [本文引用:1]
[11] Potapov P, Longo P, Okunishi E. Micron, 2017, 96: 29. [本文引用:1]
[12] SU Dong, ZHANG Hai-hui, CHEN Ke-tao, et al(苏东, 张海辉, 陈克涛, ). Food Science(食品科学), 2016, 37(8): 207. [本文引用:1]
[13] Vapnik V. Statistical Learning Theory. John Wiley & Sons, New York. 1998. [本文引用:1]
[14] Li S X, Zeng Q Y, Li L F, et al . Journal of Biomedical Optics, 2013, 18(2): 27008. [本文引用:1]
[15] Chang C C, Lin C J. ACM Trans. Intell. Syst. Technol. , 2011, 2: 389. [本文引用:1]
[16] Hsu C W, Chang C C, Lin C J. A Practical Guide to Support Vector Classification. Taipei City: Department of Information Engineering, Taiwan University, 2003, 1. [本文引用:1]