基于太赫兹成像技术的小麦麦芽糖定量检测研究
蒋玉英1,2, 葛宏义1,2, 张元1,*
1. 河南工业大学粮食信息处理与控制教育部重点实验室, 河南 郑州 450001
2. 河南工业大学信息科学与工程学院, 河南 郑州 450001
*通讯联系人 e-mail: zhangyuan@haut.edu.cn

作者简介: 蒋玉英, 1984年生, 河南工业大学信息科学与工程学院讲师 e-mail: jiangyuying11@163.com

摘要

粮食芽变初始于内部胚芽部分, 萌芽早期活动发现困难, 成为制约粮食储备安全的一个瓶颈。 粮食芽变过程主要是将淀粉转化为用于生长的麦芽糖。 采用太赫兹(Terahertz, THz)成像技术, 研究不同浓度的小麦麦芽糖混合物的图像特征, 在图像中样品区域各个像素点提取出一条THz光谱, 并求平均, 得到一条平均光谱。 通过主成分分析方法(principal component analysis, PCA)前5个主成分的累计方差贡献率达到98%以上, 用前5个主成分的得分值矩阵代替原始光谱数据, 建立基于径向基核函数的支持向量机(support vector machine, SVM)定量分析模型。 对比结果表明, 太赫兹成像技术结合化学计量学方法对小麦麦芽糖含量具有较好的判别效果, 其中SVM模型获得最好的预测结果, 为通过小麦种麦芽糖含量实现对小麦芽变程度的检测, 保障粮食品质, 提升国家储藏科技水平奠定了理论和技术基础。

关键词: THz成像; 定量分析; 小麦芽变; 麦芽糖; SVM
中图分类号:O434.3 文献标志码:A
Quantitative Determination of Maltose Concentration in Wheat by Using Terahertz Imaging
JIANG Yu-ying1,2, GE Hong-yi1,2, ZHANG Yuan1,*
1. Key Laboratory of Grain Information Processing & Control, Ministry of Education, Henan University of Technology, Zhengzhou 450001, China;
2. College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China
*Corresponding author
Abstract

Grain germination begins in the interior embryo, the early germination is difficult to be detected, which is a bottleneck restricting the safety of grain storage. The biological process of wheat grain germination mainly translates the starch into maltose for growth. In this paper, Terahertz(THz)imaging technology is used to investigate the image characteristics of maltose with different concentration. A THz spectrum is extracted from each pixel of the sample area in the image, and an average spectrum is obtained by averaging. The cumulative variance contribution rate of the first 5 principal components is over 98% according to the Principal Component Analysis(PCA) method, then the support vector machine (SVM) quantitative analysis regression model based on radial basis function is constructed by using the first 5 principal components score matrix. The comparison showed that THz imaging technology combined with chemometrics method is efficient and feasible for identifying maltose of different concentration and also indicated that the SVM obtains the best prediction results, which provides the theoretical basis for the detection of the state of germinated grain, guarantees the quality of stored grain and enhances the level of national storage technology.

Keyword: THz imaging; Quantitative analysis; Germinated wheat grain; Maltose; SVM
引 言

太赫兹辐射通常是指频率在0.1~10 THz (1 THz=1012 Hz), 波长范围在30 μ m~3 mm, 波数在3.3~330 cm-1之间的电磁波, 介于微波和红外之间, 处于宏观电子学和微观光子学的过渡区。 分子之间的弱相互作用(氢键)、 偶极子的旋转和震动跃迁、 大分子的骨架振动及晶体中晶格的低频振动吸收频率则均处于太赫兹波段, 其光谱中包含有丰富的物理和化学信息, 正逐渐成为拉曼光谱学、 傅里叶红外光谱学和X射线技术的有效补充[1, 2], 已经在生物医学、 物质识别、 农产品质量安全与控制等领域[3, 4, 5]得到了广泛的应用。

小麦是我国主要的粮食作物, 同时也是很多食品的原材料, 它含有丰富的淀粉、 蛋白质和脂肪等营养物质[6]。 如果储藏不当, 极易发生芽变、 霉变、 虫蚀等生化反应, 使小麦的品质发生变化, 甚至无法食用, 对人畜的健康造成一定的影响, 并将造成我国巨大的粮食产后损失。 小麦芽变过程是小麦开始发芽到长成植物的过程, 在这个过程中, 经历了很多复杂的生物化学变化阶段, 其中最主要的过程就是将小麦内部淀粉转化为用于生长的糖类(麦芽糖和葡萄糖)。

传统的检测粮食芽变的方法主要有目测法和人工法、 染色法和免疫色谱法等[7, 8], 这些方法存在较大的主观性, 费时, 费力并且不能实现对芽变的早期检测。 近年来, 逐渐出现了众多发芽小麦的可视化无损检测系统。 Takeuchi等[9]采用机器视觉方法检测了大麦颗粒发芽过程中内部形态的变化。 Neethirajan等[10]采用X射线技术检测了正常小麦和发芽小麦, 结果显示在X射线图像中发现发芽小麦内部存在白色条状部分。 Krishnan等[11]采用核磁共振光谱检测了正常小麦和发芽小麦种子内部水分含量的变化。 Xing等[12]采用可见/近红外高光谱成像技术对加拿大西部红春小麦的芽变损失进行了检测。 这些技术虽然已经广泛地应用到粮食的芽变检测中, 但是它们同时也具有各自的局限性, 不能满足粮食芽变早期检测的实际应用需求。

由于THz技术在粮食品质检测中的独特优势, 本文采用THz时域光谱成像技术对不同浓度的麦芽糖混合物进行检测和识别; 并采用主成分分析方法对THz图像进行原始数据压缩和特征提取; 最后使用提取的图像特征数据建立支持向量机小麦麦芽糖定量分析模型, 以实现对小麦芽变程度的检测, 是小麦品质等级鉴定, 食品工业质量安全的重要部分, 同时也是保障国家储粮安全和降低粮食产后损失的重要基础。

1 实验部分
1.1 仪器

本实验采用美国Zomega公司生产的Z3太赫兹时域光谱系统, 其有效光谱范围为0.1~3.5 THz, 峰值动态范围大于1 000(70 dB), 系统信噪比大于3 000。 系统基本光路结构如图1(a)所示, 图1(b)为样品的THz频率光谱, 图1(c)为样品的THz图像。

图1 太赫兹时域光谱技术
(a): 系统结构示意图; (b): 太赫兹频域光谱; (c): 太赫兹图像
Fig.1 Terahertz time-domain spectroscopy
(a): THz experimental setup; (b): THz frequency spectrum; (c): THz image

飞秒激光通过分束镜后被分为两束, 一束为较强的泵浦光, 另一束较弱的为探测光。 泵浦光入射到发射晶体上产生THz脉冲; 通过多次反射后的探测光经过偏振片后由硅片将其和太赫兹脉冲共线反射到电光探测晶体上, 使得探测脉冲的偏振态发生改变, 进而能够间接地探测出THz脉冲电场的变化信息及大小。 该探测脉冲经过1/4波片后通过偏振分束镜被分为相互垂直的两束光, 最后经由锁相放大器后被连接到计算机端进行数据采集及处理[13, 14]。 为了更加满足实际应用需求, 全部实验过程是在常温常湿环境下进行的。

1.2 样品制备

实验所需的麦芽糖、 小麦淀粉和聚乙烯等材料均是从西格玛公司购买的分析纯标准品。 将麦芽糖分别与小麦粉和聚乙烯按照重量配置成含量为0%(即纯聚乙烯或纯小麦粉), 1%, 3%, 5%, 7%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%和50%等14个浓度麦芽糖聚乙烯混合物和麦芽糖小麦粉混合物, 其成分关系如表1所示, 并放置于振荡器上振荡1 min, 保证混合物的均匀混合。 并用6 MPa的压力将各个浓度混合物压制成厚度约为1.0 mm、 直径为13 mm的薄片, 保证两面光滑无裂痕, 并标志其浓度和厚度。 每个浓度样品压30个片, 因此每种麦芽糖混合物总共可以得到420个样品。 为避免样品在称重、 压片过程中由于样品遗失而影响样品混合物浓度值, 一定要仔细转移, 尽量将全部样品都能转移到压片模具中。

表1 麦芽糖与聚乙烯/小麦粉混合物样品的成分 Table 1 The proportinal component of the maltose and polyethylare/flour imixtures
1.3 图像获取

将不同浓度的小麦麦芽糖混合物样品放置在THz时域光谱系统的移动平台上, 并对其进行反射成像, 系统最大扫描面积是50 mm× 50 mm, 空间分辨率设置为0.1 mm。 由计算机端的太赫兹分析和控制软件控制整个图像获取过程。 获得的图像以三维格式创建、 记录和存储, 不仅包含了空间信息, 同时也包含了光谱信息。 因此, 图像中每个像素点都能提取出一条完整的THz光谱, 每条THz光谱包括512个时域点, 频率范围从0~3.5 THz。

1.4 模式识别方法

支持向量机(support vector machine, SVM)是由Vapnik于1992年首先提出的, 是一种基于统计的机器学习方法[15]。 在SVM模型中, 根据支持向量机理论, 当引入松弛因子ξ i≥ 0和 ξi* ≥ 0, 则问题变化为在约束条件下

yi-wxi-bε+ξiwxi+b-yiε+ξi*  i=1, 2, , n(1)

最小化目标函数为

Φ(w, ξi, ξi* )=12ww+ci=1n(ξi+ξi* )(2)

对于拉格朗日因子aiai* , 最大化目标函数为

W(a, a* )=-εi=1n(ai* +ai)+i=1nyi(ai* -ai)-12i, j=1n(ai* -ai)(aj* -aj)(xixj)(3)

而当特征空间的维数较大时, 直接计算内积的复杂性太大, 可利用核函数K(xi, x)来代替式(4)— 式(8)中的内积运算, 进而实现非线性函数拟合, 即

f(x)=(wx)+b=i=1n(ai* -ai)K(xi, x)+b(4)

SVM使用最多的核函数主要有:

(1) 线性(Linear)核函数: K(xi, xj)=(xixj);

(2) 多项式(Poly)核函数: K(xi, xj)=[γ (xixj)+coef]d, d=1, 2, …, 该核函数获得的是d阶多项式分类器, 其中γ > 0;

(3) 高斯径向基函数(RBF): K(xi, xj)=exp{-γ |xi-xj|2}, γ > 0;

(4) Sigmoid核函数: K(xi, xj)=tanh(γ (xixj)+coef)。

核函数选定之后, 需要通过大量实验来调节核函数参数C, γ , 分别表示支持向量之间的相关程度和正规化惩罚参数, 并获得最优值。 若参数选取不当, 有可能影响预测精度。 因此, 本文选取RBF核函数, 并采用五折交叉验证方法来确定模型的最优参数[16]

通常采用相关系数(r)和均方根误差(RMSE)来评价回归模型的表现能力, 假设有n个样本, 定量分析的标准测量值为y1, y2, …, ym, 而光谱定量分析结果为z1, z2, …, zm, 则相关系数, 校正集均方根误差(RMSEC)和预测集均方根误差(RMSEP)分别可以表示为

r=i=1n(yi-y̅)(zi-z̅)i=1n(yi-y̅)2i=1n(zi-z̅)2(5)RMSEC=i=1n(yi-zi)2n-f(6)RMSEP=i=1m(yi-zi)2m(7)

其中, yiy̅分别表示标准测量值和标准测量值的平均值; ziz̅分别表示模型预测值和模型预测值的平均值; n为校正集样品数; f为主成分数; m表示预测集样品数。

2 结果与讨论

将不同浓度的麦芽糖混合物薄片放置在THz-TDS系统中的移动平台上, 并进行反射成像测量。 获得不同浓度麦芽糖和聚乙烯混合物的部分THz图像(于1.0 THz处)如图2(a)所示, 不同浓度麦芽糖和小麦粉混合物的部分THz图像(于1.0 THz处)如图2(b)所示, 图中0%表示纯聚乙烯或小麦粉末。 由图可得, 随着麦芽糖含量的增加, THz图像之间的发生了明显的变化, 说明采用THz成像技术实现对麦芽糖成分的定量检测是现实可行的。

图2 不同浓度麦芽糖混合物THz图像
(a): 麦芽糖和聚乙烯混合物; (b): 麦芽糖和小麦粉混合物
Fig.2 THz images of maltose mixtures
(a): The maltose and polyethylene mixtures; (b): The maltose and four mixtures

从不同浓度的麦芽糖混合物THz图像中各个像素点提取出THz光谱, 并在各频率点求平均, 获得一条平均光谱信号, 每条光谱包含512个点。 图3给出了不同浓度麦芽糖混合物的平均频域光谱, 其中, 图3(a)为麦芽糖和聚乙烯混合物的THz功率光谱, 有效频率范围为0.1~2.0 THz, 图3(b)溪麦芽糖和小麦粉混合物的THz功率光谱, 有效频率范围为0.1~1.6 THz。

图3 不同浓度麦芽糖混合物THz功率光谱
(a): 麦芽糖和聚乙烯混合物; (b): 麦芽糖和小麦粉混合物
Fig.3 THz spectra of the maltose mixtures
(a): The maltose and polyethylene mixtures; (b): The maltose and four mixtures

由图3可得, 不同浓度麦芽糖混合物的THz频率光谱之间存在较大的差别, 并且麦芽糖和聚乙烯混合物的反射强度随着麦芽糖浓度的增加而减小, 而麦芽糖和小麦粉混合物的反射强度随着麦芽糖浓度的增加而增加, 这主要是由于小麦粉对THz波的吸收作用要远远大于聚乙烯对THz波的吸收作用。 因此我们可以采用提取的混合物平均频域光谱, 经过特征提取后建模来实现对麦芽糖含量的定量检测。

鉴于此, 本文采用PCA方法对获得的THz频域光谱进行特征提取, 计算得到前5个主成分的累计方差贡献率达到98%以上, 因此在以后的数据分析计算中, 可选取前5个主成分作为模型的输入, 不仅有效的进行了数据压缩, 并且保留了绝大部分重要的数据信息。 接着对提取后的图像特征数据采用SVM方法建模来实现对这两种混合物中的麦芽糖含量进行预测, 并采用RBF函数为SVM的核函数, 通过网格搜索算法计算得到RMSE最小时, 模型的最优参数C, γ 分别为3.6, 1.9和3.8, 2, 同时计算样品校正集和预测集的相关系数(r)和均方根误差(RMSE)作为模型的预测性能指标。 图4为这两种麦芽糖混合物的支持向量机模型的预测浓度和实际浓度对应散点图, 图中直线表示零误差线。

图4 麦芽糖混合物的SVM模型预测结果和实际结果对应关系散点图Fig.4 Scatter polts of the actual value versus the predicted value using the PCA-SVM model

由图4可以看出, 采用特征提取后的THz图像数据建模能够获得较高的预测精度, 其中SVM模型麦芽糖和聚乙烯混合物的预测精度略优于麦芽糖和小麦粉混合物的预测精度, 麦芽糖聚乙烯混合物的预测结果散点更趋近于零误差。 此外, 为了更直观的显示SVM模型对这两种麦芽糖混合物的结果, 表2给出了麦芽糖和聚乙烯混合物及麦芽糖和小麦粉混合物的SVM建模分析结果。

表2 麦芽糖混合物的SVM模型预测结果比较 Table 2 Comparison of different SVM models for maltose mixtures

表2中可以看出, 这两种建模方法对聚乙烯混合物的预测精度要高于小麦粉混合物的预测精度, 这主要是由于小麦粉末对THz的吸收和散射作用均高于聚乙烯粉末, 而样品的散射作用将对其混合物的吸收系数和浓度之间的线性关系造成一定程度的影响, 进一步影响混合物的反射强度, 表中显示的模型预测结果与图4中的结果相一致。

为了验证本文算法的有效性, 本文还采用偏最小二乘、 BP神经网络方法对不同含量的麦芽糖混合物进行定量分析, 得到麦芽糖混合物的定量识别结果如表3所示。 由表可得, SVM模型的识别精度比PLSR和BPNN的识别精度要高, 预测精度达到了94%以上, 而 PLSR和BPNN模型的总体识别率相对较低, 分别为93%和83%以上。 其中BPNN模型的识别率最低, 主要原因是没有合适的参数优化方法, 需要在以后的研究工作中进一步提高预测精度。 比较结果证明, THz反射成像技术和化学计量学方法相结合实现对麦芽糖混合物中组成分含量的定量检测是现实可行的, 是一种新的快速检测方法, 并且SVM分类模型的预测精度最高。 但是这种建模方法对这两种混合物的预测结果都还存在一定的误差, 需要在接下来的研究工作中, 寻找更加适合的建模方法, 以提高模型的预测精度。

表3 麦芽糖混合物的模型定量分析结果比较 Table 3 Comparison of different models for maltose mixtures
3 结 论

利用太赫兹成像技术分别获得了小麦麦芽糖聚乙烯混合物和麦芽糖小麦粉混合物的太赫兹图像, 从图像中混合物样品区域各个像素点提取出一条THz光谱, 并在各频率点求平均, 获得一条平均光谱信号, 再采用PCA方法对THz光谱进行特征分析, 接着对提取的图像特征进行SVM, PLSR及BPNN建模对混合物中麦芽糖的含量进行预测分析, 结果证明采用THz成像技术和化学计量学方法相结合可以快速、 准确地对麦芽糖进行定量分析, 为实现小麦芽变程度检测, 保障粮食质量安全提供了一种新的技术途径。

The authors have declared that no competing interests exist.

参考文献
[1] Siegel P H. IEEE Transactions on Microwave Theory and Techniques, 2002, 50(3): 910. [本文引用:1]
[2] Nagel M, Bolivar H P, Brucherseifer M, et al. Appl. Phys. Lett. , 2002, 80: 154. [本文引用:1]
[3] Ge H Y, Jiang Y Y, Lian F Y, et al. Food Chemistry, 2016, 209(15): 286. [本文引用:1]
[4] Li Z, Guan A H, Ge H Y, et al. Microchemical Journal, 2017, 132(3): 185. [本文引用:1]
[5] Wahaia F, Kasalynas I, Seliuta D, et al. Journal of Molecular Structure, 2015, 1079: 391. [本文引用:1]
[6] Oladunmoye O O, Akinoso R, Olapade A A. J. Food Qual. , 2010, 33: 693708. [本文引用:1]
[7] Bason M L, Ronalds J A, Wrigley C W, et al. J. Cereal Chem. , 1993, 70: 269. [本文引用:1]
[8] Skerritt J H, Heywood R H. Crop Sci. , 2000, 40: 742756. [本文引用:1]
[9] Takeuchi R, Kojima H, Toyoda K, et al. Sci. Rep. Fac. Agric. Kobe Univ. , 1992, 20(1): 115. [本文引用:1]
[10] Neethirajan S, Jayas D S, White N D G. J. Food Eng. , 2007, 81: 509513. [本文引用:1]
[11] Krishnan P, Joshi D K, Shantha N, et al. Eur. Biophys. J, 2003, 33: 7682. [本文引用:1]
[12] Xing J A, Symons S, Shahin M, et al. Biosyst. Eng. , 2010, 106: 188194. [本文引用:1]
[13] Exter M V, Fattinger C, Grischkowsky D. Opt. Lett. , 1989, 14: 1128. [本文引用:1]
[14] Fattinger Ch, Grischkowsky D. Applied Physics Letters, 1989, 54(6): 490. [本文引用:1]
[15] Vapnik V. New York: Springer-Verlag, 1995. [本文引用:1]
[16] Zhang Y, Peng X H, Chen Y, et al. Chemical Physics Letters, 2008, 452(1-3): 59. [本文引用:1]