棉花内层杂质的高光谱透射成像分类检测
魏子凯, 王杰, 张若宇, 张梦芸*
石河子大学机械电气工程学院/农业农村部西北农业装备重点实验室, 新疆 石河子 832003
*通讯作者 e-mail: mengyun0829@163.com

作者简介: 魏子凯, 1987年生, 石河子大学机械电气工程学院教师 e-mail: wzkjyl@163.com

摘要

棉花杂质在轧棉过程中对棉纤维造成损伤, 导致成品纺织品出现瑕疵。 因此, 杂质的检测和分类在棉花生产过程及质量检验中至关重要。 地膜是我国机采棉中特有的杂质。 该研究将包括地膜碎片等12种常见棉花杂质放置于两层皮棉层之间, 采用推扫式高光谱成像系统在透射模式下对杂质与皮棉混合样本进行图像采集, 在400~1 000 nm范围内利用光谱信息识别嵌在皮棉层中的12种杂质。 首先对高光谱图像进行平场校正, 对边缘噪声进行裁剪; 选择500 nm处灰度图像进行人工感兴趣区域(ROIs)提取, 从ROIs提取皮棉和杂质平均透射光谱并进行标准化; 使用典型判别分析(CDA)对皮棉和杂质光谱进行处理并利用前三个典型变量绘制散点图, 观察散点分组情况, 采用多变量方差分析(MANOVA)对前三个典型变量评估每两种杂质之间的差异。 然后使用区间随机蛙跳(iRF)方法提取特征波段, 采用支持向量机(SVM)分类器, 分别对全波段及特征波段的透射光谱进行杂质和皮棉13个类别的分类研究, 对比分析两次分类的准确率。 结果表明, 全波段的各类杂质和皮棉的平均分类准确率为84.4%, 该方法对棉花内层杂质的检测与分类是可行的, 包括与皮棉外观相近的地膜、 塑料包装和纸的分类效果较好。 在提取12个特征波段后, 4种具有相似外观和相似化学成分的杂质(裂茎、 茎皮、 棉铃壳、 棕叶)分类准确率较低但都超过73%; 棉籽、 绿叶、 纸片、 塑料包装、 地膜、 皮棉的分类准确率均超过90%; 各类杂质和皮棉的平均分类准确率为86.2%; 与全波段光谱的分类结果相比, 特征波段光谱的平均分类准确率提高1.8%。 该研究结果可为棉花内层杂质检测研究提供理论依据, 并对高光谱透射成像技术的应用有较好的指导作用。

关键词: 棉花杂质分类; 高光谱成像; 透射; 随机蛙跳; 特征波长提取
中图分类号:S24 文献标志码:A
Classification of Foreign Matter in Cotton Using Line Scan Hyperspectral Transmittance Imaging
WEI Zi-kai, WANG Jie, ZHANG Ruo-yu, ZHANG Meng-yun*
College of Mechanical and Electrical Engineering, Shihezi University/Key Laboratory of Northwest Agricultural Equipment, Ministry of Agriculture, Shihezi 832003, China
*Corresponding author
Abstract

Cotton foreign matter (FM) harms fiber quality as it may damage cotton fiber during ginning processing or cause flaws in finished textiles. Therefore, detecting and classifying foreign matter are important in the cotton production process and quality assessment. The mulching film is a unique impurity in machine-harvested seed cotton in China. Since the mulching film is commonly used to grow cotton in Xinjiang, the remaining fragments are mixed into cotton during mechanical harvesting. This study placed 12 types of common cotton foreign matter, including mulching film fragments, between two lint layers. A push-broom-based hyperspectral imaging system was used to acquire images of the mixed foreign matter and lint samples in transmittance mode at the spectral range of 400~1 000 nm. The hyperspectral transmittance images were first corrected using flat-field correction and cropped due to noise at the edges. The images at 500 nm were chosen for manual region-of-interest (ROI) selection. Mean transmittance spectra were extracted from the ROIs and normalized across all samples. Canonical discriminant analysis (CDA) and the first three canonical variables were used to group foreign matter and lint, and multivariate analysis of variance (MANOVA) was employed to evaluate the differences between each combination of two types of foreign matter using the first three canonical variables. Then, the interval Random Frog (iRF) method was used to extract 12 feature wavelengths. A support vector machine (SVM) classifier was used to classify the transmittance spectra of full and selected wavelengths respectively, and the accuracies were compared and analyzed. The results show that the average classification accuracy of all types of foreign matter and lint at the full wavelength was 84.4%. The method in this paper was feasible for classifying foreign matter in the inner layer of cotton, including plastic packaging, paper, and mulching film. After extracting the feature wavelengths, the classification accuracy of 4 types of foreign matter with similar appearance and similar chemical composition (broken stem, hull, bark, brown leaf) was lower, but all exceeded 73%. The classification accuracy of seed meat, green leaf, paper, plastic package, mulching film, and lint was over 90%. The average classification accuracy of all foreign matter and lint types was 86.2%. Compared with the classification results of the full-wavelength, the average classification accuracy of the selected wavelength was improved by 1.8%.The results of this study can provide a theoretical basis for the research on the detection of foreign matter in the inner layer of cotton and have a guiding role for the application of hyperspectral transmittance imaging technology.

Keyword: Foreign matter classification; Hyperspectral imaging; Transmittance images; Interval Random Frog; Feature selection
引言

随着棉花生产全程机械化的发展, 棉花的杂质污染成为一个突出的问题[1]。 棉花中的杂质, 会影响轧棉性能、 棉花以及纺纱产品的品质等级[2]。 在棉花工业中, 棉花杂质的准确检测及分类, 可为杂质清理机械的参数调整及工序提供参考依据, 实现最大程度去除棉花杂质及最小程度损伤棉花纤维[3, 4]。 新疆地区采用地膜种植棉花, 机械采收过程中, 地膜碎片易混入到机采籽棉中。 由于地膜多为白色或半透明薄膜状, 利用传统可见光视觉检测精确度为50%[5], 使用线激光线描可以提高精度(70%~80%)[6], 但漏检现象严重。 Zhang等[7]使用高光谱检测, 地膜平均识别率达97%, 但该研究针对的是棉花表面的地膜, 对于棉花内部检测的准确性有待进一步验证。

近年来, 有关棉花杂质的检测国内外已经进行了大量的研究。 传统仪器如高容量棉花纤维测试仪(high volume instrument, HVI), 先进的纤维信息系统(advanced fiber information system, AFIS)和雪莉分析仪(shirley analyzer, SA)已被纺织行业用来评估棉花杂质的整体水平, 但缺少对不同类型杂质进行分类识别的能力[8]。 将不同类型的杂质进行准确分类, 可为棉花杂质的清理及棉花品质分级提供重要依据。

光谱技术可利用物质的反射、 吸收、 荧光等特性来识别棉花杂质, 实现棉花杂质的分类。 Fortier等[9]使用傅里叶变换近红外光谱仪(Fourier transform near infrared spectroscopy, FT-NIR)识别皮棉、 壳、 叶、 种皮和茎。 Zhou等[10]利用1 470~1 887 nm的近红外光谱仪对聚酯、 聚酰胺、 丙烯酸、 丝绸和羊毛的识别预测准确率为100%, 对棉纤维和涤纶织物的预测准确率均在90%以上; 使用833~2 500 nm的近红外光谱波段与偏最小二乘回归(partial least squares regression, PLSR)模型, 可以定量检测籽棉中杂质[11]。 Mustafic等[12, 13]利用荧光成像系统对杂质进行检测和分类, 对于纸、 塑料包装等荧光性强的杂质识别准确率达到90%以上。 以上表明光谱技术在棉花工业中应用的潜力。

高光谱成像是一种相对较新的非破坏性成像技术, 它结合了光谱学和成像的优势, 不仅可以提供一定波长图像的空间信息, 还可以提供任意像素的光谱信息, 使分类效果更精确。 基于线扫描的高光谱成像系统, 可以有效地检测和分类皮棉表面的棉花异物[14]。 短波近红外高光谱成像系统对16种异物和皮棉的分类准确率达到95%以上, 在高光谱图像的像素级的杂质分类也取得了85%的分类精度[7]。 高光谱成像与深度学习的算法相结合, 可以识别地膜等较难识别的杂质, 整体识别率在95%以上[15, 16]。 高光谱技术与荧光技术相结合获取更多信息, 对纸、 塑料等荧光性强的杂质具有很大的分类潜力, 可用作为棉花质量评估的辅助工具[17]。 现有研究中, 高光谱成像大多用反射模式检测棉花表面杂质, 但在实际生产中, 皮棉中往往掺杂或隐藏着异物。

针对隐藏在皮棉下的杂质, 研究者提出采用透射模式对其进行高光谱成像检测。 Zhang等[4]探索了利用短波红外高光谱透射成像技术对皮棉内的异物进行检测的可行性, 结果表明光谱和像素的分类精度达到95%以上, 但该研究没有提及在可见波段上的杂质识别分类。 刘巍等[18]对高光谱的反射、 透射和反透射成像模式杂质区域识别进行对比, 结果显示透射成像模式杂质区域的识别率最高, 但该论文缺少对棉花杂质分类的相关研究。

高光谱成像技术已显示出对棉花杂质的识别能力, 但由于大量的冗余信息, 限制了分类精度和处理速度, 特征波段的选取方法成为该领域的研究热点之一。 Yun等[19]开发出基于随机蛙跳(random frog, RF)的波长区间特征提取方法并与其他波长选择方法对比, 结果表明, 从1 557个光谱波段中选出的10个光谱区间具有通用性, 并且选择的效率更高。 Jiang等[20]利用最小冗余最大相关算法进行特征提取, 结果表明从223个波长中选出的12个波长仍具有通用性。 郭俊先等[21]对可见短波近红外高光谱图像的梳棉杂质关键波长进行了选择, 结果表明选出的最优波长集合, 能够用于大部分普通杂质和异性纤维杂质的检测。 与其他特征选取相比, 区间随机蛙跳算法(interval random frog, iRF)不仅具有随机搜索及适者生存的特性, 而且能够考虑到光谱的连续性以及所有可能的连续的光谱区间。

基于线扫描的高光谱成像系统, 在400~1 000 nm光谱范围内, 利用透射模式对隐藏在皮棉中的常见杂质进行检测和分类的可行性。 研究的具体目标是: (1)从杂质和皮棉的混合样本中提取光谱; (2)利用光谱信息对皮棉和皮棉中的杂质进行分类; (3)使用随机蛙跳方法提取特征波长, 并用特征波长对皮棉和杂质进行分类。

1 实验部分
1.1 皮棉与杂质样本制备

从佐治亚大学Tifton校区收集了5个品种的皮棉样本及其12个类型的杂质(如图1), 5个棉花品种分别是PhytoGen (PHY) 499、 PHY 339、 Delta Pine (DP) 1522、 DP 1538和FiberMax 1994。 根据化学成分将杂质区分为植物性杂质和非植物性杂质。 植物性杂质包括裂茎、 茎、 茎皮、 棉铃壳、 棉籽衣、 棉籽、 绿叶和棕叶, 均为人工从籽棉和轧花棉杂质中收集得到。 棉花茎秆是一种脆而硬的材料, 在收获或轧花过程中会破裂, 茎和破裂的茎颜色不同, 并且在实际检验当中, 茎与裂茎、 茎皮的密度不同, 导致杂质含量计算的不同, 茎秆根据不同的破裂程度被分为三类(茎、 裂茎、 茎皮)。 同理, 根据棉籽的不同破裂部分被分为棉籽衣和棉籽两类。 四种类型的非植物性杂质包括麻线(Lehigh Group 530 Jute Twine, 型号016033)、 纸(Boise X-9 Copy Paper, 型号OX9001)、 黄色塑料包装和地膜碎片, 在机械收获和包装过程中与皮棉混合在一起。 麻线和纸是从当地商店购买得到, 塑料包装是从美国佐治亚州Tifton校区的小型轧花机收集获得, 地膜碎片是从中国新疆棉花田间获得。 由于杂质隐藏在皮棉层内很难用肉眼观察到, 杂质的制备比现实杂质尺寸大。 将裂茎、 茎、 茎皮和麻绳剪成约10 mm长; 将棉铃壳、 绿叶、 棕叶、 纸、 塑料包装和地膜剪切为长约10 mm的正方形; 棉籽衣和棉籽保持其原始大小和形状。

图1 杂质样本和两个皮棉层
1: 裂茎; 2: 茎; 3: 棉铃壳; 4: 棉籽衣; 5: 棉籽; 6: 茎皮; 7: 绿叶; 8: 棕叶; 9: 纸; 10: 塑料包装; 11: 地膜; 12: 麻线; 13: 皮棉层
Fig.1 Foreign matter samples and two lint webs
1: Broken stem; 2: Stem; 3: Hull; 4: Seed coat; 5: Seed meat; 6: Bark; 7: Green leaf; 8: Brown leaf; 9: Paper; 10: Plastic package; 11: Mulching film; 12: Twine; 13: Lint web

为了提取覆盖有皮棉的杂质混合光谱, 人工制作每种杂质30个重复样本和60个皮棉层(形状尺寸: 10~12× 12~4 cm, 厚度: 6~10 mm, 重量: 0.5~0.8 g)样本。 为了避免其他未知杂质和皮棉不均匀的影响, 皮棉层经过手工清理并梳理。 将12种杂质夹在两个皮棉层之间来制备皮棉与杂质的混合样本。

1.2 基于线扫描的高光谱透射成像系统

利用佐治亚大学生物传感与仪器实验室搭建的的线扫描(line-scan, LS)高光谱成像系统, 获取杂质和皮棉图像[14, 20], 光谱范围为400~1 035 nm。 如图2所示, 样本台固定在线性滑轨上, 样本台相对于相机的移动可获取完整的高光谱图像。 在样本台下方安装了一个12 V、 50 W的磨砂玻璃卤素灯, 光源固定在台面上不随样本台移动。 为了获得透射图像, 使用2 mm硼硅酸盐光学玻璃板(floated borosilicate glass plate)承载样本并放在样本台上, 该玻璃板在可见和近红外光谱范围内的透射率超过90%。 该玻璃板不会影响样本的光谱特性, 可以用于承载和压制棉花样本[7]。 使用相同类型的玻璃板压制样本, 并在边缘上放置两个加压块以增加皮棉层的均匀性, 以获取更好的图像质量。 每块玻璃板的重量为200 g, 每块加压块的重量为200 g, 压制样本总重量为600 g。 从相机镜头到样本台上玻璃板表面的距离为280 mm。 为了避免环境光的干扰, 整个图像获取过程是在遮光环境中完成。 扫描样本之后, 利用空间(1 392× 1 440像素)和光谱(256个波段)数据构建三维(x, y, λ )高光谱图像立方体。

图2 基于线扫描式的高光谱透射成像系统和样本Fig.2 The line-scan based hyperspectral transmittance imaging system and samples

获取的透射高光谱图像使用平场校正算法[式(1)]进行黑白校正。 其中, 使用聚四氟乙烯(polytetrafluoroethylene: PTFE)特氟龙Teflon板(300 mm× 165 mm× 13.30 mm)替换夹在两块玻璃板之间的样本来获取白参考图像, 通过覆盖相机的镜头并关闭光源获取暗参考图像。 每采集五个样本组后, 获取一次白参考和暗参考图像。 通过式(1)计算相对透射强度值relative intensity (IR)

IR=IT-IDIB-ID(1)

式(1)中, IT为样本透射图像的像素强度; ID为暗参考图像的像素强度; IB为白色参考图像的像素强度。

1.3 光谱提取

为了消除图像及光谱边界的噪声, 将高光谱图像裁剪成900(宽)× 1 440(长度)像素、 217个波段(波长范围: 485~1 035 nm)。 基于灰度图像手动提取杂质和皮棉的感兴趣区域ROIs(region-of-interests, ROIs), 并且从ROIs获得平均光谱。 提取光谱后, 由于在透射模式下, 白参考的透射强度值有可能比样本小, 造成样本的相对透射值大于1, 所以将每条光谱的相对强度值除以该光谱的最大相对强度值来实现规一化, 以确定0%~100%范围内的相对透射率。 最终获得390个光谱样本(13个类别× 30个重复样本)。

该研究中, 使用ENVI 4.7软件(ITT Visual Information Solutions, Boulder, CO, USA)进行图像裁剪、 波段移除、 ROIs选择及ROIs的平均光谱提取; 使用MATLAB 2021b(The MathWorks Inc., Natick, MA, USA)执行光谱标准化计算。

1.4 光谱分类

首先通过典型判别分析(canonical discriminant analysis, CDA)获取透射光谱的前三个典型变量, 利用前三个典型变量制作散点图来表征所有类型杂质和皮棉之间的差异。 再利用多元方差分析(multivariate analysis of variance, MANOVA)对前三个典型变量进行计算, 研究任意两类别之间在统计学上的差异。 CDA与MANOVA用软件SAS(SAS 9.3, SAS Institute Inc., Cary, NC, USA)操作。

使用支持向量机(support vector machine, SVM)分类器, 分别对全波段及特征波段的透射光谱进行杂质与皮棉13个类别的分类研究, 并且对比分析两次分类的准确率。 光谱的SVM分类在MATLAB 2021b软件上进行, 选择可优化SVM, 优化器为贝叶斯优化, 迭代次数为30, 核函数选项包括高斯、 线性、 二次和三次, 核尺度搜索范围为0.001~1 000, 核比例由MATLAB 2021b自动优化。 使用5折交叉验证, 通过正确分类的样本百分比来评估分类性能。

1.5 基于随机蛙跳的特征波长提取

区间随机蛙跳算法(interval random frog, iRF)是一种特征波长选择算法, 可以涉及所有可能的光谱区间, 并且同时具有适者生存和随机搜索的特性[22]。 区间随机蛙跳算法的流程图3所示, 主要运算步骤分为4步:

图3 iRF算法流程图Fig.3 Flowchart of the iRF algorithm

(1)使用一个固定尺寸为w的移动窗口划分光谱区间, 得到与窗口大小相同的光谱区间, 移动窗口在全部217个光谱波段上移动, 每次移动一个设定的光谱区域, 以获得所有可能的光谱区间;

(2)从得到的所有光谱区间中随机抽取Q个区间构成初始变量子集V0, 使用正态分布函数生成随机数, 作为候选变量子集的个数Q* ; 使用制定好的策略选择光谱区间构成候选变量子集V* , 使用偏最小二乘模型(partial least squares, PLS)分别计算初始子集与候选变量子集内的所有光谱点的绝对回归系数之和, 选择绝对回归系数较大的子集, 而绝对回归系数较小的子集将被淘汰, 最后使用制定好的策略更新初始变量子集V0; 并重复上述过程直到完成N次迭代。

(3)计算N次迭代后N个光谱区间子集的选择概率并按降序排列, 通过区间的选择概率大小判断区间的重要程度。

(4)使用10折交叉验证的均方根误差(root mean squared error of cross-validation, RMSECV)最低值确定选择最优区间数。 展现出iRF随机搜索与适者生存的特性。

2 结果与讨论
2.1 灰度图像与平均光谱特征

从500.4 nm灰度图像(图4)可以看出, 相对于皮棉, 所有杂质都具有较低的灰度值, 包括与皮棉颜色相同的纸片及半透明的地膜。 地膜在581.3 nm处较清晰, 可观察到地膜较整齐的边界线, 但在其他波段处是模糊的甚至消失。 除塑料包装、 地膜外, 其他所有类型的杂质都可以在整个波长范围内观察到, 所以选取500.4 nm灰度图像手动提取ROIs。 在少数样本的灰度图像中, 地膜与皮棉间的边界线不够清晰, 所以在靠近地膜中心的位置提取ROIs, ROIs中提取平均光谱并对光谱进行标准化处理。

图4 三个单波段的灰度图像和ROIs选取Fig.4 Grayscale images at three single bands and ROIs selection

如图5(a)所示, 总体上杂质光谱与皮棉光谱有一定区别。 在透射模式下, 较低的透射光强度值, 表示透射光穿过物体时被吸收。 透射光被吸收的原因之一是杂质的密度较大或者厚度较厚, 光线较难穿过杂质。 例如棉籽、 棉籽衣、 茎干和麻线, 在可见光范围内光线不易穿过, 光谱值较低。

图5 (a) 12种类型杂质和皮棉的标准化平均光谱; (b) 7种外观相似杂质的标准化平均光谱Fig.5 Mean spectra after correction and normalization of (a) 12 types of FM and lint, (b) 7 types of FM in similar appearance

透射光谱曲线变化与物质本身物理性质相关。 由于塑料包装是黄色, 所以在550.0 nm左右有一个透射强度波峰, 表明塑料包装对于黄色光吸收较少; 塑料包装的光谱强度在485.0~550.0 nm范围内低于皮棉的光谱强度, 在该范围内可以清楚地观察到塑料包装; 在550.0 nm波段之后, 塑料包装的光谱与皮棉非常接近, 因此在550.0~1 035.0 nm范围内不易观察到塑料包装。 地膜薄而透明, 在全波段范围内和皮棉的光谱非常接近, 光谱变化也非常相似, 较难观察到地膜。

透射光谱曲线的波谷位置与物质的化学性质相关。 绿叶在660.0 nm附近的呈现叶绿素(chlorophyll)的吸收带[23]。 棉籽在约640.0 nm附近具有吸收带, 主要来自于酚类化合物棉酚(gossypol)[24, 25]。 茎、 裂茎含有木质素, 皮棉有纤维素, 棉籽含有蛋白质, 这些化学成分含有的分子键, 如C—H3, O—H和N—H在近红外光谱光谱范围内具有吸收带[26]。 部分杂质彼此之间有相似的光谱变化, 在图5(b)中, 棉铃壳和麻线的光谱彼此接近, 棕叶和棉籽衣的光谱彼此接近, 由于它们具有相似的化学成分(即纤维素)和相似的颜色, 茎皮、 裂茎和茎的光谱也非常接近, 因为茎皮本质上是茎的表层, 裂茎是破裂的茎, 它们具有相似的化学成分(即木质素、 纤维素)及外观。 如图6所示, 七种类型杂质的天然纤维(纤维素)具有相似的外观, 导致在可见光范围内光谱曲线形状相似。

图6 七种杂质的彩色图像Fig.6 Color image of these 7 types of FM without lint

2.2 典型判别分析CDA聚类和MANOVA检验

在图7(a)中, 塑料包装、 纸、 绿叶和棉籽各自的散点紧密聚集, 并且与其他类别清楚分离, 表明这四类杂质能被很好地分类。 结合光谱曲线特征, 上述四类杂质具有不同于其他类别的光谱曲线形状, 所以在CDA散点图上呈现较好的聚类特征。 大部分地膜和皮棉散点聚集明显并且存在一定的分离, 两者具有部分重叠。 在图7(b)中, 去除六种分类明显的杂质后, 清楚地形成了棉籽衣、 棕叶和茎皮的群集。 然而, 裂茎、 茎、 棉铃壳和麻线的群集重叠, 它们之间没有明显区分, 这意味着裂茎、 茎、 棉铃壳和麻线的误分类可能较多。 该结果也和平均光谱特征信息相符, 他们之间的光谱差异较小。

图7 典型判别分析(CDA)的杂质和皮棉的前三个典型变量的散点图
(a): 12种杂质和皮棉; (b): 7种杂质(不包括塑料包装、 棉籽、 绿叶、 纸、 地膜和皮棉)
Fig.7 Scatter plots of the first three canonical variables for FM and cotton lint based on canonical discriminant analysis (CDA) using full wavelengths
(a): 12 types of FM and cotton; (b): 7 types of FM (excluding plastic package, seed meat, green leaf, paper, mulching filmand cotton lint)

为了更好地解释杂质样本之间的差异, 使用前三个典型变量对所有类型的杂质进行MANOVA检验。 p< 0.01表明两种类型的杂质具有显著性差异, 结果如图8所示。 结果表明, 裂茎与茎、 棉铃壳之间, 茎与棉铃壳、 麻绳之间的显著性水平均大于0.01, 不存在显著差异, 与这几种杂质的CDA聚类结果吻合。

图8 MANOVA检验的混淆矩阵Fig.8 Confusion matrix of MANOVA test

2.3 全波段的SVM分类结果

使用可优化SVM对杂质及皮棉进行的分类, SVM分类器的核比例由MATLAB 2021b自动优化, 在优化的超参数中, 核函数为线性, 框约束级别为497.1。 如图9所示, 杂质与皮棉的平均识别准确率为84.4%。 其中皮棉、 绿叶、 纸、 塑料包装、 棉籽衣、 棉籽、 地膜分类结果较好, 在90%以上。 裂茎、 茎分类结果较差, 分别为63.3%、 73.3%。 裂茎有13.3%错误分类为茎皮, 有10%错误分类为茎。 茎有16.7%错误分类为裂茎, 有13.3%错误分类为棕叶。 棕叶有13.3%错误分为茎。 可见, 裂茎、 茎、 茎皮较难区分, 主要是具有相似的颜色, 化学成分, 茎皮本质上为茎的表层[14], 裂茎是破裂的茎。 棉铃壳的识别率较低, 为56.7%, 主要错分为裂茎和麻线。

图9 全波段5折交叉验证的SVM平均分类精度Fig.9 Average SVM classification accuracies for 5-fold cross-validation using entire wavelength

在全波段SVM分类结果中, 裂茎与茎、 棉铃壳之间, 茎与棕叶之间, 棉铃壳与麻线之间的错误分类率较高, 与MANOVA中的结果较为匹配。 某种杂质与其他杂质的显著性水平越大, 与不存在显著差异的其他杂质的种类越多, 其分类精度越低。

2.4 特征波长提取结果

区间随机蛙跳算法共有六个参数需要初始化, 设置RF的移动窗口w设置为3, 共得到215个光谱区间; 迭代次数N设置为10 000, 保证足够多的迭代次数以选到最优区间; 初始化子集个数Q设置为7。 为了保证随机抽样结果的再现性, 使用运行20次iRF的平均结果。 iRF使用PLS建立模型, 其中X设置为12种杂质和皮棉的光谱矩阵, Y设置为样本的编号。 iRF使用Kennard-Stone(KS)方法将数据集划分为校正集(数据集的80%)和独立测试集(数据集的20%)。 计算排名第1到第215个光谱区间的RMSECV, 在图10(a)中, 前13个区间在校正集上拥有最低的RMSECV。

图10 (a) 光谱区间并集的RMECV, (b) 215个光谱区间的选择概率Fig.10 (a) The RMECV of the union of the top ranked intervals, (b) Selection probability of 215 spectral intervals

区间随机蛙跳算法根据区间的选择概率评估该光谱区间的重要程度, 光谱区间的选择概率越高, 该光谱区间越重要[19, 27]。 图10(b)为215个光谱区间的选择概率图。

在得到最优光谱区间个数的基础上, 根据选择概率图得到选择概率较高的13个区间, 去除区间中重复的波长, 最终得到10个波长。 在分类预实验中, 为了获得区间蛙跳的最佳参数设置, 使用可优化SVM对得到的波长进行分类, 通过模型的平均分类精度及杂质各自分类精度评估波长选取的有效性。 在该过程中发现波长485.8和500.4 nm对于塑料包装的分类准确率影响较大, 最终确定12个波长, 分别为485.8、 500.4、 551.7、 611.1、 676.0、 728.9、 772.1、 810.4、 979.4、 1 013.4、 1 019.0和1 024.3 nm。 图11所示为特征波长在全光谱波段范围内的位置。

图11 皮棉及杂质的平均光谱以及用垂直红线表示的特征波长Fig.11 Average spectra of FM and cotton and selected wavelengths indicated by the vertical red lines

算法选定的波长, 可见光部分包括7个波长, 分别为485.8、 500.4、 551.7、 611.1、 676.0、 728.9和772.1 nm。 这些特征波段主要与杂质、 棉花的色素有关。 塑料包装含有黄色染料, 这种黄色染料吸收蓝色区域的光, 反射红色和绿色, 这与选择的485.8、 500.4和551.7 nm特别相关。 大部分植物性杂质含有初级色素及辅助色素, 如叶绿素, 脱镁素, 类胡萝卜素等。 类胡萝卜素通常具有450~500 nm的宽吸收范围[28], 这与选出的485.8和500.4 nm相关。 叶绿素在丙酮溶液中有662 nm的强吸收峰[28], 这与选出的676.0和728.9 nm的波长相关。 此外, 这些特征波段还与杂质的化学组分有关。 棉籽衣外层被皮棉纤维包裹, 棉籽主要由蛋白质组成, 这些杂质在600~800 nm波段的透射率存在差异[14], 这与选择的611.1、 676.0、 728.9和772.1 nm非常相关。

近红外部分包含5个波长, 是810.4、 979.4、 1 013.4、 1 019.0和1 024.3 nm。 杂质与棉花存在很大差异, 很大程度上与化学成分有关的化学键振动区域有关, 例如在800~1 100 nm, 有O—H的第二倍频, C—H的第三倍频[29], 与选择的5个波长特别相关。 在近红外光谱法中, 特征频率区中的吸收峰基本是由基团的伸缩振动产生, 具有很强的特征性[30]。 例如木质素、 蛋白质和纤维素由分子键组成, 如CH3—、 OH—和NH—, 它们在近红外光谱范围内具有吸收带[26]。 而不同杂质这几种物质的含量各不相同。 此外, 780~1 800 nm的近红外光谱比可见光谱更有效地检测塑料制品[31], 例如包装和地膜。

2.5 特征波长的SVM分类结果

使用12个特征波长对杂质进行SVM分类, 如图12所示, 杂质和皮棉的平均识别率为86.2%, 与全波段光谱的分类结果相比, 模型准确率提高1.8%。 其中裂茎、 茎、 棉铃壳、 棉籽和麻线的分类准确率有显著的提高(图13), 棉籽衣、 茎皮、 绿叶、 棕叶、 地膜的分类准确率有小幅度降低, 总体上说明特征波长的提取有效。

图12 特征波段5折交叉验证的SVM平均分类精度Fig.12 Average SVM classification accuracies of 5-fold cross-validation with selected wavelengths

图13 全波段与特征波长的分类准确率Fig.13 Classification accuracies of entire wavelengths and selected wavelengths

特征波长的提取对分类效果不显著, 分析主要原因是由于杂质隐藏在皮棉层之下, 光谱信息受到棉层的影响, 减弱了杂质光谱信息的表达强度。 另外, 相似的物质, 例如裂茎、

茎、 棉铃壳、 茎皮、 粽叶和麻线的分类率不容易提高。

3 结论

探讨了在400~1 000 nm范围内, 采用堆扫式高光谱成像技术对透射模式下的棉花内层杂质进行检测和分类的可行性。 结果表明, 12种类型的杂质(裂茎、 茎、 棉铃壳、 棉籽衣、 棉籽、 茎皮、 绿叶、 棕叶、 塑料包装、 地膜、 麻线和纸)的光谱强度与皮棉相比较低, 能够在485~550 nm范围的灰度图像中检测到。 除塑料包装、 地膜外, 所有类型的杂质都可以在全波段的灰度图像中观察到。 CDA聚类和SVM分类结果表明, 棉籽、 绿叶、 纸片、 塑料包装、 地膜、 皮棉的分类结果较好, 分类准确率在90%以上。 具有相似外观和相似化学成分的其他类型的杂质(棉籽衣、 茎皮、 棉铃壳、 棕叶、 裂茎、 茎和麻线)分类准确率较低但超过73%。 各类杂质和皮棉光谱平均分类准确率为86.2%, 表明透射高光谱图像检测棉花杂质具有一定的应用前景。

本研究中高光谱透射图像像素分类实验结果不理想。 在未来的工作中, 将着重于提高像素分类的成功率, 并且将针对工业应用优化成像和杂质分类过程。

致谢:诚挚感谢美国佐治亚大学工程学院The Bio-Sensing and Instrumentation Laboratory的李长缨教授提供实验设备仪器及棉花样本, 并感谢常金强同学在投稿方面的建议。

参考文献
[1] KAN Za, GUO Wen-song, ZHANG Ruo-yu, et al(坎杂, 郭文松, 张若宇, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2011, 27(6): 95. [本文引用:1]
[2] Himmelsbach D S, Hellgeth J W, Mcalister D D. Journal of Agricultural And Food Chemistry, 2006, 54(20): 7405. [本文引用:1]
[3] CHANG Jin-qiang, ZHANG Ruo-yu, PANG Yu-jie, et al(常金强, 张若宇, 庞宇杰, ). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2021, 41(11): 3552. [本文引用:1]
[4] Zhang M, Li C, Yang F. Computers and Electronics in Agriculture, 2017, 139: 75. [本文引用:2]
[5] WEI Ping, ZHANG Ling, LIU Xiang, et al(韦平, 张林, 刘翔, ). Journal of Textile Research(纺织学报), 2017, 38(4): 32. [本文引用:1]
[6] ZHANG Lin, WEI Ping, WU Jian-bo, et al(张林, 韦平, 伍剑波, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2016, 32(15): 289. [本文引用:1]
[7] Zhang R, Li C, Zhang M, et al. Computers and Electronics in Agriculture, 2016, 127: 260. [本文引用:3]
[8] Liu Y, Thibodeaux D, Gamble G. Exploring Nir Technique in Rapid Prediction of Cotton Trash Components; Proceedings of the National Cotton Council Beltwide Cotton Conference, F, 2012. [本文引用:1]
[9] Fortier C A, Rodgers J E, Cintron M S, et al. Textile Research Journal, 2011, 81(3): 230. [本文引用:1]
[10] Zhou C, Han G, Via B K, et al. Textile Research Journal, 2019, 89(17): 3610. [本文引用:1]
[11] Zhou W, Li H, Liang H. Journal of Engineered Fibers and Fabrics, 2022, 17: doi: 10.1177/15589250221078921. [本文引用:1]
[12] Mustafic A, Li C, Haidekker M. Journal of Biological Engineering, 2014, 8(1): 29. [本文引用:1]
[13] Mustafic A, Li C. Textile Research Journal, 2015, 85(12): 1209. [本文引用:1]
[14] Jiang Y, Li C. PLOS ONE, 2015, 10(3): e0121969. [本文引用:4]
[15] NI Chao, LI Zhen-ye, ZHANG Xiong, et al(倪超, 李振业, 张雄, ). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2019, 50(12): 170. [本文引用:1]
[16] Ni C, Li Z, Zhang X, et al. IEEE Access, 2020, 8: 93028. [本文引用:1]
[17] Mustafic A, Jiang Y, Li C. Textile Research Journal, 2016, 86(15): 1574. [本文引用:1]
[18] LIU Wei, SHI Yong, TIAN Hai-qing, et al(刘巍, 史勇, 田海清, ). Advanced Textile Technology(现代纺织技术), 2019, 27(5): 44. [本文引用:1]
[19] Li H D, Xu Q S, Liang Y Z. Analytica Chimica Acta, 2012, 740: 20. [本文引用:2]
[20] Jiang Y, Li C. Computers and Electronics in Agriculture, 2015, 119: 191. [本文引用:2]
[21] GUO Jun-xian, LI Xue-lian, HUANG Hua, et al(郭俊先, 李雪莲, 黄华, ). Xinjiang Agricultural Sciences(新疆农业科学), 2016, 53(2): 352. [本文引用:1]
[22] LONG Yan, LIAN Ya-ru, MA Min-juan, et al(龙燕, 连雅茹, 马敏娟, ). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2019, 35(13): 270. [本文引用:1]
[23] Yang C, Lee W S, Williamson J G. Biosystems Engineering, 2012, 113(4): 351. [本文引用:1]
[24] Shazia M, Shad M A, Asia P. Pakistan Journal of Nutrition, 2010, 9(10): 994. [本文引用:1]
[25] Neilson A H. Organic Chemicals: An Environmental Perspective. CRC Press, 1999. [本文引用:1]
[26] Wakelyn P J. Cotton Fiber Chemistry and Technology. CRC Press, 2006. [本文引用:2]
[27] Yun Y H, Li H D, Wood L R E. et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2013, 111: 31. [本文引用:1]
[28] Lichtenthaler H K, Buschmann C. Current Protocols in Food Analytical Chemistry, 2001, 1(1): 10.1002/0471142913.faf0402S01. [本文引用:2]
[29] Aenugu H P R, Kumar D S, Srisudharson N P, et al. International Journal of ChemTech Research, 2011, 3(2): 825. [本文引用:1]
[30] Mariey L, Signolle J P, Amiel C. Vibrational Spectroscopy, 2001, 26: 151. [本文引用:1]
[31] Yang W, Li D, Zhu L. Expert Systems with Applications, 2011, 38(3): 2733. [本文引用:1]