基于遗传算法-支持向量机的兔肝VX2肿瘤光谱鉴别
刘晨阳1,2, 许黄蓉2,3, 段峰4, 王泰升1, 卢振武1, 鱼卫星3,*
1.中国科学院长春光学精密机械与物理研究所精密仪器与装备研发中心, 吉林 长春 130033
2.中国科学院大学, 北京 100049
3.中国科学院西安光学精密机械研究所, 中国科学院光谱成像技术重点实验室, 陕西 西安 710119
4.中国人民解放军总医院介入放射科, 北京 100853
*通讯作者 e-mail: yuwx@opt.ac.cn

作者简介: 刘晨阳, 1990年生, 中国科学院长春光学精密机械与物理研究所博士研究生 e-mail: chenyang9015@163.com

摘要

兔肝VX2肿瘤是一种快速生长的肿瘤模型, 可以在多种器官如肝、 肺、 直肠等快速生长, 常用于肿瘤研究。 采用可见-近红外高光谱技术对四只兔子的兔肝VX2肿瘤和正常组织进行活体和离体的反射光谱检测, 然后采用支持向量机分别实现了二分类(正常肝组织和肝VX2肿瘤组织)和四分类(未出血活体正常肝组织、 未出血活体VX2肿瘤组织、 出血离体正常肝组织和出血离体肝VX2肿瘤组织)。 根据其光谱反射曲线的特征, 选择了400~1 800 nm区间的数据为特征变量。 为进一步提高分类准确率, 分别采用5折交叉验证和遗传算法对支持向量机的核函数参数 g和惩罚因子 c进行了优化。 其中5折交叉验证优化参数和分类结果为: 二分类优化的惩罚参数 c为4, 核函数参数 g为0.125 0, 其校正集和预测集的准确率都达到了100%; 四分类中优化出的参数 c为8, g为0.121 1, 其校正集和预测集的准确率分别达到了99.242 4%和93.333%。 遗传算法优化参数和结果为: 二分类中优化的参数 c为0.845 6, g为0.062 5, 其校正集和预测集的准确率同样都达到了100%; 四分类中优化的参数 c为5.5307, g为0.068 5, 其校正集和预测集的准确率分别达到了99.242 4%和100%。 结果显示两种优化方法都取得了很好的效果, 遗传算法优化参数对四分类的分类更为精确。 为进一步提升算法速度, 采用间隔选取变量的方法来不断减少特征变量, 最终每隔100 nm谱段选择一个变量, 共选择14个谱段作为特征变量。 采用遗传算法优化支持向量机参数并对其分类进行了研究, 结果表明: 二分类和四分类的校正集和预测集结果准确率均为99.242 4%, 而且运行时间分别为11.4和20.0 s, 与选择全波段的运行时间: 340.3和491.0 s相比, 说明多光谱技术可以进行肝VX2肿瘤组织和正常肝组织的鉴别, 且分类准确率可达99%以上, 而且运行时间缩短了很多。 为未来多光谱技术在未来临床肿瘤诊断中实现肿瘤组织的快速实时在线检测和分类奠定了基础, 显示出巨大的应用潜力。

关键词: 兔肝VX2肿瘤; 可见-近红外光谱; 遗传算法; 支持向量机
中图分类号:O434.3 文献标志码:A
Spectral Discrimination of Rabbit Liver VX2 Tumor and Normal Tissue Based on Genetic Algorithm-Support Vector Machine
LIU Chen-yang1,2, XU Huang-rong2,3, DUAN Feng4, WANG Tai-sheng1, LU Zhen-wu1, YU Wei-xing3,*
1. State Key Laboratory of Applied Optics, Changchun Institute of Optics, Fine Mechanics & Physics, Chinese Academy of Sciences, Changchun 130033, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. Key Laboratory of Spectral Imaging Technology, Xi’an Institute of Optics and Precision Mechanics, Chinese Academy of Science, Xi’an 710119, China
4. Department of Interventional Radiology, the General Hospital of Chinese People’s Liberation Army, Beijing 100853, China
*Corresponding author
Abstract

Rabbit liver VX2 tumor is a tumor model that can grow rapidly in various organs, such as liver, lung, rectum, etc., and is often used in tumor research. In this paper, using high-near-infrared spectrum technology to four rabbits VX2 liver tumor and normal tissue in vivo and in vitro reflection spectrum detection, then respectively the Two categories based on support vector machine (normal liver tissue and liver VX2 tumor tissue) and Four categories (not bleeding living normal liver tissue, not living liver VX2 tumor tissue bleeding, bleeding in vitro normal liver tissue and hemorrhage in vitro liver VX2 tumor tissue). According to its spectral reflection curve characteristics, the data in the range of 400~1 800 nm are selected as characteristic variables. In order to further improve the classification accuracy, the kernel parameter g and penalty factor c of the support vector machine was optimized by using a 50 fold cross-validation and genetic algorithm, respectively. The optimization parameters and classification results of the 50-fold cross-validation are as follows: penalty parameter c of the dichotomy optimization is 4, kernel parameter g is 0.125 0, and the accuracy of the correction set and prediction set reaches 100%. The optimized parameters c and g are 8 and 0.121 1, and the accuracy of the correction set and the prediction set are 99.242 4% and 93.33 3%, respectively. The optimized parameters and results of the genetic algorithm are as follows: the optimized parameters c and g in dichotomy are 0.845 6 and 0.062 5, respectively, and the accuracy of Two categories, the correction set and the prediction set, is agreed to reach 100%.The optimized parameter C in the Four categories was 5.530 7 and g was 0.068 5, and the accuracy of the correction set and the prediction set reached 99.242 4% and 100%, respectively. The results show that the two optimization methods have achieved good results, and the genetic algorithm is more accurate in the classification of the Four categories. In order to further improve the speed of the algorithm, the method of variable selection at intervals was adopted to reduce the characteristic variables continuously. Finally, a variable was selected for every 100 nm spectral segment, and a total of 14 spectral segments were selected as the characteristic variables. Parameters of support vector machine were optimized by using genetic algorithm for the classification was studied, the results show that the Two categories and Four categories of both results of the calibration set and prediction set were 99.242 4%, and the running time of 11.4 s and 20.0 s respectively, and choosing all band running time: 340.3 s and 491.0 s compared to how spectroscopy can be in the identification of hepatic VX2 tumor tissue and normal liver tissue. The classification accuracy rate can reach more than 99%, and the running time shorten a lot. Therefore, it also lays a foundation for realising rapid real-time online detection and classification of tumor tissues in the future clinical tumor diagnosis with multi-spectrum technology, showing great application potential.

Keyword: Rabbit liver VX2 tumor; The visible-near-infrared Vis-NIR spectroscopy; Genetic algorithm; Support vector machine
引言

原发性肝癌(primary liver cancer, PLC), 简称肝癌, 是全球最常见的恶性肿瘤之一, 目前PLC诊断的金标准仍是病理组织学或细胞学检查, 影像学检查包括超声影像检查、 多期动态增强CT(X射线断层扫描)、 动态对比增强磁共振(MRI)扫描, 其中MRI肝胆特异性对比剂增强扫描是目前国际上公认的比较准确的影像学检查方法[1, 2]。 外科手术切除是治疗肝癌的主要方法, 而手术切除过程中对肿瘤边界部位及范围的判定极为重要, 切除范围过小可能会造成术后肿瘤残余, 切除范围过大则会造成残余肝脏体积变小、 肝储备功能下降。 因此, 临床急需一种可以快速、 准确、 实时的分辨肿瘤组织和正常肝脏组织的新方法, 以便更准确地判断手术切除边界, 使患者更好地获益。

光谱技术的快速、 无损、 实时等特性, 使其逐渐成为生物组织识别和诊断领域的研究热点。 衰减全反射傅里叶变换红外光谱技术对甲状腺疾病、 乳腺疾病、 大鼠胆固醇以及肺癌筛查等良、 恶性组织具有较高的鉴别能力[3, 4, 5, 6, 7]。 同时, 不断发展的机器学习也被应用于各种领域, 如瓷器、 护肤品等光谱数据分析[8, 9, 10]。 机器学习仅仅依靠识别模式和推理便可从复杂且庞大的数据集中发现并识别出特定的模式, 快速实现相应的目的。 支持向量机[11]由Vapnik等首先提出了在高维空间使用线性函数的学习系统, 已被广泛用于肿瘤细胞和正常细胞之间或者不同类型细胞之间的分类。

VX2肿瘤[12, 13]是一种可移植在兔的肝脏、 肺脏、 骨骼肌肌肉等处的可移植恶性乳头状瘤, 而且其具有血供丰富、 生长迅速、 易侵袭周边组织和转移的特点, 被广泛的应用于肝脏恶性肿瘤的实验研究中。 本工作对肝VX2肿瘤组织和正常肝组织进行活体和离体的高光谱分析, 并分别用5折交叉验证和遗传算法对支持向量机参数和核函数参数进行优化, 最后采用支持向量机分类算法进行模型构建, 以期实现正常肝组织与肝VX2肿瘤组织的活体和离体的判别诊断, 为光谱技术应用于肝癌的诊断提供理论依据, 同时提出采用间隔选取变量的方法不断减少特征变量, 最终判断是否可以应用多光谱技术的方法来进行肝VX2肿瘤组织和正常肝组织的鉴别, 为算法的效率进一步提升进行了有益探索。

1 实验部分
1.1 仪器与软件

动物实验得到了中国人民解放军总医院伦理委员会的批准, 并按照中国人民解放军医学院制定的动物实验指南进行实验。 对4只雄性患有VX2肝癌的新西兰大白兔进行实验, 实验中采集过程如图1所示: 光谱仪器采用美国ASD(Analytical Spectral Devices, Inc.)公司生产的Fieldspec4 型高分辨光谱仪, 波长范围为300~2 500 nm, 光谱分辨率3 nm。 光源为5 W的卤素灯, 波长范围为350~2 500 nm, 无线连接的笔记本电脑进行数据的记录和采集。 采用该仪器分别对VX2肝癌兔子的正常肝组织和肝癌组织进行反射光谱采集。 反射探头的光束直径为5 mm, 在采集过程中分别垂直对准待测兔子的VX2肿瘤组织和正常组织, 对每只兔子的活体正常肝组织、 活体VX2肿瘤肝组织、 离体正常带血肝组织和离体VX2肿瘤带血肝组织的不同部位分别进行十次数据采集, 总共获得160个样本数据, 其中每次保存的数据均进行十次平均。

图1 用于测量兔肝VX2肿瘤组织和正常组织的实验装置Fig.1 Experimental apparatus for measuring VX2 tumor tissue and normal tissue in rabbit liver

1.2 支持向量分类

支持向量机[14, 15]通过核函数定义特征映射关系, 将待分类的数据映射到更高维特征的空间中, 来实现简单的线性可分, 然后在这个空间中构造最优的分类面, 从而形成分类的决策规则。 SVM(支持向量机)采用结构风险最小化(structural risk minimization, SRM)原则, 构造最优分离超平面来完成分类任务。 而很多情况下, 原始的样本空间内有可能找不到一个可以正确划分出两类样本的超平面。 在二维空间也许很难找到划分两类样本的超平面, 把样本从二维空间映射到三维的特征空间, 或者更高维的空间, 使得样本在此空间里存在这样的超平面来正确划分样本。

选择核函数、 相应的核函数参数g, 惩罚因子c, 是支持向量机分类的三个可优化选项。 多项式核函数和Sigmoid核函数相比高斯径向核函数而言, 设置的参数较多, 从而增加了模型的不确定性和不稳定性。 高斯径向基核函数只需要设定一个参数, 对于模型的精度和稳定性更容易控制。 因此, 选择高斯径向基核函数。 鉴于核函数参数g和惩罚因子c会对计算收敛速度和预测精度产生影响, 故分别采用交叉验证和遗传算法对核函数参数g和惩罚因子c进行优化。

1.3 交叉验证优化支持向量机参数

交叉验证即统计学中的无偏估计, 因为其能够有效避免模型的过拟合问题, 所以是目前最为常见的一种参数验证方式。 此外, 它还是机器学习建立模型和验证模型稳定性的常用方法, 因此从其名字上就可以推断出交叉验证是某样本在校正集和预测集在交叉往复地使用。 根据样本的切分方法不同, 交叉验证分为三种方法: 简单交叉验证, K折交叉验证(K-folder cross validation), 留一交叉验证(leave-one-out cross validation)。 研究中选择K-折交叉验证来多次验证寻找最优的核函数参数g和惩罚因子c, 即支持向量机的分类参数, 其中K取5, 使其对兔肝的正常组织和VX2肿瘤组织的分类性能能够得到很好的提高。

1.4 遗传算法优化支持向量机的分类参数

遗传算法是通过模拟达尔文生物进化论自然选择和遗传学机理来进行搜索最优解的一种方法。 其中, 染色体是遗传物质的主要载体, 而染色体是多个基因的集合。 由于基因编码是非常复杂的, 所以通常用二进制进行编码。 设置初代种群个数, 按照“ 物竞天择, 适者生存, 优胜劣汰” 的原理, 来逐代演化出最优解。 研究中设置初始种群规模为40, 最大遗传代数100, 变异率为0.1, 根据设定的范围对需要优化的参数, 随机产生初始种群。 遗传代数计数器t=0开始。 把支持向量机的分类正确率作为目标函数值, 计算种群中每个个体的适应度。 若t> 100或平均适应度值变化持续小于某一常数超过一定代数, 则所得到的具有最大适应的个体作为最优解输出, 得到优化的参数。

2 结果与讨论
2.1 反射光谱分析

图2(a)是其中一只兔子的正常肝组织和VX2肿瘤组织未出血活体的高光谱反射数据曲线, 其中1—10为正常肝组织未出血活体的反射曲线, 11—20为VX2肿瘤组织未出血活体的反射曲线, 从图中很明显可以区分出正常肝组织和VX2肿瘤组织。 通过对比发现可以选择400~1 800 nm区间的数据为特征变量, 其他区间因为测试系统噪声较大, 会对分类造成一定的干扰。 图2(b)包含了未出血活体正常肝组织、 未出血活体肝VX2肿瘤组织、 出血离体正常肝组织和出血离体肝VX2肿瘤组织: data1—data5为未出血活体正常肝组织, data6—data10为未出血活体肝肿瘤组织, data11—data15出血离体肝VX2肿瘤组织, data16—data20为出血离体正常肝组织。 为了更容易区分不同组织对应的反射曲线的不同, 分别采用不同的颜色对应不同组织来进行光谱曲线绘制。 显而易见, 对应相同组织的反射曲线走势基本一致, 而反射光谱强度的不同, 主要由反射探头与待测表面相对位置误差导致。 从反射曲线看, 正常肝组织和肿瘤组织的区别相对比较明显。 分别用交叉验证优化支持向量机分类和遗传算法优化支持向量机分类分别对活体和离体的正常肝组织、 肿瘤组织进行二分类以及活体的正常肝组织和VX2肿瘤组织、 出血离体的正常肝组织和肝VX2肿瘤组织进行四分类。

图2 兔肝VX2肿瘤组织和正常组织的反射图(a)和未出血活体正常肝组织、 未出血活体肝VX2肿瘤组织、 出血离体正常肝组织和出血离体肝VX2肿瘤组织的反射光谱图(b)Fig.2 Reflection of VX2 tumor tissue and normal tissue in rabbit liver (a) and spectral reflection of normal liver tissue in non-bleeding living body, VX2 tumor tissue in non-bleeding living body, normal liver tissue in bleeding isolated and VX2 tumor tissue in bleeding isolated (b)

2.2 SVM与SVM-GA的诊断潜力对比分析

进行了两种分类模式研究: (1) 对正常肝组织和肝肿瘤组织进行二分类, 把活体正常肝组织和离体正常肝组织标记为1号, 把离体肝VX2肿瘤组织和离体肝VX2肿瘤组织2号; (2) 对活体正常肝组织、 活体VX2肿瘤组织、 出血离体正常肝组织、 出血离体肝VX2肿瘤组织进行四分类, 分别依次标记为1号、 2号、 3号和4号。 采用5折交叉验证误差e进行评价诊断的潜力, e的定义为[16]

e=N1N=N-N2N×100%

其中, N为样本总数, N1为错误识别的样本数, N2为正确识别的样本数。

在160个样本中随机选择130个样本为训练样本, 30个为预测样本。 首先进行400~1 800 nm区间支持向量机的二分类和四分类, 采用5-k交叉验证方法优化惩罚参数和核函数参数, 其预测集的分类结果分别如图3(a, b)所示, 其中二分类优化的惩罚参数c为4, 核函数参数g为0.125 0, 其校正集和预测集的准确率分别达到了100%和100%, 见图3(a); 四分类中优化出的参数c为8, g为0.121 1, 其校正集和预测集的准确率都达到了99.242 4%和93.333%, 见图3(b)。 说明采用5-k交叉验证优化参数进行支持向量机二分类和四分类的模型准确度很高, 从而也说明了经过5-k交叉验证优化支持向量机参数进行正常肝组织和VX2肿瘤组织在可见近红外波段的支持向量机分类具有很高的可行性。

图3 采用5-k交叉验证方法优化SVM参数的预测集二分类(a)和四分类(b)Fig.3 The predicted and true values of two categories (a) and four categories (b) of SVM parameters are optimized by using 5-K cross validation

使用遗传算法优化支持向量机参数, 然后采用支持向量机进行分类。 二分类和四分类中每代的最高适应度和平均适应度函数如图4(a, b)所示, 二分类和四分类的预测集的准确率如图4(c, d)。 其中二分类优化的参数c为0.845 6, g为0.062 5, 其校正集和预测集的准确率都达到了100%; 四分类中优化出的参数c为5.530 7, g为0.068 5, 其校正集和预测集的准确率分别达到了99.242 4%和100%。 从二分类和四分类结果来看, 采用遗传算法优化参数进行支持向量机分类的模型准确度效果更好。 为了进一步更清楚地对比交叉验证和遗传算法对支持向量机参数的优化效果, 由表1给出了其校正集和预测集的分类正确率。 由表1可以看出遗传算法的优化结果相对交叉验证优化的结果准确率更高。

图4 采用遗传算法优化支持向量机参数优化的二分类和四分类的适应度图(a)和(b)及相应的预测集结果(c)和(d)Fig.4 Fitness curves (a) and (b), classification results (c) and (d) of Two categories and Four categories optimized by genetic algorithm

表1 采用两种方法优化支持向量机参数二分类和四分类的结果比较 Table 1 Compares the results of Two categories and Four categories of SVM parameters optimized by two methods

为了进一步提高数据分析和处理效率, 为后续采用多光谱内窥镜进行肿瘤组织分类奠定基础, 研究了数据简化对分类算法准确度地影响。 在400~1 800 nm之间选取每隔n(n为整数)个波段取一个变量, 进行遗传算法优化参数的支持向量机分类分析, 并对其计算时间进行考察。 分析结果如表2所示。 从表2可以看出随着选择的变量数的减少, 算法的运行时间逐渐降低, 二分类和四分类的准确率均超过了90%。 分类结果每隔100 nm选择一个变量, 最终选择14个谱段作为特征变量, 其二分类和四分类的校正集结果和预测集结果分别达到了99.242 4%和93.33%, 而且运行时间分别为11.4和20.0 s, 与选择全波段时的运行时间: 340.3和491.0 s相比, 运行时间分别只有原来的3.35%和4.07%, 同时依然保持了较高的分类精确度。 说明未来采用多光谱鉴别兔子正常肝组织和VX2肿瘤组织是可行的, 可以做到在确保一定地分类准确度情况下, 极大提高分类效率。

表2 采用遗传算法优化支持向量机参数优化二分类和四分类不同特征变量下的结果 Table 2 The results of Two categories and Four categories under different number variables of SVM parameter optimized by Genetic algorithm
3 结论

使用高光谱ASD对兔子的未出血活体正常肝组织、 未出血活体肝VX2肿瘤组织、 出血离体肝组织、 出血离体肝VX2肿瘤组织进行反射光谱的采集, 然后对原始数据进行支持向量机分类, 在分类的过程中分别采用了两种方式优化参数, 即5折交叉验证和遗传算法对支持向量机参数和核函数参数进行优化, 最终两种分类方式都取得了很好的结果, 而遗传算法优化的结果表现更好。 因此在不断有规律减少变量的情况下选择遗传算法优化参数, 对分类结果和时间进行了比较。 研究发现, 随着变量数的减少, 其分类结果一直保持较好的准确性, 而算法运行的时间却得到了大幅减少。 为未来兔肝的正常组织和VX2肿瘤组织的多光谱高效实时鉴别奠定了一定的基础。

参考文献
[1] Buijs M, Vossen J A, Geschwind J F, et al. J. Vasc. Interv. Radiol. , 2011, 22(8): 1175. [本文引用:1]
[2] Kang B, Choi W S, Kang J H, et al. J. Vasc. Interv. Radiol. , 2020, 31(3): 503. [本文引用:1]
[3] Depciuch J, Stanek-Widera A, Lange D, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2018, 204: 18. [本文引用:1]
[4] Ferreira I C C, Aguiar E M G, Silva A T F, et al. J. Oncol. , 2020, 2020: 4343590. [本文引用:1]
[5] Sun X, Xu Y, Wu J, et al. J. Surg. Res. , 2013, 179(1): 33. [本文引用:1]
[6] Zhang W T, Tian P R, Zhu Q, et al. Chemical Research in Chinese Universities, 2015, 31(2): 198. [本文引用:1]
[7] Saira K A, Safiullah A, Krishna Mohan S, et al. International Journal of Research in Pharmaceutical Sciences, 2018, 9(3): 1056. [本文引用:1]
[8] Fischer C, Hsieh E. Journal of Archaeological Science, 2017, 80: 14. [本文引用:1]
[9] Kaur K, Yadav P K, Bumbrah G S, et al. Vib. Spectrosc. , 2020, 110: 103146. [本文引用:1]
[10] Sim J Y, Ahn C G, Jeong E J, et al. Sci. Rep. , 2018, 8(1): 1059. [本文引用:1]
[11] Schleif F-M, Lindemann M, Diaz M, et al. Computing and Visualization in Science, 2008, 12(4): 189. [本文引用:1]
[12] Duan F, Yuan J, Liu X, et al. World J. Gastrointest. Oncol. , 2019, 11(1): 1. [本文引用:1]
[13] P, Liu J, Yan X, et al. Eur. Radiol. , 2017, 27(3): 918. [本文引用:1]
[14] Khazaee A, Ebrahimzadeh A. Biomedical Signal Processing and Control, 2010, 5(4): 252. [本文引用:1]
[15] Saidi L, Ben Ali J, Fnaiech F. ISA Trans. , 2015, 54: 193. [本文引用:1]