作者简介: 赵小燕, 1974年生, 北京科技大学自动化学院副教授 e-mail: zhaoxiaoyan@ustb.edu.cn
脑胶质瘤是最常见的原发性中枢神经系统肿瘤, 具有高度的侵袭性。 其中胶质母细胞瘤(GBM)是脑胶质瘤中恶性程度最高的一种, 患者在5年内存活率只有5.6%。 表皮生长因子受体(EGFR)对脑胶质瘤的生长、 侵袭和复发中起着重要作用, 在胶质母细胞瘤中, EGFR扩增和突变已被确定为驱动因素。 目前脑胶质瘤整合诊断流程受限于实验操作复杂, 往往存在一定滞后性, 需在手术后2周左右才能得到结果, 无法为术者提供实时分子病理信息支持。 本文提出了一种基于术中病理冰冻切片的太赫兹时域光谱(THz-TDS)数据结合卷积神经网络(CNN)对EGFR扩增状态进行预测的方法。 术中通过THz-TDS系统采集脑胶质瘤冰冻切片的光谱数据, 计算其吸收系数, 并利用Savitzky-Golay滤波器将其平滑处理后, 再用格拉姆角场(GAF)、 马尔可夫转移场(MTF)和递归图(RP)将吸收系数分别转化成二维图像数据作为后续CNN模型的输入。 为充分利用图像数据, 我们采用单一图像输入、 前端融合和中端融合等不同方式搭建CNN模型。 通过对比分析不同模型下的受试者工作特征(ROC)曲线下面积(AUC)值发现, 格拉姆角和场(GASF)与格拉姆角差场(GADF)的中端融合卷积神经网络模型预测效果最好, 测试集预测的AUC值为94.74%。 此外, 目前常用的基于太赫兹光谱数据的预测模型中, 多是利用一维光谱数据降维后结合机器学习进行分析, 处理过程中会造成部分数据信息丢失。 因此我们还对吸收系数结合机器学习的方法进行了训练和测试。 通过对比一维数据和二维图像的不同模型结果, 可以发现相较于一维太赫兹时域光谱数据进行机器学习, 二维光谱图像在卷积神经网络中训练模型有着更好的预测效果。 实验结果表明本文提出的基于太赫兹光谱数据和卷积神经网络模型能够实现EGFR扩增状态的实时快速预测, 为研究太赫兹时域光谱在脑胶质瘤中进行分子病理学分类提供了新的思路, 对术中及时调整手术策略以及尽早制定术后辅助治疗方案具有重要意义。
Gliomas are the most common primary central nervous system tumors with high invasiveness. Glioblastoma (GBM) is the most malignant type of brain glioma, with a 5-year survival rate of only 5.6%. The epidermal growth factor receptor (EGFR) plays an important role in the growth, invasion, and recurrence of glioblastoma. EGFR amplification and mutation have been identified as driving factors in glioblastoma. Currently, the integrated diagnosis process for glioma is limited by complex experimental procedures, often with a certain lag, and results can only be obtained approximately 2 weeks after surgery, which does not provide real-time molecular pathological information support for the operator. This article proposes a method for predicting EGFR amplification status based on intraoperative pathological frozen sections using terahertz time-domain spectroscopy (THz-TDS) data combined with convolutional neural networks (CNN). During the operation, spectral data of frozen sections of brain gliomas were collected using the THz-TDS system, and their absorption coefficients were calculated. After smoothing using the Savitzky-Golay filter, the absorption coefficients were converted into two-dimensional image data using the Gram Angular Field (GAF), Markov Transition Field (MTF), and Recursive Plots (RP) as inputs for subsequent CNN models. To fully utilize image data, we employ various methods, including single-image input, front-end fusion, and mid-range fusion, to construct CNN models. By comparing and analyzing the Area Under the Curve (AUC) values of Receiver Operating Characteristic (ROC) curves under different models, it was found that the Mid range Fusion Convolutional Neural Network model with Gram Angular Summation Field (GASF) and Gram Angular Difference Field (GADF) had the best prediction performance, with a predicted AUC value of 94.74% in the test set. In addition, the commonly used prediction models based on terahertz spectral data often -employ one-dimensional spectral data for dimensionality reduction and machine learning analysis, which may result in partial loss of data information during processing. Therefore, we also trained and tested the method of combining the absorption coefficient with machine learning. By comparing the results of different models for one-dimensional data and two-dimensional images, it is found that training models with two-dimensional spectral images in convolutional neural networks yields better predictive performance compared to machine learning with one-dimensional terahertz time-domain spectral data. The experimental results -demonstrate that the proposed method, based on terahertz spectroscopy data and a convolutional neural network model, can achieve real-time and rapid prediction of EGFR amplification status, providing new insights for molecular pathological classification of brain gliomas using terahertz time-domain spectroscopy. It is of great significance for the timely adjustment of surgical strategies during surgery and the early development of postoperative adjuvant treatment plans.
脑胶质瘤是最常见的原发性中枢神经系统肿瘤类型, 约占所有恶性原发性脑肿瘤的 80%, 具有高度的侵袭性和致命性[1]。 根据2021年世界卫生组织(World Health Organization, WHO)的数据显示, 脑胶质瘤根据其恶性程度分为2~4级[2]。 胶质母细胞瘤(glioblastoma, GBM)又称Ⅳ 级脑胶质瘤, 是脑胶质瘤中恶性程度最高的一种, GBM患者在5年内存活率只有5.6%[3]。 表皮生长因子受体(epidermal growth factor receptor, EGFR)由一个酪氨酸激酶受体家族组成, 直接调节脑胶质瘤血管生成[4], 而血管生成在脑胶质瘤的生长、 侵袭和复发中起着重要作用。 随着越来越多的研究表明, EGFR扩增和突变已被确定为多种癌症的驱动事件, 特别是非小细胞肺癌[5], 乳腺癌[6]和GBM[7]。 目前临床脑胶质瘤病理检测分为术中快速冰冻病理检测以及术后整合病理检测。 术中快速冰冻病理检测是手术中常用的一种快速病理诊断技术, 主要用于在手术过程中快速确定病变性质、 判断手术切缘是否干净, 从而指导医生调整手术方案。 但存在一定局限性如冰冻病理的准确性约为90%~95%, 可能存在假阴性/假阳性; 组织过小、 脂肪、 骨或钙化组织可能影响制片和诊断; 信息量少, 无法获得分子病理等信息。 术后整合病理诊断是一个综合性的过程, 结合组织形态学、 免疫表型和分子特征, 以精准分类和分级, 指导临床治疗及预后评估。 然而, 目前脑胶质瘤整合诊断流程受限于实验操作复杂, 往往存在一定滞后性, 需在手术后2周左右才能得到结果, 无法为术者提供实时的病理及EGFR扩增等分子病理信息支持。 因此, 一种快速、 有效的EGFR检测方法, 对术中实时调整手术策略以及尽早制定术后辅助治疗方案具有重要意义。
太赫兹(Terahertz, THz)波是指频率为 0.1~10 THz(波长为30~3 000 μ m)的电磁辐射, 介于微波和红外波段之间。 太赫兹光谱区域具有一些独特且有用的特性, 例如光谱指纹图谱[8]、 安全性[9]、 无标记检测[10]以及生物大分子、 细胞和组织中的水敏感性[11]。 因此, 太赫兹光谱特别适用于生物组织检测。 随着机器学习的不断发展, 太赫兹光谱与机器学习结合已经应用于许多生物医学当中。 Cherkasova等[12]使用太赫兹时域光谱(Terahertz time-domain spectroscopy, THz-TDS)研究了脑胶质瘤患者、 颅骨瓣骨切除术缺陷患者和健康供体的血浆样本, 通过支持向量机(support vector machine, SVM)、 随机森林(random forest, RF)和极端梯度增强(extreme gradient boosting, XGBoost)三种算法进行分类。 Vrazhnov等[13]利用THz-TDS和机器学习对小鼠血清进行分析, 对胶质母细胞瘤和创伤性脑损伤进行区分。 Kistenev等[14]利用宽带太赫兹时域光谱对糖尿病患者与健康志愿者呼出的气体进行对比, 对吸收系数进行主成分分析, 能有效区分出糖尿病患者与健康志愿者。 Cao等[15, 16]采用太赫兹时域光谱法检测小鼠药物诱导的肝损伤, 对肝损伤进行定性和定量检测, 利用RF构建肝损伤模型, 能有效识别肝损伤程度。 在我们之前的研究中[17, 18], 利用THz-TDS和机器学习对IDH(Isocitrate Dehydrogenase)突变和EGFR扩增进行预测分析, 取得了一定的成果。 前面的方法都有利用特征筛选或者特征降维的方法对数据进行处理, 从而降低模型复杂度, 提高模型性能, 但是也丢失了部分特征信息。 因此, 为了尽可能让所有特征信息能被利用, 则考虑采用其他的模型和方法。
近年来, 深度学习逐渐成为机器学习算法的研究热点, 在各个领域都有成功的应用。 在广泛使用的深度学习算法中, 卷积神经网络(CNN)是最常见的算法之一, 在处理大量数据、 实现最先进的性能和更高的精度方面具有显著优势。 Liu等[19]利用太赫兹时域光谱结合CNN来区分不同年份的陈皮, 分析CNN与其他机器学习模型相比的优势。 Kim等[20]通过使用CNN算法分析正常和有缺陷聚合物管的太赫兹时域光谱数据, 检测聚合物管中的缺陷。 Wang等[21]设计了一个基于有效通道注意力校准的CNN模型, 并分析了20种氨基酸在太赫兹光谱中的吸收率和折射率形成的混合光谱。 本文将CNN结合太赫兹光谱数据对脑胶质瘤的EGFR扩增状态进行预测, 通过使用格拉姆角场(Gramian Angular field, GAF)、 马尔可夫转移场(Markov transition field, MTF)和递归图(recurrence plots, RP)将太赫兹时域光谱数据转换为二维图像数据, 我们比较和探索了不同融合条件下的CNN模型预测效果。 与机器学习的模型相比, 本研究中设计的CNN模型在预测准确性和稳定性方面有了显著提高, 为基于太赫兹时域光谱数据进行脑胶质瘤的分子病理分类提供一种新方法。
本研究中使用的组织样本来自首都医科大学附属北京天坛医院。 本研究方案经首都医科大学附属北京天坛医院伦理委员会批准, 所有入选患者均提供书面知情同意书。 具体的制备过程在之前的一项研究中已经详细介绍[22]。 收集标准包括(a)脑胶质瘤的术后病理诊断, (b)已知的EGFR扩增状态, 以及(c)根据我们之前的研究要求在术中保存的肿瘤冰冻切片。 从收集的22例脑胶质瘤样本中共获得440个冷冻切片, 其中6例显示EGFR扩增(Yes), 16例未显示扩增(No)。 这两种情况都包括男性和女性患者, 没有显著的性别差异。 表1提供了更多详细信息。
![]() | 表1 患者病理信息汇总 Table 1 Summary of the pathological information of the patients |
在这项研究中, 数据收集是使用传统THz-TDS系统进行的。 实验装置的细节参考了我们之前的工作[17, 18, 22]。 通过使用在实验箱内持续冲入干燥氮气将环境湿度控制在3%以下, 可以避免水蒸汽对太赫兹光路中信号的影响。 所有样品的数据收集过程包括首先测量参考信号, 然后使用旋转样品架逐一测量被测样品信号。 在两次试验中, 所有样本都进行了双向顺序测量, 以消除系统误差。 在每次试验中, 每个样本被扫描三次以获得平均信号, 从而减少随机误差。 系统时域信号的扫描步长为33.3 fs, 共收集了1 024个点。
信号采集完成后, 对时域信号进行傅里叶变换, 将信号从时域转换为频域。 考虑到测量系统信噪比, 本研究选用了0.2~1.4 THz的频段信号进行分析。 太赫兹光谱的折射率和吸收系数的计算公式如式(1)和式(2)[23]
式(1)和式(2)中, d为样品厚度, T(ω )为样品传递函数, c为真空中光速, nPE为PE的折射率。
在这项研究中, 为了保持太赫兹光谱数据的时间相关性以及太赫兹光谱挖掘的稳定性和周期性, 我们分别构建了GAF、 MTF和RP。
GAF提供了一种可以将极坐标系下的时序数据转换成图像的方法, 该方法可以很好地保留时序数据之间的时间相关性。 通过考虑不同点之间的角度和、 角度差以识别不同时间点的时间相关性, 因此对应产生了格拉姆角和场(Gramian Angular summation field, GASF)、 格拉姆角差场(Gramian Angular difference field, GADF), 具体如式(3)和式(4)[24]
式(3)和式(4)中, GASF为角度和的余弦, GADF为角度差的余弦, n为频率点数, ϕ n为第n个频率点处的角度值。
MTF是通过顺序表示马尔可夫转移概率来扩展动态转移统计信息的图像, 具体计算公式如式(5)[25]
式(5)中, qi和qj都是分位数, M是MTF数据矩阵, 其中元素Mij表示的是分位数qi到分位数qj之间的转移概率。 通过这样的计算方式, 能够实现跨时间步长之间的概率转移, 最大程度地保存时序数据中的时间信息。
RP是一种可以识别时间序列中隐藏规律的图形化方法, 通过对递归图的分析, 可以得到时间序列之间相关性、 周期性等信息。 通过计算每个时间点之间的距离, 将动态系统的时间序列转化成图像, 有助于直观地理解数据的递归特性, 具体计算公式如式(6)[26]
式(6)中, Rij是递归值, ε 是预定义的固定截止距离, θ 是赫维赛德(Heaviside)函数, ‖ · ‖ 是范例, Xi和Xj是重建后的i和j处的值。
研究中利用Savitzky-Golay滤波器将吸收系数平滑处理后, 再将数据转化成对应的GASF、 GADF、 MTF和RP四种图像, 具体过程如图1所示。 为了更好地进行融合与计算, 将GASF、 GADF、 MTF和RP生成的四种图像转化成分辨率大小为256× 256的灰度图, 所以单个图像的大小为256× 256× 1(像素× 像素× 通道)。
在本研究中, 为了更好地利用四种二维图像数据, 除了搭建单一图像输入的CNN模型外, 还搭建了前端融合卷积神经网络模型(front-end fusion convolutional neural network, FFCNN)和中端融合卷积神经网络(mid-range fusion convolutional neural network, MFCNN)模型。
单个图像输入的CNN模型具体结构如图2(a)所示。 该模型主要通过两个卷积核大小为5× 5的卷积层来提取特征, 两个2× 2大小的池化层来防止模型过拟合, 一个flatten层用来将多维的特征数据展开成一维, 两个全连接层来输出最后的特征。 为获得更好地模型结果, 该模型在卷积层和全连接层后面添加了RELU(Rectified Linear Unit)函数, 并且二分类输出采用Sigmoid函数。 此外, 选用学习速率为0.000 01的Adam优化器编译模型, 并使用二元交叉熵作为损失函数来作为模型优化过程中的损失值, 训练轮次设置为100。
![]() | 图2 基于太赫兹光谱二维图像数据的模型结构图 |
前端融合是将四种图像在输入模型前进行通道融合, 例如将GASF、 GADF进行前端融合, 则是把256× 256× 1(像素× 像素× 通道)的两个图片融合成256× 256× 2(像素× 像素× 通道)的数据作为输入, 具体的结构如图2(b)所示。 FFCNN 模型与单个图像输入的CNN模型基本一样, 唯一不同就在于第一层卷积层时需要根据前面融合图像的通道数更改该卷积层的输入通道数。
中端融合是将四种图像在经历过卷积和池化后提取出来的特征进行融合, 提取出来的特征是经过flatten层展开后形成的一维数据。 为了让后续全连接层更好地处理, 此时的融合则是将提取出来的特征相互沿一个维度拼接成一个一维数据。 例如将GASF、 GADF进行中端融合, 具体的结构如图2(c) 所示, MFCNN模型在特征融合前与单个图像输入的CNN模型一致, 都是利用各自单个图像输入经过卷积和池化后提取特征。 由于特征融合使得全连接层的神经元数量倍增, 而为了更好地处理融合后的特征, 则采用了三个全连接层。
对于模型性能评估, 我们使用了五折交叉验证和测试集验证。 采用五折交叉验证来计算五个结果的平均值, 减少了随机性的影响。 为了进一步验证模型的性能, 选择了一个在模型训练期间未使用的测试集进行验证。
我们使用受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under the curve, AUC)作为模型评估的主要性能指标。 ROC曲线是一种用于表示分类模型性能的图形工具。 它绘制了不同阈值设置下的真阳性率(true positive rate, TPR)与假阳性率(false positive rate, FPR)的关系图。 AUC代表ROC曲线下的面积, 用于衡量分类器的性能。 AUC值越接近1表示分类器性能越好, 而AUC值接近0表示性能较差。
在本次的研究中共有440组样片数据, 其中120组为EGFR扩增, 剩下的320组为EGFR非扩增。 将这些数据按4∶ 1的比例划分为训练集和测试集, 其中训练集采用五折交叉验证对模型进行训练和验证。 将生成的GASF、 GADF、 MTF和RP四种图像分别进行模型的训练和测试, 训练结果显示在表2中。 从结果中可以看到, RP图像的模型预测效果更好, 它的测试集AUC值达到了94.05%, MTF图像的模型预测效果最差, 它的测试集AUC值只有90.41%。 为了更好地利用生成的图像数据, 我们分别搭建了FFCNN和MFCNN两种模型。
![]() | 表2 单个图像输入的CNN模型结果 Table 2 Results of CNN model with single image input |
FFCNN是GASF、 GADF、 MTF和RP四种图像在训练前互相两两进行通道融合获得6种组合方法, 对这些数据按前面所说的操作进行模型训练和测试, 将其训练结果和对应单一图片输入的结果显示在图3中。 通过该结果我们可以看到FFCNN模型在融合数据之后并没有对模型有进一步的提升, 反而有所下降, 因此可以推断由于不同图片包含许多不同的信息, 并且也夹杂了不同的噪声, 导致前端的通道融合并没有因信息的增多使模型训练效果更好, 反而引入了多余的噪声以及不必要的复杂性, 导致模型训练效果变差。 所以在FFCNN模型中我们就不去进一步讨论更多图像例如三个图像融合的结果。
MFCNN是GASF、 GADF、 MTF和RP四种图像各自经过卷积层以及池化层进行特征提取后, 将它们的特征相互沿一个维度拼接成一个一维特征, 最后再进行多层全连接层实现分类。 利用两两融合的方式可以获取6种融合下的模型结果, 分别对每种情况下的MFCNN模型进行训练和测试, 将其训练结果和对应单一图片输入的结果显示在图4中。 从结果可以看出MFCNN模型对数据特征更为敏感, 因为中端融合通过卷积和池化操作提取每个数据集的深层特征, 提供了对数据集特征的更细致的组合能力。 这种灵活性可能使模型在适当的融合策略下表现出更优的性能, 因此MFCNN模型有着最好的预测效果的模型, 就是GASF和GADF中端融合的模型, 测试集AUC值达到了94.74%。 但同时因为不同数据集的特征分布、 特征尺度等信息不够一致, 可能导致特征冲突或冗余信息堆积, 从而降低模型性能, 因此MFCNN模型有着最差的预测效果的模型。 而且通过结果可以发现在其他图像与MTF进行融合的时候, 模型都会相比融合前效果更差, 因此在这些图像中MTF与其他图像可能存在特征冲突等关系, 从而导致MTF与其他图像融合模型效果变差, 所以在后续更多图像融合时就不考虑把MTF融合进去。
此外, 由于RP图像作为单一输入时模型的预测效果就很好, 因此可以发现RP与GASF和GADF中端融合时模型也会有较好的预测效果, 它们的测试集AUC值分别为93.75%和94.15%。 所以尝试利用GASF、 GADF和RP三种图像一起进行中端融合, 该模型的结果显示在表3中。 通过结果可以看出, 并非是融合的图像越多模型效果就会越好。 其中将三者一同融合的模型测试集AUC值是93.58%, 而它们两两融合的模型测试集AUC值分别为94.74%、 93.75%、 94.15%, 都比三者一同融合的模型要好。 造成这种结果可能是因为过多的特征融合可能引入冗余信息和噪声, 同时使得模型更加复杂, 反而对模型的性能造成负面影响。 每个特征提取器都有可能提取到一些不相关的信息, 这些不相关的信息在融合时会干扰模型的学习过程, 使得模型难以提取到真正有用的特征。
![]() | 表3 MFCNN模型不同融合结果 Table 3 Different fusion results of MFCNN model |
在之前的研究中, 我们利用了主成分分析(principal components analysis, PCA)和线性判别分析(linear discriminant analysis, LDA)降维方法对数据进行处理, 再利用合成少数过采样技术(synthetic minority over-sampling technique, SMOTE)解决数据不平衡问题, 最后利用SVM、 RF以及XGBoost三种机器学习模型进行预测, 模型的训练和测试的具体结果如表4所示。 根据对比的数据结果可以看出尽管MFCNN模型的训练集AUC值低于RF和XGBoost模型, 但是它在测试集上的表现更好, 说明它具有更好的泛化能力, 对新数据的预测能力最强, 因此对比分析下来MFCNN模型的预测效果最好。
![]() | 表4 与其他研究模型结果的比较 Table 4 Comparison of results with previous studies |
提出了一种基于太赫兹时域光谱和卷积神经网络特征融合的脑胶质瘤EGFR扩增状态的预测模型。 利用GASF、 GADF、 MTF和RP四种方法将一维的太赫兹时域光谱数据转换成二维图像, 并且分别探讨了单一图像、 前端融合以及中端融合的多种情况下预测模型的结果。 从结果中可以看出, FFCNN比起单一图像输入的模型预测效果略有降低, 而MFCNN模型在两两融合时预测效果有较明显的提升。 其中GADF与GASF的MFCNN模型预测效果最好, 训练集的AUC值为96.63%, 测试集的AUC值为94.74%。 相较于一维太赫兹时域光谱数据进行机器学习, 二维光谱图像在卷积神经网络中训练模型有着更好的预测效果。 综上所述, 将太赫兹时域光谱数据转化为二维图像并利用卷积神经网络特征融合搭建的预测模型能够实现EGFR扩增状态的实时快速预测, 为研究太赫兹时域光谱在脑胶质瘤中进行分子病理学分类提供了新的思路, 对术中及时调整手术策略以及尽早制定术后辅助治疗方案具有重要意义。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|