作者简介: 朱一峰, 1979年生, 长春理工大学电子信息工程学院副教授 e-mail: zhuyifeng@cust.edu.cn
鼻咽癌是一种多发于鼻咽腔顶部和侧壁的恶性肿瘤, 我国南方地区较为高发, 早期治疗对提高患者生存率至关重要。 由于其发病位置隐蔽, 早期症状类似于鼻部炎症性疾病, 容易被忽视, 被发现时往往已经处于中晚期。 近年来, 太赫兹技术因其具有低能量、 强穿透和指纹谱等特性, 在生物医学癌症检测领域备受关注。 以鼻咽癌组织和鼻咽炎组织为研究对象, 初步探索太赫兹光谱技术在鉴别鼻咽癌与鼻咽炎症方面的应用。 采用太赫兹时域光谱系统采集鼻咽组织在0.6~5.0 THz范围内的光谱, 通过参数提取到其吸收光谱, 基于光谱数据分析对比鼻咽癌组织与鼻咽炎组织的频谱特征, 结合病理学苏木精-伊红(H&E)染色结果图分析两种鼻咽组织的光谱差异来源。 采用主成分分析(PCA), 对实验采集到的原始功率谱数据进行降维和特征提取, 获得样品在第一、 二、 三主成分构成的三维坐标空间中的散点图。 基于该散点图的分析, 可以观察到鼻咽癌组织与鼻咽炎组织在特征空间中的显著区分。 结果表明, 在1.3~3.4 THz内, 鼻咽癌组织对太赫兹波的吸收明显高于鼻咽炎组织, 2.7 THz是鉴别鼻咽癌组织与鼻咽炎组织的最佳潜在诊断频率。 通过主成分分析进一步降维处理, 前4个主成分的累计方差贡献率达到了87.45%, 对两组鼻咽组织样品具有良好的聚类作用, 主成分散点图可以明显区分鼻咽癌组织与鼻咽炎组织。 结合K-最近邻算法(KNN)和支持向量机(SVM)构建分类模型, 实现了对两种鼻咽组织太赫兹光谱的鉴别分类。 相比KNN算法, SVM分类模型的平均分类准确率达到92%。 本研究初步验证了太赫兹光谱技术用于鉴别鼻咽癌与鼻咽炎症的有效性, 为进一步探讨其临床价值奠定了基础。
Early treatment is essential to improve the survival rate of patients. However, due to its hidden location and early symptoms similar to nasal inflammatory diseases, it is easy to ignore, and it is often found in the middle and late stages. In recent years, terahertz technology has attracted much attention in biomedical cancer detection due to its low energy, strong penetration, and fingerprint spectrum characteristics. In this study, nasopharyngeal carcinoma (NPC) and nasopharyngitis tissues were taken as the research objects to explore the application value of terahertz spectroscopy in the differential diagnosis of nasopharyngeal carcinoma and nasopharyngitis. The terahertz time-domain spectroscopy system was used to collect the spectrum of nasopharyngeal tissues in the range of 0.6~5.0 THz, and the absorption spectrum was obtained by parameter extraction. Based on the spectral data, the spectral characteristics of NPC and nasopharyngitis tissues were analyzed and compared. The spectral difference source between the two nasopharyngeal tissues was combined with the pathological H&E staining results. Through the application of the principal component analysis (PCA) method, the original power spectrum data collected in experiments were reduced. The features were extracted, and the scatter plot of samples in the three-dimensional coordinate space composed of the first, second, and third principal components was obtained. Based on the analysis of this scatter plot, a significant differentiation between NPC tissues and nasopharyngitis tissues in the feature space can be observed. The results show that the absorption of terahertz wave in NPC tissue is significantly higher than that in nasopharyngitis tissue in the range of 1.3 to 3.4 THz, and 2.7 THz is the best potential diagnostic frequency to distinguish NPC tissue from nasopharyngitis tissue. After further dimensionality reduction by principal component analysis, the cumulative variance contribution rate of the first four principal components reached 87.45%, which had a good clustering effect on the two groups of nasopharyngeal tissue samples. The principal component plot can clearly distinguishNPCtissue and nasopharyngitis tissue. K-nearest neighbor (KNN) algorithm and support vector machine (SVM) were combined to construct a classification model to realize the discrimination and classification of the two kinds of nasopharyngeal tissue THz spectra. Compared with the KNN algorithm, the accuracy of SVM classification model has an average classification reaches 92%. This study preliminarily verifies the effectiveness of THz spectra used to identify nasopharyngeal carcinoma from nasopharyngitis, which lays a foundation for further exploring their clinical value.
鼻咽癌(nasopharyngeal carcinoma, NPC)是一种源自鼻咽上皮的恶性肿瘤, 在东南亚地区及我国南方尤为高发[1]。 放射治疗是鼻咽癌的重要治疗手段之一, 随着放疗技术的不断提高, 早期鼻咽癌的5年总生存率已达到90%[2]。 由于鼻咽癌的发病部位特殊, 其早期症状与鼻部炎症性疾病相似, 如鼻塞、 听力下降、 涕血等, 导致部分患者初次赴诊时已处于中晚期, 这是鼻咽癌患者生存率较低的主要原因之一。 鼻咽慢性炎症与早期鼻咽癌在临床和影像上的表现相似, 对二者的鉴别诊断仍非常困难, 可能需要多次活检甚至手术切除来确诊[3], 给患者带来了额外的创伤和痛苦。 探索一种快速无损有效的鉴别诊断方法具有重要意义。
太赫兹波(Terahertz, THz)是频率在0.1~10 THz(波长为3 000~30 μ m)范围内的电磁波。 该波段处于宏观电子学向微观光子学过渡的特殊区域, 具有重要的学术和应用价值[5]。 太赫兹波的光子能量大约只有X射线的1/106, 不会引起原子或分子的离解或电离, 非常适用于针对人体或其他生物样品的活体检测。 该技术具有指纹谱特性, 能够检测到大多数有机分子, 包括蛋白质等生物大分子的旋转振动频率。 这些生物分子在太赫兹波段表现出特定的吸收和共振现象, 从而生成具有生物特异性的太赫兹特征光谱。 这种特征光谱信息对于生物化学物质的结构识别非常敏感与准确[6]。 近年来, 太赫兹技术因其低能量、 强穿透和指纹谱等特性, 在医学领域中备受关注, 已在皮肤、 胃、 口腔等[7, 8, 9]多种组织及病变检测研究中取得一定的进展。 而将太赫兹时域光谱技术应用于鼻咽癌早期诊断上的研究鲜有报道。
本工作基于太赫兹时域光谱系统, 对鼻咽癌组织和鼻咽炎组织两种石蜡样品进行光谱检测研究, 通过主成分分析对检测结果进行数据降维和特征提取, 基于太赫兹功率谱数据, 采用支持向量机和k-最近邻算法对两种鼻咽组织进行自动分类识别。 结果表明, 鼻咽癌组织与鼻咽炎组织的太赫兹光谱存在明显差异。
实验采用日本Advantest公司的TAS7500SU太赫兹时域光谱仪系统, 系统分辨率为7.6 GHz, 工作频率范围为0.5~7 THz, 峰值动态范围大于70 dB, 重复频率为50 MHz, 脉冲宽度为50 fs, 探测光斑直径约为2 mm。 由于仪器自身的噪声及组织样品的影响, 实验测量有效频谱范围为0.6~5 THz。 为了减小环境因素对实验结果的影响, 在实验中, 光谱仪系统被通入干燥空气, 以减小空气中水分对信号的影响, 样品室环境参数为: 湿度3%, 温度21 ℃。 实验时持续监测系统温度和湿度, 如果发现温度有较大的波动或湿度上升, 立即停止实验, 并进行相应的调整, 确保实验环境始终保持稳定, 以获得更准确的结果。 图1为太赫兹设备的原理, 采用脉冲太赫兹波进行光谱检测的装置。 飞秒激光脉冲经过分束镜被分成泵浦光与探测光, 泵浦光通过光整流效应激发出太赫兹波, 太赫兹波透过样品后与探测光聚焦到探测晶体, 再通过相干探测原理得到样品的时域光谱。
为了尽可能减少变量, 提高检测质量的稳定性和可重复性, 本研究采用经福尔马林溶液固定、 酒精脱水、 石蜡包埋后的样品, 以减少水分对实验结果的影响。 样品取自广州中医药大学附属中山中医院病理科的18例鼻咽样品, 包括9例早期鼻咽癌(Ⅰ — Ⅱ 期)组织石蜡样品(鼻咽癌组)和9例鼻咽炎组织石蜡包埋样品(鼻咽炎组), 所有组织样品均在病理学上得到证实, 石蜡样品厚度约1.8 mm。
所有测量均采用图1所示原理的太赫兹时域光谱仪系统(THz-TDS)系统进行。 将石蜡样品固定在THz-TDS系统的样品室的标本台上, 每个组织样品分别取3个点位, 每个点位测量4次, 通过计算获得一组平均光谱数据, 最终得到54组数据。
探测光束与泵浦光束之间的光强差与太赫兹电场强度成正比。 因此根据测量样品的透射太赫兹电场脉冲, 可以推导出结鼻咽组织的太赫兹光学性质。 参考信号通过在没有样品的情况下聚焦光束实现。 样品吸收系数通过对太赫兹时间信号进行快速傅里叶变换计算, 可通过式(1)和式(2)求得[10]。
式中, ω 为角频率; c为光的真空速度; φ (ω )是样品与参考信号的相差; d为样品厚度; κ (ω )是消光系数; A(ω )表示采样信号与参考信号之比的相位; n(ω )为样品的折射率; α (ω )为样品的吸收系数。
获得太赫兹光谱除包含其自身的物理化学信息外, 还夹杂其他干扰信息, 因此在使用化学计量学方法建模前, 需要对原始光谱进行预处理, 本工作采用Savitzky-Golay滤波对功率谱进行平滑去噪。
通过1.3方法对实验样品进行数据采集, 得到鼻咽癌与鼻咽炎组织样品的太赫兹时域光谱数据, 如图2所示。 两种组织样品的太赫兹光谱有不同的延迟和振幅。 太赫兹脉冲穿过被测物体时的波速与光程因各样品折射率的不同而不同, 因此各种样品出现主峰的时间不相同。 在太赫兹时域光谱中, 鼻咽组织石蜡样品的峰值均小于参考曲线, 说明鼻咽组织石蜡样品在一定程度上吸收了太赫兹波; 鼻咽癌组织的时域信号强度明显低于鼻咽炎症组织的时域信号, 时域延迟大于鼻咽炎症组织。 图3为两种鼻咽样品的功率随频率的变化趋势, 可以看出在1.3~3.4 THz内, 鼻咽癌组织对太赫兹波的吸收明显高于鼻咽炎组织。 根据图2和图3, 可以观察到太赫兹脉冲在鼻咽癌组织和鼻咽炎组织中能量的消耗存在差异, 两种鼻咽组织样品的振幅出现了不同程度的衰减。 证明采用太赫兹时域光谱技术鉴别早期鼻咽癌与鼻咽炎的可行性。
![]() | 图3 鼻咽组织的太赫兹频域平均功率谱($\bar{x}± s$)Fig.3 Terahertz frequency-domain spectra of nasopharyngeal tissue ($\bar{x}± s$) |
将样品的太赫兹时域光谱数据代入计算式(1)和式(2)中, 得到鼻咽组织的太赫兹吸收系数谱, 如图4所示。 在0.5~5 THz内, 鼻咽癌吸收系数整体随频率呈上升趋势, 而鼻咽炎组织的吸收系数变化相对平缓, 鼻咽癌组织吸收系数整体大于鼻咽炎组织的吸收系数。
![]() | 图4 鼻咽组织的太赫兹频域吸收系数谱($\bar{x}± s$)Fig.4 Terahertz frequency domain absorption coefficient spectrum of nasopharyngeal tissue ($\bar{x}± s$) |
为找到鼻咽癌与鼻咽炎的吸收系数差异最显著的频带, 将0.5~5 THz有效频段分为0.5~1.0、 1.0~1.5、 1.5~2.0、 2.0~2.5、 2.5~3.0、 3.0~3.5、 3.5~4.0、 4.0~4.5和4.5~5.0 THz这9个频段, 基于上述太赫兹吸收系数分布数据, 采用t检验分析鼻咽炎组织与鼻咽癌组织吸收系数的平均值± 标准偏差(x), 结果如表1和图5所示。 在0.5~5 THz频段内, 鼻咽癌组织吸收系数的增加明显高于鼻咽炎组织。 差异有统计学意义(p< 0.001), 差异在2.5~3.0 THz区域最为明显。
![]() | 表1 鼻咽组织在不同太赫兹频域的吸收系数($\bar{x}± s$) Table 1 Absorption coefficients of nasopharyngeal tissue in different terahertz zones ($\bar{x}± s$) |
![]() | 图5 鼻咽组织不同太赫兹频域吸收系数的比较 (* * * p< 0.001, t-test)Fig.5 Comparison of absorption coefficients of nasopharyngeal tissues in different terahertz zones (* * * p< 0.001, t-test) |
根据上述鼻咽组织每个频段的吸收系数差异结果进一步分析, 探究在2.5~3.0 THz区域诊断鼻咽癌的最佳潜在太赫兹频率, 结果如表2和图6所示。 鼻咽炎组织与鼻咽癌组织在2.5、 2.6、 2.7、 2.8和2.9 THz频段的组织吸收系数差异有统计学意义(p< 0.001), 在2.7 THz时两种组织吸收系数差异最大。 因此2.7 THz是鉴别诊断鼻咽癌组织与鼻咽炎组织的最佳潜在诊断频率。
![]() | 表2 鼻咽组织在不同太赫兹频段的吸收系数($\bar{x}± s$) Table 2 Absorption coefficients of nasopharyngeal tissue in different terahertz bands($\bar{x}± s$) |
有研究表明, 脱水后的石蜡肿瘤组织在形态和特征标志物(如核酸、 蛋白质)的变化, 是采用太赫兹波检测癌症组织的关键因素[11]。 为了深入研究影响鼻咽癌组织和鼻咽炎组织光谱差异的因素, 对两种组织样本进行了病理学苏木精-伊红(H& E)染色。 图7(a, b)结果显示, 在鼻咽癌组织中, 细胞排列呈现高度不规则的特征, 而与之相比, 鼻咽炎组织的细胞排列相对有序。 鼻咽癌组织中的细胞形态和大小变化明显, 主要是由癌细胞异常增殖和分化所引起[12, 13]。 特别是基于氨基酸在癌变组织中的特征表现[14], 位于2.7 THz的吸收峰可能与苯丙氨酸和酪氨酸含量的变化紧密相关。 正是这些差异致使它们在电磁波谱上表现出独特的特征, 构成了太赫兹技术用于鼻咽癌诊断的基础。
由于系统误差、 测量误差等因素, 鼻咽癌组织和鼻咽炎组织的太赫兹光谱部分区域存在相互重叠, 对鼻咽组织的分类识别造成了一定的困难。 本研究采用基于主成分分析(principal component analysis, PCA)和k-最近邻算法(k-nearest neighbor, KNN)与支持向量机(support vector machine, SVM)相结合的算法对鼻咽组织的太赫兹功率谱进行识别与分类[14, 15, 16]。
主成分分析中, 新变量的方差贡献率及原变量与新变量之间的线性变换系数是重要的评估指标。 通过对总方差的分析, 可以得知部分主成分对总方差的贡献率[17]。 前4个新变量的累计方差贡献率为87.45%, 超过了85%的阈值(表3)。 这四个主成分可以很好地反映出原始光谱数据的特征。
![]() | 表3 部分主成分的特征值和贡献率 Table 3 Eigenvalues and contribution rates of partial principal components |
通过将样品数据映射到主成分空间, 实现数据的可视化来观察两种鼻咽组织的光谱特性。 鼻咽癌组织样品和鼻咽组织样品数据在经过PCA降维后的前三维坐标系中的散点分布如图8所示。 C1— C27号样品是鼻咽癌组织, I1— I27号样品是鼻咽炎组织, PC1代表第一主成分, PC2代表第二主成分, PC3代表第三主成分。 针对54组样品数据, 主成分分析方法能够有效地将这两种组织样品的相似特性聚集, 并将它们以可区分的方式呈现出来, 进一步表明了鼻咽癌与鼻咽炎组织太赫兹光谱的差异。
![]() | 图8 鼻咽组织样品数据在经过PCA降维后的前三维坐标系中的散点分布图Fig.8 PCA-based scatter plot of nasopharyngeal tissue samples in a three-dimensional coordinate system |
采用k-最近邻(KNN)和支持向量机(SVM)两种分类算法对鼻咽癌组织与鼻咽炎组织的太赫兹光谱进行了分类识别。 考虑到所用的鼻咽样品数量较少, 采用交叉验证方法来评估所选分类模型的性能, 并将太赫兹光谱数据随机分成了训练集和测试集, 比例为3:1, 分别训练了基于太赫兹光谱的KNN分类模型和SVM分类模型。 为防止在模型训练过程中出现过拟合, 在多次测试后, 将KNN算法中参数k值设置为3, 采用曼哈顿距离判别样本之间的距离。 对于SVM分类模型, 采用高斯函数作为核函数, 以有效解决光谱数据线性不可分的问题。
通过分类模型进行多次测试, 得到了模型分类过程中的最高准确率、 最低准确率以及平均准确率(表4)。 由表4发现这两种分类模型都表现出较高的分类准确率和稳定性。 表明太赫兹光谱数据可以作为一种有效的方法来区分鼻咽癌组织和鼻咽炎组织。 同时观察到, 相比于KNN算法, SVM分类模型的分类准确率约为92%, 具有更好的识别能力和泛化能力。 可能是由于SVM算法采用高斯函数作为核函数, 对于非线性问题具有更好的适应性和泛化能力。 相比于EBV-DNA区分鼻咽癌和慢性鼻咽炎的准确性为89.308%, 有所提高[18]。
![]() | 表4 鼻咽组织分类模型结果对比 Table 4 Comparison of nasopharyngeal tissue classification results |
采用太赫兹时域光谱技术对鼻咽癌组织与鼻咽炎组织进行光谱检测, 通过光谱分析发现在1.3~3.4 THz范围内, 鼻咽癌组织的频谱强度始终低于鼻咽炎组织, 2.7 THz是鉴别诊断鼻咽癌组织与鼻咽炎组织的最佳潜在诊断频率。 进一步采用主成分分析对太赫兹功率谱进行降维处理和特征提取, 并结合KNN和SVM分类模型实现了对鼻咽组织太赫兹光谱的自动识别分类。 相比于KNN算法, SVM分类模型的平均分类准确率达92%。 本研究初步探索了鼻咽癌组织和鼻咽炎组织的太赫兹光谱差异, 为后续研究奠定了实验基础, 有望为鼻咽癌的早期检测和治疗提供新的非侵入性方法, 对临床实践和患者健康有积极影响。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|