基于谱聚类与单细胞拉曼光谱的细胞生长分析方法研究
李新立1, 丛丽丽2, 徐抒平2, 李肃义1,*
1.吉林大学仪器科学与电气工程学院, 吉林 长春 130061
2.吉林大学化学学院超分子结构与材料国家重点实验室, 吉林 长春 130012
*通讯作者 e-mail: lsy@jlu.edu.cn

作者简介: 李新立, 1989年生, 吉林大学仪器科学与电气工程学院博士研究生 e-mail: lixinli2017@126.com

摘要

单细胞拉曼光谱(SCRS)技术具有快速、 灵敏和无标记的优势, 可以从单细胞水平上研究细胞结构, 本文为实时监测单细胞微生物生长代谢变化, 提出了基于谱聚类和SCRS的细胞生长检测方法, 并采集600个同步培养的发酵工程菌-大肠杆菌SCRS数据作为实验数据, 采集300个发酵益生菌-枯草芽孢杆菌SCRS数据验证方法适用性。 首先, 对同步培养的菌落测量OD600生长曲线作为微生物群体水平上生长时期标签; 其次, 应用t-SNE对群体细胞SCRS数据进行可视化分析, 指导谱聚类对高维SCRS数据聚类分析, 并应用轮廓系数和CH index评估最佳聚类簇, 赋予每个SCRS数据簇标签; 最后, 应用三次样条插值拟合统计SCRS数据簇标签和生长时期标签交集, 精准识别群体中共存的生长时期异质数据, 实现对单细胞微生物生长时期精准鉴定。 结果表明, 基于谱聚类与SCRS的细胞生长分析方法根据同步培养的群体细胞生长曲线, 设置2维嵌入空间维度和基于最近邻的谱聚类相似度计算方法, 有效检测三个生长时期最佳聚类簇中9%和4.3%异质数据。 提出的无监督检测单细胞生长的方法, 借助谱聚类无需标记就可以直接根据SCRS数据特征进行建模, 并能够对任意形状的高维SCRS数据聚类且快速收敛的优势, 实现了对两种发酵工程菌和发酵益生菌细胞滞后期、 对数期和稳定期的精准识别, 真正意义上实现从单细胞水平上检测细胞生长, 为发酵工程提供更加精准、 实时的调控指导, 具有重要的工程应用价值。

关键词: 谱聚类; 单细胞拉曼光谱; 细胞生长; 发酵工程
中图分类号:O657.37 文献标志码:A
Cell Growth Analysis Method Based on Spectral Clustering and Single-Cell Raman Spectroscopy
LI Xin-li1, CONG Li-li2, XU Shu-ping2, LI Su-yi1,*
1. College of Instrumentation and Electrical Engineering, Jilin University, Changchun 130061, China
2. State Key Laboratory of Supramolecular Structure and Materials, College of Chemistry, Jilin University, Changchun 130012, China
*Corresponding author
Abstract

Single-cell Raman spectroscopy (SCRS) technology has the advantages of being rapid, sensitive, and label-free to study cell structure at the single-cell level. A cell growth detection method based on Spectral Clustering and SCRS was proposed in this paper. SCRS data of 600 synchronous culture fermentation-engineered bacteria E. Coli were collected as experimental data, and SCRS data of 300 fermentation-probiotic bacteria-Bacillus subtilis, were collected to verify the method's applicability. Firstly, the growth curve of OD600 was measured for the synchronously cultured colonies as growth period labels at the microbial population level. Secondly, t-SNE was applied to visualize the SCRS data of the population cells, guiding Spectral Clustering to cluster the high-dimensional SCRS data. Silhouette Coefficient and CH index were applied to evaluate the best clusters and assign labels to each SCRS data cluster. Finally, the intersection of SCRS data cluster labels and growth period labels was fitted by cubic spline interpolation to accurately identify the heterogeneous growth period data co-existing in the population and achieve accurate identification of growth periods of single-celled microorganisms. The results showed that the cell growth analysis method based on spectral clustering and SCRS could effectively detect 9% and 4.3% heterogeneous data of the optimal clusters in the three growth periods by using a 2-dimensional embedding space dimension and nearest neighbor-based spectral clustering similarity calculation method according to the cell growth curve of synchronous culture population. The study proposed a method of unsupervised detection of single-cell growth, with the help of spectral clustering without tags, can directly according to the features of SCRS data modeling, and can be of the arbitrary shape of high-dimensional SCRS data clustering and the advantages of fast convergence, realized with two kinds of fermentation engineering bacteria and probiotic fermentation cells lag, the accuracy of logarithmic phase and stable phase identification. In a real sense, it can detect cell growth from the single cell level and provide more accurate and real-time control guidance for fermentation engineering, which has important engineering application value.

Keyword: Spectral Clustering; Single-cell Raman spectroscopy; Cell growth; Fermentation engineering
引言

单细胞微生物生长时期可分为滞后期(lag phase)、 对数期(log phase)、 稳定期(stationary phase)和衰亡期(apoptosis phase)4个时期[1], 在不同的生长时期表现出不同的代谢和生产能力, 由于细胞的异质性, 导致了微生物菌落中不同生长时期的细胞共存[2, 3], 传统群体水平上的细胞生长代谢研究, 得到的是系统平均值, 掩盖了每个细胞的独特性。 在单细胞水平上观测细胞生长是非常重要的, 在发酵工程中, 单细胞的生理状态是决定发酵产品产量的唯一因素[4, 5], 发酵环境随着底物消耗和产物合成不断变化, 导致不同生长时期的发酵细胞代谢不同, 产量也不同[6, 7]。 随着发酵原料成本的增加和环保意识的增强, 对发酵过程的精准控制要求越来越高, 从单细胞水平上检测发酵细胞生长时期, 并进行特定干预措施改造发酵环境, 可以使发酵细胞处于最佳的生长和生产状态。 准确检测单细胞所处生长时期, 可为发酵工程获得最佳产量提供更加精准、 实时的调控指导[8]

单细胞拉曼光谱(single-cell Raman spectroscopy, SCRS)是细胞的指纹图谱, 蕴含着细胞在特定生长状态下丰富的表型信息, SCRS技术以快速、 灵敏和无标记的优势可以实时监测单细胞的生长代谢变化。 以监督学习为代表的模式识别技术通过对SCRS数据学习并生成经验模型[9], 可以指导细胞生长时期鉴定, 已有研究人员应用随机森林算法[10]实现了群体水平上的细胞生长检测, 相较于监督学习, 无监督学习只需要定义相似度计算方法就可以直接根据SCRS数据特征结构进行建模, 就能从单细胞尺度上实时监测细胞生长代谢变化。

本文提出基于谱聚类与SCRS的细胞生长分析方法, 首先, 采集同步培养下不同生长时间的微生物SCRS数据, 对应培养时间的OD600生长曲线作为微生物群体水平生长时期标签; 其次, 应用t分布随机邻居嵌入(t-distributed stochastic neighbor embedding, t-SNE)对群体细胞SCRS数据进行可视化分析, 指导谱聚类对高维SCRS数据聚类分析, 并应用轮廓系数和CH系数(calinski-harabasz index, CH index)评估最佳聚类簇, 赋予每个SCRS数据簇标签; 最后, 应用三次样条插值拟合统计SCRS数据簇标签和生长时期标签交集, 精准识别群体中共存的生长时期异质数据, 实现对单细胞微生物生长时期精准鉴定。

1 实验部分
1.1 SCRS数据采集

1.1.1 分光光度计检测和SCRS检测条件

在细胞培养实验中, 提取不同培养时间点各3 mL菌液, 应用紫外分光光度计检测, 检测条件为OD600, 记录细菌生长状态, 图1分别为实验组(大肠杆菌)和验证组(枯草芽孢杆菌)各3次重复测量同步培养的OD600生长曲线, 将其作为群体水平生长时期标签。 同时在各培养时间点提取1 μ L菌液, 应用HOOKE P300共聚焦拉曼光谱仪进行SCRS采集(由于微生物SCRS在600~1 800 cm-1波段具有明显的光谱模式, 往往作为其表型指纹区域, 故光谱仪主要参数设置为, 激发波长(excitation wavelength): 532 nm , 光栅(Grating): 1 200 g· mm-1, 激发功率(laser power): 3 mW, 积分时间(integration time): 8 s。 SCRS检测可以获取单个细胞生长过程的实时变化信息, 提供了用于生物分析的化学组成和结构信息的指纹图谱, 蕴含着细胞在特定生长状态下丰富的表型信息, 检测SCRS特征峰强变化是细胞生长定性、 定量检测的主要依据, 可以通过检测细胞代谢活跃的核酸(I785.5I1 047.5I1 097.2等)、 蛋白(I624.3I831.2I1 034等)、 脂质(I878I1 075)等[11]相关特征峰强度变化, 实时检测单细胞的生长代谢状态。 SCRS是进行单细胞活体生长检测的实用工具, 本文将SCRS技术和无监督聚类技术相结合, 为单细胞微生物生长检测研究提供新的检测方法。

图1 单细胞微生物同步培养与OD600生长曲线Fig.1 Simultaneous culture of single-cell microorganisms and OD600

1.1.2 微生物样品选择与同步培养

将常用的发酵工程菌-大肠杆菌进行同步培养实验, 以获取不同生长时期的单细胞样品, 作为模式生物突出的代表, 大肠杆菌具有繁殖迅速, 培养代谢易于控制的优势, 是目前生命科学研究最为公认的微生物材料[12, 13]。 准确检测发酵过程中工程菌生长状态, 是获取最佳发酵产量的前提。 为了验证本文方法的适用性, 同时选用了一种常用发酵益生菌-枯草芽孢杆菌作为细胞生长研究验证组样品。

大肠杆菌的培养基为LB(luria-bertani), 而枯草芽孢杆菌的培养基为牛肉膏蛋白胨, 分别在其对应的培养基进行同步培养, 记录细菌的培养时间。 根据图1不同培养时间OD600生长曲线, 确定培养2 h为滞后期, 该时期菌体增大, 代谢活跃, 合成并积累充足的酶和代谢产物; 3~4 h为对数期(验证组为3~5 h), 细菌在该时期生长迅速, 呈现指数生长趋势, 增代时间最少; 培养6 h(验证组为8 h)至14 h, 即进入稳定期, 随着培养时间延长, 未发现明显的凋亡期界限, 但这并不影响生长曲线的走向以及对单细胞生长时期的识别, 本文仅涉及细胞前三个时期检测。 应用SCRS检测条件分别从实验组和验证组提取的菌液采集SCRS数据, 实验组6个培养时间点共采集600个(6时间点× 100个/时间点)SCRS数据, 验证组6个培养时间点共采集300个(6时间点× 50个/时间点)SCRS数据。

1.2 SCRS数据预处理

SCRS数据预处理是准确鉴定细胞生长时期的前提, 通过拉曼光谱仪采集的SCRS数据包含大量的干扰信息, 如光谱仪噪声、 荧光背景等, 干扰信息使得检测模型的识别性能降低, 在数据分析之前, 需要对SCRS数据进行预处理。 本文应用HOOKE intP拉曼光谱分析软件对SCRS数据预处理, 包括: 应用基于Savitzky-Golay卷积平滑对SCRS数据进行滤波处理, 窗口宽度为7个光谱像素点, 采用三阶多项式拟合; 应用基于airPLS(自适应迭代重加权惩罚最小二乘)算法去除拉曼光谱背景信号, Lambda=15, 最大迭代次数ItermaxAirPls=12; 应用Min-Max对SCRS数据归一化处理。

1.3 检测模型

基于谱聚类与SCRS的细胞生长分析方法应用的主要技术包括: (1) 应用t-SNE对群体细胞SCRS数据进行可视化分析; (2)应用谱聚类对SCRS数据聚类分析; (3) 应用轮廓系数和CH index评估最佳聚类簇。

1.3.1 t-SNE

t-SNE[14]算法是一种适合于高维SCRS数据的非线性降维方法, 该方法首先将高维空间中任意两个光谱数据间的欧氏距离转换为相似概率, 其次用高维空间数据点与相应低维空间的模拟数据点之间的联合概率替换随机邻域嵌入算法中的条件概率, 并在低维空间中使用t分布, 有效解决低维空间中数据点拥挤的问题。 以二维可视化为例, t-SNE将SCRS指纹特征向具有最大投影信息量的二维平面上投影, 以高维空间相同概率分布的TSNE1和TSNE2特征分量均匀分布在平面中, 有效解决低维空间中数据点拥挤的问题, 用于直观显示不同培养时间单细胞分布效果, 指导无监督聚类分析。

1.3.2 谱聚类

谱聚类(spectral clustering)是一种基于两点间相似关系的无监督聚类算法[15], 首先对SCRS数据样本高维矩阵进行低维嵌入, 然后进行聚类。 其本质是将聚类问题转化为图的最优划分问题, 相较于其他传统聚类算法, 谱聚类能在任意形状的SCRS数据样本空间上聚类且易于收敛到全局最优, 并且通过构造稀疏相似性图谱, 使其对于高维SCRS数据集表现出更快的计算速度。 特别的, 相较于监督学习的分类算法, 谱聚类无需SCRS数据标签, 只需要定义相似度计算方法就可以直接根据SCRS数据特征进行建模, 能有效检测微生物群体中不同生长时期共存的单细胞信息。

1.3.3 聚类评估

聚类评估是对聚类方法产生结果的质量进行评估, 主要任务包括: 估计聚类趋势、 确定数据集划分簇数以及评估聚类质量, 应用轮廓系数和CH index两个维度来评估谱聚类在SCRS数据集划分最佳簇数和聚类质量。

(1) 轮廓系数(silhouette coefficient)是聚类效果好坏的一种评价方式[16], 它结合内聚度和分离度两种因素, 在SCRS数据上评价谱聚类对聚类结果所产生的影响, 式(1)是轮廓系数聚类得分计算原理

S(i)=B(i)-A(i)max{A(i), B(i)}(1)

式(1)中, A(i)为SCRS数据样本i到同簇其他样本的平均距离, B(i)为SCRS数据样本i到其他簇的所有样本的平均距离。

(2) CH index[17]也被称为方差比准则, 用来评价谱聚类在SCRS数据集上的聚类效果, 聚类质量由CH index得分表征, CH index得分通过计算簇间方差和簇内方差计算得到的, 式(2)是CH index得分计算原理

S=VBk-1/VWN-k(2)

式(2)中, k为谱聚类在SCRS数据集上聚类簇数, N为全部SCRS数据样本个数, VB是簇间方差, VW是簇内方差。

2 结果与讨论
2.1 SCRS数据处理和数据质量评估

本文应用HOOKE intP软件对实验组和验证组同步培养的SCRS数据进行批处理。 在实验组(大肠杆菌)中, 1、 2、 …、 14 h每个培养时间点各采集100个SCRS数据, 依据图1中OD600生长曲线分别将1和2 h、 3和4 h、 6和14 h采集的大肠杆菌SCRS数据对应到lag phase、 log phase和stationary phase三个生长时期标签, 每个生长时期200个数据。 用堆叠图(stacked lines by Y offsets)显示三个生长时期SCRS数据预处理效果, 如图2(a)所示, 分别以实线和阴影部分显示三个生长时期200个SCRS数据平均值和方差, 横坐标为拉曼位移(cm-1), 由于微生物生长过程中的异质性较为稳定, 表现出三个生长时期光谱具有较低的方差。 对三组大肠杆菌的SCRS数据做探索性数据分析(EDA), 分别用图2(b)密度图和图2(c)带抖动点的箱线图观测三组数据信噪比(SNR)分布情况, 其中lag phase 光谱信噪比均值和方差为4.97± 1.54, log phase光谱信噪比4.74± 1.17, stationary phase 光谱信噪比4.84± 1.21, 三个生长时期SCRS数据特征呈现较为稳定的均匀分布, 保证了预期检测结果不受SNR影响。

图2 大肠杆菌不同生长时期SCRS数据预处理效果
(a): 拉曼光谱堆叠图; (b): SNR的密度直方图; (c): 带有抖动点的箱线图
Fig.2 Results of SCRS data preprocessing for different growth periods of E. coli
(a): Stacked plot of Raman spectra; (b) Density histogram of SNR; (c): Boxplot with jittered points

2.2 基于谱聚类与SCRS的细胞生长检测

基于谱聚类与SCRS的细胞生长检测结果建立在1.3方法的基础上, 在t-SNE方法中, 嵌入空间维度(n_components)选择为2维, 谱聚类的相似度计算方法(affinity)选用最近邻算法, 聚类评估中聚类簇数(n_clusters)最大值为9簇。

2.2.1 实验组聚类和评估

对实验组600个(6个培养时间点各采集100个SCRS数据)大肠杆菌SCRS数据聚类分析, 首先, 将高维的SCRS数据应用t-SNE投影到二维平面, 见图3(a)中, 用不同形状、 颜色散点标记同步培养的1、 2、 3、 4、 6和14 h等6个生长时期标签的大肠杆菌群体细胞; 其次, 基于图3(a)的散点分布结果, 应用谱聚类对平面上SCRS数据进行聚类分析, 见图3(c)中, (c)左下折线图为应用轮廓系数(S_C)和CH index(C— H)对谱聚类在大肠杆菌SCRS数据集上划分的簇数和聚类质量的评估得分折线图, 发现当聚为3簇时达到最佳聚类效果, 沿着TSNE1和TSNE2坐标分布显示了3个清晰可分离的簇, 聚类中心(红色圆点)到簇内和其他聚类中心平均距离(从左到右): (13.86, 40.16), (14.16, 56.31), (13.98, 58.52); 最后, 应用三次样条插值拟合统计SCRS数据簇标签和OD600生长时期标签交集, 图3 (b)中有效识别60个异质SCRS数据, 占总SCRS数量的9%。

图3 应用谱聚类检测大肠杆菌细胞生长时期结果
(a): 实验组SCRS的散点分布; (b): 三次样条插值拟合效果; (c): SCRS的聚类和评估
Fig.3 Detection of E. coli cell growth period by spectral clustering
(a): Scatter distribution of SCRS in the experimental group; (b): Cubic spline interpolation fitting effect; (c): Clustering and Ewaluation of SCRS

2.2.2 验证组聚类和评估

用验证组的300个(6个培养时间点各采集50个SCRS数据)枯草芽孢杆菌SCRS数据验证方法适用性, 应用与实验组相同的预处理方法, 对三组枯草芽孢杆菌的SCRS数据做EDA分析, lag phase、 log phase和stationary phase光谱信噪比均值和方差分别为: 5.35± 0.67、 4.85± 0.77、 5.9± 1.01, 满足数据质量评估。 图4(a)为同步培养下1、 2、 3、 5、 8和14 h等6个时期枯草芽孢杆菌SCRS数据经t-SNE压缩后的平面分布; 图4 (c) 轮廓系数(S_C)和CH index(C— H)聚类评估得分显示, 不同生长时期的芽孢杆菌同样聚为3簇时达到最佳聚类效果, 各聚类中心到簇内和其他聚类中心平均距离(从左到右): (11.82, 34.23), (10.23, 51.47), (10.01, 48.09); 图4 (b)同样应用三次样条插值拟合统计SCRS数据簇标签和OD600生长时期标签交集, 检测出13个不同生长时期异质SCRS数据, 占总SCRS数量的4.3%。

图4 应用谱聚类检测枯草芽孢杆菌细胞生长时期结果
(a): 验证组SCRS的散点分布; (b): 三次样条插值拟合效果; (c): SCRS的聚类和评估
Fig.4 Detection of Bacillus subtilis cell growth period by spectral clustering
(a): Scatter distribution of SCRS invalidation group; (b): Cubic spline interpolation fitting effect; (c): Clustering and evaluation of SCRS

实验和验证结果表明, 基于谱聚类与SCRS的细胞生长分析方法只需要借助同步培养的群体细胞OD600生长曲线和给定相似度计算方法就可以直接根据SCRS数据特征进行建模, 能有效检测微生物群体中不同生长时期共存的单细胞信息, 真正意义上实现从单细胞尺度精准检测细胞生长时期。

3 结论

单细胞拉曼光谱技术以快速、 灵敏和无标记的优势可以实时监测单细胞的生长代谢变化, 以监督学习为代表的模式识别技术往往需要精准的监督标签, 然而由于细胞异质性, 同步培养的群体细胞OD600生长曲线无法作为每个单细胞生长时期标签。 本文将SCRS技术和无监督聚类技术相结合, 为单细胞微生物生长检测研究提供新的检测方法, 基于谱聚类无需标记就可以直接根据SCRS数据特征进行建模, 并能够对任意形状的高维SCRS数据聚类且快速收敛的优势, 对发酵工程菌和发酵益生菌细胞滞后期、 对数期和稳定期的精准识别, 实现了真正意义上从单细胞水平上检测细胞生长, 为发酵工程提供更加精准、 实时的调控指导, 具有重要的工程应用价值。

参考文献
[1] Mukherjee R, Verma T, Nand i D, et al. Journal of Biophotonics, 2020, 13(1): e201900233. [本文引用:1]
[2] Lemoine A, Delvigne F, Bockisch A, et al. Journal of Biotechnology, 2017, 251: 84. [本文引用:1]
[3] Martins B M C, Locke J C W. Current Opinion in Microbiology, 2015, 24: 104. [本文引用:1]
[4] Ren Y, Ji Y, Teng L, et al. Microbial Cell Factories, 2017, 16: 233. [本文引用:1]
[5] ZHOU Sheng-hu, MAO Yin, DENG Yu(周胜虎, 毛银, 邓禹). Food and Fermentation Industries(食品与发酵工业), 2020, 46(21): 277. [本文引用:1]
[6] Shen X, Wang J, Li C, et al. Current Opinion in Biotechnology, 2019, 59: 122. [本文引用:1]
[7] PAN Xiao-qian, ZHAO Yan, ZHANG Shun-liang, et al(潘晓倩, 赵燕, 张顺亮, ). Food Science(食品科学), 2016, 37(7): 93. [本文引用:1]
[8] Schie I W, Kiselev R, Krafft C, et al. Analyst, 2016, 141(23): 6387. [本文引用:1]
[9] Jordan M I, Mitchell T M. Science, 2015, 349(6245): 255. [本文引用:1]
[10] Croxatto A, Marcelpoil R, Orny C, et al. Biomedical Journal, 2017, 40(6): 317. [本文引用:1]
[11] Ishigaki M, Hashimoto K, Sato H, et al. Scientific Reports, 2017, 7: 43942. [本文引用:1]
[12] LIU Hai-chao, ZHANG Jian, WANG Gong-ming, et al(刘海超, 张健, 王共明, ). Science and Technology of Food Industry(食品工业科技), 2020, 41(13): 350. [本文引用:1]
[13] Couto M R, Rodrigues J L, Rodrigues L R. Journal of the Royal Society Interface, 2017, 14(133): 20170470. [本文引用:1]
[14] Zarzar M, Razak E, Htike Z Z, et al. Advanced Science Letters, 2015, 21(11): 3550. [本文引用:1]
[15] Zhao Y, Yuan Y, Wang Q. Remote Sensing, 2019, 11(4): 399. [本文引用:1]
[16] Ayton R L, Watters P, Dazeley R. Natural Language Engineering, 2013, 19(4): 517. [本文引用:1]
[17] Zhang W, Yue Z, Ye J, et al. Applied Optics, 2022, 61(3): 851. [本文引用:1]