超连续光谱细胞无损伤非侵入式检测技术的研究
王泓鹏2,3, 方沛沛1,6, 马焕臻1,6, 万雄1,2,3,*, 贾建军2,3,4,*, 何志平2,3,4,*, 凌宗成5
1.国科大杭州高等研究院生命与健康科学学院, 浙江 杭州 310024
2.中国科学院空间主动光电技术重点实验室, 上海 200083
3.中国科学院上海技术物理研究所, 上海 200083
4.上海量子科学研究中心, 上海 201315
5.山东大学(威海)空间科学与物理学院, 山东 威海 264209
6.中国科学院大学, 北京 100049
*通讯作者e-mail: wanxiong@mail.sitp.ac.cn; jjjun10@mail.sitp.ac.cn; hzping@mail.sitp.ac.cn

作者简介:王泓鹏, 1989年生, 中国科学院上海技术物理研究所工程师 e-mail: wanghongpeng813@163.com

摘要

中国在庞大的人口基数下拥有丰富的遗传资源, 这些资源可能被国外非法掠夺以获取利益, 非法掠夺的过程揭示可能存在一些安全隐患, 例如传染疾病的扩散等。 如何加强对中国公民遗传资源的保护, 促进国际间正常合法的信息共享和科研合作已成为生物安全的新问题。 为加强人体细胞及其制品等特殊生物物品出入境管理, 防止遗传资源流失和有害物品传入, 促进各个国家间医学科学研究及国际交流与合作, 提出一种非侵入、 快速安全的细胞光谱鉴别技术。 简述了细胞超连续光谱的物理化学机制, 讨论了细胞浓度对超连续光谱的影响, 实现了无损伤、 非侵入式探测提取生物细胞超连续特征光谱。 实验发现细胞超连续特征光谱主要集中在500~700 nm的可见区域。 实验中的细胞样本均为单独培养, 因此各个样本间互不影响, 不存在平行样本的问题; 实验对象为293T细胞、 HCC827细胞以及HT29细胞, 3类细胞的培养基均为PBS溶液, 每类细胞拥有3种浓度(5×105, 5×106和5×107 cells·mL-1)且每种浓度下独立培养3个样本, 一共获取27个独立细胞样本。 实验测试了24个细胞样本的超连续光谱并以此建立预测模型, 另有3个样本作为未知样本进行模型预判。 使用主成分分析法对测试样本的原始数据进行降维和聚类, 并对降维后的数据通过支持向量机回归法进行分类; 训练集的均方根误差RMSE=0.097 2, R2=0.995 1, 验证集的均方根误差为RMSE=0.097 2, R2=0.931 4。 研究发现细胞浓度影响超连续特征光谱的提取, 在建立模型时, 考虑到该技术应用的普适性以及实验样本浓度参数有限, 未考虑细胞浓度对预判模型识别率的影响。 后期若以某一浓度阈值作为细胞检测的浓度起点, 该模型的识别率将会更准确、 科学。 在可控的实验条件下, 超连续光谱可以应用于生物细胞无损伤、 非侵入式的鉴别。

关键词: 超连续光谱; 细胞; 无损伤检测; 生物安全
中图分类号:O657.3 文献标志码:A
Research on Nondestructive and Noninvasive Detection Technology of Cells Based on Supercontinuum Spectrum
WANG Hong-peng2,3, FANG Pei-pei1,6, MA Huan-zhen1,6, WAN Xiong1,2,3,*, JIA Jian-jun2,3,4,*, HE Zhi-ping2,3,4,*, LING Zong-cheng5
1. School of Life Science, Hangzhou Institute for Advanced Study, UCAS, Hangzhou 310024, China
2. Key Laboratory of Space Active Opto-Electronics Technology of the Chinese Academy of Sciences, Shanghai 200083, China
3. Shanghai Institute of Technical Physics of the Chinese Academy of Sciences, Shanghai 200083, China
4. Shanghai Research Center for Quantum Sciences, Shanghai 201315, China
5. School of Space Science and Physics, Shangdong University, Weihai, Weihai 264209, China
6. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding authors
Abstract

China has abundant genetic resources under the huge population base. Foreign countries may illegally plunder these resources to obtain benefits. There may be some security risks in the process of illegal plunder, such as the spread of infectious diseases. It has become a new problem of biosafety to strengthen the protection of Chinese citizens’ genetic resources and promote normal and legal international information sharing and scientific research cooperation. In order to strengthen the entry and exit management of human cells and their products, prevent the loss of genetic resources and the introduction of harmful substances, and promote medical scientific research and international exchange and cooperation among various countries, a non-invasive, fast and safe cell spectral identification technology is proposed. In this paper, the physicochemical mechanism of cell supercontinuum is described, the effect of cell concentration on the supercontinuum is discussed, and the non-invasive detection and extraction of the supercontinuum fingerprint spectrum of biological cells is realized. The experimental results show that the supercontinuum fingerprint spectrum of cells is mainly concentrated in the visible region of 500~700 nm. The cell samples in the experiment are all cultured separately, so there is no influence between the samples. The subjects of the experiment are 293T cells, HCC827 cells and HT29 cells. The medium of the three types of cells in PBS medium, each type of cell has three concentrations (5×105, 5×106, 5×107 cells·mL-1) and three samples are cultured independently under each concentration, a total of 27 samples are obtained individual cell samples. The supercontinuum spectra of 24 cell samples were tested and a prediction model was established. Another three samples were used as unknown samples for model prediction. The principal component analysis is used to reduce the dimension of the test samples’ original data, and the reduced dimension data are classified by support vector machine regression. The root mean square error of the training set is 0.097 2, R2=0.995 1, and the root mean square error of the verification set is 0.097 2, R2=0.931 4. It is found that cell concentration affects the extraction of the supercontinuum fingerprint spectrum. In this paper, when building the model, considering the universality of the application of the technology and the limited concentration parameters of the experimental samples, the influence of cell concentration on the recognition rate of the prediction model is not considered. In the later stage, if a certain concentration threshold is taken as the concentration starting point of cell detection, the recognition rate of the model will be more accurate and scientific. Under controlled experimental conditions, supercontinuum spectroscopy can be applied to noninvasive and noninvasive identification of biological cells.

Keyword: Supercontinuum spectrum; Cell; Noninvasive detection; Biosafety
引言

近年来, 海关查获的非法生物样本走私案例与日俱增, 其中作为人类遗传资源的细胞在非法生物样本走私案例中占有较大比重。 细胞走私可能引发一些潜在的生物危害, 农业部国家质量监督检验检疫总局第1712号公告明确提出“ 细胞、 器官组织及其制品等生物材料” 禁止携带、 邮寄进境中华人民共和国。 人类遗传资源作为一种重要的战略资源, 在认识生命本质、 探索疾病发生发展等方面发挥着重要作用, 必须充分重视对人类遗传资源的有效保护和合理利用。 以目前检测的技术手段[1, 2]难以在短时间内对样本进行非侵入式的快速检测, 本研究工作以解决生物样本检测周期长, 以及开放式取样检测过程中存在健康安全隐患等问题为目的, 开展基于超连续光谱细胞无损伤非侵入式检测的研究。 2016年Cascio等利用间接免疫荧光(IIF)图像分析技术对HEp-2细胞进行了分类[3]。 2016年Rodriguez Luna提出了一种计算机化的视觉系统, 用于帮助诊断细胞, 该系统采用一种新颖的粒子识别算法, 提高了诊断过程中的特异性和速度[4]。 2017年杨静通过光纤共聚焦后散射显微光谱, 提出了一种基于PCA和BP神经网络相结合的细胞分类识别算法[5]。 课题组在人与动物血液非接触式识别技术中取得一定的研究成果, 为细胞的非接触式识别提供参考。 2010年Martin采用红外光谱的方法获取完整细胞的生物化学指纹[6]。 Anwer M Siddiqi通过实验研究证明高光谱成像技术(HSI)可有效增强癌症细胞学诊断, HSI可用于预筛并提高巴氏测试诊断效率, 最终降低宫颈癌的死亡率, 同时降低医疗保健成本[7]。 Kelp应用光谱细胞病理学(SCP)诊断技术将FTIR与多变量统计分析相结合, 实现检测细胞异常、 区分细胞类型和监测疾病[8]。 Ravi Shanker Verma利用在微流控通道中产生的光学引导装置, 在一条直线上产生单细胞流, 用于单细胞拉曼光谱分析[9]

1 实验部分
1.1 仪器与试剂

细胞样本由中国科学院上海生命科学研究院提供且等量的存放在冻存管中(每个样本单独培养互不影响), 3种细胞(293T细胞、 HCC827细胞和HT29细胞)均在PBS溶液中培养, 每种细胞分3个浓度梯度, 且每一梯度下单独培养3个样本, 具体信息如表1所示。 仪器设备为课题组研制的非侵入式超连续特征光谱仪, 包括超连续谱光源、 可见光谱仪以及积分球等部件组成, 装置示意图如图1所示。

表1 细胞试剂表 Table 1 Cells reagent table

图1 实验系统示意图Fig.1 Schematic diagram of the experimental system

1.2 方法

积分球有两个SMA905的光纤接口, 其中一个引入超连续谱激光, 另一个导出超连续光谱, 将摇匀的细胞置于积分球中, 采集此时的超连续光谱。 超连续谱激光功率为500 mW, 曝光时间为10 ms, 平均次数为2次, 光谱采集范围300~950 nm。

2 结果与讨论
2.1 细胞无损伤非侵入式超连续光谱检测

2.1.1 细胞超连续光谱的物理化学机制

培养基中摇匀的细胞存在布朗运动, 在超连续谱激光的激励下, 激光与细胞进行复杂的动态电学效应、 动态热效应等一系列物理化学反应, 同时由于细胞具有电阻、 电容的特性, 细胞间的相互作用产生宏观层面上的电磁热效应。 而这可能是激光引起细胞产生瞬时效应和弛豫生物响应的主要原因。

超连续谱激光与细胞相互作用的过程会产生各类线性及非线性光学效应, 表现为吸收-辐射-透射以及再吸收-再辐射-再透射等循环过程, 直至达到光谱的动态平衡。

生物细胞组成成分复杂, 不同物质的吸收和光化反应光谱带不同, 其中紫外波段(200~360 nm)主要的吸收体为蛋白质和DNA等, 可见波段(360~780 nm)主要的吸收体为氧化血红蛋白和黑色素, 近红外短波段(780~1 300 nm)为生物组织的低光学吸收窗口, 而2 000 nm以上的红外波段主要吸收体为水分。

2.1.2 细胞浓度对超连续光谱的影响

为便于理解, 将由细胞浓度变化而引起明显光谱差异的浓度临界值设为浓度阈值, 这种差异光谱称为超连续特征光谱。 如图2所示, 不同细胞超连续特征光谱的浓度阈值不同。 293T细胞的浓度阈值为5× 106 cells· mL-1, HCC827细胞的浓度阈值为5× 107 cells· mL-1, 而HT29细胞在5× 105~5× 107 cells· mL-1的浓度范围内超连续光谱未出现明显差异。 这些特征差异为我们研究细胞浓度、 活性、 种类等提供可能性。 细胞浓度对超连续特征光谱的影响主要表现为: 浓度低于阈值时, 浓度梯度变化对超连续光谱影响较小, 如图2(b)所示; 浓度高于阈值时, 超连续光谱也几乎不受浓度梯度变化的影响, 如图2(a)所示; 生物学中的饱和效应(底物浓度增加到一定浓度时, 酶促反应的速度不再受浓度的影响)与这种现象类似, 说明激光与细胞的相互作用时, 细胞中的酶可能以某种形式影响这种动态的反应过程。

图2 不同浓度PBS培养基中293T细胞(a)、 HCC827细胞(b)和HT29细胞(c)的超连续特征光谱Fig.2 Supercontinuum fingerprint spectra of 293T cells(a), HCC827 cells(b), and HT29 cells(c) in PBS medium with different concentrations

如图3所示, PBS溶液中不同细胞浓度阈值。 由于细胞的浓度梯度较大, 这里提出的浓度阈值仅为参考值(或理解为提供一种研究超连续特征光谱细胞浓度阈值的方法), 后期实验将控制细胞浓度变化的间隔, 确定更精准的细胞浓度阈值。

图3 PBS培养基中激发超连续谱的细胞浓度阈值Fig.3 The thresholds of cells concentration to excite the supercontinuum fingerprint spectrum in PBS medium

2.2 细胞无损伤非侵入式超连续光谱统计分析

2.2.1 基于多元统计算法的细胞超连续光谱预判模型建立

光谱预处理: 剔除冗余的光谱数据, 保留400~750 nm光谱数据。 采用主成分分析法[10, 11, 12](principal component analysis, PCA)结合支持向量机回归法[13, 14](support vector machine regression, SVMR), 对不同种类细胞进行分析处理。

由于光谱数据包含了大量的冗余信息, 需要对原始数据进行降维处理。 主成分分析法(PCA)是一种降维方法, 它是一种正交化线性变换, 将原始数据映射到新的坐标系中, 使数据在新坐标系中第一个坐标轴方向方差最大, 第二个坐标轴方向次之, 以此类推。 前N个坐标轴保留了原始数据的绝大部分信息, 通过舍弃末尾坐标轴的数据, 即可对原始数据进行压缩。

每种细胞取一份样本作为模型的测试集, 如表2所示。 其他24个细胞样本作为训练集, 建立模型。

表2 实际编号和测试编号 Table 2 Actual number and Test number

图4为24个细胞样本训练集的PCA得分三维散点图, 主成分1(PC1)、 主成分2(PC2)和主成分3(PC3)的贡献率分别为82%, 8%和6%, 由于超连续谱激光与活细胞相互作用是一系列复杂的物理化学过程, 因此实验采集的超连续光谱是多种光谱的综合光谱, 为避免重要光谱信息的丢失, 光谱预处理仅剔除冗余的光谱数据, 然后通过SVR对PC1, PC2和PC3进行分析并建立预测模型, 该模型训练结果如图5所示, 结果表明, 此模型可有效地对3种细胞样本进行分类。

图4 PCA三维散点图Fig.4 PCA 3D scatter

图5 预测与参考Fig.5 The predicted and reference

2.2.2 盲样测试

为进一步验证模型的准确度, 选择未参与模型训练的细胞样本(如表2所示)进行测试, 所有样本经过光谱预处理后进行主成分分析, 图6为细胞的PCA得分三维散点图, 根据散点图可知, Unknown sample 1与293T细胞聚合度较好, Unknown sample 2与HT29细胞聚合度较好, Unknown sample 3与HCC827细胞聚合度较好, 对降维后的数据进行SVR模型预测, 预测结果如图7所示, 预测结果与实际样本一致, 该预判模型对识别不同种类细胞具有很好的可靠性和准确性。

图6 PCA三维散点图Fig.6 PCA 3D scatter

图7 预测与参考Fig.7 The predicted and reference

3 结论

采用超连续光谱检测技术进行了细胞无损伤非侵入式检测, 在有限的样本量下建立预判数学模型, 并完成模型的测试验证, 结果未出现错误识别。 克服了无损伤非侵入式提取细胞特征光谱的技术难题, 可在短时间内获取大批量细胞样本的超连续光谱。 采用主成分分析法和支持向量机回归法对测试得到细胞超连续光谱进行数据降维和判别分析, 通过对24个细胞样本的超连续光谱的训练建立预判数学模型, 并以未参与训练的3个细胞样本作为盲测数据进行模型验证, 验证结果未出现错误识别。 同时, 研究发现细胞浓度影响超连续特征光谱的提取, 在建立模型时, 考虑到该技术应用的普适性以及实验样本浓度参数有限, 未考虑细胞浓度对预判模型识别率的影响。 后期若以某一浓度阈值作为细胞检测的浓度起点, 该模型的识别率将会更准确、 科学。

将无损伤非侵入式超连续光谱分析法和数理统计方法有机结合, 建立3种细胞的多元统计算法模型, 利用超连续光谱分析法高效快速无损伤非侵入式甄别细胞的方法在海关进出口检验检疫领域具有重要的研究意义和应用前景。

参考文献
[1] SI Fang, CAO Na, Deng-fei(司访, 曹娜, 吕登飞). Journal of Chifeng University·Natural Science Edition(赤峰学院学报·自然科学版), 2018, (7): 104. [本文引用:1]
[2] Zhang Linna, Sun Meixiu, WANG Zhennan, et al. Infrared Physics & Technology, 2017, 85: 32. [本文引用:1]
[3] Cascio D, Taormina V, Cipolla M, et al. Pattern Recognition Letters, 2016, 82: 56. [本文引用:1]
[4] Rodriguez Luna J C, Cooper J M, Neale S L. Automated Particle Identification Through Regression Analysis of Size, Shape and Colour. Proc SPIE, 2016, 9711: 97110R. [本文引用:1]
[5] YANG Jing, WANG Cheng, XIE Cheng-ying, et al(杨静, 王成, 谢成颖, ). Journal of Biomedical Engineering(生物医学工程学杂志), 2017, 34(2): 246. [本文引用:1]
[6] Martin F L, Kelly J G, Llabjani V, et al. Nature Protocols, 2010, 5(11): 1748. [本文引用:1]
[7] Siddiqi A M, Li H, Faruque F, et al. Cancer, 2008, 114(1): 13. [本文引用:1]
[8] Kelp G, Arju N, Lee A, et al. Analyst, 2019, 144: 1115. [本文引用:1]
[9] Verma R S, Ahlawat S, Uppal A. Analyst, 2018, 143: 2648. [本文引用:1]
[10] Cao L J, Chua K S, Chong W K, et al. Neurocomputing, 2003, 55(1-2): 321. [本文引用:1]
[11] Moon H, Phillips P J. Perception, 2001, 30(3): 303. [本文引用:1]
[12] Misra M, Yue H H, Qin S J, et al. Computers & Chemical Engineering, 2002, 26(9): 1281. [本文引用:1]
[13] WANG Ding-cheng, WANG Mao-hua(王定成, 汪懋华). Control and Decision(控制与决策), 2004, 19(9): 1067. [本文引用:1]
[14] Brereton R G, Lloyd G R. Analyst, 2010, 135(2): 230. [本文引用:1]