目前,常见的单细胞测序平台有Fluidigm C1(基于Smart-seq,低通量)、BD Rhapsody 和Chromium(10x Genomics),国产的单细胞平台也在不断推出,但10x和BD仍是主力军,占据着80%左右的国内科研市场。不过无论在什么平台中,得到测序结果后如何去使用不同的分析工具任然是至关重要的。那么今天分享一篇有关于总结单细胞测序高级分析的文章,这篇文章于今年2月份发表在对scRNA-seq常用的分析方法进行了比较全面的汇总,并比较了不同生信工具的优缺点以及适用条件。
经典的单细胞测序流程如图1所示,包括细胞悬浮液制备、细胞分离、细胞标记、文库制备、测序分析等。下面我们重点来看单细胞的数据处理和分析方法。
拿到单细胞测序数据之后,我们常做的分析有细胞周期评估、细胞聚类、识别差异表达基因、细胞轨迹推断和RNA速率分析、细胞通讯、基因变异信息、细胞系统发育和染色质可及性等,如图2所示。那么每种分析都有什么方法可以选择?每种方法的利弊又是什么?
细胞周期是scRNA-seq数据中生物噪音的主要来源,在单细胞样本中,由于同一类型的细胞可能会处于细胞周期的不同阶段,因此表达谱也会存在差异,从而影响细胞聚类的结果。解决这一问题的方法就是在数据分析前删除分散的细胞周期相关数据,当样品中没有活跃增殖的细胞,或者当大多数变异基因为细胞周期基因时,剔除细胞周期基因或增殖细胞是合理的。但是,当我们要比较细胞和非细胞亚群时,则不应该消除细胞周期信息。
Seurat和Scanpy包基于S和G2/M期已知的marker基因的平均表达,计算每个细胞的周期评分,对细胞所处的阶段进行注释,与细胞周期相关的影响可使用线性回归排除。如果后续分析需要区分细胞和静息细胞,同时还要消除与细胞周期阶段相关的差异,则可以在线/M和S参数之间的差异,来代替参数本身。此外,Cyclone方法使用已知的细胞周期marker基因来评估和去除与细胞相关的效应。还有一些方法可以更详细地分析细胞周期,例如 peco和reCAT,也是使用与细胞周期相关的已知基因组,而Cyclum、CYCLOPS和CCPEde等方法则是基于无监督学习,这些算法可用于提取与细胞周期各阶段相关的基因信息。
scRNA-seq数据的经典分析开始于确定样本的细胞组成,首先根据表达的相似性将细胞聚成多个簇,然后根据已知marker基因的表达水平注释细胞类型。该过程涉及到聚类算法、差异表达基因(DEG)分析以及细胞注释。
聚类的目的是根据细胞转录谱的相似性,将同一类型、同一分化阶段或同一细胞周期阶段的细胞合并成簇。目前,可用于scRNA-seq数据聚类的方法有很多,如层次聚类、k-均值聚类 (SC3)和图聚类,但至于哪种方法最有效并没有统一答案。细胞聚类不仅会受到聚类方法及其参数的影响,还会受到数据量的影响,因此,聚类之前我们要筛选高度可变基因 (HVG) 并用于主成分分析(PCA),来进行降维。
层次聚类算法自下而上将细胞不断凝聚成簇,或根据细胞之间的距离自上而下将所有细胞逐步成子簇,如常用的pcaReduce与CIDR。与其他聚类方法相比,这些方法速度较慢,当scRNA-seq数据量很大时需要慎重选择;SC3方法基于k-均值聚类算法,它的一个特点是获得的簇大小基本相同,在这种情况下,稀有细胞会与其他簇分在一起,无法被单独识别。而且,k-均值聚类算法的聚类结果在很大程度上取决于质心的随机初始化,不一定代表全局最小值;当scRNA-seq数据很大时,更适合使用基于图的方法聚类,如Louvain和Leiden方法。这些方法首先通过将数据投影到低维空间来构建k最近邻图,然后将相互连接最多的顶点组定义为细胞簇,聚类数量不确定,但受分辨率和k值的影响,Pheno-Graph,Seurat和Scanpy包均可以实现基于图的细胞聚类。更多聚类方法的比较见图3。
scRNA-seq数据聚类既可以识别已知类型或状态的高表达marker基因的细胞,也可以识别新的细胞亚群,并通过免疫染色等实验验证。对于我们感兴趣的簇,还可以进行重新聚类来搜索稀有或小细胞亚群,进行后续分析。
DEG分析用于研究各种病理或实验条件对所研究细胞群转录谱的影响,识别疾病发展过程中在不同细胞类型中被激活或抑制的基因和相关的细胞过程。此外,差异表达分析可用于识别那些在细胞分化或细胞群表型相关的动态过程中,表达水平发生变化的基因。
对于bulk RNA-seq数据,我们可以使用DESeq2和edgeR等方法识别DEGs。然而,当用它们分析scRNA-seq数据时,需要对每个细胞和每个基因的表达值进行加权,以克服单细胞数据的稀疏性问题。此外,DEG分析方法的比较表明,在没有对照的情况下,非参数Mann-Whitney检验的结果是最好的。上述方法没有考虑到单细胞数据中基因表达分布的双峰性特征,SCDE和MAST方法弥补了这一不足。SCDE方法将表达基因的负二项分布和未表达基因的泊松分布进行结合,但只能用于识别两组细胞(对照和实验)中的DEG,不适用于有样品批次或时间点等其他变量的情况。MAST 则可以用于更复杂的实验设计,例如具有多种暴露类型的实验。值得注意的是,细胞聚类使用的单个细胞中基因表达的相同信息,因此在细胞聚类后,差异表达的统计显著性会降低,可以通过使用TN检验来解决该问题。此外,如果数据集是来自多个供体的细胞样本,则可以通过计算聚合表达(伪bulk)或使用广义线性混合模型来分析差异表达基因,聚合表达是通过对来自每个供体的细胞中的基因表达进行求和或平均来计算的,通过这种方式,就可以将scRNA-seq数据的DEG分析转化为bulk RNA-seq数据的DEG分析。
细胞类型的识别可以通过免疫染色等组织学方法,利用特定抗体标记出细胞内相应抗原成分,以确定细胞类型;或者,通过测序检测细胞标记物的转录水平,根据生物信息学数据进行细胞分型,scRNA-seq的细胞注释分为自动和人工。
自动注释工具,如Single R、ScType、scCATCH、scSorter和SCINA等通过比较数据库中已知的细胞marker基因的表达谱,当基因表达一致时,就会自动对细胞类型进行注释。自动注释软件可以使用之前的聚类结果,也可以根据样品中发现的细胞类型重新聚类,但由于信息的缺乏,只能识别有限的细胞类型。自动注释的另一种策略是使用已有研究的注释样本作为参考,来进行细胞注释,如Azimuth在线工具()可以进行多物种多组织的单细胞注释。
当自动注释的置信度较低、细胞标签冲突或发现感兴趣的罕见细胞时,就需要研究人员的手动注释。人工注释通常被视为细胞注释的最佳方法,但比较耗费时间和精力,而且比较主观,同一簇细胞,不同的专家可能各有叫法。在进行人工注释时,我们可以根据给定的标记基因的表达情况(一般是高表达)进行细胞类型的注释,另一种方法是根据 Seurat和Scanpy中的marker基因将识别的细胞簇赋予细胞类型标签。此外,利用网页版g:Profile,我们可以根据DEGs富集到的生物过程进行细胞注释。在多数情况下,缺乏特定标记基因的细胞簇往往位于具有标记基因的簇之间,因此,我们可以根据细胞发育轨迹进行人工细胞注释。
scRNA-seq文库包含成百上千个细胞转录谱的信息,这些细胞的异质性主要由细胞发育的动态性决定。根据细胞表达谱的相似性重建细胞发育轨迹,即拟时序分析,可以将样本中的所有细胞按照建模好的时间轨迹进行排列,从根(初始)细胞开始,到末端(分化)细胞结束。R包Monocle是第一个被开发出来的发育轨迹分析工具,为了构建发育轨迹,Monocle首先构建最小生成树,然后搜索通过这棵树的最长路径。除了Monocle之外,TSCAN和Slingshot也被广泛使用,dynverse平台则将45种发育轨迹的构建方法进行了整合。
为了提高构建的发育轨迹的质量,可以使用一些基因表达数据之外的补充信息,比如RNA速率。在发育过程中,不同的mRNA有不同的半衰期,mRNA前体(未剪接)和成熟体(剪接)的相对比例可以用来估计基因可变剪接和降解的相对丰度,得出可能的细胞状态变化,从而追溯细胞的起源和潜在的命运,RNA 速率分析不需要指定起点和终点,velocyto.R和scVelo等程序都可进行RNA速率分析。
组织和器官的发育、功能、再生和动态平衡是由细胞间通讯介导的,细胞通讯就是配体与其他细胞受体相互作用的过程。研究细胞间通讯有助于阐明细胞分化和形态发生的机制、疾病的病因学以及免疫反应特性。目前,已经发现了大量的配体-受体互作对,但仅限于少数的细胞类型和组织。基于scRNA-seq数据的细胞信号传导分析,我们可以了解一对细胞是否通过特定的配体-受体之间的互作来进行通讯。细胞通讯分析方法iTalk和CellTalker使用的策略是:如果配体L的基因在A型细胞中差异激活,而受体 R的基因在B型细胞中差异激活,就认为细胞A和B是相互作用的,这类方法的缺点是无法检测组织中大量细胞类型的经典通讯。
CellPhoneDB和SingleCellSignalR在此基础上,引入了交互得分的概念,CellCall算法则使用了RegB调节子的表达,CellPhoneDB通过排列检验避免了结果的假阳性,但那些在数据集中具有高代表性的通讯可能在统计上不显著,SingleCellSignalR通过设置阈值解决了该问题。此外,scTensor 算法可以揭示复杂的生物过程,例如整个通讯网络,但由于结果解释的复杂性,这种方法并不是很流行。总的来说,CellTalker、iTalk和CellPhoneDB可以识别数据集中特定细胞类型的信号通路,SingleCellSignalR、CellCall和scTensor能够检测大量通讯,包括非特定通讯,但可能会错过低强度的通讯。
mRNA转录受多种信号的调节,当信号级联激活转录因子后,转录因子与其靶基因中的结合位点相互作用,形成基因调控网络。基因调控网络参与细胞稳态的维持和细胞异质性的形成,对于scRNA-seq 数据,我们可以使用回归模型、共调控互作和发育轨迹重建来构建基因调控网络。
基于回归的方法,通过使用基因列表来评估目标基因与其调节因子之间的互作强度。 GENIE3广泛用于bulk和scRNA-seq的基因调控网络构建, 但当细胞数只有几千时, 选择GRNBoost2更合适,但相较于bulk测序数据,该方法用于单细胞时,结果容易出现假阳性,SCENIC方法通过筛选调节因子和含有相应转录因子假定结合位点的靶基因之间的连接,克服了这一缺点。这里,给大家补充一个小知识点:调控子(regulon)转录因子与激活的靶基因的组合称为调节子。
基于共调控相互作用来构建基因调控网络的方法WGCNA,采用Pearson和 Spearman相关系数来计算单细胞中基因表达之间的相关性,并通过GSEA方法和STRING、HumanNet等数据库将共表达模块与基因功能相关联。使用WGCNA 分析 scRNA-seq数据,可以识别每种细胞类型的功能模块及其关键基因,有助于揭示与化疗耐受性以及预后标志物相关的因素。
用于识别CNV的经典方法有基于阵列的比较基因组杂交 (aCGH)、多多重连接探针扩增技术(MLPA)和二代测序 (NGS,WGS为主)。然而,aCGH和MLPA受到由荧光探针的覆盖范围和微阵列分辨率的限制,并且无法检测杂合性的拷贝中性丢失。 WGS则对分析成本、数据处理时间和计算要求比较高。
目前为止,从scRNA-seq数据中识别CNV的方法还很。
米乐m6小罗在线登录 上一篇:如此罕见的病例您碰到过吗? 下一篇:甘肃省第二人民医院染色封片一体机(二次)招标公告