单细胞测序设计思路与数据分析(单细胞测序的分析利器)
自从2009年第一篇单细胞RNA(single cell RNA-sequencing, scRNA)的文章发表以后,随着测序成本的降低、技术的成熟,越来越多的科研工作者开始将单细胞RNA测序引入到自己的科研工作中,希望发表CNS级别的文章,走上人生巅峰!
然而,一个现实的问题是,目前开发了大量的针对单细胞RNA测序的算法工具,特别是2016年以后,新的工具更是层出不穷(图1)。因此,系统的总结这些工具,从而使科研工作者能比较方便的检索、了解和选择这些工具,更加专注于科学问题的解决,就显得十分的重要了。
图1,开发的单细胞RNA数据分析工具数量随时间的变化
今天我们就来为大家介绍一个这样的数据库scRNA-tools(www.scRNA-tools.org ,图2),它非常系统全面的收集了当前scRNA分析的主要工具,并根据工具的主要功能进行了分类,同时,提供了工具相关的文献Doi号,方便大家学习和使用。
图2,scRNA-tools的首页(有Table, Tools, Categories, Analysis ,Updates, Submit和FAQs等选项)
01、数据处理流程
在对scRNA-tools数据库收集的工具进行介绍之前,我们先简单了解一下scRNA数据分析的4个主要流程:
Phase 1:Data acquisition
数据获取,即是从下机的reads到表达矩阵的构建。主要涉及将reads比对到参考基因组,并完成定量;对于采用Unique Molecular Identifiers (UMIs)这种测序模式的,则需要去重以完成表达量的绝对定量。
Phase2:Data Cleaning
数据清洗。主要是去除低质量的细胞和无意义的基因,从而得到可用于下游分析的高质量的数据集。往往还会涉及到数据的归一化和缺失值的填补。
Phase3:Cell Assignment
细胞的分类。主要是采用降维和聚类算法将基因表达模式相似的细胞聚为一类,每一类的细胞可能是已经发现的细胞类型,也可能是未发现的新的细胞类型。也包括根据基因表达特征模拟细胞发育轨迹。
Phase4:Gene Identification
标签基因的鉴定。根据基因分类或者轨迹构建结果发现相关的特异性基因,如差异表达的基因。
从上述流程可以看出,scRNA分析中使用的主要工具有比对、QC、降维、聚类、轨迹分析等,数据库共将之分为32类,下面将具体介绍。
02、scRNA-tools之工具介绍
数据库将每个工具赋予2个身份标签,分别为Phase和Categories。具体信息如表1:
可以看出,除了上面列出的4个phase以外,还要一些other项,主要包括下游一些个性化分析,或者有的工具功能较多,如包括多个phase等。
对不同种类的工具的数据进行统计,我们可以发现,比较多种类的为可视化、聚类、排序、降维、归一化、差异分析和质控等,这些分析或是scRNA分析的上游步骤,或是scRNA必须要回答的科学问题,其余种类的工具则比较专业化或个性化,因此开发的工具也相对较少。(见下图)
此外,对于各个工具采用的计算机语言统计发现(下图),R语言占有绝对优势(约60%),其次为Python语言。因此,好好学习R吧,如果可能,也请学Python;毕竟,它们是数据分析领域的绝代双骄!
03、结语
scRNA-tools比较系统全面的收集和总结了当前scRNA领域的信息分析工具,涉及的领域较大,工具数量庞大(共275个)。因此,作为使用者,我们需在大致了解的前提下,专注于使用量多、引用率高的工具,这样才会使文章的分析比较有说服力,也更能获得同行的肯定和认可!
参考文献
1 Zappia, L., Phipson, B. & Oshlack, A. Exploring the single-cell RNA-seq analysis landscape with the scRNA-tools database. PLoS computational biology 14, e1006245, doi:10.1371/journal.pcbi.1006245 (2018).
后台私信领取福利
—END—
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com