生信分析的方法(一招教你学会生信分析的)

一击学会降维打击!

小伙伴们,大家好,欢迎来到小洋专栏!不知道上期的细胞毒IC50图大家学会了嘛?这一期,小洋将向大家介绍如何利用仙桃学术工具来绘制PCA和UMAP图。

基本概念

生信分析的方法(一招教你学会生信分析的)(1)

基本概念:PCA:即主成分分析,是数据降维的方法。从高纬数据中提取数据的特征向量(成分),转换为低维数据并且用二维或者三维的图来展示这些特征。从特征向量中提取最能体现数据特征(差异)的 2 个特征向量(成分)用于可视化,这就是 PCA 图。

UMAP :也是数据降维的一种方法和可视化。在高纬度构建一个图,然后经过优化(拓扑学和几何学)后,在低维度中寻找类似的图来尽可能表征高纬度的差异。

生信分析的方法(一招教你学会生信分析的)(2)

应用场景

生信分析的方法(一招教你学会生信分析的)(3)

应用场景:PCA:可以用于查看数据特征情况,比如可以用于高通量数据中样本之间聚类的分布情况。

UMAP:用于查看数据特征情况,例如可查看数据集表达谱中样本间差异。

生信分析的方法(一招教你学会生信分析的)(4)

主要结果

PCA

生信分析的方法(一招教你学会生信分析的)(5)

典型的 PCA 图为点图

  • x 轴和 y 轴分别代表主成分1(PC1)和主成分2(PC2),其中图中(x 轴标题)PC1 能体现 28.4%的数据的特征差异,其中图中(y 轴标题)PC2 能体现 23,7%的数据的特征差异,故整个 PCA 图能体现数据接近一半的差异。(因为数据是高维数据,前两个主成分未必就能体现绝大部分的差异,具体数据具体分析)。
  • 图中每个点代表每个样本在主成分 1 和主成分 2 中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。点与点(样本与样本)间的距离情况能体现样本间的差异。
  • 图中不同的颜色表征不同样本所属的组。
  • 右图中给样本不同组增加了椭圆的圈(如果分组内样本差异差异过大,可能会没办法圈住样本的椭圆的圈)。

UMAP

生信分析的方法(一招教你学会生信分析的)(6)

典型的 UMAP 图为点图

  • x 轴和 y 轴分别代表 UMAP 降维后的两个方向的具体情况。
  • 图中每个点代表每个样本在 UMAP 降维后在两个方向中对应的映射位置信息,单个样本的数值大小不能体现单个样本说明特征情况,需要整体来看。点与点(样本与样本)间的距离情况能体现样本间的差异。
  • 图中不同的颜色表征不同样本所属的分组(group1 是参考组和 group2 是实验组)。
  • 从图上来看,两组的样本并不能很好分开,说明最终差异分析的结果可能不会太好。

数据要求

PCA

生信分析的方法(一招教你学会生信分析的)(7)

文件不能大于 50M,列数最多为 500 列,行数最多 50000。仅支持 csv 或者 text格式文件。除了头部的注释行(#开头),下面的内容中不能含有非数值的内容。

  • 头部注释行(#开头):用于表征每个样本所属的分组。敲黑板!!!小伙伴们注意啦!注释信息不是一定要提供三行,至少1行就可以!!!至少1行就可以!!!至少1行就可以!!!每行的分组最多是 5 个。注意,第一列的命名不能重复。只要满足在 5 个分类以及 5 个分类下,这部分数据会出现在右侧「点」中的“显示”的参数中,可以选择想要用颜色表征的分组。
  • 主体部分(必须):
  • 主体的第一行为样本编号(如图中的第 4 行),这一行不能含有重复命名。
  • 主体的第一列为基因名(未必需要提供基因名,只要是能表征样本各个维度的情况即可,因为这里为表达谱数据,所以用的是基因名)。
  • 主体的其他部分为样本在各个维度对应的数值

UMAP

生信分析的方法(一招教你学会生信分析的)(8)

目前仙桃学术的UMAP图绘制采用的是云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。

实战演练

下面让我们来看一篇2021年8月发表在“Computational and Structural Biotechnology Journal”(IF= 7.271)杂志上的一篇文章。题名为“The molecular feature of macrophages in tumor immune microenvironment of glioma patients”。

生信分析的方法(一招教你学会生信分析的)(9)

期刊简介

生信分析的方法(一招教你学会生信分析的)(10)

使用工具

仙桃学术(https://www.xiantao.love

表格复现

PCA

生信分析的方法(一招教你学会生信分析的)(11)

复现过程

进入仙桃学术,点击【生信工具】

生信分析的方法(一招教你学会生信分析的)(12)

【高级版】 → 【立即使用】

生信分析的方法(一招教你学会生信分析的)(13)

【基础绘图】 → 【PCA图】 → 上传数据

生信分析的方法(一招教你学会生信分析的)(14)

我们参考文献中的PCA图,模拟一份数据,然后进行绘图:

生信分析的方法(一招教你学会生信分析的)(15)

上面的数据是模拟数据,所以并不会和文献中的图片完全一致。不过复现我们主要掌握方法即可,不需要完全复现。上传数据后,点击“确定”进行绘图,并保存结果。

生信分析的方法(一招教你学会生信分析的)(16)

生信分析的方法(一招教你学会生信分析的)(17)

UMAP

生信分析的方法(一招教你学会生信分析的)(18)

【数据集模块】 → 【UMAP图】 → 云端数据→确定

生信分析的方法(一招教你学会生信分析的)(19)

目前仙桃学术绘制UMAP图只能针对云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。如果有小伙伴们还不清楚该如何利用仙桃工具来进行数据集分析,那么,可以回看小洋专栏之前的推文,里面有详细的步骤哦~

生信分析的方法(一招教你学会生信分析的)(20)

生信分析的方法(一招教你学会生信分析的)(21)

好啦,本期有PCA和UMAP图的相关内容就介绍到这里,希望对大家的科研工作有所帮助。我是小洋,我们下期再见~

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页