计算样本量要知道均值标准差（TCGA数据整理一）

泪咸咸的 2023-01-11 01:37:31

大家好，我们下面要讲解的是从tcga数据库上下载下来的数据的整理，目标是整理成这个样子的数据：TCGAID和Esymbolid一一对应。如果大家忘记了数据如何下载了，以及我们为什么这么做，可以查看前面一期的推文。

分析：首先要知道gdc和medata文件包括什么，它们之间的关系是：gdc里面一个文件对应一个Esymbolid同时对应一个数据文件，与medata中的一个文件对应，同时对应一个TCGAID。最后通过文件名相同，可以将TCGAID和Esymbolid一一对应。同时将对应Esymbolid里的每个样本表达量写入。下面进行具体分析！最后结果如下图所示：

计算样本量要知道均值标准差（TCGA数据整理一）(1)

上次我们讲解了如何在TCGA上下载数据，并保存好，首先我们先打开文件夹，找到今天我们要用的数据，数据包括两个文件，分别是gdc文件和medata文件，

计算样本量要知道均值标准差（TCGA数据整理一）(2)

gdc文件包含什么，medata文件包含什么，我提前做好了几张图片，可以更清楚地显示这些文件包含什么。

计算样本量要知道均值标准差（TCGA数据整理一）(3)

计算样本量要知道均值标准差（TCGA数据整理一）(4)

为了整理好数据，第一步就是要将gdc压缩包解压到同名文件夹，

计算样本量要知道均值标准差（TCGA数据整理一）(5)

如图片所示，解压完之后，我们可以看到gdc文件夹，里面含有一个文件压缩包。

计算样本量要知道均值标准差（TCGA数据整理一）(6)

后面在files里可看到，解压后的包里面就是含有样本表达量的esymbolid的文件。

计算样本量要知道均值标准差（TCGA数据整理一）(7)

我们需要把解压后的gdc文件里的含有压缩包的这些文件里的压缩包全部解压，然后按顺序放至在一个文件夹下面，如果一个一个去点击解压的话，很慢很容易出错，于是我们在这要用一个脚本，执行将含有样本数据文件汇总到一起，进行一次性解压，执行脚本，就需要一个应用程序告诉计算机怎么执行脚本，所以这里还要讲解一下，如何安装这个应用程序，具体操作：百度搜索，点击active perl 直接安装就行了。判断是否安装成功，点击搜索框，搜索cmd，点击命令提示符，输入perl加空格加-v,按回车就能看到perl的版本号了。

计算样本量要知道均值标准差（TCGA数据整理一）(8)