计算样本量要知道均值标准差(TCGA数据整理一)
大家好,我们下面要讲解的是从tcga数据库上下载下来的数据的整理,目标是整理成这个样子的数据:TCGAID和Esymbolid一一对应。如果大家忘记了数据如何下载了,以及我们为什么这么做,可以查看前面一期的推文。
分析:首先要知道gdc和medata文件包括什么,它们之间的关系是:gdc里面一个文件对应一个Esymbolid同时对应一个数据文件,与medata中的一个文件对应,同时对应一个TCGAID。最后通过文件名相同,可以将TCGAID和Esymbolid一一对应。同时将对应Esymbolid里的每个样本表达量写入。下面进行具体分析!最后结果如下图所示:
上次我们讲解了如何在TCGA上下载数据,并保存好,首先我们先打开文件夹,找到今天我们要用的数据,数据包括两个文件,分别是gdc文件和medata文件,
gdc文件包含什么,medata文件包含什么,我提前做好了几张图片,可以更清楚地显示这些文件包含什么。
为了整理好数据,第一步就是要将gdc压缩包解压到同名文件夹,
如图片所示,解压完之后,我们可以看到gdc文件夹,里面含有一个文件压缩包。
后面在files里可看到,解压后的包里面就是含有样本表达量的esymbolid的文件。
我们需要把解压后的gdc文件里的含有压缩包的这些文件里的压缩包全部解压,然后按顺序放至在一个文件夹下面,如果一个一个去点击解压的话,很慢很容易出错,于是我们在这要用一个脚本,执行将含有样本数据文件汇总到一起,进行一次性解压,执行脚本,就需要一个应用程序告诉计算机怎么执行脚本,所以这里还要讲解一下,如何安装这个应用程序,具体操作:百度搜索,点击active perl 直接安装就行了。判断是否安装成功,点击搜索框,搜索cmd,点击命令提示符,输入perl加空格加-v,按回车就能看到perl的版本号了。
刚刚我们提过将gdc压缩包解压缩,得到了一个文件夹,这是将这个脚本复制过来,复制到这个文件夹里。
这个脚本的目的就是将解压后的gdc文件夹里的每个文件里的压缩包文件有序的放在一个files的文件夹里,这个文件夹也是这个脚本创建的,方便我们一起解压。具体操作:搜索cmd,点击命令提示符,输入cd加空格,加黏贴路径,加Perl,加空格,加复制黏贴脚本名,加空格,加回车。
脚本就开始运行了,等运行好了,就可以在解压缩后的gdc文件夹里看到一个files的文件夹,里面包含了按顺序排列所有的需要解压的压缩包的文件,然后按住CTRL,从第一个文件名点击下滑至最后一个文件名,按右键,点击解压到当前文件夹,即files文件夹里,这样就将所有的压缩包文件解压到了这个文件夹里了。
结束语:大家需要联系的脚本可以在后台留言,我们发给您,如果有什么疑问,也可以在后台留言,我们看到的话,会及时回复的。如果觉得这篇文章对你有用的话,希望你能点赞,分享,让更多的人都能看见,谢谢。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com