生物信息学专用数据库名词解释(生物信息学第一步)
GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。
它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
最重要的是这个数据库里的数据是免费的。
2、GEO提供的数据类型有那些呢?GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:
4个概念的理解:一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台,就是GPL。
①GPL(GEO platforms):大学高校平台;
②GDS(Datasets):工程技术学院;
③GSE(Series):工程学院的各个教研室,比如GSE数学教研室、GSE计算机教研室、GSE研究生工作室;
④GSM(Samples):比如研究生工作室的每个人是一个样本。
4个数据存放类型:GEO提供了多种数据的下载格式
①根据GDS号来下载数据,下载SOFT格式的数据
点进去之后,可以看到这篇文章的一些信息,比如摘要,数据的整体设计、平台信息、样本量等。
我们看页面的底部,看红色方框框起来的,
第一个是GEO数据库自带的DEG(差异表达基因)分析功能,可以对数据做DEG分析,对于编程弱的同学们来说很方便的;
第二个是前面介绍的数据类型文件。
其中,矩阵文件是GEO分析最常用的格式文件。
虽然,分析矩阵文件最简单,但是因为GEO数据库不负责对数据进行质量监控,我们下载的矩阵文件属于芯片分享的人整理的,可能存在误差,因此在某些时候分析矩阵文件并不是十分的准确。
第三个是芯片原始数据(数据是最精确的)。当然了原始文件整理麻烦,但是质量会比较好!
找到了下载数据的地方,点击Down family下面的三种数据,下载SOFT文件、MINIML文件、TXT矩阵形式以及下载Supplemently file下面的芯片原始数据文件,也就是格式为TAR(OF CEL)的文件,我们点击一下http下载原始文件。这样数据就全部下载完毕了,保存在文件夹里,就可以做下一步分析啦!
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com