您当前的位置:首页 > 互联网教程

GEO数据库基本信息

发布时间:2025-05-21 17:37:15    发布人:远客网络

GEO数据库基本信息

一、GEO数据库基本信息

1、GEO数据库,作为全球基因表达数据的权威存储库,由NCBI创建并维护,网址为ncbi.nlm.nih.gov/geo。它收录了来自全球科研人员的多种高通量基因表达数据,包括微阵列芯片、二代测序等,所有数据均可以免费获取。

2、GEO的数据组织结构清晰,分为两个子数据库:GEO DataSets以实验数据集为单位,记录一个实验的所有信息;而GEO Profiles则按基因表达谱进行存储,每个基因在数据集中的表现都可查找。数据以五级分类:Platforms(以GPL开头,如GPL570,代表实验平台)、Series(GSE开头,如GSE5764,代表完整的实验方案)、Datasets和Profiles(GDS和流水号,如33759453,代表整理后的数据)、以及Samples(GSM开头,如GSM134584,代表实验样本)。并非所有上传数据都会被整理,只有经过官方评估的才会成为GDS或Profiles。

3、GEO提供丰富的数据类型,包括基因表达、非编码RNA表达、基因组甲基化、变异和单核苷酸多态性数据,以及蛋白微阵列芯片和高通量测序数据(高通量测序原始数据存于SRA,处理后的数据在GSE)。在GEO首页,用户可以根据数据类型和组织结构进行查找,数据可通过网站或FTP下载。使用GEO数据进行研究时,别忘了引用其相关文献。

二、如何从GEO数据库下载数据

1、TCGA及GEO数据库是生信分析的两大主要数据来源,其中GEO数据库提供大量的临床与实验数据。本文旨在介绍如何从GEO数据库下载数据,主要分为两个示例:基因表达数据集与含有样本生存信息的临床特征数据集的下载方法。

2、下载基因表达数据集的步骤如下:首先进入GEO数据库首页,选择Datasets子数据库进行检索。输入关键词,如“lung cancer or LCA”,并进行筛选,选择数据集类型为“Series”,数据类型为“基因表达谱”,以及物种来源为“人类”。完成筛选后,根据研究标题、概述、平台注释、样本数量及数据集ID进行进一步筛选,以确保目标数据集的准确性。通过点击数据集标题进入详情页,确认数据集编号、介绍、检测平台及样本信息,最后点击下载按钮,下载表达矩阵“series matrix”文件和GPL平台注释文件。下载后,将平台注释文件与表达矩阵文件进行匹配,替换基因ID为基因名,得到基因表达谱。

3、下载含有样本生存信息的临床特征数据集的步骤与下载基因表达数据集类似,但需要在检索时加入关键词,如“OS”、“survival”、“Time”等,以获取更符合需求的数据集。在浏览实验样本数据时,确保样本临床特征信息中包含生存时间相关的数据。下载临床资料数据时,提取包含年龄、生存时间等信息的样本数据,并与基因表达谱文件合并,准备进行生存分析。

4、本文通过示例详细介绍了如何从GEO数据库下载所需的基因表达数据集与临床特征数据集,以支持后续的生信分析工作。通过上述步骤,研究人员能够有效地获取并处理数据,为研究提供坚实的基础。

三、GEO数据库为什么是RNA

1、因为GEO是基因表达综合数据库,RNA是实现遗传信息在蛋白质中的表达。

2、从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。

3、下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显著相关的lncRNA,通过GSE15459数据集对模型进行验证。

4、进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。