GEO、TCGA&ICGC测序数据下载
发布时间:2025-05-21 22:48:33 发布人:远客网络
一、GEO、TCGA&ICGC测序数据下载
1、在科研工作中,我们常常能利用现有的开源高通量数据来达到研究目标。今天,就为大家介绍三种获取测序数据的便捷途径:GEO、TCGA和ICGC。
2、GEO是NCBI下属的数据库,收纳全球研究者上传的芯片和测序数据。GEO数据有五种组织形式:GPL、GSM、GSE、GDS和GEO profiles,其中GPL、GSM和GSE是原始数据,GDS和profiles则是经过筛选和整理的。GEO数据格式多样,包括SOFT、MINiML、Series Matrix files和Supplementary files等。比如GPL的annotation文件有助于芯片探针到基因名的转换,GSE则包含样本表达矩阵和平台信息。
3、TCGA,即癌症基因组图谱计划,提供大量癌症样本数据,如基因组、表观基因组等,对癌症研究和治疗有重大贡献。从官网下载TCGA数据,可通过网页界面或gdc-client工具,包括直接搜索下载和工具下载两种方式。
4、ICGC,国际肿瘤基因组协会,目标是全球协作研究,收集和分析肿瘤基因组数据。原始数据下载有限,主要在Data repository,而DCC Data releases和Cancer projects中的数据则更易获取,包括整理过的生物样本和临床信息。
5、无论是GEO、TCGA还是ICGC,下载数据时,选择直接链接或利用官方工具,都能帮助我们高效地获取所需信息。这些数据库的资源丰富,对科研人员的研究工作具有很大价值。
二、tcga数据库样本哪些是肿瘤哪些是正常
1、答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:
2、第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取
3、a=as.numeric(substr(names,14,15))
4、可以看见数据中有5个是正常组织样本
5、Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。
三、如何从GEO数据库下载数据
1、TCGA及GEO数据库是生信分析的两大主要数据来源,其中GEO数据库提供大量的临床与实验数据。本文旨在介绍如何从GEO数据库下载数据,主要分为两个示例:基因表达数据集与含有样本生存信息的临床特征数据集的下载方法。
2、下载基因表达数据集的步骤如下:首先进入GEO数据库首页,选择Datasets子数据库进行检索。输入关键词,如“lung cancer or LCA”,并进行筛选,选择数据集类型为“Series”,数据类型为“基因表达谱”,以及物种来源为“人类”。完成筛选后,根据研究标题、概述、平台注释、样本数量及数据集ID进行进一步筛选,以确保目标数据集的准确性。通过点击数据集标题进入详情页,确认数据集编号、介绍、检测平台及样本信息,最后点击下载按钮,下载表达矩阵“series matrix”文件和GPL平台注释文件。下载后,将平台注释文件与表达矩阵文件进行匹配,替换基因ID为基因名,得到基因表达谱。
3、下载含有样本生存信息的临床特征数据集的步骤与下载基因表达数据集类似,但需要在检索时加入关键词,如“OS”、“survival”、“Time”等,以获取更符合需求的数据集。在浏览实验样本数据时,确保样本临床特征信息中包含生存时间相关的数据。下载临床资料数据时,提取包含年龄、生存时间等信息的样本数据,并与基因表达谱文件合并,准备进行生存分析。
4、本文通过示例详细介绍了如何从GEO数据库下载所需的基因表达数据集与临床特征数据集,以支持后续的生信分析工作。通过上述步骤,研究人员能够有效地获取并处理数据,为研究提供坚实的基础。