HPA蛋白数据库数据库简介
发布时间:2025-05-22 13:44:13 发布人:远客网络
一、HPA蛋白数据库数据库简介
HPA蛋白数据库:一幅详细的人类蛋白质全景
自2000年启动以来,人类蛋白质图谱(Human Protein Atlas, HPA)项目致力于绘制人体细胞、组织和器官中蛋白质的详尽地图。该项目于2003年转为学术研究,采用多种技术,如抗体成像、蛋白质组学、转录组学和系统生物学,所有数据均对外开放。自2005年首个版本发布后,HPA持续更新至最新版本23,于2023年更新,涵盖了全球多个合作机构的成果。
HPA数据库分为12个部分,其中一个示例是Tissue Section,它展示了丰富的功能。通过多重组织分析,研究人员可以深入研究特定细胞类型和状态的蛋白质分布,如在睾丸生殖细胞发育中的蛋白质表达。在23.0版本中,已有742种蛋白质通过这种方法得到分析,揭示了精原细胞等不同细胞类型的蛋白质特征。此外,数据库还提供了全面的组织和器官蛋白组信息,包括那些组织特异性表达的蛋白质,以及癌症中基因表达的详细数据,如肺癌相关基因的表达水平和生存曲线。
自项目成立以来,HPA已经揭示了众多关键发现,包括39个里程碑事件。LEARN板块包含丰富的资源,如字典、蛋白类别和方法指南,而DATA板块则提供了数据下载的详细信息。
总的来说,HPA是一个极其宝贵的资源,它整合了基因表达的丰富信息,对学习和研究具有极高价值。无论是探索特定基因的表达模式还是理解组织结构的蛋白质分布,这个数据库都值得深入探索和利用。
二、CPTAC蛋白数据库
1、CPTAC是由National Cancer Institute在2011年发起的项目,目标是通过大规模蛋白组和基因组分析,系统性地识别由癌症基因组改变和相关生物过程导致的蛋白质,从而加速癌症分子机制的研究,提高诊断、治疗和预防癌症的水平。
2、CPTAC包含基因组和蛋白组数据。基因组数据包含1300+种不同类型的肿瘤病人数据,包括WGS、WES和RNAseq,可通过GDC Data Portal访问。蛋白组数据则通过PDC提供。CPTAC提供了不同肿瘤类型和基因在不同肿瘤类型中的表达情况的查看与分析,有助于发现潜在的标志物或靶点。
3、Proteomic Data Commons(PDC)是NCI最大的基于质谱的肿瘤蛋白质组学数据库,提供高质量质控、整合标准、高效查询、可视化、分析和下载的平台。CPTAC的原数据访问入口在2022年2月关闭,现已转移到PDC。PDC不仅提供原始质谱数据,还通过计算分析,将质谱映射到多肽序列并鉴定蛋白质,便于多组学分析。
4、PDC提供的文件类型主要有原始文件和主要结果文件summary.tsv,该文件包含了蛋白的定量结果。数据按原发位点分类有12种,按疾病类型分类有19种。以结直肠癌为例,用户可通过PDC页面查看样本介绍和数据文件描述,数据文件包括Studies、Biospecimens、Clinical、Files、Genes五个部分组织。
5、PDC提供多个分析工具,包括Explore Quantitation Data、Peptide Genome mapping、Pepquery和cProSite。Explore Quantitation Data可用于分析和展示每个study的蛋白定量结果,通过热图展示蛋白质和翻译后修饰(PTMs)的丰度模式。Peptide Genome mapping则提供各种类型数据在基因组上的可视化展示。Pepquery是一个以肽段序列为中心的搜索工具,适用于查询MS数据库中的新肽段或DNA序列,可用于发现基因组改变导致的新蛋白序列,作为潜在的疾病标志物或治疗靶标。cProSite则用于分析单个基因在肿瘤和癌旁组织中的丰度差异、磷酸化位点差异等。
6、用户可以输入目标基因在首页搜索框中查询,或在EXPLORE左侧的Genes筛选框中输入一组基因或选择某个信号通路的基因进行查询,查看检测到的PTM和不同study中的表达丰度。
7、蛋白质组定量结果与RNA定量类似,可进行差异表达、GO/KEGG注释、蛋白互作网络分析等。结合Clinical标签数据,可进行生存分析,挖掘与临床病理或结果真正相关的标志物或靶点,通过机器学习方法进行疾病分型、诊断预测等。
8、CPTAC提供有限的肿瘤类型和样本数目,基于质谱的蛋白质组学数据可用于挖掘和验证肿瘤中的差异表达基因及基因表达情况。通过不同的生物学分析方法和多组学分析方法,综合印证不同维度的结果数据,挖掘真正有意义的潜在标志物或靶点。除了CPTAC,还有其他类似的蛋白质组学数据库如HPA等。随着高通量蛋白组学检测方法如Olink的兴起,预计会有更多基于此方法检测的数据数据库出现,为各类研究者提供更多样本和数据支持。