您当前的位置:首页 > 互联网教程

prosite是什么类型的数据量

发布时间:2025-05-20 16:14:02    发布人:远客网络

prosite是什么类型的数据量

一、prosite是什么类型的数据量

1、是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

2、PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。

3、PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个(未知)序列是否具有相应的特征。

二、国际著名的三大蛋白质数据库

国际著名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。

蛋白组学常用数据库UniProt(全称UniProt Protein Resource),建立于1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的,其信息量丰富、资源广泛,是目前公认的首选免费蛋白质数据库。

2、The Human Protein Atlas数据库

The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息,并提供免费查询。

瑞典Knut&Alice Wallenberg基金会利用免疫组化技术,检查每一种蛋白质在人类48种正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员校对和标引,保证染色结果具有充分的代表性。

PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并且包括一些CST公司发现但未发表的蛋白修饰位点。

该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用,同时它也是发现新的疾病标志物和药物靶点的有力工具。

蛋白质数据库(HPDB),建于2005年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。

分子结构特征描述采用汉语,同时提供英文原文以供考证。对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于HPDB的翻译不妥带来的不便。

蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库,因此HPDB支持中文查询。

蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持RCSB PDB核实后的原始实验数据文件,并保持PDB文件格式和蛋白质分子编号。

三、CPTAC蛋白数据库

1、CPTAC是由National Cancer Institute在2011年发起的项目,目标是通过大规模蛋白组和基因组分析,系统性地识别由癌症基因组改变和相关生物过程导致的蛋白质,从而加速癌症分子机制的研究,提高诊断、治疗和预防癌症的水平。

2、CPTAC包含基因组和蛋白组数据。基因组数据包含1300+种不同类型的肿瘤病人数据,包括WGS、WES和RNAseq,可通过GDC Data Portal访问。蛋白组数据则通过PDC提供。CPTAC提供了不同肿瘤类型和基因在不同肿瘤类型中的表达情况的查看与分析,有助于发现潜在的标志物或靶点。

3、Proteomic Data Commons(PDC)是NCI最大的基于质谱的肿瘤蛋白质组学数据库,提供高质量质控、整合标准、高效查询、可视化、分析和下载的平台。CPTAC的原数据访问入口在2022年2月关闭,现已转移到PDC。PDC不仅提供原始质谱数据,还通过计算分析,将质谱映射到多肽序列并鉴定蛋白质,便于多组学分析。

4、PDC提供的文件类型主要有原始文件和主要结果文件summary.tsv,该文件包含了蛋白的定量结果。数据按原发位点分类有12种,按疾病类型分类有19种。以结直肠癌为例,用户可通过PDC页面查看样本介绍和数据文件描述,数据文件包括Studies、Biospecimens、Clinical、Files、Genes五个部分组织。

5、PDC提供多个分析工具,包括Explore Quantitation Data、Peptide Genome mapping、Pepquery和cProSite。Explore Quantitation Data可用于分析和展示每个study的蛋白定量结果,通过热图展示蛋白质和翻译后修饰(PTMs)的丰度模式。Peptide Genome mapping则提供各种类型数据在基因组上的可视化展示。Pepquery是一个以肽段序列为中心的搜索工具,适用于查询MS数据库中的新肽段或DNA序列,可用于发现基因组改变导致的新蛋白序列,作为潜在的疾病标志物或治疗靶标。cProSite则用于分析单个基因在肿瘤和癌旁组织中的丰度差异、磷酸化位点差异等。

6、用户可以输入目标基因在首页搜索框中查询,或在EXPLORE左侧的Genes筛选框中输入一组基因或选择某个信号通路的基因进行查询,查看检测到的PTM和不同study中的表达丰度。

7、蛋白质组定量结果与RNA定量类似,可进行差异表达、GO/KEGG注释、蛋白互作网络分析等。结合Clinical标签数据,可进行生存分析,挖掘与临床病理或结果真正相关的标志物或靶点,通过机器学习方法进行疾病分型、诊断预测等。

8、CPTAC提供有限的肿瘤类型和样本数目,基于质谱的蛋白质组学数据可用于挖掘和验证肿瘤中的差异表达基因及基因表达情况。通过不同的生物学分析方法和多组学分析方法,综合印证不同维度的结果数据,挖掘真正有意义的潜在标志物或靶点。除了CPTAC,还有其他类似的蛋白质组学数据库如HPA等。随着高通量蛋白组学检测方法如Olink的兴起,预计会有更多基于此方法检测的数据数据库出现,为各类研究者提供更多样本和数据支持。