NCBI丨Uniprot数据库下载已知家族成员
发布时间:2025-05-20 11:36:09 发布人:远客网络
一、NCBI|Uniprot数据库下载已知家族成员
1、要从NCBI和Uniprot数据库下载已知家族成员,首先,访问ncbi.nlm.nih.gov,选择gene数据库。在搜索框中输入家族名称,如DNA(cytosine-5)-methyltransferase,确保关键词准确。推荐使用模式物种如水稻、拟南芥、果蝇等进行定向检索。例如,选择拟南芥,进入筛选页面后,点击Protein-coding,然后选择具体物种。
2、以DME为例,点击搜索结果后,选择Protein链接下载蛋白序列。在新的页面中,选择最长的蛋白序列,然后点击Send to并选择FASTA格式输出序列。
3、Uniprot数据库同样提供家族成员下载服务,它是全球最全面的蛋白质数据库,整合了Swiss-Prot、TrEMBL和PIR-PSD的数据。其数据主要来自基因组测序项目和文献。访问uniprot.org,输入家族名并搜索。在搜索结果界面,根据Review状态(人工注释的高可靠性)和Unreviewed(自动化注释)进行筛选。选中目标成员后,点击Download下载相应的序列信息。
二、如何从ncbi下载数据
1、访问网址 Entrez Molecular Sequence Database System,即NCBI的数据库检索系统,覆盖多个数据库,包括genome、nucleotide、protein、3D structure和PubMed等。其中,核酸数据库包含GenBank、EMBL、DDBJ,而蛋白数据库则包括Swiss-Prot、PIR、PFR、PDB以及编码区翻译的蛋白质序列。
2、欲下载基因组,可参考以下步骤:登录NCBI网站,选择对应数据库,如nucleotide,上传包含序列id的文件,如Nucleotide.txt,点击Retrieve后,系统将显示匹配情况。对于Janibacter melonis strain M714的完整染色体基因组,上传Nucleotide.txt,点击Retrieve,搜索到5条匹配结果,下载即可。
3、蛋白质序列下载同上,只需选择protein数据库并上传文件。组装序列下载则选择Assembly数据库并上传文件。操作简便,步骤一致,只需按照指引完成文件上传和检索。
4、通过Entrez系统,用户能够高效地下载NCBI上的各种生物序列数据,为科研、教学等提供了便利。
三、国际著名的三大蛋白质数据库
国际著名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。
蛋白组学常用数据库UniProt(全称UniProt Protein Resource),建立于1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的,其信息量丰富、资源广泛,是目前公认的首选免费蛋白质数据库。
2、The Human Protein Atlas数据库
The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息,并提供免费查询。
瑞典Knut&Alice Wallenberg基金会利用免疫组化技术,检查每一种蛋白质在人类48种正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员校对和标引,保证染色结果具有充分的代表性。
PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并且包括一些CST公司发现但未发表的蛋白修饰位点。
该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用,同时它也是发现新的疾病标志物和药物靶点的有力工具。
蛋白质数据库(HPDB),建于2005年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。
分子结构特征描述采用汉语,同时提供英文原文以供考证。对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于HPDB的翻译不妥带来的不便。
蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库,因此HPDB支持中文查询。
蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持RCSB PDB核实后的原始实验数据文件,并保持PDB文件格式和蛋白质分子编号。