什么是生物信息学中的二级数据库
发布时间:2025-05-25 03:24:48 发布人:远客网络
一、什么是生物信息学中的二级数据库
1、生物信息学数据库中,一级数据库与二级数据库扮演着重要角色。一级数据库,也称为一次数据库,主要来源于基因组作图、序列测定及结构测定,涵盖基因组数据库、核酸和蛋白质一级结构数据库及生物大分子的三维空间结构数据库。这些数据库构成了分子生物学的基础数据资源,通常被称为基本数据库、初始数据库或一次数据库,它们数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。
2、相比之下,二级数据库则是在一级数据库、实验数据和理论分析的基础上衍生整理而成。二级数据库根据生命科学的不同研究领域需求,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。这类数据库的容量较小,更新速度较慢,且不需要大型商业数据库软件支持,方便不同问题的开发,特别适用于计算机使用经验不太丰富的生物学家。
3、序列数据库作为分子生物信息数据库中最基础的数据库,主要包含核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。例如,GenBank由美国国家生物技术信息中心建立,该中心隶属于美国国家医学图书馆,位于美国家卫生研究院内;EMBL由欧洲分子生物学实验室建立,主要位于英国剑桥和德国汉堡;DDBJ由日本DNA数据库建立,由the National Institute of Genetics主管。
4、二级数据库通常以网页界面为基础,以文字信息、表格、图形、图表等方式展示数据库内容。值得注意的是,一级数据库与二级数据库之间并无明确界限,例如GDB、AceDB、SCOP、CATH等已经具有二级数据库的特色。
二、蛋白质三维结构数据库的功能
PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒。此外,还有核酸、蛋白和核酸复合物以及少量多糖分子。核酸三维结构测定进展迅速。PDB数据库中已经收集了800多套核酸结构数据。
PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。用户不仅可以得到生物大分子的各种注释、坐标、三维图形、VAML等,并能从一系列指针连接到与PDB有关的数据库,包括SCOP、CATH、Medline、ENZYME、SWISS-3DIMAGE等。可通过FTP下载PDB数据。所有的PDB文件均有压缩和非压缩版以适应用户传输需要。PDB的电子公告版BBS和电子邮件兴趣小组(Mailing List)为用户提供了交流经验和发布新闻的空间。在PDB的服务器上还提供与结构生物学相关的多种免费软件如Rasmol、Mage、PDBBrowser、3DB Brower等。