您当前的位置:首页 > 互联网教程

PubChem-简介

发布时间:2025-05-19 14:52:28    发布人:远客网络

PubChem-简介

一、PubChem-简介

PubChem是美国国立卫生研究院的开放化学数据库。您可将科学数据存储其中,全球数百万用户每月使用此平台。主要包含小分子,但亦囊括较大分子,如核苷酸、碳水化合物、脂质、肽及化学修饰的分子。PubChem收集化学结构、标识符、性质、生物活性、专利、健康、安全、毒性等信息。数据来自数百个源,包括政府机构、化学品供应商、期刊出版商等。数据量持续增长,最新统计显示:

Compounds| 109,291,314|独特化学结构

Substances|269,783,826|化学实体信息

BioAssays|1,229,047|生物学实验

Bioactivities|273,576,401|生物活性数据

Pathways|237,916|化学物质、基因与蛋白质相互作用

Literature|32,013,955|链接科学出版物

PubChem中的数据集包括化合物、物质、生物试验、基因、蛋白质、生物活性数据、路径、文献、专利等。数据由众多数据源提供,如政府机构、化学品供应商、期刊出版商等。

PubChem概念包括物质、化合物、生物试验。物质数据由数据源使用PubChem Upload提交,每个数据源每个记录分配唯一SID。化合物则在包含可标准化为相同化学结构的物质记录中生成,形成CID。生物试验数据由数据源提交生物活性测试结果及相关注释,每个实验分配AID,包括研究人员定义的生物活性测定。

PubChem提供数据下载,除许可协议阻止的特定数据集外,大多数据可下载。

二、PubChem:有机小分子生物活性数据库

1、在众多分子数据库中,有机小分子生物活性数据领域的佼佼者无疑是PubChem。它由美国国家健康研究院支持,由美国国家生物技术信息中心(NCBI)维护,是一个集实用性和全面性于一体的查询平台。NCBI的免费数据库资源丰富,PubChem只是其中之一,如之前介绍的GEO数据库也是NCBI的产物。

2、PubChem数据库涵盖了海量的有机分子信息,不仅提供了化学物质的理化特性介绍,而且深入挖掘了每个有机分子的生物活性数据,为生物医药和生化交叉领域的研究者提供了宝贵资源。用户可以通过名称、分子式、结构标识等多种方式搜索,获取化学性质、生物活性、安全性、毒性数据,以及专利、文献引用等详细信息。据统计,它拥有11100万种化合物、28700万种物质、27300万种生物活性数据、3200万篇相关文献和250万种专利。

3、PubChem分为三个子数据库,包括生物活性数据的BioAssay、化合物结构信息的Compound,以及原始数据的 Substance。对于习惯使用Entrez的用户,新主页还提供了Entrez链接。搜索方式灵活多样,如结构相似或子结构搜索,以及通过Draw Structure功能直接绘制结构图。

4、以分子式C9H8O4为例,搜索结果多达1137项,如阿司匹林。查询结果包括PubChem CID、结构、安全信息等基础数据,以及详细到2D和3D结构、化学性质、光谱信息、文献和专利等15个方面的深入信息,帮助用户全面了解化合物背景知识。此外,PubChem还提供了编程服务和FTP下载,为专业研究人员提供了更深度的数据挖掘途径。

5、总的来说,PubChem是一个功能强大、内容丰富的有机小分子生物活性数据库,无论是在研究阶段还是在实际应用中,都能为化学、生物和医药领域的专业人士提供有力支持。通过PubChem,用户可以深入探索和理解化学世界中的无数奥秘。

三、如何高效利用PubChem数据库一文带你了解核心功能

PubChem数据库,由NCBI管理,是全球领先的化学数据库之一。截至2024年6月,它收录了11800万种化合物结构信息,31800万种用户上传的化合物数据,以及29500万种实验结果或文献支持的化合物生物活性数据,同时还有4100万篇相关文献和5100万相关专利,以及113242个靶基因、247611个靶蛋白和241163条通路信息。其引用数据来源总计995个,覆盖了大量化合物信息,包括结构、理化性质、生物活性、毒性和安全性数据,并提供了详细的文献或专利支持。

要高效利用PubChem数据库,可以遵循以下步骤进行操作:

首先,通过关键词检索快速查找所需信息。在主页检索框输入关键词,如化合物名称、化学式、CAS号、SMELE码、InchI表达式、基因名或Covid-19专题检索功能等。以阿司匹林为例,检索结果包括一条最佳匹配的单体数据、106条化合物结构信息、835条底物数据、39条通路数据、2246条药物活性数据,以及7万多条相关文献和专利。

点击‘best match’下的第一条数据,可以查看详细的aspirin信息概览,包括PubChem CID、化合物结构、化学安全分类、分子式、同义词、分子量和数据更新时间。同时,还有aspirin的药理功能注释、肝毒性信息、NCI Thesaurus、LiverTox和DrugBank数据库链接。右侧栏为该页面所展示的信息目录。

Structures:展示aspirin的2D、3D和晶体结构,提供结构信息文件下载或保存图片,并可检索结构相似的化合物。

Names and Identifiers:展示aspirin的各种表达式、别名和标识符。

Chemical and Physical Properties:展示aspirin的理化性质,包括实验和预测结果。

Spectral Information:提供aspirin的光谱信息,包括核磁共振谱、质谱、红外紫外光谱和Raman光谱等。

此外,平台还提供了相关记录、化学供应商信息、临床信息、药理学性质、毒理学特征、疾病关联、文献、生物分子交互和途径、生物测试结果等详细信息。

对于复杂结构的检索,可以使用结构式检索功能。在首页点击Draw Structure,输入或绘制结构图,获取结果包括同一性、相似性、子结构和上层结构。进入各化合物详情页面,结果与关键词检索类似。

另一种批量检索方式是通过UPLOAD ID LIST功能。在首页下载示例数据,选择数据类型,上传示例数据文件,进行检索,右侧提供批量下载选项。

在PubChem数据库的元素周期表中,点击任何元素即可查看其详细信息。

需要注意的是,尽管PubChem数据库提供了丰富资源,但对于非专业人士来说,其搜索选项可能较为复杂,需要一定的学习成本。界面的直观性和简洁性也可能是问题之一。对于某些特定的化合物或研究领域,数据库提供的数据可能不够详细或深入,特别是查询化合物参与的反应数据时,可能无法清晰地展示结果。

在寻找解决方案的过程中,我发现了国产化学数据库MolAid化合物检索及智能合成一体化数字平台。MolAid不仅具备PubChem的核心功能,还支持谱图检索。它收录了1.6亿个化合物,拥有5000万条反应数据,20万张真实实验谱图,以及100万有机晶体数据,并提供了740万条商品信息。MolAid平台具有中文操作界面,易于上手,可能更符合某些用户的需求。