GWAS Catalog数据库简介
发布时间:2025-05-19 20:39:10 发布人:远客网络
一、GWAS Catalog数据库简介
The NHGRI-EBI Catalog of published genome-wide association studies
EBI负责维护的一个收集已发表的GWAS研究的数据库
Last data release on 2019-09-244220 publications107486 SNPs157336 associationsGenome assembly GRCh38.p12dbSNP Build 151Ensembl Build 96
搜索表型:如breast carcinoma,会得到相关的非常规范的表型信息,EFO,就像GO一样,是一套表型分类规则。然后还会得到表型相关的基因。
搜索SNP:如rs7329174,会得到变异的详细信息,和对应的基因。
搜索人名:Yao,会得到相关的文献
搜索染色体位置:如2q37.1,Cytogenetic region
搜索区域:如6:16000000-25000000
说是数据库,其实就是一个table,从这里下载,不过100MB
DATE ADDED TO CATALOG*+: Date a study is published in the catalog
PUBMEDID*+: PubMed identification number
FIRST AUTHOR*+: Last name and initials of first author
DATE*+: Publication date(online(epub) date if available)
JOURNAL*+: Abbreviated journal name
DISEASE/TRAIT*+: Disease or trait examined in study
INITIAL SAMPLE DESCRIPTION*+: Sample size and ancestry description for stage 1 of GWAS(summing across multiple Stage 1 populations, if applicable)
REPLICATION SAMPLE DESCRIPTION*+: Sample size and ancestry description for subsequent replication(s)(summing across multiple populations, if applicable)
REGION*: Cytogenetic region associated with rs number
CHR_ID*: Chromosome number associated with rs number
CHR_POS*: Chromosomal position associated with rs number
REPORTED GENE(S)*: Gene(s) reported by author
MAPPED GENE(S)*: Gene(s) mapped to the strongest SNP. If the SNP is located within a gene, that gene is listed. If the SNP is intergenic, the upstream and downstream genes are listed, separated by a hyphen.
UPSTREAM_GENE_ID*: Entrez Gene ID for nearest upstream gene to rs number, if not within gene
DOWNSTREAM_GENE_ID*: Entrez Gene ID for nearest downstream gene to rs number, if not within gene
SNP_GENE_IDS*: Entrez Gene ID, if rs number within gene; multiple genes denotes overlapping transcripts
UPSTREAM_GENE_DISTANCE*: distance in kb for nearest upstream gene to rs number, if not within gene
DOWNSTREAM_GENE_DISTANCE*: distance in kb for nearest downstream gene to rs number, if not within gene
STRONGEST SNP-RISK ALLELE*: SNP(s) most strongly associated with trait+ risk allele(? for unknown risk allele). May also refer to a haplotype.
SNPS*: Strongest SNP; if a haplotype it may include more than one rs number(multiple SNPs comprising the haplotype)
MERGED*: denotes whether the SNP has been merged into a subsequent rs record(0= no; 1= yes;)
SNP_ID_CURRENT*: current rs number(will differ from strongest SNP when merged= 1)
CONTEXT*: SNP functional class
INTERGENIC*: denotes whether SNP is in intergenic region(0= no; 1= yes)
RISK ALLELE FREQUENCY*: Reported risk/effect allele frequency associated with strongest SNP in controls(if not available among all controls, among the control group with the largest sample size). If the associated locus is a haplotype the haplotype frequency will be extracted.
P-VALUE*: Reported p-value for strongest SNP risk allele(linked to dbGaP Association Browser). Note that p-values are rounded to 1 significant digit(for example, a published p-value of 4.8 x 10-7 is rounded to 5 x 10-7).
P-VALUE(TEXT)*: Information describing context of p-value(e.g. females, smokers).
OR or BETA*: Reported odds ratio or beta-coefficient associated with strongest SNP risk allele. Note that if an OR<1 is reported this is inverted, along with the reported allele, so that all ORs included in the Catalog are>1. Appropriate unit and increase/decrease are included for beta coefficients.
95% CI(TEXT)*: Reported 95% confidence interval associated with strongest SNP risk allele, along with unit in the case of beta-coefficients. If 95% CIs are not published, we estimate these using the standard error, where available.
PLATFORM(SNPS PASSING QC)*: Genotyping platform manufacturer used in Stage 1; also includes notation of pooled DNA study design or imputation of SNPs, where applicable
CNV*: Study of copy number variation(yes/no)
ASSOCIATION COUNT+: Number of associations identified for this study
什么是Experimental Factor Ontology trait?
什么是Cytogenetic region?karyotype
什么是trait+ risk allele?这里要分清SNP和allele的概念,SNP是位点,而allele则是该位点上碱基。考虑一下DNA双链,以及多倍体。
什么是risk/effect allele frequency?
odds ratio在GWAS里是个什么指标?wiki
The odds ratio is the ratio of two odds, which in the context of GWA studies are the odds of case for individuals having a specific allele and the odds of case for individuals who do not have that same allele.
As an example, suppose that there are two alleles, T and C. The number of individuals in the case group having allele T is represented by‘A‘ and the number of individuals in the control group having allele T is represented by‘B‘. Similarly, the number of individuals in the case group having allele C is represented by‘X‘ and the number of individuals in the control group having allele C is represented by‘Y‘. In this case the odds ratio for allele T is A:B(meaning‘A to B‘, in standard odds terminology) divided by X:Y, which in mathematical notation is simply(A/B)/(X/Y).
When the allele frequency in the case group is much higher than in the control group, the odds ratio is higher than 1, and vice versa for lower allele frequency. Additionally, a P-value for the significance of the odds ratio is typically calculated using a simple chi-squared test. Finding odds ratios that are significantly different from 1 is the objective of the GWA study because this shows that a SNP is associated with disease.[18]
什么是MAF?the frequency of the minor allele
GWAS数据可以有哪些注释?phenotype annotation、population and linkage disequilibrium(LD) information
什么是CP loci?an effective region associated with at least two phenotypes
Quality Control Procedures for Genome Wide Association Studies
Data quality control in genetic case-control association studies
minor allele frequency(MAF)> 0.01;statistical power is extremely low for rare SNPs,很好理解,如果一个非常罕见的SNP,需要非常大的样本量才能有足够的powerHardy-Weinberg equilibrium(HWE) test p-value> 5E-05; missing genotypes rate< 10%;Genotypes are classified as missing if the genotype-calling algorithm cannot infer the genotype with sufficient confidence. Can be calculated across each individual and/or SNP.
什么是Experimental Factor Ontology?
什么是LD information(r2 and D’ values)?
Mathematical properties of the r2 measure of linkage disequilibrium
标签:loadproceduremissing问题:linkagegenids基本using
标签 load procedure missing问题: linkage gen ids基本 using
二、数据库 关系代数
1、Every database management system must define a query language to allow users to access the data stored in the database.Relational Algebrais a procedural query language used to query the database tables to access data in different ways.
2、每个数据库管理系统都必须定义一种查询语言,以允许用户访问存储在数据库中的数据。关系代数是一种过程查询语言,用于查询数据库表以不同方式访问数据。
3、In relational algebra, input is a relation(table from which data has to be accessed) and output is also a relation(a temporary table holding the data asked for by the user).
4、在关系代数中,输入是一个关系(必须从中访问数据的表),而输出也是一个关系(一个保存用户要求的数据的临时表)。
5、Relational Algebra works on the whole table at once, so we do not have to use loops etc to iterate over all the rows(tuples) of data one by one. All we have to do is specify the table name from which we need the data, and in a single line of command, relational algebra will traverse the entire given table to fetch data for you.
6、关系代数可一次在整个表上工作,因此我们不必使用循环等来遍历数据的所有行(元组)。我们要做的就是指定要从中获取数据的表名,并且在单行命令中,关系代数将遍历整个给定表以为您获取数据。
三、中亚地区数字地质图数据库的建立
本文研究区范围较大,在建库过程中,按照“一个标准,分幅入库,最后整合”的步骤,构建中亚地区数字地质图空间数据库。
完整、齐全而又有效的第一手资料是建立地理信息空间数据库的前提,也是对地理信息空间数据进行空间分析的基础。因此,要根据所选图幅,全面收集有关资料,以满足建库需求。资料收集主要有以下两类:①图形资料:包括相同比例尺的地理底图、地质图、矿产图等;②文字资料:主要是有关的地质报告、地质图说明书、有关规范和标准等。在全面收集资料的基础上,对资料进行系统的分析研究、综合整理及筛选后,将中亚地区地质图按300 dpi规格进行扫描。对扫描色彩较差的图像,进行适当的色彩调整,使之清晰可辨。
在矢量化过程中,我们统一采用BJ54平面坐标系,1980黄海高程系作为参照系。中亚地区中央经度为81°,按3°分带在14带内。在创建空间地理数据库(personal geodatabase)及要素数据集(feature dataset)和扫描影像几何校正时,均采用该坐标系统。
本文在ERDAS IMAGINE 9.2软件的支持下,对扫描地质图进行几何校正,采用多项式几何校正法,按一次方,选取图纸网格线交点作为控制点,每幅图至少选取20各控制点,进行几何校正,精度保证在0.5个像素以内,即10米的精度内,完成对中亚地区扫描地质图的几何校正。
按照上述技术流程,对中亚地区建立统一的矢量属性数据库,每一幅图均采用统一的空间地理数据库(personal geodatabase),每个库下建立一个要素数据集(feature dataset),每个要素数据集包含11个要素类,按几何形状分为面状要素、线状要素和点状要素三大类:①面状要素类有6个:侵入岩地层要素属性表、沉积(火山)岩地层要素属性表、变质岩地层要素属性表、蚀变带要素属性表、脉岩属性表、水域/流域面属性表;②线状要素类有2个:断层属性表、地质界线属性表;③点状要素类有3个:矿产地(点)属性表、产状属性表、火山口属性表。一个属性表就是一个图层,既保存了各地质要素的空间图形数据,又保存了属性数据。每个要素属性表的结构和字段按前文所述,一一建立。如图7-19所示。该图以赛里木湖图幅为例,列举了数据库中包含的所有图层。
数据采集主要是在ArcMap环境下对校正后的地质图按各实体要素逐一进行矢量化,对个地质要素类按图层进行分类存储,按照图7-20所示的矢量化步骤,严格依照该流程设计的图层录入顺序进行矢量,这样才能提高矢量化的效率,也保证了整个图幅几何图形逻辑拓扑的一致性。手动矢量图形时,应当跟踪各类地形中心线来完成每根线条(如图7-20 a),尽量保证线条的圆滑,不应产生锐角或小尖角(如图7-20 b),在矢量时,放大的比例不能太大,一般保证当鼠标移动一个像素图上距离不超过20米为宜,如果放大比例过大,就会导致采集点过多、过密,容易造成整个线条的不圆滑(如图7-20 c)。在矢量过程中,利用ArcMap的断点捕捉功能,选择恰当的节点进行捕捉,对于线性地质要素应尽量避免接头过长或过短(如图7-20 d),对后续“线转面”生成面图层时容易造成影响。尤其对断层的矢量尤为注意,因为断层在地质图上一般都用较粗的线表示,而其他岩性界线一般很细,倘若不注意缩放比例的大小,很容易造成矢量失真,难以保证数据采集的精度。
在矢量化过程中难免会出现图7-20(a、b、c、d)所示的错误,这时我们可以利用ArcMap快捷方便的矢量工具进行修改、编辑。选择要修改的线,双击就会出现构成线的节点,用鼠标拖动,很容易将未沿中线矢量的线条拖至中央,对于矢量锐角明显、不圆滑或接头过长的线条,双击出现节点后,右键选中节点,利用弹出的快捷菜单,可以进行“增加节点”“删除节点”等操作,方便地进行修改和编辑。
图7-19地质图数据库各图层的建立(以赛里木图幅为例)
在保证了对线型地质要素采集的准确性,由“线转面”时才能保证数据采集的有效性和完整性,使原纸质地质图上的信息完整、有效地进行“数字化”。利用ArcMap矢量工具的“线转面”(feature to polygon)工具,将临时线文件转换为临时面文件,设定闭合容差为10米。“线转面”完成后,要对生成的面(polygon)进行检查,看是否有遗漏,若发现至少10处以上遗漏,则重新对“临时线”图层做进一步矢量工作,完善后再转面。若小于10处,则可以在“临时面”图层进行修改和编辑,利用“线跟踪”和“creat polygon”工具进行面的增加,对于遗漏的“孤岛”则用“cut polygon”工具进行创建。
检查“临时面”图层无误后,要对其进行“分类”,按照地质图图例、柱状图等要素按沉积岩地层、侵入岩地层、变质岩地层和面状水域与沼泽进行分类。在“临时面”图层上选择所有沉积岩地层的图斑,然后导出保存在该幅地质图数据库的要素集下的要素类,命名为“临时沉积岩”要素类;依次选择侵入岩地层的图斑、变质岩地层图斑及面状水域与沼泽图斑,分别导出保存在同一个要素集下。各要素导出完成后应仔细检查看是否有分类错误或遗漏,用“面拷贝”或删除工具对该类错误进行修改。
对于脉岩(面)要素、产状(线)要素、蚀变带(面)要素、火山口和矿点(点)要素基本很少与其他图层共用边界,因此,直接对这些要素单独进行矢量便可。
最后进行图形的质量检查,包括岩性划分类别检查,几何拓扑检查,检查无误且没有遗漏后,导入标准库中。这样基本完成了一幅扫描地质图11类地质要素的矢量入库工作,下一步,主要参考图例、柱状图和地质图说明书进行属性录入。如流程图7-16所示。最后,检查属性数据录入完整无误后,便可进行下一图幅的矢量工作。
依次完成地质图的矢量入库工作后,下一步就是进行图形数据的拼接,属性数据库的合并。首先,将地质图数据库的11个地层,按各要素类导入一个要素集下,例如,将地质图数据库的“沉积岩地层单位”图层导入一个空的标准库中,存入一个要素集下,构成中亚地区地质图数据库。显然,此时,这个数据库里存放的所有图形数据和属性数据只是按各图幅为单位进入数据库的,难免有很多数据冗余,以及图形数据的接边问题,所以我们必须首先从图形数据的接边出发,然后再依据各图斑的属性数据进一步完善各图幅数据库的拼接。
图形的拼接主要针对数据库内面(polygon)类数据和线(line)类数据的拼接,线类数据的拼接与“线”的修改、编辑类同,不做过多阐述。重点讨论面(polygon)类型数据的图形及属性数据的拼接。
在矢量化过程中,我们按标准图框进行分幅。用标准图框的线来裁切“临时线”再转换为面(polygon)数据,所以从整体上来说,各图幅图形数据的接边难度不大。只存在由于各图幅几何校正精度的差异引起的图幅间细小的缝隙或重叠,在几何校正时我们尽量保证每幅图的校正精度在0.5个象元,图上距离在10米以内,因此,图幅间这些细小的缝隙或重叠区域大多在容差以内,对重叠部分可以用“merge”工具进行简单的合并,对于有缝隙的区域,可以参照该区域相邻的图斑,利用“线跟踪”、“creat polygon”创建新的面,然后将其归并到与之相邻且面积较大的图斑中去。
由于这类空隙和重叠区域较为细小,研究区覆盖范围较大,如果用肉眼一个边界一个边界的去寻找、修改,较繁琐,且容易遗漏,造成拼接的不完整。这时,我们可以利用ArcGIS提供的拓扑图层进行检查,将中亚地区地质图数据进行完整的拓扑检查,根据可能出现的图形错误,设定拓扑检查规则。在本文研究区数据拓扑处理过程中,主要采用“must not have gaps”——“不能有空区”、“must not overlap”——“不能有交集”等规则,能够快速检索出因几何校正精度不一致而引起的“空隙”和“重叠”部分,并直观地将有“空区”或“有重叠部分”的图斑用红色标识出来,能方便的对出现这些区域的图形进行修改、编辑。利用拓扑检查,大大提高了图形拼接的效率和质量,并且减少了人为的错误及遗漏。
另外,利用ArcGIS的“dissove”工具,也可以快速完成这些细小的“空隙”和“重叠”带来的图形拼接工作。选择要处理的图层,然后设定适当的容差,将该要素图层按某个字段进行合并,能迅速完成该图层的拼接。由于该工具在合并图斑时,只要各图斑所选的字段相同,都合并为一个大的图斑,且属性也进行合并,生成新的“multipolygon”类型的图层。所有,还应利用“multi-part to single part”转换为单个的“polygon”类型的数据才能完成真正的图形拼接工作。
图7-21中亚地区数字地质图空间数据库的组成
通过上述讨论和分析,采用ArcGIS便捷的工具菜单,对标准图框进行分幅入库的图形数据和矢量数据,可以快捷、高效的完成图幅的拼接工作,完成中亚地区数字地质图空间数据库的构建。如图7-21所示。每个要素类包括一个图形图层和一个与之对应的属性数据表。通过图形即可方便地进行属性的查询,也可通过属性表的字段来查询相关的地质要素。中亚地质图数据库的建立,为进行GIS空间分析,成矿信息的提取以及证据权计算奠定了数据基础,提供了数据分析平台。