您当前的位置:首页 > 互联网教程

mpp数据库有哪些

发布时间:2025-05-24 14:03:24    发布人:远客网络

mpp数据库有哪些

一、mpp数据库有哪些

1、MPP数据库的常见类型有:Greenplum、Hadoop、Netezza、VoltDB等。

2、MPP数据库,即大规模并行处理数据库,广泛应用于大数据处理场景。以下是几种常见的MPP数据库的具体解释:

3、Greenplum:Greenplum是一个基于PostgreSQL开源数据库的高性能并行处理数据库。它采用MPP架构,通过并行处理和分布式计算来提供强大的数据查询和分析能力。由于其优秀的性能和可扩展性,Greenplum被广泛应用于数据仓库和数据湖场景。

4、Hadoop:Hadoop是一个广泛使用的开源软件平台,用于存储和处理大量数据。其核心的HDFS文件系统能够处理大量数据集的存储和分布式访问,并通过MapReduce编程模型进行数据处理和分析。Hadoop提供了大数据存储和处理的基本框架,也支持多种MPP架构下的数据处理和分析应用。

5、Netezza:Netezza是一种专为数据仓库和数据仓库集成设计的MPP数据库解决方案。它通过高性能的并行处理和强大的分析能力,提供快速的数据查询和报告功能。Netezza支持大量的数据和用户同时在线处理数据和分析报告的需求,在业务分析和数据密集型场景中广泛使用。

6、VoltDB:VoltDB是一种高度可扩展、完全认证的MPP数据库系统。它的设计和架构优化了云部署场景下的性能表现。VoltDB提供了实时交易和复杂分析功能,并支持分布式计算环境中的大规模数据处理的并发性需求。它广泛应用于各种在线服务和应用场景,包括物联网和移动应用等。

7、这些MPP数据库各具特色,可以根据具体的应用场景和需求选择合适的数据库系统。

二、一份难得的数据库市场分析报告

-数据库分类维度:关系型/非关系型、交易型/分析型

- OLTP市场规模:关系型数据库仍占营收大头

-数据库市场份额:云服务和新兴厂商主导NoSQL

-数据库三大阵营:传统厂商和云服务提供商

最近由于时间原因我写东西少了,在公众号上也转载过几篇搞数据库朋友的大作。按说我算是外行,没资格在这个领域品头论足,而当我看到下面这份报告时立即产生了学习的兴趣,同时也想就能看懂的部分写点心得体会分享给大家。

可能本文比较适合普及性阅读,让数据库领域资深的朋友见笑了:)

数据库分类维度:关系型/非关系型、交易型/分析型

首先是分类维度,上图中的纵轴分类为Relational Database(关系型数据库,RDBMS)和Nonrelational Database(非关系型数据库,NoSQL),横轴的分类为Operational(交易型,即OLTP)和Analytical(分析型,即OLAP)。

按照习惯我们先看关系型数据库,左上角的交易型类别中包括大家熟悉的商业数据库Oracle、MS SQL Server、DB2、Infomix,也包括开源领域流行的MySQL(MariaDB是它的一个分支)、PostgreSQL,还有云上面比较常见的SQL Azure和Amazon Aurora等。

比较有意思的是,SAP HANA正好位于交易型和分析型的中间分界处,不要忘了SAP还收购了Sybase,尽管后者今天不够风光了,而早年微软的SQL Server都是来源于Sybase。Sybase的ASE数据库和分析型Sybase IQ还是存在的。

右上角的分析型产品中包括几款知名的列式数据仓库Pivotal Greenplum、Teradata和IBM Netezza(已宣布停止支持),来自互联网巨头的Google Big Query和Amazon RedShift。至于Oracle Exadata一体机,它上面运行的也是Oracle数据库,其最初设计用途是OLAP,而在后来发展中也可以良好兼顾OLTP,算是一个跨界产品吧。

再来看非关系型数据库,左下角的交易型产品中,有几个我看着熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等;右下角的分析型产品包括著名的Hadoop分支Cloudera、Hortonworks(这2家已并购),Bigtable(来自Google,Hadoop中的HBase是它的开源实现)、Elasticsearch等。

显然非关系型数据库的分类要更加复杂,产品在应用中的差异化也比传统关系型数据库更大。Willian Blair很负责任地对它们给出了进一步的分类。

上面这个图表应该说很清晰了。非关系型数据库可以分为Document-based Store(基于文档的存储)、Key-Value Store(键值存储)、Graph-based(图数据库)、Time Series(时序数据库),以及Wide Cloumn-based Store(宽列式存储)。

我们再来看下每个细分类别中的产品:

文档存储:MongoDB、Amazon DocumentDB、Azure Cosmos DB等

Key-Value存储:Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等

WideCloumn:DataStax、Cassandra、Apache HBase和Bigtable等

多模型数据库:支持上面不只一种类别特性的NoSQL,比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。

OLTP市场规模:关系型数据库仍占营收大头

上面这个基于IDC数据的交易型数据库市场份额共有3个分类,其中深蓝色部分的关系型数据库(RDBMS,在这里不统计数据挖掘/分析型数据库)占据80%以上的市场。

Dynamic Database(DDMS,动态数据库管理系统,同样不统计Hadoop)就是我们前面聊的非关系型数据库。这部分市场显得小(但发展势头看好),我觉得与互联网等大公司多采用开源+自研,而不买商业产品有关。

而遵循IDC的统计分类,在上图灰色部分的“非关系型数据库市场”其实另有定义,参见下面这段文字:

数据库市场份额:云服务和新兴厂商主导NoSQL

请注意,这里的关系型数据库统计又包含了分析型产品。Oracle营收份额42%仍居第一,随后排名依次为微软、IBM、SAP和Teradata。

代表非关系型数据库的DDMS分类中(这里同样加入Hadoop等),云服务和新兴厂商成为了主导,微软应该是因为云SQL Server的基础而小幅领先于AWS,这2家一共占据超过50%的市场,接下来的排名是Google、Cloudera和Hortonworks(二者加起来13%)。

上面是IDC传统分类中的“非关系型数据库”,在这里IBM和CA等应该主要是针对大型机的产品,InterSystems有一款在国内医疗HIS系统中应用的Caché数据库(以前也是运行在Power小机上比较多)。我就知道这些,余下的就不瞎写了。

按照流行度来看,开源数据库从2013年到现在一直呈现增长,已经快要追上商业数据库了。

商业产品在关系型数据库的占比仍然高达60.5%,而上表中从这列往左的分类都是开源占优:

Key-Value存储:开源占比72.2%;

按照开源License的授权模式,上面这个三角形越往下管的越宽松。比如MySQL属于GPL,在互联网行业用户较多;而PostgreSQL属于BSD授权,国内有不少数据库公司的产品就是基于Postgre哦。

数据库三大阵营:传统厂商和云服务提供商

前面在讨论市场份额时,我提到过交易型数据库的4个巨头仍然是Oracle、微软、IBM和SAP,在这里William Blair将他们归为第一阵营。

随着云平台的不断兴起,AWS、Azure和GCP(Google Cloud Platform)组成了另一个阵营,在国外分析师的眼里还没有BAT,就像有的朋友所说,国内互联网巨头更多是自身业务导向的,在本土发展公有云还有些优势,短时间内将技术输出到国外的难度应该还比较大。(当然我并不认为国内缺优秀的DBA和研发人才)

第三个阵容就是规模小一些,但比较专注的数据库玩家。

接下来我再带大家简单过一下这前两个阵容,看看具体的数据库产品都有哪些。

甲骨文的产品,我相对熟悉一些的有Oracle Database、MySQL以及Exadata一体机。

IBM DB2也是一个庞大的家族,除了传统针对小型机、x86(好像用的人不多)、z/OS大型机和for i的版本之外,如今也有了针对云和数据挖掘的产品。记得抱枕大师对Informix的技术比较推崇,可惜这个产品发展似乎不太理想。

微软除了看家的SQL Server之外,在Azure云上还能提供MySQL、PostgreSQL和MariaDB开源数据库。应该说他们是传统软件License+PaaS服务两条腿走路的。

如今人们一提起SAP的数据库就想起HANA,之前从Sybase收购来的ASE(Adaptive Server Enterprise)和IQ似乎没有之前发展好了。

在云服务提供商数据库的3巨头中,微软有SQL Server的先天优势,甚至把它移植到了Linux拥抱开源平台。关系型数据库的创新方面值得一提的是Amazon Aurora和Google Spanner(也有非关系型特性),至于它们具体好在哪里我就不装内行了:)

非关系型数据库则是Amazon全面开花,这与其云计算业务发展早并且占据优势有关。Google当年的三篇经典论文对业界影响深远,Yahoo基于此开源的Hadoop有一段时间几乎是大数据的代名词。HBase和Hive如今已不再是人们讨论的热点,而Bigtable和BigQuery似乎仍然以服务Google自身业务为主,毕竟GCP的规模比AWS要小多了。

最后这张DB-Engines的排行榜,相信许多朋友都不陌生,今年3月已经不是最新的数据,在这里列出只是给大家一个参考。该排行榜几乎在每次更新时,都会有国内数据库专家撰写点评。

以上是我周末的学习笔记,班门弄斧,希望对大家有帮助。

参考资料《Database Software Market:The Long-Awaited Shake-up》

扩展阅读:《数据库&存储:互相最想知道的事》

尊重知识,转载时请保留全文。感谢您的阅读和支持!

三、如何使用Hadoop进入大数据库时代

Hadoop本身是分布式框架,如果在hadoop框架下,需要配合hbase,hive等工具来进行大数据计算。如果具体深入还要了解HDFS,Map/Rece,任务机制等等。如果要分析还要考虑其他分析展现工具。

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈:1、Hadoop HDFS、, HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。3、NoSQL,membase、MongoDb商用大数据生态圈:1、一体机数据库/数据仓库:IBM PureData(Netezza),, SAP Hana等等。2、数据仓库:, EMC GreenPlum, HPVertica等等。3、数据集市:QlikView、 Tableau、以及国内的Yonghong Data Mart。