数据分析的技术框架学习(分布式实时数据分析查询引擎)

数据分析的技术框架学习(分布式实时数据分析查询引擎)(1)

Apache Drill和Cloudera Impala都属于分布式实时数据分析查询引擎。下面进行一些简单介绍和对比,供选型参考。

一、Apache Drill简介

2012年,由Hadoop 分销商的领导者之一MapR 领导的一个团队,提出构建一个Google Dremel 的开源版本,一个交互式的分布式热点分析系统。他们将其命名为Apache Drill。Drill 在Apache 孵化器中被冷落了两年多,最终在2014年底毕业。该团队在2015年发布了1.0。

2016年,超过50个人对Drill 做出了贡献。该团队在2016年发布了5个小版本,关键的增强功能包括:

  • Web 认证
  • 支持Apache Kudu 列数据库
  • 支持HBase 1.x
  • 动态UDF 支持

2015年,两位关键的Drill 贡献者离开了MapR,并启动了Dremio,该项目尚未发布。

二、Cloudera Impala简介

2012年,Cloudera 推出了Impala,一个开源的MPP SQL 引擎,作为Hive 的高性能替代品。Impala 使用HDFS 和HBase,并利用了Hive 元数据。但是,它绕开了使用MapReduce 运行查询。

2015年,Cloudera 将Impala 捐献给Apache 软件基金会,进入了Apache 孵化计划。

2016年,Impala 在Apache 孵化器中取得了稳步发展。该团队清理了代码,将其迁移到Apache 基础架构,并在10月份发布了第一个Apache 版本2.7.0。

Impala 是 Cloudera 公司主导开发的新型查询系统,它提供 SQL语义,能够为存储在 Hadoop的 HDFS 和 HBase 中的 PB 级大数据提供快速、交互式的 SQL 查询。已有的 Hive 数据仓库工具由于底层执行使用的是 MapReduce 引擎,仍然是一个批处理过程,难以满足要求响应快速的交互式查询。而 Impala 是基于 MPP 的查询系统,它的最大特点就是快速,其性能比Hive高出3-30倍。

数据分析的技术框架学习(分布式实时数据分析查询引擎)(2)

访问Kafka技术专栏,该专栏从实战出发,通过零基础入门-环境搭建-项目案例实战,让初学者快速掌握Kafka相关技术要点并投入实际项目开发。

三、DB-Engines指标对比

下面是来自DB-Engines网站的数据对比,从评分和排名来看,Impala占有更多优势。

数据分析的技术框架学习(分布式实时数据分析查询引擎)(3)

按时间维度的排名趋势来看,Impala也超出Apache Drill不少。

数据分析的技术框架学习(分布式实时数据分析查询引擎)(4)

关于Skywalking入门、集群模式部署、监控指标详细讲解以及和Spring Cloud 微服务框架的整合,可以参考Skywalking技术专栏。

数据分析的技术框架学习(分布式实时数据分析查询引擎)(5)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页