6大主流开源SQL引擎总结，遥遥领先的是谁？_

　　编者按：本文来自微信公众号“InfoQ”（ID：infoqchina），作者覃璐，编辑Tina；36氪经授权发布。

　　根据 O’Reilly 2016年数据科学薪资调查显示，SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作，甚至有一些只需要SQL。本文就带你来了解这些主流的开源SQL引擎！背景介绍

　　本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL，IBM 尚未将后者更名为“Watson SQL”。

　　（有读者问：Druid 呢？我的回答是：检查后，我同意Druid 属于这一类别。）

　　使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎，它的框架使用MapReduce、TeZ 或者Spark 引擎去执行查询，而且它并不运行SQL，而是HiveQL，一种类似SQL 的语言，非常接近SQL。“SQL-in-Hadoop” 也不适用，虽然Hive 和Impala 主要使用Hadoop，但是Spark、Drill、HAWQ 和Presto 还可以和各种其他的数据存储系统配合使用。

　　不像关系型数据库，SQL 引擎独立于数据存储系统。相对而言，关系型数据库将查询引擎和存储绑定到一个单独的紧耦合系统中，这允许某些类型的优化。另一方面，拆分它们，提供了更大的灵活性，尽管存在潜在的性能损失。

　　下面的图1展示了主要的SQL 引擎的流行程度，数据由奥地利咨询公司Solid IT 维护的DB-Engines 提供。DB-Engines 每月为超过200个数据库系统计算流行得分。得分反应了搜索引擎的查询，在线讨论的提及，提供的工作，专业资历的提及，以及tweets。

　　来源：DB-Engines，2017年1月

　　虽然Impala、Spark SQL、Drill、Hawq 和Presto 一直在运行性能、并发量和吞吐量上击败Hive，但是Hive 仍然是最流行的（至少根据DB-Engines 的标准）。原因有3个：

Hive 是Hadoop 的默认SQL 选项，每个版本都支持。而其他的要求特定的供应商和合适的用户；

Hive 已经在减少和其他引擎的性能差距。大多数Hive 的替代者在2012年推出，分析师等待Hive 查询的完成等到要自杀。然而当Impala、Spark、Drill 等大步发展的时候，Hive只是一直跟着，慢慢改进。现在，虽然Hive 不是最快的选择，但是它比五年前要好得多；

虽然前沿的速度很酷，但是大多数机构都知道世界并没有尽头。即使一个年轻的市场经理需要等待10秒钟来查明上周二Duxbury 餐厅的鸡翅膀的销量是否超过了牛肉汉堡。

　　在下面的图2中可以看出，相对于领先的商业数据仓库应用，用户对顶尖的SQL 引擎更感兴趣。

　　 6大主流开源SQL引擎总结，遥遥领先的是谁？

　　来源：DB-Engines，2017年1月

　　对于开源项目来说，最佳的健康度量是它的活跃开发者社区的大小。如下面的图3所示，Hive 和Presto 有最大的贡献者基础。（Spark SQL 的数据暂缺）

　　 6大主流开源SQL引擎总结，遥遥领先的是谁？

　　来源：Open Hub

　　在2016年，Cloudera、Hortonworks、Kognitio 和Teradata 陷入了Tony Baer 总结的基准测试之战，令人震惊的是，供应商偏爱的SQL 引擎在每一个研究中都击败了其他选择，这带来一个问题：基准测试还有意义吗？

　　AtScale 一年两次的基准测试并不是毫无根据的。作为一个BI 初创公司，AtScale 销售衔接BI 前端和SQL 后端的软件。公司的软件是引擎中立的，它尝试尽可能多的兼容，其在BI 领域的广泛经验让这些测试有了实际的意义。

　　AtScale 最近的关键发现，包括了Hive、Impala、Spark SQL 和Presto：

4个引擎都成功运行了AtScale 的BI 基准查询；

取决于数据量、查询复杂度和并发用户数，每个引擎都有自己的性能优势：

　　Impala 和Spark SQL 在小数据量的查询上击败了其他人；

　　Impala 和Spark SQL 在大数据量的复杂join 上击败了其他人；

　　Impala 和Presto 在并发测试上表现的更好。

对比6个月之前的基准测试，所有的引擎都有了2-4倍的性能提升。

　　Alex Woodie 报告了测试结果，Andrew Oliver 对其进行分析。

　　让我们来深入了解这些项目。

　　Apache Hive

　　Apache Hive 是Hadoop 生态系统中的第一个SQL 框架。Facebook 的工程师在2007年介绍了Hive，并在2008年将代码捐献给Apache 软件基金会。2010年9月，Hive 毕业成为Apache 顶级项目。Hadoop 生态系统中的每个主要参与者都发布和支持Hive，包括Cloudera、MapR、Hortonworks 和IBM。Amazon Web Services 在Elastic MapReduce（EMR）中提供了Hive 的修改版作为云服务。

　　早期发布的Hive 使用MapReduce 运行查询。复杂查询需要多次传递数据，这会降低性能。所以Hive 不适合交互式分析。由Hortonworks 领导的Stinger 明显的提高了Hive 的性能，尤其是通过使用Apache Tez，一个精简MapReduce 代码的应用框架。Tez 和ORCfile，一种新的存储格式，对Hive 的查询产生了明显的提速。

　　Cloudera 实验室带领一个并行项目重新设计Hive 的后端，使其运行在Apache Spark 上。经过长期测试后，Cloudera 在2016年初发布了Hive-on-Spark 的正式版本。

　　在2016年，Hive 有100多人的贡献者。该团队在2月份发布了Hive 2.0，并在6月份发布了Hive 2.1。Hive 2.0 的改进包括了对Hive-on-Spark 的多个改进，以及性能、可用性、可支持性和稳定性增强。Hive 2.1 包括了Hive LLAP（”Live Long and Process“），它结合持久化的查询服务器和优化后的内存缓存，来实现高性能。该团队声称提高了25倍。

　　9月，Hivemall 项目进入了Apache 孵化器，正如我在我的机器学习年度总结的第二部分中指出的。Hivemall 最初由Treasure Data 开发并捐献给Apache 软件基金会，它是一个可扩展的机器学习库，通过一系列的Hive UDF 来实现，设计用于在Hive、Pig 和Spark SQL 上运行MapReduce。该团队计划在2017年第一季度发布了第一个版本。

　　Apache Impala

　　2012年，Cloudera 推出了Impala，一个开源的MPP SQL 引擎，作为Hive 的高性能替代品。Impala 使用HDFS 和HBase，并利用了Hive 元数据。但是，它绕开了使用MapReduce 运行查询。

转载请注明出处。