Hive的设计目的是让精通SQL技能(但Java编程技能相对较弱)的分析师能够对存放在HDFS中的大规模数据集执行查询。Hive已经是一个成功的Apache项目,很多组织把它用作一个通用的、可伸缩的数据处理平台。

本文是大数据专家Dico的整理、研究成果,是作者根据一线战场里宝贵的实战经验总结而来,文章借鉴了众多开源软件、官方网站、源代码,正是站在这些巨人的肩膀上,才可以成文,正是如此,本文允许转载(需要在明显位置标注转载文章来源:http://dicoding.site)。大数据专家Dico是芒果TV的首席大数据架构师,有系统的体系架构经验,期待和您建立联系。

以MapReduce技术为主要技术蓝本的Hadoop系统 在我国拥有庞大的用户群,形成了一个活跃的开源系统生态圈。互联网企业(例如百度阿里和腾讯等)、金融行业(例如工商银行和建设银行等)、IT厂商(例如华为、中兴、OV等)以及不计其数的中小型企业,都是Hadoop系统的拥趸。

我国拥有庞大的Hadoop系统开发群体,他们现在已经在Hadoop的基础之上构建了大量的应用软件,每天处理着类型各异的大规模数据。因此Hadoop及其周边技术和系统在我国有广泛的影响和应用市场。

本站(http://dicoding.site)首先从MapReduce入手,深入剖析Hadoop文件系统、Hadoop的I/O操作,本站涉及各种数据格式、MapReduce的高级主题,包括排序和数据连接,并讲解如何在Hadoop集群上设置和维护运行HDFS和MapReduce。

本文是大数据专家Dico的整理、研究成果,文章借鉴了众多开源软件、官方网站、源代码,正是站在这些巨人的肩膀上,才可以成文,正是如此,本文允许转载(需要在明显位置标注转载文章来源:http://dicoding.site)。大数据专家Dico是芒果TV的首席大数据架构师,有系统的体系架构经验,期待和您建立联系。