云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名备案_mysql如何删除数据库_是什么

小七 141 0

这个博客是我的Hadoop学习之旅系列的一部分。在本博客中,我将重点介绍如何使用Hortonworks沙盒在Hadoop中运行helloworld程序。helloworld程序将使用Hadoop的3个组件&HDFS、HCatalog和Hive。

前提条件:尽管您可以直接从这个博客开始并完成helloworld示例。但是为了更好的理解,我会建议浏览我的Hadoop学习之旅系列中以前的博客。

我们将使用Hortonworks提供的沙盒系统,而不是从头开始安装Hadoop。

Hortonworks沙盒是个人的,云服务器好吗,可移植的Hadoop环境,附带了十几个交互式Hadoop教程。按照以下步骤安装。

完成!!我们已经成功地安装和配置了HortonWorks沙盒。

示例数据

让我们用一个单一csv文件的数据库来做一个最简单的用例。

输入:一个包含两列"城市"、"温度"的csv文件。

输出:找到最高和最低温度的城市。

我们将csv文件加载到HDFS,向HCatalog注册数据,返利公众号,并使用配置单元处理此文件。

从此处下载示例csv文件:https://drive.google.com/file/d/1yXGya4UB2n4F40hPJ4FysQxQagkQT\u WG/view?usp=sharing

将数据加载到Hadoop分布式文件系统(HDFS)

点击Fie浏览器上传HDFS中的示例数据。点击上传文件部分上传csv文件

您会注意到该文件已上传到HDFS中,只需点击一次即可查看数据文件的内容

将数据加载到HDFS后,中国物联网,向HCatalog注册

,我们需要向HCatalog注册它,以使数据可用于所有处理语言Pig、Hive等

单击HCatalog图标并从一个文件创建一个新表。给它起个有意义的名字(例如"城市温度列表")。

上传你刚下载的示例数据文件。

你会注意到数据文件的原始内容会出现。在这里,您可以进行模式元数据设置,即您可以定义编码样式,可以更改列名、列类型等。对于第一个示例,云服务器吧,我们将所有内容保持原样。

单击"创建表"按钮在HCatalog中注册此数据文件。您会注意到数据文件已成功注册并出现在HCatalog上。

使用Hive处理数据

我们将使用Hive语言查询数据。Hive提供了一种使用类似SQL的语言HiveQL来查询数据的机制。

点击工具Beeswax,它为您提供了一个到Hive的交互界面。

由于我们已经在HCatalog中注册了表,Hive可以访问它。执行查询以查找最高温度的城市。

输出应如下图所示。

同样,我们也可以运行查询以查找最低温度的城市。

恭喜!!!我们完成了我们的第一个Hadoop示例,将数据加载到Hadoop HDFS中,然后在HCatalog中注册,最后执行配置单元脚本以从数据中获得结果。

,大数据局