云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站空间_数据库书籍推荐_便宜的

小七 141 0

网站空间_数据库书籍推荐_便宜的

Carsten Mönning和Waldemar Schiller

第1部分-Raspberry Pi 2 B型单节点Hadoop(~120分钟),

第2部分-Hadoop上的Hive(~40分钟)

第3部分-SAP Lumira的Hive访问(~30分钟),

第4部分-Raspberry Pi 2 B型Hadoop集群(约45分钟),

第二部分–Hadoop上的Hive(~40分钟)

以下是本博客系列第1部分Raspberry Pi 2 Model B上的Hadoop核心安装,第2部分,我们将继续在HDFS之上安装Apache Hive,并借助上一部分的word count Hadoop处理示例展示其基本原理。

Hive代表一个分布式关系数据仓库,其特点是类似SQL的查询语言HiveQL,其灵感来自MySQL SQL方言。[1]中提供了HiveQl和SQL的高级比较。有关HiveQL命令参考,请参阅:https://cwiki.apache.org/confluence/display/Hive/LanguageManual。

Hive数据位于HDFS中,Hadoop运行时环境将HiveQL查询转换为MapReduce作业。传统的关系数据仓库在向仓库写入数据时强制执行预定义的元数据模式,而Hive在读取时执行模式,即在对数据发起查询时检查数据。NoSQL数据仓库HBase旁边的Hive表示Hadoop数据处理层的常用组件,用于外部应用程序将查询工作负载推向Hadoop中的数据。这正是我们在本系列第3部分中要做的,当我们通过SAP Lumira Apache配置单元标准连接器连接到配置单元环境,并通过此连接针对字数输出文件推送查询时。

首先,让我们启动Hive并在HDFS上运行。

Hive安装最新稳定的Hive版本将与最新稳定的Hadoop版本一起运行,可以从Apache软件基金会镜像下载站点获得。启动下载,例如从空间转储.net打开最新的稳定蜂巢版本如下。您还可以将二进制目录重命名为更方便的名称。

cd~/wget apache-hive-1.1.0版-bin.tar.gzmv文件apache-hive-1.1.0-bin-hive-1.1.0

分别添加到配置单元安装和二进制目录的路径,到您的用户环境。

cd hive-1.1.0export hive\u HOME={pwd}}export PATH=$hive\u HOME/bin:$PATHexport HADOOP\u user\u CLASSPATH\u FIRST=true

确保在第1部分中选择的HADOOP用户(这里是hduser)对您的hive目录拥有所有权。

chown-Rhduser:hadoop配置单元

能够在配置单元中生成表,运行Hadoop启动脚本-dfs.sh文件然后开始-纱线.sh(另见第1部分)。您可能还需要创建以下目录和访问设置。

hadoop fs-mkdir/tmphadoop fs-chmod g+w/tmphadoop fs-mkdir/user/hive/warehouse hadoop fs-chmod g+w/user/hive/warehouse

严格来说,这些目录和访问设置假定您打算让多个配置单元用户共享Hadoop集群,并且对于我们当前的单配置单元用户场景来说不是必需的。

通过输入配置单元,您现在应该能够启动配置单元命令行界面。默认情况下,配置单元以交互和非交互模式向标准错误发布信息。我们将在第3部分中看到通过SAP Lumira连接到Hive时的效果。配置单元语句的-S参数将抑制任何反馈语句。

键入配置单元–服务帮助将为您提供所有可用服务的列表[1]:

如果您对配置单元web界面感兴趣,请启动配置单元–服务hwi,积分返现,然后输入:9999/hwi,您将看到下面的屏幕截图。

如果遇到任何问题,请查看/tmp/$USER上的配置单元错误日志/配置单元.log. 类似地,第1部分中提供的Hadoop错误日志对于配置单元调试也很有用。

根据本博客系列第1部分中的字数计算示例,让我们将字数计算输出文件上载到配置单元的本地托管数据存储中。首先需要生成配置单元目标表。启动配置单元命令行界面并按以下步骤进行操作:

创建表wcount\t(word string,count int)行格式分隔字段,以存储为textfile的'\t'结尾;

换句话说,我们刚刚创建了一个两列表,由一个字符串和一个由制表符分隔的整数字段组成,并为每一新行显示换行。请注意,啥叫人工智能,HiveQL希望命令行以分号结束。

现在可以将字数输出文件加载到此目标表。

加载本地数据inpath'~/license-out.txt/部分-r-00000'覆盖到表wcount\u t;

有效,本地文件part-r-00000存储在配置单元仓库目录中,该目录默认设置为user/Hive/warehouse。更具体地说,可以在Hive目录user/Hive/warehouse/wcount\t中找到part-r-00000,您可以查询表格内容。

显示表格;

从wcount\t中选择*;

如果一切都按计划进行,您的屏幕将显示与下面的截图摘录类似的结果。

如果是这样,则意味着您成功地在顶部安装了Hive在Raspberry Pi 2 Model B上运行Hadoop,并将第1部分中生成的字数输出文件加载到Hive数据仓库环境中。在此过程中,您应该对配置单元处理环境、其类似SQL的查询语言及其与底层Hadoop环境的互操作性有了基本的了解。

在本系列的下一部分中,我们将通过运行SAP Lumira作为客户端来实现第1部分和第2部分的实现和配置在配置单元服务器上,生态环境大数据,将使用标准SQL和Raspberry Pi提交对配置单元中单词计数结果文件的查询,并执行所有MapReduce工作。Lumira的Hive连接器将把这些标准SQL查询转换成HiveQL,云服务器有哪些,这样从外部看,游戏返利,事情看起来就相当标准了。在完成了本系列博客的前两部分之后,您将非常清楚幕后的实际情况。

Apache Software Foundation Hive Distribution–索引/Hive

Apache Hive wiki–https://cwiki.apache.org/confluence/display/Hive/GettingStarted

Apache Hive命令参考-https://cwiki.apache.org/confluence/display/Hive/LanguageManual

Hadoop数据实验室项目第1部分-

带有覆盆子皮的BOBI文档仪表板–

配置配置单元端口–#Appendix/PortsŠAppendix/HiveŠPorts.htm

[1]T.White,"Hadoop:权威指南",第3版,O'Reilly,USA,2012

嗨,卡斯滕,

再次感谢!

我只是添加我的学习,以防其他人面临同样的问题:

注意:我在笔记本电脑上运行Debian 8.5.0(jessie)

1的虚拟机上执行此操作。导出HIVE\u HOME={{pwd}}不工作

必须将其添加到bashrc文件

2。hadoop fs-chmod g+w/user/hive/warehouse不起作用

必须逐级创建目录

3。无法使用命令hive或

hive--service cli

启动配置单元cli获取以下错误:

根据stackoverflow.com/questions/35655306/hive-安装问题hive metastore数据库未初始化

在初始化metastore数据库之前执行hive命令时会发生这种情况。这将导致在以下路径中创建部分/损坏的metastore \u db:

/home/hdpuser/hive-2.1.0/bin

要更正此问题,必须将metastore \u db文件重命名为metastore_数据库bak然后执行

这将创建一个新的元存储_db.蜂巢CLI现在应该打开了。