云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

谷歌云_博客网站建设_评分榜

小七 141 0

Hadoop群集中的SparkController for HANA的默认安装允许使用DLM(数据生命周期管理)将

数据存档到HDFS,并使用HANA访问配置单元和DLM的数据。

或使用HANA

访问Vora数据。

但不能同时使用同一个SparkController实例。

当前可以配置SparkController与Hive或Vora交谈,这两个选项是互斥的。由于Ambari行为,如果您安装并配置2个SparkController,则无论何时启动SparkController服务,它们都将获得相同的配置设置,除非您为其中一个SparkController节点分配单独的配置,允许

博客将向您展示如何在HortonWorks Ambari集群中更改安装和使用2个(或更多)SparkController,以便执行DLM操作,HANA可以使用SDA访问Hive和Vora数据。

首先–组件:

HortonWorks Ambari集群–HDP 2.4.2.0,Spark 1.6.1HANA(我用的是122.3)火花控制器1.6 PL1Vora 1.3(最新版本)

下一步–Ambari配置:

遵循标准的Ambari安装来设置集群。Vora和SparkController.tgz文件被解压到"/var/lib/ambari server/resources/stacks/HDP/2.4/services"文件夹中。这将创建一个SparkController文件夹和一个vora manager文件夹。

您必须重新启动Ambari服务器,使其能够收集资源,以便通过Ambari控制台查看要安装的新可用服务:

重新启动后,登录Ambari服务器控制台(:8080),使用"操作->+添加服务"按钮/菜单,使用"添加服务"向导将Vora Manager服务和SparkController服务添加到Ambari群集。

(您的版本可能会有所不同)。我建议一次安装一个,以便正确选择主节点、客户机等。

添加Vora管理器服务:

这里不包括Vora 1.3安装本身。目前,使用"添加服务"向导分配主节点时,必须确保至少有一个主节点被分配为"Vora管理器主节点"。

分配从属节点和客户端时,所有其他节点将包含Vora Worker,并且所有节点必须具有Vora客户端。

一旦Vora Manager启动,将使用Vora Manager GUI安装所有其他Vora服务。使用Vora Manager GUI安装Vora Manager和Vora Manager服务https://help.sap.com/hana\u vora\u re。

添加SparkC控制器:服务:

目前,大数据分析软件有哪些,您将只为SparkController服务分配和释放一个主控器。这将是"配置单元"配置的SparkController实例。

SparkController文档入口点位于:Using SAP HANA Spark Controller。有关SparkController 1.6PL1的最新文档,还应参考以下SAPNote 2344239。

向Ambari添加服务将自动创建以下用户和目录:

对于Vora:"/etc/Vora"文件夹和/etc/group和/etc/passwd中的"Vora"用户和组。对于SparkController,"/usr/sap/spark/controller"文件夹和/etc/group中的"sapsys"组和/etc/passwd中的"hanaes"用户

注意:不同的gid和uid可能用于不同的Hadoop发行版。删除服务可能会删除登录名和目录,后续升级(卸载/重新安装)可能会更改UID和GID。建议在所有数据节点或将访问HDFS的节点上复制SparkController UID和GID,以确保在HDFS文件夹以及备份配置中保持正确的所有权和权限。

配置步骤

为了简化操作,我们将首先配置"默认"SparkController来访问配置单元数据库并执行DLM工作(我们将称之为"配置单元SparkController主机")

然后我们将稍后将安装复制到第二个实例。(本博客不介绍在HANA中安装DLM组件本身。看到了吗\u options\u dwf?current=hana)。

编辑"高级hana\u hadoop-env",物联网时代,如下所示(对Spark和Vora位置的jar文件路径进行必要的更改)。#!/垃圾箱/垃圾箱导出HADOOP\u CONF\u DIR=/etc/HADOOP/CONF导出配置单元CONF\u DIR=/etc/HIVE/CONF导出HANAES\u LOG\u DIR=/var/LOG/HANAESexport HANA\u SPARK\u ASSEMBLY\u JAR=/usr/hdp/current/SPARK client/lib/SPARK-ASSEMBLY-1.6.1.2.4.2.0-258-hadoop2.7.1.2.4.2.0-258.JARexport HANA\u SPARK\u ADDITIONAL\u JARS=/var/lib/ambari agent/cache/stacks/HDP/2.4/services/vora-manager/package/lib/vora-SPARK/lib/SPARK-sap-datasources-1.3.99-程序集.jar#导出HANAES\u CONF\u DIR=/etc/HANAES/CONF#对DATANUCLEUS路径使用HANA\u SPARK\u额外的\u jarDATANUCLEUS_LIBS=""对于`ls/usr/hdp/current/spark client/lib/*datanucleus中的jarFile*`做DATANUCLEUS\u LIBS=${DATANUCLEUS\u LIBS}:$jarFile完成export HANA\u SPARK\u ADDITIONAL\u JARS=${HANA\u SPARK\u ADDITIONAL\u JARS}:${DATANUCLEUS\u LIBS}(datanucleus库与Ambari HDP堆栈一起提供,淘客单,并且需要访问配置单元)。(您需要更改HANA\u SPARK\u ADDITIONAL\u JARS变量,以指向您的Vora SPARK sap datasources…jar文件版本)。

暂时不要使用"高级hanaes站点"。

将以下键/值属性添加到"自定义hanaes站点"以定义HDFS文件夹,用于存储来自HANA的DLM数据(您的设置可能会有所不同–仅此而已)请确保下面指定的文件夹存在,并且属于'hanaes:hdfs’. 最好的方法是对SparkController节点使用ssh,作为hdfs用户,使用hadoop-fs命令创建目录并更改所有权)。sap.hana.es公司.warehouse=/sap/hana/hanaes/仓库sap.hana.hadoop文件.datastore=配置单元spark.sql.hive配置单元.metastore.sharedPrefixes=com.mysql.jdbc文件,org.postgresql公司,com.microsoft.sqlserver,甲骨文.jdbc,org.apache.hadoop下载

现在我们将在另一个节点上配置一个额外的SparkController来与Vora一起工作。

继续之前,请确保已根据Vora管理和安装指南配置了Vora服务。测试表应可用于通过SparkController测试从HANA到Vora的连接。