云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云服务器_网站正在建设中_精选特惠

小七 141 0

我认为每个曾经使用过大数据的人都已经熟悉Hadoop集群了。有许多Hadoop发行版可用,比如HortonWorks或Cloudera。但是您也可以在云中配置集群。microsoftazure提供了名为HDInsights的服务,可以用来快速启动大数据集群,而无需考虑底层基础设施。它与Azure Data Lake Storage或Azure Storage Account无缝集成,创建了一个具有弹性且经济高效的解决方案。如果你像我一样喜欢PaaS服务,那么你一定要去看看。

但是写这篇文章的原因并不是要列出HDInsight相对于其他Hadoop发行版的优势。在我的前两篇文章中,我重点介绍了sapdatahub,如果您阅读了Frank的Schuler关于其体系结构的一篇文章,那么您已经知道解决方案的组成部分是sapvora。由于HDInsight符合SAP Vora的要求,我想知道我是否可以实现这两个产品之间的集成。

SAP Data Hub和SAP Vora在Kubernetes引擎上运行,如果您愿意遵循本指南,我强烈建议您使用我之前的文章,其中描述了如何使其在Azure中运行。

实现集成在sapvora和Hadoop集群之间,我们需要安装Spark扩展,可以从saplaunchpad下载。根据您运行的是纯Vora还是DataHub+Vora,您应该下载正确的软件包:

SAP Vora 2 Spark Extension–当您安装纯SAP Vora时

SAP Data Hub Spark Extension–当您使用SAP Data Hub时

这些产品之间有一些差异,但在大多数情况下,手游返利折扣,它使用相同的代码库。我注意到的主要区别是身份验证的处理方式不同,因为sapdatahub实现了多租户。在下面的指南中,返利app是真的吗,我将重点介绍sapdatahub扩展,但大多数步骤对sapvora插件的作用完全相同。为了全面了解如何实现连接,我决定遵循手动安装模式。一如既往,我建议您熟悉安装指南,其中包含许多有价值的信息。

提供HDINSIGHT CLUSTER

我认为HDINSIGHT CLUSTER的部署与其他Azure PaaS服务相比相当复杂,需要对Hadoop有一点了解。但是,如果你按照我的步骤,你应该不会遇到任何问题。首先要考虑的问题是您需要什么样的HDInsight集群。Azure的选择非常大,您可以从七种不同的配置中进行选择,包括数据分析优化解决方案(Spark)、NoSQL(HBase)或消息传递(Kafka)。

在Hadoop中创建HDInsight群集时,我发现最好切换到自定义设置,因为它可以对服务器配置提供更多控制。由于我想专注于数据分析,我决定使用Spark cluster。如果您选择其他类型,则可能需要执行其他配置。

开始!从可用服务中打开HDInsight并选择集群的名称。键入默认密码,该密码也将用于通过SSH连接到群集节点。

第二步侧重于网络,因此我选择将服务连接到我的默认VNet–这将简化到SAP Vora的连接。为了分离不同Azure服务之间的流量,我为HDInsight工作负载创建了额外的子网:

第三步是关于存储。HDInsight和其他Hadoop发行版之间有很大的区别。通常,存储分布在属于集群的节点上,但HDInsight本机与数据湖或存储帐户集成。这样的实现有许多好处,比如存储数据的成本较低,或者有可能破坏集群并同时保留数据。

您可以选择使用ADL或存储帐户作为底层文件系统。我决定使用Data Lake,因为它针对并行处理进行了优化,因此更适合HDInsight。blob存储有一定的限制,如最大可用空间。

还需要配置服务主体以允许访问ADLS存储。您可以直接在门户中创建帐户。优点是它会自动创建用于身份验证的证书,从而使过程更容易。

服务主体需要POSIX(rwx)权限才能读取和写入数据湖存储。单击访问条目,云服务器平台,您将被重定向到一个向导,在此向导中选择帐户并选择权限。

通过单击选择并在下一屏幕上选择运行进行确认。

保留可选步骤应用程序的默认设置,并在决定群集大小时停止片刻。根据使用情况和弹性要求,您可以选择要部署多少工作节点。由于我将仅出于测试目的使用集群,淘客网,所以我决定使用单个工作节点。配置集群后,可以调整节点的数量和大小。为了确保系统的高可用性,您不能将头节点的数量减少到两个以下。

您不必在第六步中维护任何自定义脚本操作,安娜尔返利机器人,这样您就可以跳转到群集验证和部署:

安装SAP DATA HUB SPARK EXTENSION

在大约20分钟后部署群集,我们可以启动安装火花延长管。您可以使用以下命令登录到主节点的操作系统:

执行以下命令列出属于集群的所有节点:

将Spark扩展下载到临时目录并解压缩文件。我们需要将spark-sap-datasources-spark2.jar上载到ADLS文件系统,然后我们将编写一个脚本,将文件分发到所有HDInsight节点。

现在创建一个脚本,将文件分发到每个集群节点并将其上载到ADLS:

我们可以使用HDInsight脚本操作。转到Azure门户并打开群集配置。从菜单中选择"脚本操作",然后单击"提交""新建"。

脚本类型应设置为"自定义"。键入所需的脚本名称。上传的脚本URL的格式如下:

adl://。azuredatalakestore.net/集群//SAPVora/分发-火花.sh

脚本应该在头节点和工作节点上执行。

执行脚本需要几秒钟。如果一切顺利,您将在脚本名称旁边看到一个绿色标记:

您可以验证主节点上是否存在该文件:

配置SPARK

配置SAP Data Hub SPARK扩展的第一步是标识SAP Data Hub群集上tx coordinator服务的主机名和端口号。

登录Kubernetes群集仪表板使用来自本地计算机的以下PowerShell命令:

在Kubernetes仪表板中单击服务并找到vora tx coordinator ext服务。

您对节点主机名和端点端口感兴趣