云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

负载均衡_沈阳定制网站建设_哪家好

小七 141 0

当我完成之前关于sapvora与azurehdinsight集成的文章时,我开始怀疑是否有可能将Spark扩展与azuredatabricks重用。它是一个基于apachespark的新分析平台,淘客app定制,支持数据科学家、技术团队和企业之间的积极协作。它提供了一个完全管理的Spark集群,可以在几秒钟内创建,不使用时自动终止。它甚至可以根据当前的利用率进行上下扩展。与所有Azure服务一样,Databricks本机连接到其他云平台服务,如数据湖存储或Azure数据工厂。与HDInsight相比,一个很大的区别是与Azure AD紧密集成,以管理用户和权限,从而提高您的环境的安全性。

(来源:微软网站)

这已经足够了,但是如果你想得到更多的信息为什么Azure Databricks是一种选择,请访问Microsoft官方文档。

我今天想介绍的是如何使用Azure Databricks构建Spark群集,将其连接到SAP Vora引擎,并将表公开给SAP HANA。这个范围非常类似于关于HDInsight的文章,我甚至会重用部分代码。如果有些地方不够清楚,请查看上一集,因为我在那里解释了如何获取所有必需的连接信息或如何创建服务主体。

创建DATABRICKS群集

一如既往,我们需要做的第一件事是在Azure门户中定义资源。使用Azure Databricks时,大数据前景如何,您将根据使用的虚拟机和每小时处理能力(DBU)计费。在这一步中,我们只需定义服务—稍后我们将部署集群。

有两个定价层可用。我使用的是标准层,但如果您需要ODBC端点或索引/缓存支持等附加功能,请选择高级层。每一层中包含的内容的详细摘要可以在Microsoft定价详细信息中找到。

我希望Databricks群集与我现有的VNet集成,因为它将简化与AKS上SAP Vora的连接。在部署期间,Azure将在选定的VNet中创建两个新的子网,并根据我们的输入分配IP范围。如果您不想将集群放到现有的网络中,那么Azure可以只为databrick部署一个单独的VNet。通信仍然是可能的,但需要额外的努力来启用VNet对等或将SAP Vora服务公开到internet。

服务在几秒钟内创建,您可以访问Databricks blade。点击启动工作区登录服务。

有时第一次访问工作区可能需要几分钟,请耐心等待。

现在我们可以定义一个集群。在菜单中选择"群集",然后单击"创建群集"按钮。在这里,我们可以决定一些基本的设置,比如自动缩放限制或在一段时间后终止集群(这样,当集群不使用时,您就不用为计算付费)。当集群停止时,所有vm都会被删除,但Databricks服务会保留配置。稍后,如果您再次启动群集,所有虚拟机都将使用相同的配置重新部署。

我决定使用最小的虚拟机大小,并允许群集在不活动60分钟后终止。

创建群集屏幕也是您可以为SAP Vora连接输入Spark配置的地方。展开高级选项并输入以下设置:

如果您想通过SSH连接到群集节点,大数据什么意思,您还可以在SSH选项卡中输入公钥(我在本博客中不使用此功能)。

配置虚拟机需要几分钟。您可以在Azure门户中看到它们:

当集群准备就绪时,您可以在Databricks工作区中看到它们:

要访问SAP Vora,我们需要Spark扩展–与上一篇博客中使用的相同。有两种安装库的方法—您可以直接在集群上进行安装,也可以设置自动安装。我认为第二种方法更好,如果您计划继续使用Vora连接-每当Databricks集群被配置时,扩展就在没有额外交互的情况下被安装。

从菜单中选择Workspace在共享部分创建一个新库:

选择JAR作为库类型并上传spark-sap-datasources-spark2.jar文件。

在下一个屏幕上标记"自动安装"复选框,并单击"安装"确认。服务将库部署到所有集群节点。

安装完成后,我们可以执行第一个测试来验证Databricks和SAP Vora之间的连接。返回工作区菜单并在用户区域创建新笔记本:

输入并执行以下脚本:

当集群完成处理时,它返回有关数据库和可用架构的信息。这意味着加载项安装成功,我们可以建立到SAP Vora的连接。

将数据暴露到SAP Vora和HANA数据库

Databricks提供其独特的分布式文件系统DBFS。集群中存储的所有数据都持久化在Azure Blob存储中,因此,即使终止VMs,也不会丢失这些数据。但是你也可以通过在内部文件系统上挂载一个目录从数据库访问Azure数据湖存储。

Azure数据湖存储使用POSIX权限,因此我们需要使用服务主体来访问数据。我喜欢Databricks配置的地方是,您可以使用Azure密钥库服务来存储服务主体凭据,建站快速,而不是直接在配置中键入它们。在我看来,这是一个更安全的方法,它也简化了设置,因为只有一个地方的真相。否则,如果您想更改指定的服务主体,您必须检查所有脚本并手动替换密码。

创建一个新的密钥保管库服务,然后打开以下网页在Databricks服务内创建一个秘密作用域:

https://#secrets/createScope

在我的情况下是是:

https://westeurope.azuredatabricks.net#secrets/createScope