云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

_腾讯企业邮箱账号格式_超低折扣

小七 141 0

在Databricks中使用第三方库:apachespark包和Maven库

在前面的一篇文章中,我们描述了如何轻松地将您喜欢的IDE与Databricks集成,以加快应用程序开发。在这篇文章中,我们将向您展示如何通过提供Maven坐标将第三方库(特别是apachespark包)导入Databricks。Spark软件包背景Spark包装()是建立在apachespark之上的库的社区包索引。Spark包的目的是在Spark开发人员和用户之间架起桥梁。如果没有Spark包,您需要访问多个存储库,比如GitHub、PyPl和mavencentral来找到所需的库。这使得寻找一个适合你需要的软件包变得很痛苦——Spark Packages的目标是通过成为搜索的一站式服务来简化这一过程。在撰写本文时,Spark软件包上有95个软件包,每天都会有一些新的软件包出现。这些包的范围从可插拔的数据源和数据帧的数据格式(如spark csv、spark avro、spark redshift、spark cassandra connector、hbase)到机器学习算法,再到支持spark在云环境中部署的部署脚本。在Databricks中支持Spark包和Maven库您知道吗,只需单击几下databrick,就可以从任何公共Maven存储库(包括它的所有依赖项)下载库?Databricks为您提供了一个浏览器,允许您搜索Spark包和mavencentral。以下是它的工作原理:选择要在工作区中创建库的位置,然后打开"创建库"对话框:从Source(源)下拉菜单中,选择Maven坐标:如果您已经知道Maven坐标,那么可以直接输入它来立即在Databricks中创建库。或者,您也可以浏览Maven库和Spark包来查看选项,方法是单击searchspark Packages和Maven Central按钮而不输入坐标。现在,所有可用的Spark软件包都在您的指尖!可以按名称、组织和分级对包进行排序。也可以通过在搜索栏中编写查询来筛选结果。结果将自动刷新。 如果您想了解有关软件包的更多详细信息,只需在浏览器中单击其名称即可。 要浏览Maven Central,请从右上角的下拉菜单中选择Maven Central选项。 确定感兴趣的包之后,可以从下拉菜单中选择发布版本。单击Select按钮后,将自动填充上一个菜单中的Maven坐标字段。您还可以提供更高级的选项,例如存储库的URL,以及要排除的任何依赖项(在依赖项冲突的情况下)。 单击"创建库"按钮后,库及其所有依赖项将自动为您获取! 现在,您可以将它附加到任何集群,并立即开始使用该库!摘要在本文中,我们展示了使用Maven坐标支持将Spark包集成到Databricks中的应用程序是多么简单。Spark包帮助您找到完成任务所需的代码,它与Databricks的紧密集成使得重用现有代码以加快Spark应用程序开发变得更加简单。要想在Databricks中试用Spark软件包,今天就报名参加为期14天的免费试用!免费试用Databricks。今天就开始吧