云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

美国服务器_企业网站设计开发_多少钱

小七 141 0

介绍如何在Databricks上编写apachespark应用程序

在数据库里试试这个笔记本这是一个由3部分组成的系列文章的第1部分,介绍如何在Databricks上编写apachespark应用程序。几年前,当我第一次开始学习apachespark时,最大的挑战是找到一些材料,让我认识到关键概念以及编写高效Spark应用程序必须应用的思想。作为一名研究生,我参加了加州大学伯克利分校的AMP夏令营和2015年旧金山火花峰会(Spark Summit SF 2015);虽然这些都是很好的学习经历,教会了我一些基础知识,但我很难找到让我超越基本字数的例子。当我六个月前开始在Databricks工作时,情况发生了变化。Databricks在Databricks指南中为我们的用户提供了很好的参考资源。然而,我也注意到,许多用户希望apachespark教程能够更详细地介绍端到端示例。我经常会遇到这样的问题:"我如何使用数据帧、SparkSQL或数据集?","如何创建机器学习管道?"或者"如何创建一个UDF并在sparksql和我的数据帧上使用它?"所以我开始以Databricks笔记本的形式写一系列的三篇教程来说明这些答案。Databricks社区版(DCE)是Databricks平台的一个免费版本,有了它,任何人都可以注册并运行这些笔记本来进行实际操作。如果您还没有访问DCE的权限,请立即注册,学习笔记本中的示例。第一个教程是什么本系列的第一部分是为最普通的读者准备的——任何不熟悉apachespark或Databricks的人。本笔记本将演示Databricks中的工具,这些工具使您更容易地处理数据,并向您展示如何创建apachespark集群、可视化数据和简化对Spark UI的访问。除了Databricks本身之外,您还将获得apachespark的体系结构概述,让您了解在执行Spark作业期间发生了什么。对于那些希望确保自己对apachespark的基本原理有着扎实了解的人来说,这本笔记本也是一个很好的回顾。本教程包含的主要概念包括:介绍apachespark和Databricks术语。ApacheSpark中的不同上下文和环境包括2.0的SparkSession上下文。基本数据接口,如数据帧和数据集。概述apachespark如何在Databricks Community Edition中获取代码并在Spark集群上执行它。转换和动作之间的区别。下面的有向无环图(DAG)的演练,了解Spark如何使用转换和操作来获取原始数据并将其转换为最终形式。由于Databricks已经包含了apachespark2.0的预览版本,我们将能够比较不同Spark版本生成查询计划的方式。以下是2.0查询计划的摘录:你可以在这里下载第一本笔记本。下一步是什么虽然第一本笔记本在高水平上介绍了每一个概念,但本系列中的第二和第三本笔记本对材料进行了更深入的研究。本系列的第二部分将展示一个数据科学家应该如何同时使用Spark和Databricks。我们将通过尝试预测给定zipcode中的农贸市场数量来实现这一点,基于该地区缴纳的个人税和营业税。本系列的最后一个笔记本将带读者通过一个端到端的ETL管道。这将包括解析原始日志文件、创建UDF、处理混乱的日期时间,并将其与另一个数据集相结合—所有这些都将利用Spark的数据连接器与多个数据源集成。这些笔记本有大量的代码和解释,所以请务必关注本系列的下一个笔记本!如果您还没有这样做,请下载笔记本并注册Databricks社区版,从今天开始!免费试用Databricks。今天就开始吧