云数据库_北京住房城乡建设委网站_限量秒杀

小七 2019年10月25日 21:23 141 0

在数据库上用apachespark编写数据工程管道

在数据库里试试这个笔记本这是一个由3部分组成的系列文章的第3部分，介绍如何在Databricks上编写apachespark应用程序。对于数据工程师来说，在Databricks上运行apachespark的一大优势是，它是一个简单的工具，可以在数据库、工具和环境的整个生态系统中进行即插即用。构建健壮的管道很简单，因为您可以使用较小数量的数据来构建原型，并将其扩展到几乎任何大小的数据。除了纯粹的数据量之外，还有许多spark包可以连接到从SQL到NoSQL等各种不同的数据源。Databricks通过提供一套完整的托管服务（如笔记本电脑、复杂的API、生产作业和工作流以及持续集成用例）将这一点提升到了一个新的层次。看看在apachespark和Swoop、Riot Games和Conviva等数据库上构建生产系统的公司的演示。在本系列前面的指南中，我们介绍了如何在Databricks上编写apachespark应用程序。如果还没有，一定要检查一下！第二个指南是面向数据科学家的工作流程的，展示了使用美国农业部和美国国内税收局的数据集构建预测模型的迭代数据分析过程。第三个指南是为数据工程师准备的，他们需要一个简单的、面向生产的指南，向他们展示如何获取原始数据，如何通过Python、SQL或Scala进行转换，创建和注册apachespark udf，最后使用apachespark的数据源api将数据写入多个位置。虽然Spark使这些任务变得更简单，但这个示例将展示Databricks如何使数据工程师更容易地将原型投入生产。这本指南是什么本指南说明了如何导入数据并在Databricks上构建健壮的apachespark数据管道。我们将从原始日志构建简单的日志管道，一直到将这些数据放入永久存储。在此过程中，我们将演示数据工程师必须在ETL管道中执行的常见任务，例如从各种来源（如amazons3）获取原始数据、将数据转换为Parquet格式并将其放入数据仓库。这个端到端的教程还将阐明数据工程中的常见挑战，并提供解决方案。这包括使用各种不同的语言以及在Scala和SparkSQL中处理udf中的非标准日期时间。本指南为您提供了一个稳定的ETL管道的示例，我们将能够使用Databricks的作业调度器将其投入生产。本指南将介绍：我们将在Python中创建一个函数，将位于S3存储桶中的原始Apache日志转换为数据帧。接下来，我们将列举在Scala中创建UDF的所有方法。这将允许我们将它用作SQL函数以及Scala数据帧。在将该数据帧与另一个数据帧连接后，我们将用Redshift将数据写入永久存储，并在amazons3中写入备份副本。下一步是什么您可以使用Databricks平台完成本指南中的示例（注册免费试用）。有关帮助您开始使用apachespark的更多资源，请参阅我们的介绍指南。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3330.html