云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名备案_idea连接数据库_企业级

小七 141 0

Databricks参考应用程序

在Databricks,我们经常被问到如何超越基本的apachespark教程,开始用Spark构建真正的应用程序。因此,我们正在github上开发参考应用程序来证明这一点。我们相信这是学习Spark的一个很好的方法,我们计划随着时间的推移将更多的Spark特性融入到应用程序中。我们还希望强调任何与Spark兼容的技术,包括最佳实践。日志分析器应用程序我们的第一个参考应用是使用Spark进行日志分析。日志是一个包含丰富信息的大型通用数据集。日志数据可以用于监视web服务器、提高业务和客户的智能、构建推荐系统、防止欺诈等等。Spark是一个很好的日志工具——Spark可以比Hadoop MapReduce更快地处理日志,它很容易编写代码,因此我们可以轻松地计算许多统计数据,而且Spark的许多库可以用于日志数据。另外,sparksql可以用于使用熟悉的SQL语法查询日志,Spark流可以用于提供实时日志分析。log analysis参考应用程序分为几个部分,其中包括详细的解释和小的代码示例,以演示Spark的各种特性。我们从一个使用独立Spark处理历史日志数据的温和示例开始,然后在介绍Spark流之前介绍如何使用Spark SQL进行相同的分析。在此过程中,我们强调了使用Spark的任何注意事项或推荐的最佳实践,例如如何重构代码以便在批处理库和流式库之间重用。这些例子是独立的,每次都强调Spark的一个方面,所以你可以试验和修改这些例子来加深你对这个主题的理解。这些示例中的代码组合起来形成一个示例端到端应用程序,如上图所示。目前,最终的应用程序是一个MVP日志分析流应用程序。应用程序监视一个目录以查找新的日志输入文件,当它收到一个日志输入文件时,该文件即被处理。Spark Streaming用于计算最近N次以及所有时间的统计信息,并进行刷新。每个时间间隔都会写入一个html文件,该文件反映文件夹中最新的日志数据。推特流式语言分类器第二个参考应用程序是Databricks团队提供的一个受欢迎的演示,并在这里录制了视频:此应用程序演示了以下内容:使用Spark Streaming收集Twitter数据。使用sparksql检查tweets,并使用Spark MLLib训练Kmeans集群模型来对tweet的语言进行分类。利用Spark MLLib和Spark流实时应用该模型。现在,我们正在发布代码,这样您就可以自己运行演示程序并了解它是如何工作的。开始使用Databricks参考应用程序这些应用程序只是一个开始,随着时间的推移,我们将添加更多的参考应用程序并加以改进。请按照以下步骤开始:在线阅读书籍格式的文档。请访问我们的github repo以查看参考应用程序的代码。请在github上打开一个问题,提供关于我们参考应用程序的任何有用反馈。免费试用Databricks。今天就开始吧