网站服务器_免费的云虚拟主机_排行榜

小七 2019年10月25日 21:23 141 0

2017年东方星火峰会：又一次创纪录的星火峰会

我们为无法参加峰会的Apache Spark爱好者们整理了一个简短的主题和亮点，他们无法参加峰会，享受着弥漫在Spark峰会与会者身上的爱国者超级碗胜利的喜悦：外面的暴风雪并没有浇灭内心的高昂情绪。第一天：Databricks演讲者的声音2017年大数据和Apache Spark的前景如何Matei Zaharia带领我们经历了Spark如何从早期发展起来的历程，步调一致地前进，并利用（或克服缺点）该行业的三个特定发展趋势：硬件、用户和应用程序。请看他对这三种趋势的阐述。查看本次演讲的幻灯片。没有折衷的见解：在apachespark中使用结构化流与Matei所称的大数据趋势转向生产使用相呼应，michaelarmbrust演示了结构化流媒体如何允许开发人员在不进行权衡的情况下获得有价值的见解。所有这些都是可能的，因为尽管流媒体一般要求并行性和复杂性，但是结构流减轻了容错、一次语义、数据一致性和完整性的负担。在这个演讲和演示中，Michael阐述了Matei对连续应用程序的设想，并在一个现场演示中演示了结构化流媒体api的易用性。查看本次演讲的幻灯片。RISELab：实现智能实时决策去年底，加州大学伯克利分校的AMPLab在生产了诸如apachespark、apachemesos、Alluxio、BlinkDB等著名项目后关闭了。为了继续其对研究和工业的变革性贡献，AMPLab进入了一个新的创新阶段：RISELab（实时智能安全执行）。今天，在他的主题演讲中，Ion Stoica与社区分享了他对RISELab的愿景和目标。他特别强调，研究人员将致力于人工智能、机器人技术、安全和快速分布式数据系统。斯托伊卡说，虽然AMPLab项目能够将批量数据处理应用于高级分析，但RISELab项目将产生并使实时数据成为实时决策。Stoica说，致力于构建开放源代码框架、工具和算法，以使在实时数据上构建实时应用程序决策具有更强的安全性，这一新阶段将通过Drilling和Opaque Stoica两个项目来创新和增强Spark。虽然毛毛雨将ApacheSpark的流延迟减少了10倍，并增强了容错能力，但Opaque增强了Spark在静止或移动时的数据加密，在云端或本地提供了更强的保护。使结构化流媒体为生产做好准备-更新和未来方向在Spark短暂的历史中，Spark streaming一直在不断发展，以简化流式应用程序的编写。今天，开发人员需要的不仅仅是流式编程模型来转换流中的元素。相反，他们需要一个支持端到端应用程序的流媒体模型，这些应用程序可以连续实时地对数据做出反应。如来达斯（Tathagata Das）分享了结构化流媒体（Structured Streaming）是如何通过Apache Spark 2.x中引入的新功能，允许开发人员使用SparkSQL引擎上构建的统一数据帧/数据集api编写容错的端到端流应用程序。无论是进行流式ETL，将来自Kafka的实时数据与静态数据连接起来，还是聚合数据并更新接收器，TD强调的结构化流式传输确保了所有方面的可靠性和可重复性。展望未来，他暗示了一些新的特性，比如会话化，对apachekafka的支持，以及计划在未来发布的更多窗口操作。查看本次演讲的幻灯片。优化Apache Spark SQL连接Vida-Ha承担了apachespark-Spark-SQL连接中性能问题的主要来源之一。她解释了Spark中joins的工作原理，并描述了调试和优化性能的最佳实践。查看本次演讲的幻灯片。大数据中的女性几位在大数据领域鼓舞人心的女性领导人聚集在一起，参加了由"大数据中的女性"论坛主办的午餐会和小组讨论会。他们的目标是通过帮助女性人才在大数据和分析领域建立联系、参与和成长，从而加强行业的多样性。活动首先由Databricks的营销副总裁Kavitha Mariappan做了主题演讲。Kavitha谈到了我们行业面临的"管道泄漏"问题，并就如何在大数据世界中树立女性形象提出了切实可行的建议。主旨演讲后，由备受尊敬的技术领袖组成的专家小组，包括英特尔大数据副总裁、IBM业务部门主管马志亚、Bose大数据分析主管朱莉·格林威和Capital One大数据分析主管贡扬·夏尔马。由MetiStream首席运营官Donna Fernandez主持，该小组讨论并权衡了为什么存在这种困境，以及作为女性领导者和榜样，她们需要如何继续努力建立一个更加公平的工作环境。查看本次演讲的幻灯片。调整和监视apachespark上的深度学习在数据分析、网络安全、欺诈检测和数据库系统等领域，深度学习的快速增长在研究和跨行业领域都有巨大的潜在影响。Tim Hunter是Databricks的软件工程师，也是Apache Spark MLlib项目的贡献者，也是领先的深度学习专家，他登台讨论了用户在将深度学习库与Spark集成时面临的一些常见挑战，例如需要优化集群设置和数据摄取、调整集群，以及监视长时间运行的作业。然后，他使用Google流行的TensorFlow库演示了各种调优技术，并分享了使用Spark构建深度学习管道的最佳实践。查看本次演讲的幻灯片。两天之声：Ricks使用Apache Spark虚拟化分析企业如何使用更多的数据来做出决策，并以更高的智能行事？这个问题从第2天的主题演讲开始。Databricks的现场工程副总裁Arsalan Tavakoli Shiraji描述了数据、分析和最终用户群体的多样性如何为当今的企业带来多方面的挑战。Arsalan观察到，解决方案不存在于传统的数据仓库或Hadoop数据湖（Hadoop datalakes），这些都是来自一个问题更加有限的时代的产物。相反，这一新的挑战需要一个完全不同的范式，基于四个关键原则：计算与存储解耦统一的数据管理和安全模型统一分析引擎企业范围的协作Arsalan指出，虽然Spark是为这种新模式提供动力的完美引擎，但在企业环境中，围绕该引擎有许多操作需求。这些企业需求最终促使Databricks围绕Spark构建一个平台，使他们能够更快、更容易、更便宜地获得Spark的好处。例外情况是一种常态：处理ETL中的坏角色Sameer Agarwal解释说，大数据很混乱；数据嵌套很深；数据常常是"不正确、不完整或不一致的"，作为主题演讲后开发人员轨道的第一次谈话，Sameer Agarwal解释道。他解释了ApacheSpark2.x中的新特性如何处理嵌套类型、隔离用于信息诊断的输入记录以及提高ETL的健壮性。他提出了在ETL中如何处理和处理这些"坏角色"的技巧。查看本次演讲的幻灯片。使用Spark在云存储上实现健壮和可扩展的ETL当涉及到数据处理难题时，对于大多数问题来说，ETL往往是最重要的。随着数据不断向云端转移，为了优化性能，Spark最好直接从Amazon S3等服务访问数据，从而将存储和计算分离开来。但是，对象存储（如S3）有一些限制，可能会影响ETL作业的性能。Databricks软件工程师Eric Liang非常详细地揭示了这些问题，并提供了Databricks的前进路径，Databricks提供了一个高度优化的S3访问层，为您提供了极快的读/写性能。查看本次演讲的幻灯片。SparkSQL：从查询到RDDs的编译器尽管这是最后一天Sameer Agrawal带领我们进行了一次精辟的旅程，并在引擎盖下窥视了一次，追踪了一个查询（或高级计算）使用SparkSQL引擎所经历的生命周期。通过一个编译器类比，他概述了SparkSQL如何利用Catalyst优化器的最佳优点和技术，以及worthing的整个阶段代码生成，来解析、分析、优化、规划和执行用户的查询。查看本次演讲的幻灯片。用SparkR并行化现有的R包ApacheSpark2.0是SparkR向前迈进的一大步。hosseinfalaki是SparkR的主要贡献者之一，他概述了新的sparkrapi。他的演讲描述了如何使用这个API并行化现有的R包，并特别考虑了性能和正确性。查看本次演讲的幻灯片。保持Spark正常运行：为ETL生产ApacheSpark构建生产质量的ETL管道是apachespark最常见的用例之一。Databricks解决方案工程师Kyle Pistor和Miklos Christine上台分享了他们积累的大量知识，这些知识基于他们与Databricks客户的广泛合作经验，如何使用Spark构建快速而可靠的ETL管道。查看本次演讲的幻灯片。下一步是什么每一次演讲的视频和幻灯片将在两周后发布在Spark Summit网站上。关注Twitter上的数据链接或订阅我们的时事通讯，以便在新内容可用时得到通知。同时，在CommunityEdition上学习ApacheSpark或者构建一个免费试用Databricks的Spark产品应用程序！免费试用Databricks。今天就开始吧

本文地址： /zhuji/3366.html