分布式存储_外国免费虚拟主机_便宜的

小七 2019年10月25日 21:23 141 0

阿帕奇火花™ 自动驾驶模式下的群集

阿帕奇火花™ 是一个统一的分析引擎，它帮助用户将单个分布式计算框架用于各种用例。随着云计算的出现，使用apachespark建立自己的平台相对容易。云提供商还提供了一些工具/服务来简化安装。然而，devops和平台工程师花费大量时间构建和维护此类平台的真正难题是：高可用性：在云中，所有的工作负载都运行在低成本的商品机器上。能够轻松地从故障中恢复是至关重要的。此外，在对集群中的边车服务进行软件更新时，确保集群的高可用性也是非常重要的。成本优化：集群的建立需要使集群能够高效地自动伸缩，不使用时终止集群，利用现货市场，在现货价格出现波动时，既能降低成本，又不影响工作负载的稳定性。优化性能：不同的工作负载有不同的资源需求，它们需要利用所有资源快速高效地运行。处理用户代码时的故障隔离：集群也需要以这样一种方式来设置：不同的用户不会因为他们的用户代码而关闭集群。通常，解决这类问题不仅需要大量的实现时间，而且还会带来配置上的复杂性，并且经常需要手动干预来解决这些问题。本博客总结了Databricks提供的所有主要功能，这些功能使Databricks集群处于"自动驾驶模式"，这样devops就不必再担心这些平台问题了。计算机的自动缩放自动缩放计算是当今许多大数据平台提供的一种基本功能。但这些工具大多期望为单个作业分配静态资源大小，这并没有利用云的弹性。然后，像YARN这样的资源调度程序负责不同作业之间的"粗粒度"自动调整，只有在Spark作业完成后才释放资源。这有两个问题：为这项工作估计一个合适的尺寸需要大量的试验和错误。用户通常会根据一天中的时间、一周中的某一天或某些特殊情况（如黑色星期五）为最大负载过度配置资源。Databricks自动调整更具动态性，并且基于在Spark调度器上排队的细粒度Spark任务。这使得集群能够更积极地伸缩以响应负载，并自动提高集群资源的利用率，而无需用户进行任何复杂的设置。Databricks autoscaling帮助您根据工作负载节省多达30%的云成本。有关如何使用Databricks autoscaling节省云成本的更多信息，请参阅optimized autoscaling博客。图1。通过Databricks优化的资源管理，部署的执行器数量可以更紧密地跟踪工作负载的使用情况。因此，在这种情况下，积极的自动调整将导致在工作负载的生命周期内部署的资源减少25%，这意味着为用户节省了25%的成本。本地存储的自动扩展大数据工作负载需要访问磁盘空间进行各种操作，通常是在中间结果无法放入内存时。当所需的磁盘空间不可用时，作业将失败。为了避免作业失败，数据工程师和科学家通常会浪费时间尝试通过反复试验来估计所需的磁盘量：分配固定数量的本地存储，运行作业，并查看系统指标，以确定作业是否可能用完磁盘。当多个作业在一个集群上运行时，这种实验会变得特别复杂，而且会分散这些专业人员对其实际目标的注意力。Databricks集群允许实例存储独立于计算资源透明地自动伸缩，这样数据科学家和工程师就可以在将ETL工作从开发转移到生产的同时极大地提高他们的生产力。从透明的实例存储自动调整博客了解更多关于如何以最佳方式自动调整实例存储及其好处的信息。图2。显示启用自动缩放本地存储的实例的可用磁盘空间的图形。每当可用磁盘空间低于最小阈值时，我们请求另一个磁盘卷并将其附加到实例上。随后的请求分配越来越大的磁盘卷，直到达到预先配置的最大总磁盘空间。自动终止Databricks集群可以设置为在设定的空闲时间之后自动终止，以节省云成本。图3。可在群集UI中配置的自动终止选项自动启动Databricks群集也会自动启动！每当集群从Jobs调度器或JDBC/ODBC接口接收到命令时，集群会自动唤醒并执行它们。这在以下场景中非常有用：调度生产作业：当您在一个集群上有一系列计划的Databricks作业时，如果您想关闭集群并节省成本，那么现在就可以轻松地完成了。当计划作业提交到已终止的群集时，它将自动唤醒群集并运行该作业。BI用例：如果要将Tableau等BI工具连接到Databricks集群，在这个特性可用之前，您的数据分析师需要登录Databricks并启动集群。现在他们不再需要登录到Databricks。他们可以从Tableau运行命令。如果集群处于终止状态，它将自动启动。这将允许平台团队推出一个无服务器的大数据平台，供内部数据分析师切分大数据，而不必担心集群的任何概念。热身集群：当你明天早上9点进入办公室时，你会想让一个集群运行起来，完成某些分析，缓存某些数据，这样你就可以提高工作效率，一踏进办公室就继续工作。现在，您可以在一大早安排一个作业，该作业将自动唤醒集群并运行分析，在您踏入办公室时将一切准备就绪。您不再需要为此编写使用Databricks restapi的自定义脚本。与自动终止一起，auto start是一个强大的功能，允许用户只设置一次集群配置，然后让Databricks根据使用情况自动启动和终止集群。自动恢复和恢复现货价格波动在云环境中，计算资源可能因各种原因而失败：云提供商可以随时回收具有成本效益的节点，如spot实例或低优先级vm由于软件错误，节点可能会陷入无响应状态短暂的网络故障也可能导致实例故障在分布式计算环境中，检测和从各种故障中恢复是一个关键的挑战。由于内置了对自动恢复的支持，Databricks确保在其集群上运行的Spark工作负载对此类故障具有弹性。Databricks集群管理器定期检查Spark集群中所有节点的运行状况。根据故障的性质，它可以以最小的成本智能地恢复集群。例如，当执行器崩溃或卡住时，Databricks只是重新启动进程，以避免扼杀整个工作负载；当底层实例完全没有响应时，Databricks从云提供商获取一个新实例来替换出现故障的实例。自动恢复还可以帮助Databricks集群在保持低成本的同时获得高可用性的优势。以AWS为例，客户可以将其集群配置为使用spot实例并回退到按需实例。通过这个设置，Databricks将首先尝试以更低的价格以用户指定的竞价比率使用spot实例。当失败时，它会自动切换到按需实例，这样即使在现货价格波动期间，您的工作负载也能平稳运行。图4。UI选项，用于配置点/按需组合和回退机制。自动监测仪表Databricks服务每分钟向我们的内部监控系统传输数百个指标。这些指标包括集群启动持续时间、集群和节点终止、工作磁盘使用量增加、网络连接问题和Spark配置错误。监控系统自动对指标进行分类，并在仪表板上可视化。这些指标有助于Databricks代表我们的客户确定和保护集群的健康状况。在无法恢复故障的情况下，如Spark master节点宕机或云提供商长时间停机，Databricks会收集诊断信息，并向客户报告集群终止原因，以获得更好的可见性。数据库也会收到相关事件峰值的警报。例如，当异常集群终止的速率超过某个阈值时，监控系统会自动向我们的第一响应者发送警报，以便他们能够深入了解根本原因。考虑到Databricks为我们的客户管理大量的实例，有时Databricks甚至在云提供商报告之前检测到大规模的云中断。一旦确定了根本原因，Databricks会主动为受影响的客户设置一个横幅，告知他们停机和根本原因。图5。2018年3月20日，在us-east-1的一次区域S3停机期间，匿名客户的集群终端突然中断。Databricks在AWS在他们的服务状态页面上报告之前15分钟检测到了中断。自动软件更新作为一个SaaS平台，Databricks定期向我们的客户发布新特性和错误修复。许多更新会影响边车服务的运行

本文地址： /zhuji/3108.html