云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

轻量服务器_网站建设网页设计_安全稳定

小七 141 0

apachespark2.4版本中Kubernetes上的apachespark有什么新特性

更新日期:2018年11月12日这是一个社区博客,来自Google软件工程师yinanli,在Kubernetes引擎团队工作。他是在ApacheSpark2.4.0中为Kubernetes提供支持的公司之一。自从Kubernetes集群调度器后端最初在apachespark2.3中引入以来,社区一直在致力于一些重要的新特性,这些特性使Kubernetes上的Spark更加可用,并为更广泛的用例做好准备。Apache Spark 2.4版本提供了许多新功能,其中一些功能在下面重点介绍:支持在Kubernetes上运行容器化的PySpark和SparkR应用程序。客户端模式支持,允许用户运行交互式应用程序和笔记本电脑。支持装载某些类型的Kubernetes卷。下面我们将深入了解每个新功能。PySpark支持即将发布的spark2.4现在支持在Kubernetes上运行PySpark应用程序。python2.x和3.x都受支持,并且可以使用新的configuration属性指定Python的主要版本火花。库伯内特斯。皮斯巴克.pythonVersion,其值可以为2或3,但默认为2。Spark附带了一个基本映像的Dockerfile,该文件具有在Kubernetes上运行PySpark应用程序所需的Python绑定。用户可以使用Dockerfile构建一个基本映像,也可以自定义它来构建自定义映像。Spark R支架Kubernetes上的Spark现在支持在Spark 2.4中运行R应用程序。Spark附带了一个基本映像的Dockerfile,它是在Kubernetes上运行R应用程序所必需的。用户可以使用Dockerfile构建一个基本映像,也可以自定义它来构建自定义映像。客户端模式支持作为自2.3.0发布以来最需要的特性之一,客户机模式支持现在在即将到来的Spark 2.4中提供。客户机模式允许用户在Kubernetes集群或集群外的客户机上运行sparkshell或笔记本等交互式工具。请注意,在这两种情况下,用户都有责任正确地设置从集群内部pod中运行的执行器到驱动程序的连接。当驱动程序在集群中的pod中运行时,推荐的方法是使用Kubernetes headless服务,以允许执行器使用驱动程序pod的FQDN连接到驱动程序。但是,当驱动程序在集群外运行时,用户必须确保可以从集群中的executor pods访问驱动程序。有关客户端模式支持的更多详细信息,请参阅Spark 2.4正式发布时的文档。其他显著变化除了上面强调的新特性之外,即将发布的Spark 2.4版本中的Kubernetes cluster scheduler后端也收到了一些错误修复和改进。新的配置属性spark.kubernetes.executor公司.请求核心是为了以符合Kubernetes约定的方式为executor pods配置物理CPU请求而引入的。例如,用户现在可以使用分数值或millicpus,比如0.5或500m,该值用于设置运行executor的容器的CPU请求。运行在Kubernetes集群中的pod中的Spark驱动程序不再使用init容器来下载远程应用程序依赖项,例如远程HTTP服务器、HDFS、aws3或Google云存储上的jar和文件。相反,驱动程序在客户机模式下使用spark submit,它以spark惯用的方式自动获取此类远程依赖项。现在,用户可以使用Spark属性从注册表中提取新映像的机密spark.kubernetes.容器.图片.pullSecrets.用户现在可以通过secretKeyRef使用Kubernetes机密作为环境变量。这是通过使用新的配置选项来实现的spark.kubernetes司机.secretKeyRef.[EnvName]和spark.kubernetes.executor公司.secretKeyRef.[EnvName]分别用于驱动程序和执行器。运行在驱动程序中的Kubernetes调度器后端代码现在使用一种级别触发机制来管理执行器pod,并且对于与kubernetesapi服务器通信的问题更为健壮。结论和今后的工作首先,我们要向来自多个组织(Bloomberg、Databricks、Google、Palantir、PepperData、Red Hat、Rockset等)的Apache Spark和Kubernetes社区贡献者表示巨大的感谢,他们为这项工作付出了巨大的努力,并帮助Kubernetes获得了Spark。展望未来,社区正在研究或计划开发进一步增强Kubernetes调度器后端的特性。下面列出了未来Spark版本中可能提供的一些特性。支持使用pod模板定制驱动程序和执行器pod。这为定制驱动程序和执行器pod提供了最大的灵活性。例如,用户可以使用此功能装载任意卷或配置映射。动态资源分配和外部洗牌服务。支持Kerberos身份验证,例如访问安全HDFS。更好地支持提交客户端计算机上的本地应用程序依赖关系。Spark流媒体应用的驱动程序弹性。免费试用Databricks。今天就开始吧