服务器_如何选购虚拟主机_新注册优惠

小七 2019年10月25日 21:23 141 0

介绍Apache Spark 2.2

今天，我们很高兴地宣布，作为Databricks运行时3.0的一部分，apachespark2.2.0可以在Databricks上使用。此版本标志着结构化流媒体的一个重要里程碑，它将其标记为产品就绪并删除了实验标签。在这个版本中，我们还支持流中的任意有状态操作，apachekafka0.10支持使用流式和批处理api进行读写。除了将新功能扩展到SparkR、Python、MLlib和GraphX之外，该版本还关注可用性、稳定性和改进，解决了1100多个问题。这篇博文讨论了一些高级的更改、改进和错误修复：支持生产的结构化流媒体扩展SQL功能R语言中新的分布式机器学习算法MLlib和GraphX中的附加算法结构化流媒体在Spark 2.0中引入的结构化流是用于构建连续应用程序的高级API。我们的目标是使构建端到端流应用程序更容易，这些应用程序以一致和容错的方式与存储、服务系统和批处理作业集成。Spark 2.2是2.x系列中的第三个版本，它宣布结构化流媒体为生产就绪，这意味着去掉了实验标签，并进行了其他高级更改：Kafka源和接收器：支持以流或批处理方式向ApacheKafka读写数据Kafka改进：用于低延迟Kafka到Kafka流的缓存生产者其他有状态API：使用[flat]MapGroupsWithState支持复杂的有状态处理和超时runonce触发器：只允许触发一次执行，从而降低集群的成本在Databricks，我们虔诚地相信dogfooding。使用spark2.2的候选版本，我们移植了一些内部数据管道，并与一些客户合作，使用结构化流传输移植他们的生产管道。SQL和核心API自Spark 2.0发布以来，Spark现在是大数据领域功能最丰富、最符合标准的SQL查询引擎之一。它可以连接到各种数据源，并执行SQL-2003功能集，如分析函数和子查询。Spark 2.2增加了许多SQL功能：API更新：统一数据源和配置单元serde表的创建表语法，并为SQL查询添加广播提示，如broadcast、BROADCASTJOIN和MAPJOIN整体性能和稳定性：基于成本的优化器基数估计，用于筛选、联接、聚合、项目和限制/样本运算符以及基于成本的联接重新排序使用星型模式启发式的TPC-DS性能改进CSV和JSON的文件列表/IO改进HiveUDAFFunction的部分聚集支持引入一个基于JVM对象的聚合操作符其他显著变化：支持解析多行JSON和CSV文件分区表上的Analyze Table命令插入/CTA完成后，根据配置单元serde表删除暂存目录和数据文件MLlib、SparkR和PythonSpark 2.2的最后一个主要变化集中在高级分析和Python上。现在您可以使用pip安装从PyPI包安装PySpark。为了促进高级分析，在MLlib和GraphX中添加了一些新算法：局部敏感哈希多类Logistic回归个性化PageRankSpark 2.2还增加了对SparkR中以下分布式算法的支持：肌萎缩性脊髓侧索硬化症等张回归多层感知器分类器随机森林高斯混合模型LDA公司多类Logistic回归坡度增强树R的结构化流式API列函数到\u json，从R的\u jsonR中的多列近似分位数随着这些算法的加入，SparkR已经成为R上最全面的分布式机器学习库。虽然这篇博文只介绍了这个版本中的一些主要特性，但是您可以阅读官方发行说明来查看完整的更改列表。如果您想尝试这些新特性，可以在Databricks Runtime 3.0中使用spark2.2。在这里注册一个免费试用帐户。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3037.html