云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

文件存储_mc服务器吧_12月免费

小七 141 0

发布Apache Spark 1.1

今天我们很高兴地宣布ApacheSpark1.1的发布!apachespark1.1引入了许多新特性,并对规模和稳定性进行了改进。本文将介绍apachespark1.1的一些关键特性,并提供关于Spark在本版本和下一版本中的优先级的上下文。在接下来的两周内,我们将发布博客文章,详细介绍每个主要组件的功能添加。apachespark1.1已经向Databricks的客户提供了,并且今天也发布在apachespark网站上。SparkSQL成熟度1.1版在apachespark1.0中发布的预览版中对sparksql进行了显著的升级。在Databricks,我们已经将客户的所有工作负载从Shark迁移到Spark SQL,性能得到了全面的2到5倍的改进。apachespark1.1为sparksql添加了一个JDBC服务器,这是一个关键特性,允许直接升级依赖JDBC的Shark安装。我们还开放了sparksql类型系统和公共类型API,允许与第三方数据源进行丰富的集成。这将为许多未来的集成提供一个扩展点,比如Datastax Cassandra驱动程序。使用此类型API,我们添加了对将JSON数据加载到Spark的本机ShemaRDD格式的turn-key支持:#在Python中创建JSON-RDD>>>人员=sqlContext.jsonFile文件("s3n://path/to/files…")#可视化推断的模式>>> 人.printSchema()#根#|–年龄:整数(可空=真)#|–名称:字符串(可为null=true)MLlib的扩展Spark的机器学习库增加了几个新算法,包括标准探索性统计的库,如抽样、相关性、卡方检验和随机输入。这使得数据科学家可以避免将数据导出到单节点系统(R、SciPy等),而是直接操作Spark中的大规模数据集。对内部原语的优化使大多数MLlib算法的性能提高了2-5倍。决策树是一种流行的算法,已经移植到Java和Python中。此外,还添加了其他一些算法,包括TF-IDF、Lanczos SVD和非负矩阵分解。MLlib的下一个版本将为端到端机器学习管道引入一个增强的API。Spark流媒体的源和库Spark streaming在此版本中扩展了其摄取源库,添加了两个新源。第一个是对Amazon Kinesis的支持,这是一个托管的流处理引擎。Spark Streaming还为Apache Flume添加了H/A源,它使用一个新的数据源来提供Flume事件的事务性切换,以优雅地容忍工作进程故障。apachespark1.1添加了一组在线机器学习算法中的第一个,引入了流式线性回归。展望未来,Spark Streaming路线图将为所有输入源提供一个通用的可恢复机制,以及不断增长的连接器列表。下面的示例显示使用传入数据训练线性模型,然后使用更新的模型进行预测:>val流=kafkatils.createStream(…)//在数据流上训练线性模型>val模型=新建StreamingLinearRegressionWithGD().setStepSize(0.5).setNumIterations(10个).setInitialWeights设置初始权重(向量。密集(…)).列车(DStream.map(记录=>createLabeledPoint(记录))//使用最新更新的模型预测> model.latestModel().预测(myDataset)火花芯性能此版本为Spark添加了重要的内部更改,重点是提高大规模工作负载的性能。ApacheSpark1.1提供了Spark shuffle的新实现,Spark shuffle是几乎所有数据密集型程序都使用的关键内部原语。对于并行度极高的工作负载,新的shuffle将性能提高了5倍以上,这是早期版本Spark的一个关键痛点。apachespark1.1还添加了许多其他改进,以减少内存使用并提高性能。PySpark中的优化和特性apachespark1.0中引入的一些磁盘溢出修改已经移植到Spark的Python运行时扩展中。这个版本还增加了Python对SequenceFiles、Avro和其他基于Hadoop的输入格式的读写数据的支持。PySpark现在支持整个sparksqlapi,包括对SchemaRDD内部嵌套类型的支持。改进Spark和PySpark的规模和健壮性的努力是基于社区的反馈,以及在Databricks与我们的客户工作负载的直接交互。Spark的下一个版本将继续围绕这个主题,重点是改进仪器和调试,以便用户找出性能瓶颈。本文只触及了apachespark1.1中有趣特性的表面。请继续阅读官方发行说明,以了解更多有关此版本的信息,并在接下来的几天内继续关注Databricks关于ApacheSpark1.1的更多信息!免费试用Databricks。今天就开始吧