云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

企业邮箱_老九门小说百度云_免费6个月

小七 141 0

sparksql数据源API:apachespark平台的统一数据访问

自从apachespark1.0中引入sparksql以来,它最流行的用途之一就是作为将数据拉入Spark平台的管道。早期用户喜欢sparksql支持从现有Apache配置单元表以及流行的Parquet列格式读取数据。我们已经添加了对其他格式的支持,比如JSON。在ApacheSpark1.2中,我们已经采取了下一步,允许Spark与大量的输入源进行本机集成。通过包含新的sparksql数据源API,这些新的集成成为可能。数据源API为通过sparksql访问结构化数据提供了一种可插入的机制。数据源不仅仅是转换数据并将其转换为Spark的简单管道。这个API提供的紧密的优化器集成意味着在许多情况下,过滤和列修剪可以一直推到数据源。这样的集成优化可以极大地减少需要处理的数据量,从而大大加快Spark作业的速度。使用数据源就像从SQL(或您最喜欢的Spark语言)引用它一样简单:创建临时表集使用com.databricks.spark网站.avro公司选项(路径"剧集.avro")数据源API的另一个优点是,它让用户能够使用Spark支持的所有语言操作数据,而不管数据是如何来源的。例如,在Scala中实现的数据源可以被pySpark用户使用,而不需要库开发人员额外的工作。此外,sparksql可以很容易地使用单个接口连接来自不同数据源的数据。综合起来,这些功能进一步统一了ApacheSpark1.2提供的大数据分析解决方案。尽管这个API还很年轻,但已经有几个库构建在它之上,包括apacheavro、逗号分隔值(csv),甚至dBASE表文件格式(dbf)。现在apachespark1.2已经正式发布,我们希望这个列表能够快速增长。我们知道正在努力支持HBase、JDBC等。请查看Spark包以查找可用库的最新列表。对于有兴趣为自己喜欢的格式编写库的开发人员,我们建议您研究阅读apacheavro的参考库,查看示例源代码,或观看此meetup视频。此外,请继续关注此API的扩展。在apachespark1.3中,我们希望添加对分区、持久表和可选的用户指定模式的支持。免费试用Databricks。今天就开始吧