企业邮箱_老九门小说百度云_免费6个月

小七 2019年10月25日 21:23 141 0

sparksql数据源API:apachespark平台的统一数据访问

自从apachespark1.0中引入sparksql以来，它最流行的用途之一就是作为将数据拉入Spark平台的管道。早期用户喜欢sparksql支持从现有Apache配置单元表以及流行的Parquet列格式读取数据。我们已经添加了对其他格式的支持，比如JSON。在ApacheSpark1.2中，我们已经采取了下一步，允许Spark与大量的输入源进行本机集成。通过包含新的sparksql数据源API，这些新的集成成为可能。数据源API为通过sparksql访问结构化数据提供了一种可插入的机制。数据源不仅仅是转换数据并将其转换为Spark的简单管道。这个API提供的紧密的优化器集成意味着在许多情况下，过滤和列修剪可以一直推到数据源。这样的集成优化可以极大地减少需要处理的数据量，从而大大加快Spark作业的速度。使用数据源就像从SQL（或您最喜欢的Spark语言）引用它一样简单：创建临时表集使用com.databricks.spark网站.avro公司选项（路径"剧集.avro")数据源API的另一个优点是，它让用户能够使用Spark支持的所有语言操作数据，而不管数据是如何来源的。例如，在Scala中实现的数据源可以被pySpark用户使用，而不需要库开发人员额外的工作。此外，sparksql可以很容易地使用单个接口连接来自不同数据源的数据。综合起来，这些功能进一步统一了ApacheSpark1.2提供的大数据分析解决方案。尽管这个API还很年轻，但已经有几个库构建在它之上，包括apacheavro、逗号分隔值（csv），甚至dBASE表文件格式（dbf）。现在apachespark1.2已经正式发布，我们希望这个列表能够快速增长。我们知道正在努力支持HBase、JDBC等。请查看Spark包以查找可用库的最新列表。对于有兴趣为自己喜欢的格式编写库的开发人员，我们建议您研究阅读apacheavro的参考库，查看示例源代码，或观看此meetup视频。此外，请继续关注此API的扩展。在apachespark1.3中，我们希望添加对分区、持久表和可选的用户指定模式的支持。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3627.html