分布式存储_web网站建设培训_哪家好

小七 2019年10月25日 21:23 141 0

应用焦点：Trifacta

这篇文章是我们在Trifacta的朋友们在让他们的数据转换平台"在Spark上认证"后客座撰写的今天我们发布了Trifacta数据转换平台的v2版本，它强调了Hadoop在新的大数据企业架构中所扮演的重要角色。使用trifactav2，我们现在支持在Hadoop中转换所有形状和大小的数据。这意味着在Trifacta v2中支持Hadoop特定的数据格式作为输入和输出，比如Avro、ORC和Parquet。这也意味着不仅可以通过trifactav1中提供的MapReduce，还可以通过Spark智能地执行数据转换脚本。Trifacta v2已通过Databricks在Spark上正式认证。我们与Databricks的合作将Spark数据处理引擎的性能和灵活性带到了数据争夺的世界。很高兴与最初在加州大学伯克利分校（UC Berkeley）启动了Spark研究项目的团队合作，后来成为apachespark，并向Spark社区介绍了一类新的应用程序。我们与Spark集成的灵感部分来自于该技术的强大威力。但它也受到开源apachespark社区和项目的巨大推动。我们已经看到越来越多的技术和财富500强公司选择Spark作为他们在Hadoop实现上投资的关键组成部分。现在有了所有主流Hadoop发行版的支持，包括Cloudera、Hortonworks、MapR和Pivotal，Spark肯定会成为Hadoop生态系统的基础组件。在对许多不同的数据转换用例进行测试之后，我们现在知道原因了。在Trifacta的引擎盖下使用Spark，我们现在可以以交互响应速度执行大规模的数据转换。这个功能补充了我们在Trifacta v1中引入的执行框架，在那里我们支持即时和批处理执行。在Trifacta v1中，我们可以在浏览器中对小数据即时执行，也可以通过编译转换脚本在MapReduce中执行，以批处理方式在大容量上运行。现在在Trifacta v2中，我们可以为用户智能地选择in-browser、Spark和MapReduce执行，这样我们的客户就可以专注于分析而不是技术细节。我们利用Spark的灵活执行模型来驱动各种数据转换工作负载的低延迟处理。例如，Spark适用于交互式数据结构和清理转换、支持Trifacta预测性InteractionTM技术的迭代机器学习例程以及用于可视化数据分析的高效分析查询。Trifacta的声明性转换语言Wrangle使将本机Spark执行插入数据转换平台相对容易。Wrangle是一种数据转换语言，旨在将用户在Trifacta中的可视化交互转换为本机可执行代码，这些代码可以在各种不同的处理框架（包括MapReduce和Spark）上运行。有了这两个组织的巨大技术人才，我期待着看到我们能够一起构建什么，以及它将对大数据产生的影响。如果您有兴趣了解更多关于Wrangle、Trifacta领域特定语言或我们的体系结构如何使其易于插入多个数据处理框架，那么下周我将与Joe Hellerstein在Strata New York就这个主题进行演讲，或者继续关注我们网站上的产品页面。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3611.html