云解析_华为云网站建设_12月免费

小七 2019年10月25日 21:23 141 0

MapR集成了完整的apachespark堆栈

这篇文章是我们在MapR的朋友们的客座撰稿，宣布我们新的合作伙伴关系将为apachespark提供企业支持，这是MapR发布Hadoop的一部分。我和我的团队有超过500个付费客户，有机会与许多在生产中利用Hadoop从大数据中获取价值的组织进行交谈。最近几个月，我们的客户提出的最常见的话题之一就是apachespark。一些客户只想进一步了解这项技术的优势和它所解决的用例，而另一些客户已经在生产中使用MapR发行版来运行它。这些客户包括世界上最大的有线电视电信公司和零售商，以及Quantifind等硅谷初创公司，Quantifind最近在接受Datameer首席执行官斯特凡·格罗舒普夫（Stefan Groschupf）的采访时谈到了其对MapR上Spark的使用。今天，我很高兴地宣布并与您分享我们使用Databricks的旅程的开始，以及将完整的Spark堆栈添加到apachehadoop的MapR发行版中。我们现在是唯一支持完整Spark堆栈的Hadoop发行版，包括Spark、Spark Streaming（流处理）、Shark（Spark上的Hive）、MLLib（机器学习）和GraphX（图形处理）。这证明了我们对开源的承诺，并向我们的客户提供了最大限度的灵活性，以选择合适的工具。为什么是火花？组织在采用Hadoop时面临的一个挑战是缺乏有构建Hadoop应用程序经验的开发人员。我们的专业服务组织帮助了几十家公司开发和部署Hadoop应用程序，我们的培训部门培训了无数的工程师。企业迫切需要能够在提高开发人员生产率的同时更容易开发Hadoop应用程序的解决方案，Spark符合这一要求。Spark工作只需要1/5的代码。Spark提供了一个简单的编程抽象，允许开发人员将应用程序设计为对数据集合的操作（称为rdd，或弹性分布式数据集）。开发人员可以用多种编程语言（包括Java、Scala和Python）构建这些应用程序，相同的代码可以跨批处理、交互式和流式应用程序重用。除了让开发人员更快乐、更高效之外，Spark还提供了端到端应用程序性能方面的显著好处。为此，Spark提供了一个带有内存管道的通用执行框架。对于许多应用程序，这会导致性能提高5-100倍，因为一些或所有步骤可以在内存中执行，而无需对磁盘进行不必要的写入和读取。Spark engine的性能优势，加上MapR发行版业界领先的性能，为客户提供了最高性能的大数据应用平台。为什么是数据块？Databricks是由在加州大学伯克利分校（ucberkeley）启动Spark研究项目的团队创立的，后来成为apachespark。当我们决定将Spark stack添加到我们的发行版中，并在Spark社区中加倍投入时，与Databricks建立战略合作伙伴关系是一件轻而易举的事。这种合作关系将使MapR客户受益，这些客户对Spark或堆栈中的任何其他项目（包括Spark Streaming、Shark、MLLib和GraphX）感兴趣（其他几个项目即将推出）。此外，MapR将与Databricks密切合作，推动Spark路线图并加快新功能的开发，使MapR客户和更广泛的社区都受益。我们对即将发布的apachespark1.0非常兴奋，预计本月晚些时候发布。我们期待着与Databricks和Spark社区的其他成员进行一次伟大的旅行。注册一个即将到来的联合网络研讨会，了解更多关于MapR上完整的Spark堆栈的好处。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3570.html