云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云解析_华为云网站建设_12月免费

小七 141 0

MapR集成了完整的apachespark堆栈

这篇文章是我们在MapR的朋友们的客座撰稿,宣布我们新的合作伙伴关系将为apachespark提供企业支持,这是MapR发布Hadoop的一部分。我和我的团队有超过500个付费客户,有机会与许多在生产中利用Hadoop从大数据中获取价值的组织进行交谈。最近几个月,我们的客户提出的最常见的话题之一就是apachespark。一些客户只想进一步了解这项技术的优势和它所解决的用例,而另一些客户已经在生产中使用MapR发行版来运行它。这些客户包括世界上最大的有线电视电信公司和零售商,以及Quantifind等硅谷初创公司,Quantifind最近在接受Datameer首席执行官斯特凡·格罗舒普夫(Stefan Groschupf)的采访时谈到了其对MapR上Spark的使用。今天,我很高兴地宣布并与您分享我们使用Databricks的旅程的开始,以及将完整的Spark堆栈添加到apachehadoop的MapR发行版中。我们现在是唯一支持完整Spark堆栈的Hadoop发行版,包括Spark、Spark Streaming(流处理)、Shark(Spark上的Hive)、MLLib(机器学习)和GraphX(图形处理)。这证明了我们对开源的承诺,并向我们的客户提供了最大限度的灵活性,以选择合适的工具。为什么是火花?组织在采用Hadoop时面临的一个挑战是缺乏有构建Hadoop应用程序经验的开发人员。我们的专业服务组织帮助了几十家公司开发和部署Hadoop应用程序,我们的培训部门培训了无数的工程师。企业迫切需要能够在提高开发人员生产率的同时更容易开发Hadoop应用程序的解决方案,Spark符合这一要求。Spark工作只需要1/5的代码。Spark提供了一个简单的编程抽象,允许开发人员将应用程序设计为对数据集合的操作(称为rdd,或弹性分布式数据集)。开发人员可以用多种编程语言(包括Java、Scala和Python)构建这些应用程序,相同的代码可以跨批处理、交互式和流式应用程序重用。除了让开发人员更快乐、更高效之外,Spark还提供了端到端应用程序性能方面的显著好处。为此,Spark提供了一个带有内存管道的通用执行框架。对于许多应用程序,这会导致性能提高5-100倍,因为一些或所有步骤可以在内存中执行,而无需对磁盘进行不必要的写入和读取。Spark engine的性能优势,加上MapR发行版业界领先的性能,为客户提供了最高性能的大数据应用平台。为什么是数据块?Databricks是由在加州大学伯克利分校(ucberkeley)启动Spark研究项目的团队创立的,后来成为apachespark。当我们决定将Spark stack添加到我们的发行版中,并在Spark社区中加倍投入时,与Databricks建立战略合作伙伴关系是一件轻而易举的事。这种合作关系将使MapR客户受益,这些客户对Spark或堆栈中的任何其他项目(包括Spark Streaming、Shark、MLLib和GraphX)感兴趣(其他几个项目即将推出)。此外,MapR将与Databricks密切合作,推动Spark路线图并加快新功能的开发,使MapR客户和更广泛的社区都受益。我们对即将发布的apachespark1.0非常兴奋,预计本月晚些时候发布。我们期待着与Databricks和Spark社区的其他成员进行一次伟大的旅行。注册一个即将到来的联合网络研讨会,了解更多关于MapR上完整的Spark堆栈的好处。免费试用Databricks。今天就开始吧