华为云_京东云平台待遇北辰_12月免费

小七 2019年10月25日 21:23 141 0

集成Apache Spark和HANA

今天上午，SAP发布了自己的"认证火花发行版"，这是Databricks和SAP宣布的全新合作伙伴关系的一部分。我们很高兴能和他们一起踏上这段旅程，这不仅仅是因为这对Databricks作为一家公司意味着什么，同样重要的是因为它对ApacheSpark和Spark社区意味着什么。获取完整的数据集从根本上讲，每个企业的大数据愿景都是将数据转化为价值；这一追求的核心要素是需要挖掘以获取见解的数据的可用性。尽管HDFS中数据量的增长令人难以置信，并继续呈指数级增长，但其中大部分都是上下文数据——如社交数据、点击流数据、传感器数据、日志、第三方数据源——和历史数据。实时运营数据–例如来自基础企业应用程序（如ERP（企业资源规划）、CRM（客户关系管理）以及供应链和库存管理（SCM）系统）的数据，历来都是单独维护的，并在任意方向移动数据，以便跨数据集充其量是累赘的。Spark和HANA的联合旨在改变这种状况。SAP的软件拥有超过200000个客户，是企业应用程序的最大投资组合之一，是通向全球最有价值的企业数据宝库之一的门户，而SAP HANA是SAP平台战略的基石，支撑着这些企业应用程序的向前发展。现在，Spark开发人员和用户的社区也将拥有完全的访问权限，从而实现丰富的分析可能性，而这在其他情况下是很难实现的。同样，基于HANA构建的企业应用程序现在将更接近于实现完全闭环操作系统的圣杯。这些应用程序中的许多是直接推动日常业务的企业的关键决策支持系统。能够访问完整的数据集将有助于在垂直领域做出更准确和有效的决策——公用事业的传感器和天气数据、零售商的社会趋势、商品参与者的交通模式和政治事件。然而，在实践中，这些数据大部分是在HANA之外保存的；通过Spark+HANA集成，企业可以在"100%的数据"中做出关键任务决策。不仅仅是数据存储–两个强大的引擎许多大数据范例都是建立在"计算到数据"的概念上的，而不是简单地尝试将所有数据ETL到一个中央存储库中。Spark和HANA通过提供对数据进行就地操作的强大引擎来体现这一原则。除了作为重要的公司数据存储库之外，HANA还以极高的速度提供了各种高级分析包，包括预测、文本/NLP和地理空间。Spark还提供高级分析功能——SQL、流数据、机器学习和图形计算——这些功能在HDFS和其他数据存储（如Cassandra）上运行。除了各自的能力之外，这种集成的真正力量是Spark和HANA紧密合作的能力。Spark不需要执行简单的"select*"查询来获取完整的数据集，而是可以推下更高级的查询（例如，复杂的联接、聚合和分类算法）–利用HANA的马力并减少昂贵的数据混乱。类似的机制适用于HANA用户，其中TGFs（表生成函数）和自定义udf（用户定义函数）通过智能数据访问功能提供对Spark全部功能的访问。认证火花分布-生态系统的价值坦率地说，SAP并不以其开放软件使用和贡献的悠久历史而闻名。也就是说，他们当然尊重它的价值和它所能带来的东西——他们对Spark的押注无疑就是一个证明。更重要的是，他们了解一个充满活力的生态系统的价值，而一个统一的社区是实现这一目标的关键因素。这就是为什么他们一直坚持认为任何SAP Spark发行版都是经过认证的Spark发行版，因此能够支持快速增长的"Spark认证"应用程序集和开发生态系统。一家全球巨头的这一举动，以及其他认证发行版，有力地证明了在不牺牲创新和增长的前提下，保持与社区驱动的apachespark发行版的兼容性是可以实现的。未来道路的巨大潜力SAP发行Spark以及目前与HANA的整合无疑是一个极好的开端，为Spark社区带来了大量新的机会。展望未来，我们看到了深入集成的潜在机会——更高的跨职能性能，在Spark中整合SAP和HANA安全模型的元素，并在多种环境下促进Spark和HANA的部署，我们很高兴看到未来的发展方向。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3591.html