天翼云_酒店网站建设方案_限量秒杀

小七 2019年10月25日 21:23 141 0

2019年Spark+AI峰会数据科学、Python和高级分析讲座指南

随着数据海啸、可用计算资源的规模以及易于学习的开源机器学习框架的快速发展，数据科学和机器学习概念在今天比十年前更容易学习和实现。因此，在所有行业，从业者都在使用尖端的ML算法来解决棘手的数据问题，并渴望学习新技术。学习是一个终生的旅程，但是数据科学家需要掌握哪些最重要的技能呢？根据Inside Big Data和KDnuggets、Python和R编程、图形、NLP、apachespark和Hadoop以及无偏建模是一些需要探索的关键领域。以下是2019年Spark+AI峰会的精选部分，涵盖数据科学以及python和高级分析跟踪，将帮助您提高这些技能。数据科学关系是最能预测行为和偏好的指标之一。如果你想了解有助于识别群体动态以更好地预测社区行为的算法，那么使用图形算法预测影响力和社区是适合你的。在这节课上，Neo4j的Hodler和Mark Needham将探讨如何在ApacheSpark中运行社区检测和中心性算法，包括最佳实践，以及在Neo4j图形平台中运行图形算法的示例。与预测行为相关的是情绪分析，它是自然语言处理（NLP）的直接应用。NLP还用于问答、释义或总结、自然语言BI等，是许多数据科学系统中必须理解或推理文本的关键组件。在ApacheSpark NLP：扩展Spark ML以提供快速、可伸缩和统一的自然语言处理中，Pacific AI的David Talby和Really的Alexander Thomas将使用Pypark演示ApacheSpark的NLP库。扩展我们的数据科学工具包，与RStudio的Javier Luraschi一起在Spark上用apachearrow按比例运行R，将介绍apachearrow项目和最新的开发，这些开发使在Apache Spark上运行Apache Arrow可以显著提高性能和效率。最后但并非最不重要的是，随着我们继续在几乎所有应用领域和领域实施机器学习系统，在我们的系统中防止歧视、隐私甚至准确性问题是绝对重要的。在可解释人工智能：不仅仅是为监管者，Patrick Hall和Mark Chan的H2O.AI将讨论如何训练可解释、公平、可信和精确的预测建模系统。Python和高级分析Python用户面临的最大挑战之一是移动大量数据。在让你的PySpark数据用箭头飞行！，IBM的Bryan Cutler将对新框架Arrow Flight进行概述，并演示如何使用Arrow构建高性能连接。管理数据科学工作流程（从实验到生产）是数据科学家和实践者每天面临的另一个最大挑战。Uber的Hari Subramanian将在《数据敏捷性——规模化高级分析和机器学习之旅》一书中展示，Uber的大数据平台和数据科学工作台如何将Spark的力量交给数据科学家和数据分析师，用于高级分析和ML/DL用例。与此主题相关，Databricks于2018年6月发布了MLflow，这是一个管理完整机器学习生命周期的新开源框架。不要错过Matei Zaharia关于这个计划的最新更新的主题演讲。最后，在使用PySpark和Pandas udf实现Zynga预测建模自动化的过程中，Ben Weber将解释Zynga如何在处理大型数据集时克服规模挑战，利用Pandas udf帮助扩展和自动化功能工程过程。因此，团队现在可以在生产中使用数百种倾向模型来帮助个性化游戏体验，数据科学家现在正花费更多时间与游戏团队合作，帮助构建新功能。数据科学课程如果你是一个从实践中学习最好的人，不要错过我们关于使用MLflow管理完整机器学习生命周期的教程，这是一个80分钟的会议，由专家主导，旨在向你介绍MLflow，一个管理ML生命周期的新的开源框架，然后是实践练习，让与会者在实践中学习。接下来，为了进一步加深您对apachesparktm和MLflow的了解，请查看apachespark的数据科学™ 以及生产中的机器学习：MLflow和模型部署培训课程。最后，如果您是TensorFlow或Keras的新手，并且想学习如何使用Horovod进行分布式深度学习培训，您可以参加一个培训课程：使用Keras、TensorFlow和Apache Spark进行深入学习。下一步是什么你也可以浏览我们的课程表。如果您还没有注册，请使用折扣代码JulesPicks获得15%的折扣。阅读更多阅读：在Spark+AI峰会上，人工智能、机器学习和深度学习讲座指南阅读：Spark+AI峰会上开发者、深度挖掘和连续流媒体应用程序讲座指南阅读：2019年Spark+AI峰会数据工程讲座指南免费试用Databricks。今天就开始吧

本文地址： /zhuji/3185.html