云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

天翼云_酒店网站建设方案_限量秒杀

小七 141 0

2019年Spark+AI峰会数据科学、Python和高级分析讲座指南

随着数据海啸、可用计算资源的规模以及易于学习的开源机器学习框架的快速发展,数据科学和机器学习概念在今天比十年前更容易学习和实现。因此,在所有行业,从业者都在使用尖端的ML算法来解决棘手的数据问题,并渴望学习新技术。学习是一个终生的旅程,但是数据科学家需要掌握哪些最重要的技能呢?根据Inside Big Data和KDnuggets、Python和R编程、图形、NLP、apachespark和Hadoop以及无偏建模是一些需要探索的关键领域。以下是2019年Spark+AI峰会的精选部分,涵盖数据科学以及python和高级分析跟踪,将帮助您提高这些技能。数据科学关系是最能预测行为和偏好的指标之一。如果你想了解有助于识别群体动态以更好地预测社区行为的算法,那么使用图形算法预测影响力和社区是适合你的。在这节课上,Neo4j的Hodler和Mark Needham将探讨如何在ApacheSpark中运行社区检测和中心性算法,包括最佳实践,以及在Neo4j图形平台中运行图形算法的示例。与预测行为相关的是情绪分析,它是自然语言处理(NLP)的直接应用。NLP还用于问答、释义或总结、自然语言BI等,是许多数据科学系统中必须理解或推理文本的关键组件。在ApacheSpark NLP:扩展Spark ML以提供快速、可伸缩和统一的自然语言处理中,Pacific AI的David Talby和Really的Alexander Thomas将使用Pypark演示ApacheSpark的NLP库。扩展我们的数据科学工具包,与RStudio的Javier Luraschi一起在Spark上用apachearrow按比例运行R,将介绍apachearrow项目和最新的开发,这些开发使在Apache Spark上运行Apache Arrow可以显著提高性能和效率。最后但并非最不重要的是,随着我们继续在几乎所有应用领域和领域实施机器学习系统,在我们的系统中防止歧视、隐私甚至准确性问题是绝对重要的。在可解释人工智能:不仅仅是为监管者,Patrick Hall和Mark Chan的H2O.AI将讨论如何训练可解释、公平、可信和精确的预测建模系统。Python和高级分析Python用户面临的最大挑战之一是移动大量数据。在让你的PySpark数据用箭头飞行!,IBM的Bryan Cutler将对新框架Arrow Flight进行概述,并演示如何使用Arrow构建高性能连接。管理数据科学工作流程(从实验到生产)是数据科学家和实践者每天面临的另一个最大挑战。Uber的Hari Subramanian将在《数据敏捷性——规模化高级分析和机器学习之旅》一书中展示,Uber的大数据平台和数据科学工作台如何将Spark的力量交给数据科学家和数据分析师,用于高级分析和ML/DL用例。与此主题相关,Databricks于2018年6月发布了MLflow,这是一个管理完整机器学习生命周期的新开源框架。不要错过Matei Zaharia关于这个计划的最新更新的主题演讲。最后,在使用PySpark和Pandas udf实现Zynga预测建模自动化的过程中,Ben Weber将解释Zynga如何在处理大型数据集时克服规模挑战,利用Pandas udf帮助扩展和自动化功能工程过程。因此,团队现在可以在生产中使用数百种倾向模型来帮助个性化游戏体验,数据科学家现在正花费更多时间与游戏团队合作,帮助构建新功能。数据科学课程如果你是一个从实践中学习最好的人,不要错过我们关于使用MLflow管理完整机器学习生命周期的教程,这是一个80分钟的会议,由专家主导,旨在向你介绍MLflow,一个管理ML生命周期的新的开源框架,然后是实践练习,让与会者在实践中学习。接下来,为了进一步加深您对apachesparktm和MLflow的了解,请查看apachespark的数据科学™ 以及生产中的机器学习:MLflow和模型部署培训课程。最后,如果您是TensorFlow或Keras的新手,并且想学习如何使用Horovod进行分布式深度学习培训,您可以参加一个培训课程:使用Keras、TensorFlow和Apache Spark进行深入学习。下一步是什么你也可以浏览我们的课程表。如果您还没有注册,请使用折扣代码JulesPicks获得15%的折扣。阅读更多阅读:在Spark+AI峰会上,人工智能、机器学习和深度学习讲座指南阅读:Spark+AI峰会上开发者、深度挖掘和连续流媒体应用程序讲座指南阅读:2019年Spark+AI峰会数据工程讲座指南免费试用Databricks。今天就开始吧