云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

负载均衡_阿里云何万青_精选特惠

小七 141 0

代码4旧金山黑客夜总会亮点

在数据库里试试这个笔记本对于一个演讲稿作者来说,肯尼迪的话是"不要问你的国家能为你做些什么。"问你能为你的国家做些什么"是一种修辞手段;对于一个社区组织者来说,它们是点燃变革的火花。这些不朽的话语,在某种程度上,产生了持久的运动,如和平队,为美国教书,为美国守则,与地方旅。一个名为"代码4旧金山"(C4SF)的当地团队每周都会在当地社区的开发人员工作,利用SF开放数据中的数据集,让当地政府机构更有效率。几周前,C4SF在微软反应器上托管了黑客网络。在7月4日的一个周末,超过100名当地数据科学家聚集在一起,通过一个使用Databricks社区版的实践研讨会,分析了旧金山16年来的紧急呼叫记录。SF开放数据项目经理jasonlally在这条关于黑客之夜的推文中表达了他的想法。数据科学研讨会由Databricks的高级讲师兼客户解决方案工程师Sameer Faroqui领导,通过使用Databricks社区版的交互式会议,讨论核心概念,然后逐步探索公共数据集,以回答一个问题:7月4日假期如何影响对消防员的需求?与会者当场注册了Databricks社区版,并从SF OpenData上传了1.6GB的消防紧急呼叫数据和超过400万条记录。在他们各自的Python笔记本中执行一组引导查询,并使用apachespark2.0的dataframeapi进行编码,他们通过在其配置的Spark集群上执行每个查询来提取、探索和检查火灾紧急呼叫数据。这个探索性研讨会是关于提取、转换和加载(ETL)的练习,ETL是一个典型的用例工作负载,以及如何在Python中使用apachespark2.0数据帧的API。探索消防紧急呼叫让我们考虑一下我们在研讨会上探讨的几个问题,这些问题揭示了7月4日电话会议上出乎意料的见解。Q: 有多少种不同类型的电话打给消防局?Q: 每种通话类型有多少次事故?Q: 在过去的7天里记录了多少个服务电话?随着Spark如何在集群上执行这些查询的详细说明,研讨会引导参与者通过进一步的数据转换,通过时间分析和可视化获得有见地的查询。人群中的数据科学家不仅学会了如何使用数据帧,还学会了何时使用数据帧,以及在性能和优化查询方面的秘密提示和技巧。例如,读取parquet文件的大型数据集(columnar格式)要比读取CVS或JSON文件快得多,而缓存数据帧,一旦从磁盘读取为parquet文件,就会大大加快查询时间。与会者在笔记本上无缝地切换数据帧和SQL查询,探讨了SF的Fire calls,并提出了一些值得注意的见解。Q: 去年旧金山哪个社区接到的电话最多?通过连接来自两个不同数据集的数据帧,我们探讨了邻域类型的事件数据和火警数据是如何关联的。Q: 去年大多数人从嫩鹿岭和俄罗斯山给消防局打电话的主要非医疗原因是什么?至于俄罗斯山,你可以观察到,有很多都是虚惊一场,比里脊肉少四分之一。地方项目带来的影响除了提供关于apachespark的数据链研讨会和探索本地紧急呼叫之外,与当地SF旅成员分享的友情也是值得的。一位成员在C4SF meetup页面上评论道:"这是一次很好的会议,让你开始了解Databrick社区版和SF中的开放数据源。"根据C4SF的说法,在当地社区每周的黑客之夜中出现的一个项目是采用排水沟,通过清理排水沟中的垃圾来帮助城市避免洪水泛滥。加州公共事业公司的Jean Walsh对公民项目的结果感到高兴,他通过这条微博认识到了它的优点。仔细研读其他正在进行的有益于公民的地方公民项目,让我确信,肯尼迪几十年前所说的不朽的话仍然激励着许多当地旅的队长,他们的目的和热情是为了改变当地社区,进而在他们的国家里有所作为。我们希望聚集在这次会议上的人们,通过Databricks学习apachespark来探索SF OpenData的人,能够利用在civic项目中获得的知识。我们要感谢我们的共同赞助者微软接待我们和C4SF的当地旅邀请我们成为这个有回报的黑客之夜的一部分。加入C4SF旅为他们的下一个黑客之夜!下一步是什么?如果您错过了HackNite,您仍然可以使用ApacheSpark2.0参与探索旧金山市的开放数据。步骤如下:注册Databricks社区版(DCE)将此笔记本文件夹导入DCE运行dataset\u mounts笔记本运行文件事件探索笔记本如果您需要培训,请访问Databricks training或我们的培训合作伙伴Newcircle。免费试用Databricks。今天就开始吧