百度云_黑龙江建设网官方网站_三重好礼

小七 2019年10月25日 21:23 141 0

在麦格劳希尔教育公司使用数据块实现大数据民主化和机器学习

这是麦格劳希尔教育公司（McGraw-Hill Education）工程、分析和报告高级主管Matt Hogan的客座帖子。McGraw-Hill Education是一家有着129年历史的公司，它的使命是通过直觉和参与式的体验加速学习—以研究为基础。当我们开始我们的旅程时，我们的数据被锁定在团队内部管理的筒仓中，并且是安全的，但是没有共享，也没有充分利用。这项研究需要建立一个机器学习模型，能够对学生和教师做出预测和建议，这项研究很困难，因为训练这些模型所需的数据路径往往不清楚、缓慢，有时甚至完全封闭。为了取得成功，我们首先需要改变我们的组织方式，突破阻碍我们充分发挥共享、可消费信息潜力的筒仓。我们需要一种数据文化。更确切地说，一种安全数据的文化，保护了与我们合作的学生和机构的隐私，但允许足够的安全访问，以激发整个组织的知识好奇心和创新精神。为了指导我们的研究，我们成立了麦格劳希尔教育学习科学研究委员会（LSRC）。LSRC负责指导我们自己的研究，并与教育和技术界合作，推动学习科学研究领域向前发展。我们对学习的深刻理解，包括学生和教师如何利用内容和学习管理解决方案的知识，突显了我们的转型。通过探索如何使用内容和学习管理系统，以及如何通过材料了解学生的进度，我们能够利用完全匿名化的数据驱动自适应模型与学生接触，并提供差异化的教学，以获得更好的结果将这些模型作为学习管理系统的特性来操作需要一个具有凝聚力的数据工程和数据科学平台，Databricks已经与我们合作来满足这种工程需求。通过将从数据块中获得的技术优势与协调一致的组织转变结合起来，使安全性、DevOps、平台、，产品团队围绕着一种新的以数据为中心的运作模式，允许跨学科团队跨越数据竖井，打开原本不可能实现的洞察力。使用数据块实现数据民主化和机器学习为了测试从学习科学研究中产生的见解的有效性，我们首先需要使数据和机器学习的访问民主化，从而降低在市场和学习者中迭代模型和测试其效果的成本。Databricks为我们提供了一个无处不在的数据环境，业务分析师、数据工程师和数据科学家可以利用这个环境进行协作，以实现一组共同的目标。在引入Databricks之前，我们有许多apachespark集群运行在租用的硬件上。为了向研究人员获取数据，我们创建了一次性提取，从我们的产品数据库中提取数据，清除个人识别信息（PII），并将数据作为平面文件存储在租用的Spark群集上。这导致了许多问题，包括数据很快变得过时，研究人员正在研究与提取的平面文件中的数据不同步的模型，以及没有明确的方法来整合数据科学家开发的模型的输出。采用Databricks后，我们可以在我们的学习系统的读副本和我们的数据平台之间建立安全的连接，确保数据在运动和静止时都被加密，同时允许我们保护学习者的机密性。这些连接允许研究人员在一个安全的环境中访问新的数据和当前的数据模型。由于Spark系统被工程团队和研究人员使用，因此研究人员的输出可以用来创建新的模型，并用新的见解填充我们的数据集市。作为一个额外的好处，我们可以提供业务分析团队的访问权限，这些团队现在能够在一个统一的分析平台上与数据科学家一起进行自己的研究。对连接损耗模型的迭代在Databricks的推动下，我们的第一个努力就是我们的"连接学生流失模型"（Connect student Attraction model）——一个分类器，它可以在开课后2-4周内，根据材料和测验和作业的结果，预测哪些学生有可能辍学。McGraw-Hill Education Connect平台是一个高度可靠、安全的学习管理解决方案，涵盖家庭作业、评估和课程内容交付，并利用许多自适应工具提高学生成绩。尽管Connect在全世界看来是一个单一、无缝的平台和体验，但它是由多种可插拔技术和产品组成的，它们都实时生成自己的数据和指标。这些组件通过内部数据中心和Amazon Web服务的混合托管，使得数据聚合、清理和研究成为一个挑战。为了促进培养模型所需的数据科学工作，我们采取了几项举措：创建了用于读取Connect OLTP系统副本的安全访问创建了一个新的平台，旨在促进模型的快速迭代和评估，以及用户体验和影响致力于改变麦格劳希尔教育的文化，从一个数据仓库是一个规范，一个当前的，安全的，匿名的数据是谁可以访问的那些有效的使用它设计了一个利用加密的S3桶（在某些情况下带有拼花）的系统，研究人员和开发人员可以使用它安全、轻松地移动、评估和读取（使用SparkSQL）数据为了建立一个与学术界的研究人员以及选定数量的导师进行快速反馈的循环，我们创建了一个称为学习科学仪表盘（LSD）的平台。LSD利用我们的单点登录解决方案来提供对可视化的访问，研究人员通过读取和写入S3存储桶来使用数据块创建这些可视化。第一级评估完成后，我们与设计人员和工程师一起构建了一个可操作的笔记本，可以使用连接器从Connect中的实时类中查询数据，并将预测写入S3中的暂存区。使用Databricks作业调度器使模型的操作化成为一项简单的任务。在LSD中部署了一个新的UI（这次是使用AngularJS），选择有权访问Connect的讲师可以登录并查看报告的评估版本，以了解他们的课程执行情况。部署和市场测试模型数据科学家创建的最初的视觉化传达了重要的意义，但并不是为那些专注于快速获得课堂表现见解的教师所使用。我们测试的第一轮可视化是由数据科学家在Databricks中创建的，并通过LSD将其导出到S3桶中。第二轮迭代包括工程团队和设计师，旨在快速传达见解-允许讲师将干预集中在需要的地方。收尾思想使用Databricks，我们可以安全地将自己从数据访问受限、协作最少的数据仓库集合转变为一个拥有民主化数据访问和机器学习功能的组织，数据工程师、数据科学家、业务分析师和前端工程师都在同一空间工作并共享想法。通过构建一些互补的技术和流程，我们缩短了上市时间，并创造了一条途径，使我们能够在课堂上与外部研究人员和导师一起快速、轻松地验证模型和见解。此外，我们的遗留数据管道（ETL）已经退役，这大大节省了成本并简化了我们的基础设施的运行方式。过去，我们一直在配置EC2实例，即使数据没有移动。我们还租用了运行大型但静态大小的Spark集群的硬件，每月花费数千美元。通过利用Databricks在需要时动态提供实例/集群，再加上实时数据仓库的概念，我们能够将分析基础设施的运营成本降低30%。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3064.html