云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

_免费网络云主机试用_免费领

小七 141 0

大数据字典和生命线

博客数据字典。听起来像是过去的爆炸,对吧?错了。这个简单、长期存在的工具对我们今天的意义比过去任何时候都更加重要。每天与数据人员一起工作,我知道我们的分析师和数据工程师需要做些什么来检查数据并使其更易于分析(众所周知,他们80%的时间用于准备和管理用于分析的数据)。随着越来越多的数据被收集和存储,数据字典将成为这个不断增长的数据海洋中急需的生命线。那么什么是数据字典,它们如何帮助我们处理这些复杂的数据呢?UC Merced库定义的数据字典是"关于数据库中正在使用或捕获的元素的名称、定义和属性的集合"。本质上,它是一种以业务为中心定义关键信息的通信工具,通常以电子表格格式显示。过去,数据字典主要由数据库开发人员、数据科学家和管理人员使用,这些人正在构建支持分析的基础设施。然而,现在的用法已经发生了变化:数据收集器、分析师和业务用户也认识到了数据字典的价值。数据字典有助于建立数据集中的内容及其最初的来源,而不必先下载和搜索整个数据集。换句话说,您可以判断数据集是否与您的分析相关。如果没有数据字典,您可能会浪费时间筛选大量的数据来挖掘您需要的内容。您还将努力识别您的数据或立即识别问题,例如重复的内容和不一致性,如果您必须自己梳理,这些都会浪费您宝贵的时间。最近,在我们的一个原始的GoFigure工作时!报告,我在我们分析中使用的Kaggle数据集中遇到了一个实际的数据字典文件。出于好奇,我和我们的内容主管Zoe Haimovitch坐了下来(她也是我们这些报告的首席分析师),看看她是否真的使用了这个文件。果然,这就是她要说的:我:嗨,佐伊,我打开了Kaggel的婴儿名字数据集,我看到了一个名为Data_Dictionary_PBN的压缩文件_最终.xlsx. 你用过这个吗?佐伊:当然。这是我看到的第一件事。我很难理解数据字典是任何数据集的圣杯。当一个数据集有一个好的数据字典时,在开始任何分析之前,我都会检查它以了解要下载的数据。假设数据代表什么的数据分析员——比如1=低,5=高,反之亦然——将会犯大错误,这将耗费他们的时间、金钱和职业声誉。仅仅基于列名而不解释它们背后的含义是不好的做法。你需要对数据更加精确和准确,并理解它的含义。它真的可以是任何东西。有一次我在为一家手机公司分析来自不同网络的数据时,我没有注意到这些数据来自不同的时区。关于浏览行为的见解似乎很奇怪,在数天的错误数字处理之后,我不得不回去重新整理所有的数据。这些信息在数据字典中有明确的说明,如果我只看一下,这本可以节省我很多时间(和一些头疼的事)。我:如果你没有数据字典是什么感觉?佐伊:你觉得有点蒙着眼睛。你对数据的信心要小得多,因为你必须猜测数据的含义。我觉得在没有字典的情况下分析数据不太安全,因为我想确保我能理解前面的数字。有时我甚至会试图联系上传数据的人,并向他们提问。如果有一个数据字典,它将节省大量的时间、精力和猜测。我:你有没有创建过自己的数据字典?佐伊:我做的任何分析都会包括对数据的解释。我认为这是一个很好的时间投资,因为总有其他人在看数据,你需要确保传达的是正确的含义。例如,当我要求仪表板生成器和设计人员根据分析构建仪表板时,我总是将我的新数据字典包含在其中。如果他们不明白数据所代表的是什么,他们还能怎样正确地显示数据呢?我:数据字典在这儿吗?佐伊:你敢打赌!以嵌入式分析为例。现在有那么多SaaS公司通过嵌入式分析与客户共享数据,他们也需要分享这些数据的含义。这就是数据字典的用武之地。这是一种简单、廉价的方法,可以跨多个项目、团队和现在的客户定义数据标准和一致性。作为一个一直在分析数据的人,你想知道这些数据的真实来源是什么,而数据字典就是对此的简短概述。这不是结束,只是一个开始在西森斯,我们一直在宣扬真理的单一来源的好处。数据字典通过确保数据元素的一致使用(无论是谁查看数据),使我们更接近于此。就像Zoe一样,一旦你开始使用有数据字典的数据集,你就不知道没有字典你会活得这么久。标记:数据分析