云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

MySQL数据库_登陆服务器错误_免费

小七 141 0

有没有找过不到100%完美的匹配?基于密钥的匹配不适合你?直到几年前,模糊匹配还是我们唯一的答案。今天,数据科学算法正在突破"可能"的界限。了解我们如何使用通常应用于文档相似性的算法来解决传统的模糊匹配问题,使用SAP Data Intelligence和SAP Analytics Cloud。

最近,印度的一个市政府与我们联系,寻求一种简单的方法来匹配官方covid-19案例列表中的配置文件。政府官员正在仔细查看数据,如何用大数据,并手动查找阳性病例名单和隔离/解除隔离名单之间重叠的个人记录。这当然很费时,也是对自动化的典型号角。这方面的传统方法是一个称为模糊匹配的过程,该过程将涉及基于姓名、性别、年龄和地址的配置文件匹配,非常类似于连接,但其中的约束被放宽,以获得一个不到100%纯的匹配。在基于字符串的比较的上下文中,它类似于连接,这意味着处理时间将随着数据库的大小呈指数级增长。

直到几年前,这将是不可避免的苦差事,我们将不得不苦读。但现在不是了。TF-IDF(术语频率,逆文档频率)的概念源于需要强调一个词对集合或语料库中的文档有多重要。例如,购返利,在与野生动物保护相关的文档中,您可以期望一组关键字比在与供应链相关的文档中出现的频率更高。但在大型文档中,出现的频率可能只是由于其大小。因此,我们找到了一种控制文档大小的方法,并将TD-IDF定义为一个单词出现在文档中的次数,与包含该单词的语料库中文档的数量相抵消。这是一种通常用于搜索一般形式的文档相似性的技术。我们可以很容易地将其扩展到用户配置文件,特别是在姓名和地址的情况下。

我们收到了3个csv文件,分别包含covid-19阳性、隔离和反隔离病例的记录。在所有3个csv文件中都存在某些列,但由于数据收集的手动性质,这些列大多采用不同的格式。如果数据是由同一个供应商以相同的格式收集的,那么从这些来源整理所有这些数据的工作将是对公共列的简单连接。由于现实世界的场景远不是理想的,我们需要在建模之前跳转,准备好文件。

步骤01:数据预处理

清理和均匀化数据,因此,不同的文件可以无缝融合。

步骤02:构建模型

余弦相似性是一种非常流行的技术,用于查找两个向量之间的相似性。在当前场景中,物联网关键技术,我们发现了两个字符串向量之间的相似性。用于计算余弦相似度的函数如下所示。

在这种方法中,我们将一个集合中的记录与另一个集合中的所有记录进行比较,得到一个相似度得分。下面的函数将先前创建的tf-idf矩阵作为输入。

步骤03:后期处理

在这个博客中,大淘客是什么,我们展示了一个逐步的方法,返利啦,介绍了如何清理数据,使用数据构建模型,以及我们以后如何汇总模型的结果,以便将其呈现给利益相关者。在这篇博文的第2部分中,我们将描述如何在sapdataintelligence中调度和部署这些模型。