云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

金山云_数码兽数据库_新用户

小七 141 0

问题1。当我只输入姓名字段时,如何计算相似度分数?

在第一步中,重复检查计算格式化名称(例如"Microsoft Corp;""Dr.Joe Doe")。将此格式化名称与每个持久化实例的格式化名称进行比较。为了计算这两个格式化名称的相似性,我们在一个字段中使用令牌搜索算法。在我们的示例中,令牌是名称部分(例如,姓氏):1) 对于搜索字段中的每个令牌,我们使用Levenstein算法找到与数据库字段中的令牌的最佳匹配(请参阅https://archive.sap.com/discussions/thread/3757982). 最佳匹配意味着搜索字段中的所有标记都与数据库字段中的所有标记匹配。然后,对于数据库字段中的每个令牌,搜索字段中匹配最好的令牌被记录为该令牌在搜索字段中的模糊相似性。注意,数据库字段中的一个令牌可能导致搜索字段中只有一个令牌的模糊相似性,并且令牌的顺序不会影响结果。2) 如果搜索字段和数据库中字段之间的令牌数不同,则对剩余的每个令牌使用模糊相似性0。3) 上述获得的模糊相似值列表使用OR公式进行聚合,以便在字段内进行标记搜索:

示例:搜索字符串:格式化名称=Benjamin Franklin数据库记录:格式化名称=Banjaminn Franklin"本杰明"和"班加明"最配。与Levenshtein的相似度为62%(1 x更新,1 x删除,1 x插入,即相似度=1–3/8)"富兰克林"和"富兰克林"最匹配。相似度明显为100%。最后,这两个相似度值通过使用OR公式在单词内进行标记搜索进行聚合:SQRT((0.62²+1²)/2))=83%。

Q2。我创建了一个新帐户,云服务器购买,只保留了名称。名称包含公司的法律形式(如微软公司、SAP SE)。重复检查向我显示可能的重复项,其名称与我输入的名称完全不同。这不是虫子吗?

目前,企业应用平台,重复检查没有提供配置合法形式(如Corp、SE、AG、GmbH)的选项,大数据需要学习什么,以便在相似度计算中忽略。这意味着相同的法律形式对名称部分分数的贡献率为100%(见Q1)。对于由2个标记(合法形式+1个附加标记)组成的名称,第2个标记与至少55%的相似性匹配就足以成为潜在的重复。根据Q1中解释的算法,我们得到SQRT((0.55²+1²)/2)=81%,高于默认的重复检查阈值80%。因此,此实例显示为潜在重复。

示例:"Wintervoss Corp"和"Wintersnow Corp"的相似度为82%,因为使用Levenshtein算法计算的"Wintervoss"和"Wintersnow"的相似度为60%。

建议:为了克服这一限制,我们强烈建议不仅要输入新帐户的名称,美国云服务器,还要输入尽可能多的字段(例如"合格"地址数据),以获得更真实的相似性分数。此外,还可以选择在业务配置优化中降低名称权重,以降低名称的影响。

Q3。我创建了一个新帐户并维护了一些name字段和country字段。我把所有其他字段都留空了。重复检查向我显示可能的重复项,其名称与我输入的名称完全不同。这不是虫子吗?

当您只输入国家/地区而不输入其他地址数据时,重复检查仅比较保留帐户的邮政地址的国家/地区字段。一、 e.位于同一国家的所有账户的地址部分具有100%的相似性。为了计算总相似度得分,我们使用与Q1中提到的相似的OR公式来聚合名称和地址部分的相似度。即使名字的相似度只有55%,总得分也超过80%。

建议:我们强烈建议输入尽可能多的字段(例如"合格"地址数据),以获得更真实的相似性分数。

Q4。我创建了一个新帐户,并用"Wintervoss"维护了这个名称。我把所有其他字段都留空了。系统中已经存在一个帐户"Wintervoss Electronics",返利手游,但是重复检查不会返回"Wintervoss Electronics"作为潜在的重复。这不是虫子吗?

不,这种行为是正确的。如Q1所述,"Wintervoss"和"Wintervoss Electronics"的相似性分数计算如下:平方米((1²+0²)/2)=71%这低于默认阈值80%。因此,此实例不会显示为潜在的重复。