云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

阿里云_华为视频云_最新活动

小七 141 0

使用Insight Miner分析避免明显的洞察力

BlogAnalysis with Insight Miner是Sisense开发的一项技术,它使用机器学习来识别仪表板中统计上重要的见解。我们应用大量的分析和统计测试来发现有趣的见解并计算常见的探索性分析,如队列、决策树、双变量分析等等。作为构建这项技术的团队的领导者,在这篇文章中,我将在Analyze with Insight Miner中介绍一个高级数据流,从读取数据、清理数据到生成见解开始。在本节中要记住的是,我们需要一个足够健壮和通用的数据流来处理来自不同域和不同分布的多种类型的数据集。我也将讨论如何发现不相关的见解。使用Insight Miner分析Analyze with Insight Miner根据表格数据集生成细节。假设您有一个包含许多列的大表,并且希望研究所有列对一个特定列的影响。这一列将是目标变量,即我们感兴趣探索的列。所有其他列将被称为解释变量,这些变量是我们要用来解释目标的变量。使用Analyze with Insight Miner,用户可能会看到一些典型的细节:"在美国,当客户年龄大于60岁时,客户流失的可能性为5%,而在整个人群中,流失的可能性为30%。""我们发现,随着时间的推移,在意大利,客户流失的可能性呈下降趋势。"如果我们看看上面的例子,目标变量是客户流失列(描述客户是否流失的二进制列),解释变量是客户的年龄和他们所在的国家。在这里了解更多关于Analyze with Insight Miner如何从数据中挖掘隐藏的黄金。但首先要做的是…在Analyze with Insight Miner开始查找细节之前,需要对数据集进行预处理。它首先了解数据集中变量的类型(它们是数值型、分类型、日期等)。然后应用一些预处理步骤。例如,许多统计测试对异常值不具有鲁棒性,因此需要检测并删除它们。除此之外,如果数据集中缺少值,则Analyze with Insight Miner需要决定如何处理这些值。在某些情况下,它会对它们进行插补。例如,如果使用数值列,插补的一种常见方法是用同一列中所有其他值的平均值替换缺失值。分类列中的值的插补可以通过用列中最常见的值替换缺失的值来完成。在生成一个有趣的预处理步骤后,可以得到一个有趣的序列。在这一步中,Analyze with Insight Miner执行一系列测试,以发现数据或子群体中与一般人群不同的模式。例如,它创建子组的组合(例如来自美国的35岁以下的客户),并检查其目标变量分布是否与其他组显著不同(例如,该组流失的可能性明显低于所有其他组)。为了形成这些组,除了其他技术外,Miner还使用决策树分析。决策树是一种常用的机器学习算法,用于分类和回归。它的优势之一是能够解释其逻辑,与许多其他的机器学习算法相比,是黑匣子。Analyze with Insight Miner使用解释变量训练目标变量上的决策树。下面你可以看到一个决策树的例子。我们可以从这个决策树中提取一些见解。例如,35岁以上的女性很可能会流失23%。既然我们了解了使用Insight Miner进行分析的基本原理,我想介绍一下它使用的一种技术,以避免生成对最终用户来说显而易见和无趣的见解。什么是显而易见的见解?在使用Insight Miner开发Analyze时,我们的一个假设是,最终用户不一定需要具备构建最适合探索性分析的正确数据集的知识。继续上一个例子,假设我们有兴趣揭示与客户流失模式相关的见解。在这种情况下,我们的目标变量可以是一个二进制列,指示客户是否更改或更新了他的帐户。解释变量可以是与客户的人口统计信息、过去的使用情况等相关的列。下面我们可以看到这样一个数据集的小例子。此数据集中的最后一列("IsRenewal")表示客户是否续订了其帐户,并且与"IsChurn"完全相反。在这种情况下,我们将返回一个非常强烈的洞察力-"当客户更新他们的帐户,他们不会流失。"不幸的是,由于明显的原因,这一点都不有趣。这个例子很容易检测,因为在目标变量和"IsRenewal"解释变量之间存在一对一的映射。但是如果变量之间的关系不是那么简单呢?我们怎样才能自动发现这些关系并避免明显的洞察?如何避免产生明显的见解避免产生明显见解的一种方法是应用我们所说的"相反的特征选择"在深入讨论细节之前,让我们先定义特征选择。特征选择是机器学习中一个众所周知的过程,它选择一个子集的特征(列)用于模型构建。最后,在应用特征选择之后,您将继续使用信息最丰富/最具预测性的功能子集,并删除冗余或不相关的部分。在构建模型之前使用特征选择技术有一些原因。其中包括简化模型,避免维数灾难,减少过度拟合。虽然有许多特征选择技术,但我们将重点讨论基于互信息的技术。互信息量是从信息论的角度来衡量两个随机变量之间的相互依赖性。直观地说,相互信息衡量了解其中一个变量可以减少另一个变量的不确定性。在我们的示例中,目标变量"IsChurn"和"IsRenewal"列之间的互信息将非常高,因为知道其中一列的值将完全减少另一列的不确定性。在应用特征选择时,我们可以根据解释变量与目标变量的互信息对其进行排序,并选择互信息最高的前K个变量。我们的问题与特征选择有点不同,在特征选择中,我们要选择对目标具有最高依赖性的变量。在这里,我们要避免由于过于依赖于目标的变量而导致的明显的洞察力。所以,我们可以从特征选择中做相反的事情,去掉互信息量很高的变量,对吗?不完全是。为此,我们需要定义一个阈值,以便丢弃所有互信息大于0.95的变量。问题是,互信息不是一个标准化的度量,它可以得到任何非负的、真实的值。为此,我们可以使用互信息的规范化版本,它产生0到1之间的值。当互信息值被规范化时,我们可以设置一个阈值,并删除超过该阈值的列。用户反馈从用户反馈中学习另一种最有意义的见解和技巧。这可以通过几种方式实现。我们可以通过在用户收到的见解旁边显示"喜欢"或"不喜欢"按钮来明确要求用户提供反馈。我们还可以隐式地从用户的使用中获得反馈。我们可以将与其他用户共享的见解视为有趣的见解,或者我们可以检测是否根据所提供的见解构建了新的小部件。通过这样做,我们可以使用机器学习模型学习有趣见解的模式,并提前预测用户会发现具体见解的有趣程度。还有更多外包数据科学通常达不到客户的期望,因为需要对领域数据有很强的理解才能提供见解。不过,通过对Insight Miner的分析工作原理的基本概述,很容易理解它如何帮助数据工程师、分析师和开发人员将隐藏的见解扩展到其最终用户,而不仅仅是预定义的仪表板。我很高兴和大家分享这个功能。我们正计划在未来添加一些新的酷炫功能,并将Analyze with Insight Miner与Sisense中的其他功能集成起来,敬请关注!在此处了解有关使用Insight Miner进行分析的更多信息。标签:数据科学|机器学习