在上一篇文章中,我们看到了如何使用SAP Predictive Analytics的pythonapi从Jupyter笔记本中训练和保存分类模型。预测建模的下一个逻辑步骤是,对于用户来说,查看模型性能指标,可视化ROC曲线,发现哪些预测因素贡献最大,检查相关变量,分析组合变量。如何使用Python API实现这一点将是本文的重点。
无论您的模型是从笔记本还是从SAP Predictive Analytics桌面应用程序构建的,以下所有代码片段都是一样的。
初始化
在使用我们的模型之前,我们打开一个全新的Jupyter笔记本并运行以下代码。您可能需要调整开头提供的三个路径,以便它们与您自己的安装目录相对应。
加载预测模型
检索以前保存的模型。
指定模型的位置、名称,我们开了一个商店。
下面描述的方法可以让我们得到模型的最新版本。
我们加载模型。
首先看模型
我们显示预测模型的一般属性。
我们不确定这个模型的目标名称是什么。让我们看看。
注意一个模型可以有几个目标。在目前的情况下,我们的模型只有一个目标。在下面的代码中,淘客qq群,大数据库,target name的值被分配给Python变量:target\u col.
因为我们的目标由两个类组成,所以我们可以显示正案例和负案例的比例。
为了学习和验证的目的,企业号应用,我们检查数据是如何被分割的。
关于一个训练模型的一个重要信息是它的性能指标
我们模型的预测能力(准确率)为80.97%。该指标给出了目标中可由预测因子解释的信息百分比。预测置信度为99.62%。第二个指标评估模型在应用于表现出与训练数据集相同特征的新数据集时再现相同精度的能力。预测置信度为95%或以上的模型被认为是稳健的。
预测因子的贡献
在看到模型的整体性能后,用户通常想知道每个预测因子对目标结果的贡献有多大。贡献可以用表格表示。
14个变量中有7个是通过自动选择过程保留的。
我们将贡献绘制在条形图上。
性能曲线
我们绘制了ROC曲线来可视化分类器的性能。
绿色曲线代表了假设的完美模型,蓝色曲线代表我们的模型,红线代表随机猜测。
更多关于ROC曲线的信息可以在这里找到。
预测值之间的相关性
在训练时,自动分析评估候选预测值之间的相关性强度。只保留系数高于模型阈值的相关性。默认情况下,此阈值的绝对值设置为0.5。
装箱变量统计
自动分析负责编码和装箱等各种数据预处理操作。训练后的模型存储按bin(又名category)计算的每个预测值的汇总统计信息。我们可以列出一个给定预测的所有类别及其统计数据。
我们选择一个连续变量:资本收益。
生成类别后,微信淘客,自动分析生成实际上是压缩类别的组。这些组出现在最终的得分方程中。我们刚才为类别建立的表格也可以为组做。
每个类别的组合变量分布
在最后一节中,我们将展示如何列出类别及其正面和负面情况。
我们选择一个分类变量:职业。
我们绘制两个条形图以直观地比较分布。
可以按组进行等效分析。
同样,数据库大数据,两个单独的图表用于直观比较。