CDN_阿里云堡垒机_限时特惠

小七 2019年10月25日 21:23 141 0

这是我博客系列的第二部分，继第1部分之后。

在第1部分中，我们了解到：

什么是SAP HANA数据框架，为什么它有价值，大数据是啥意思，如何使用它。

在第2部分中，我们将探讨HANA DataFrame的一个热门应用-机器学习。

本博客将详细介绍SAP HANA DataFrame如何提供机器学习功能，以克服该领域面临的一些最大挑战。它还将包括一个具体的算法和如何应用的解释。

在一个拥有大量数据的企业环境中，生产力是最大的障碍，因此等待数据传输和模型训练将花费大量的时间和金钱。需要一种更有效、更高效的算法训练方法。因此，让我们重温Python客户机API，更具体地说是ML-API。

机器学习API

如果您以前使用过臭名昭著的"sciket-Learn"，那么这个ML-API将提供非常相似的用户体验。它提供了一种Pythonic方法来针对HANA数据帧调用存储在hanapal中的算法。处理委托给HANA，一旦模型经过训练，就有各种方法可用于优化和理解结果。

PAL中有90+种算法，而且这个列表不断增加。这些算法包括：

分类回归聚类时间序列分析关联分析概率分布孤立点检测推荐系统链路预测统计函数数据准备其他

有关图书馆的详细信息，请参阅本文档。

有何价值？

如何使用？

有关如何设置Python API的说明，请参阅此博客。

假设您已经设置了环境，我将带您学习如何训练决策树分类器，以预测泰坦尼克号数据集上的"存活"或"未存活"。

此数据集包含12列：

年龄–乘客的年龄（以年为单位）。客舱–分配给乘客的客舱编号。如果是NaN，这就意味着他们没有舱位，而且可能因为机票的费用而没有被分配到舱位。登船——登船港（S=南安普敦，C=瑟堡，Q=昆士敦）。票价–乘客购买的车票的票价。姓名–乘客的全名和职务。Parch–与机上乘客相关的父母和子女人数。PassengerId–分配给每位乘客的唯一ID。P等级-购票等级（1=头等舱，大数据网站，2=二等舱，3=三等舱）。性别–乘客的性别。SibSp–与机上乘客相关的兄弟姐妹和配偶数量。票号–票号。幸存–乘客的幸存标志。

注：

Pclass可被视为社会经济地位（SES）的代表：1st=上层阶级第二=中产阶级3rd=低级如果乘客小于1岁，则年龄为分数。如果年龄是估计的，是不是以xx.5的形式SibSp&Parch：这两列表示族关系，其定义方式如下：兄弟姐妹=兄弟，姐妹，继兄弟，继姐妹。配偶=丈夫、妻子（情妇和未婚夫被忽视）。父母=母亲，父亲。孩子=女儿，儿子，继女，继子。有些孩子只和保姆一起旅行，因此他们的Parch=0.

数据集的积分为：https://www.kaggle.com/c/titanic/data

首先导入HANA数据帧，永久免费自助建站软件，hana\ U ml包中的相关算法和评估指标。

我们已经导入了整个基于树的算法库，其中我们将使用决策树分类器。为了评估模型的性能，云服务器是，我们还从PAL导入了度量，我们将使用ROC AUC分数。

与第1部分一样，让我们打开"ConnectionContext"并调用table（）方法来创建我们的数据帧：

现在我们有了HANA数据帧，我们想考虑对其应用一个算法。

注意：在应用一个算法之前，总是有中间步骤，如数据准备、特征工程和探索性数据分析。为了这个博客的目的，我将假设这些都已经完成，并且数据已经准备好用于一个算法。

我们将使用的PAL算法是决策树分类器。决策树的目的是创建一个"树"，它能够通过在树的不同路径上路由决策来对观察结果进行分类。它使用以下条件之一构建树：基尼——衡量杂质的标准熵–信息增益的度量

下面给出了此算法的工作原理概述。

注意：此解释的路径作为示例给出。我们将在训练模型后确定构建的确切树。

让我们实例化算法，并将模型训练为我们的泰坦尼克号数据。

请注意，HANA自动编码分类字符串值。如果您希望遵循某种策略，可以进行手动编码，但是这可以为数据科学家节省大量时间。一旦我们有了一个训练有素的模型，我们就要评估它的性能，以评估这个模型在新数据中是否表现良好。创建准备生产的模型可能很棘手，必须选择正确的评估标准，并且模型的部署方式必须使其易于更新和计划。

使用HANA作为数据、算法、培训和部署的单一来源，使数据科学过程难以置信地简化和高效。

下一步，我将评估训练模型的决策规则。

在这里您可以看到树已经制定了23个决策规则。这些是经过训练的算法用来预测新数据的规则。现在让我们使用DataFrame的内置score（）方法来评估它的性能。

本文地址： /shujuku/70244.html