云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

游戏服务器_数据库监控软件_便宜的

小七 141 0

25.945场足球赛,299支球队,11个联赛。全部包括10+的博彩赔率。似乎是使用预测分析的完美数据库。这是使用HANA速成版完成我所有困难计算的绝佳机会。当我们正在做的时候:让我们也尝试一下将HANA连接到R的可能性。在这个博客中,我想向您展示我如何使用R作为ETL工具(是的,作为ETL工具),如何使用HANA中的计算视图来创建我的星型模型,以及如何使用Lumira来进行一些快速的数据分析。都是因为一个原因:打破银行和试图击败赌博!

当我在Kaggle上偶然发现这个数据库时,这一切就开始了,当时我正在寻找一些很酷的数据来试用我的同事新获得的安装了HANA express edition的Intel Nuc(另请参见他的博客)。足球一直是我最喜欢的运动之一,过去我确实下过一些偶然的赌注。我也是Sports Interactive的足球经理系列的超级粉丝,一直试图了解他们的配对系统是如何运作的。现在我有了数据和计算能力,使用HANA express edition,可以更好地了解博彩业和预测足球比赛的结果。

我从下载SQLlite数据库开始。我以前从未使用过这样的数据库,但我确信我可以轻松地将其转换为CSV文件。我错了。这个数据库是由一个Python脚本建立的,这个脚本在一个网站上搜索欧洲不同联赛/国家的足球比赛。数据库的创建者通过创建一个Python脚本完成了一项令人印象深刻的工作,该脚本还能够读取比赛中最重要的时刻(进球者、卡片、替补等等)的比赛摘要。虽然现在这是一个有趣的数据,但我想继续使用定量数据,所以我不得不去掉数据库中的文本列。简单的SQLlite到CSV转换器没有给我做一些基本ETL的可能性。所以我看了R.

R基本上是一种用于统计计算和图形的编程语言和环境。R可以用各种各样的库来丰富,由于它的开源特性,有很多库。所以我几乎可以肯定有一个图书馆可以帮助我解决数据库的问题。就这样:RSQLite.

我加载了库,返利宝,这让我可以选择将SQLlite数据库作为连接加载到R中。通过这种连接,可以对数据库及其内容有一个基本的了解。它还使我能够在数据库中的表中触发一些SQL语句,然后将结果写入dataframe(R相当于一个表)。因此,通过使用一些基本的R命令,我现在能够清理我的数据帧,删除我不需要的列,并进行一些早期的数据探索。在那之后,我有两个选择:将我的数据帧导出为CSV文件或尝试将其直接写入HANA。

不想走简单的路线,我尝试了第二个选择。我再次需要一个库来帮助我将数据帧导入HANA。这一次,一篇旧的SAP博客文章帮助了我。在本例中,我需要的库是RSQL(他们的名字并不是很有创意……)。有一个简单的语句可以用来连接到HXE系统。

下面我做了一个R脚本的截图,我用它连接到(本地)SQLlite数据库,将它添加到数据帧,云服务器那个好,连接到HXE并将数据导入表中。对于更大的表(matches,playerstats),我选择了CSV文件的导出,以便对导入HXE有更多的控制。

我选择将Match表拆分为多个表。我想,当我想做一个不同的模式,没有投注赔率或在未来的团队组成,这将给我更多的灵活性。对于这个模型,我确实想让它们放在一起,所以我创建了一个计算视图,将这些表重新连接在一起(参见下面的屏幕截图)。我还添加了一些计算列(这正是HANA的力量真正帮助了我很多!)与实际赢家的游戏(主场,客场或平局)和预测结果的博彩公司。最后,我添加了比较游戏实际结果和庄家预测的专栏,在没有数据的情况下得出正确(R)、错误(W)或不下注(N)。

然后我使用了另一个博客,大数据风控,作者是我亲爱的同事和Nuc的所有者;-),把我的模型和Lumira连接起来,购物返利,这样我就可以做一些基本的数据分析和可视化。最终结果如下:

从这个分析中可以得出一些有趣的结论:

主队的进球数是客队的两倍左右;这导致大约45%的比赛是由主队赢得的;博彩公司对他们的比赛只有25%的预测是正确的,

只有25%的预测是正确的,大数据精准,而仅仅猜测主队会赢就有45%的机会是正确的。而且,由于博彩公司似乎仍在赚钱,这意味着博彩公司在计算赔率时还有其他因素发挥作用。幸运的是,数据库中有更多的数据可以帮助我解释什么因素在比赛结果中起作用。希望这一切都能产生一些预测模型,帮助我打破银行;-)。更多的在我的下一个博客!