云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

免备案CDN_百度云资源共享群_试用

小七 141 0

大家好,

我之所以写这篇文章,是因为我从一门最重要的课程@openSAP-Introduction-to-Statistics中得到了动力,云服务器多少钱,我相信我们中的许多人都是这门课程的积极参与者,这导致了我写这篇关于线性回归的文章。

回归:在统计建模中,回归分析是一组用于估计因变量和一个或多个自变量之间关系的统计过程。Wikipedia

简介:我们有两种主要的ML算法,即分类和回归。

分类主要侧重于预测类(已知标签)–在这项技术。

回归和回归分析:

用途-主要用于预测和找出变量之间的因果关系。

Ex-如果学生花更多时间在社交媒体上,学习成绩会下降,所以,如果X=花在Facebook上的时间,Y=学习成绩,

X的增加将导致Y的减少,因此X和Y之间存在负相关关系,

回归分析是我们在这里讨论的主题-主要集中在预测连续数字>考虑下面对有经验的SAP专业人员的薪资观察

从上面我们可以比如说经验的增加导致工资的增加,这清楚地表明一个变量依赖于另一个变量。我们的目标是将一条直线拟合到这条曲线中,数据分析平台,然后根据这条曲线预测工资实验一从图表中可以很容易看出,经验的增加会导致薪水的增加,所以如果我们找到这个等式,那么我们就可以很容易地预测一个人的薪水(年数)出口许可证是的这个

X轴-代表年的经验

Y轴-代表美元的工资

重要的一点-区分分类和回归任务的一个简单方法是询问输出中是否存在某种排序或连续性。如果在可能的结果之间存在一个顺序,或者一个连续性,那么问题就是一个回归问题。

在这个简单线性回归的例子中,我们将只处理两个变量,一个是相依的,企业管理软件公司,另一个是独立的

假设我们只有一个变量,需要找出下一个值是什么,这个简单的答案就是那一列的平均值

线性回归主要告诉我们两个变量之间的关系有多强,在应用此技术之前,请检查这两个变量之间的相关系数。

在jupyter单元格中执行此操作

系数值–0.96445475这清楚地表明变量之间有很强的相关性,因此继续线性回归应用

x–因变量(Exp in Yrs)

y–自变量(Salary in Yrs)$)

一个变量是另一个变量的函数,云的服务器,因变量的值是自变量的函数,

y=f(x)

salary=f(exp.)

工资是如何从经验中计算出来的,这是我们需要进一步预测的函数,线性回归是一个双变量统计,我们处理的是两个变量。

首先我们看下面的公式来计算这两个变量,然后求和并最小化

Yi–因变量的观察值(它是用经验记录/收集的实际工资)

Yi(hat)-估计-预测因变量的值(实验的预测工资)

目标是最小化因变量的观察值(Yi)和因变量的估计/预测值Yi(hat)之间的平方差之和,它由回归线提供。

假设实验=3年,实际工资-60K,预测工资=62K

Min(62-60)**2=Min(4)=4,因此回归分析的目标是拟合最佳线,根据提供给它的数据预测最接近的值,并最小化实际值和预测值之间的距离,如果距离较大,则不能称之为最佳拟合。

注意:始终尝试绘制数据,这将有助于您了解拟合直线时发生的情况意味着您可以在图中看到如何将直线拟合到这些值中。

找到这两个变量x和y的平均值。

平均值x=5.5

平均值y=98.66

直线的质心是(mean_x,mean_y),即(5.5,98.66)–

为什么这个质心很重要,最佳拟合或最小二乘回归线必须经过这一点。

下一个任务是找出回归线的斜率–y(hat)=mx+b

m–直线的斜率

b–从y轴截距表示直线所在的y轴将开始,b=Y(bar)–mX(bar)

现在计算这些值以找出直线的斜率,让我们回到jupyter笔记本–

计算平均值平均值x=np.平均值(十)平均值=圆形(np.平均值(y) ,2个)n=np.尺寸(x) 你知道吗X_减去XBAR=[]###(X-X(bar))Y#u减去#YBAR=[]###(Y-Y(bar))XŠBARŠYŠBAR=[]ŠŠŠ(X-X(BAR)*(Y-Y(BAR)))X#u减去XBAR#u平方=[]##(X-X(bar))*(X-X(bar))计算(X–X(bar))&(Y–Y(bar))对于范围内的i(len(x)):X_减号_XBAR.附加(四舍五入(x[i]-平均值x))是的_YBAR.append附加((圆形(y[i]-平均值y),2))计算(X-X(bar))*(Y–Y(bar))covar=0.0对于范围内的i(len(x)):covar+=(x[i]-平均值x)*(y[i]-平均值y)X\巴\ Y_条形图附加(((x[i]-平均值x)*(y[i]-平均值y)))计算(X–X(bar))的平方对于范围内的i(len(X_减去XBAR)):X_减去XBAR_方块字.append(X_减去XBAR[i]**2)(X-X(bar))*(Y-Y(bar))&(X-X(bar))平方和SUM\u X\u BAR\u Y\u BAR=总和(X\u BAR\u Y\u BAR)SUM_X_MINUS_XBAR_SQUARE=和(X_MINUS_XBAR_SQUARE)坡度计算m=和X巴/和X巴减去平方计算Y–截距#计算y截距?= ?(巴)—??(巴)b=平均值y-m*平均值x我们现在完成了,我们得到了第一个最佳拟合线-x_新=0.0y\u new=m*x\u new+by\u new=13.75*x\u new+23.045

现在我们可以用这条最佳拟合线来进一步预测值

这是我们用来寻找最佳拟合线的数据,现在我们可以用新的值和旧的值来测试这一点–

这个片段显示了数据集的预测值–

也尝试了新的经验值,它将给出顾问可以得到的最接近的工资

这是我们回归分析的最终结果,我想我已经完成了基本的线性回归分析,但学习还没有结束,我将在下一篇文章中只对均方根误差进行阐述。

参考文献:https://open.sap.com/courses/ds0

继续学习,继续分享

欢迎评论,淘客是什么,反馈,添加和更正:)。

请原谅任何打字错误。