多个线性回归介绍

回归模型用于通过将线路拟合到观察到的数据来描述变量之间的关系。回归允许您估计如何依赖变量随着独立变量的变化而变化。

多元线性回归用于估计之间的关系两个或多个独立变量一个依赖变量。您可以在您想知道时使用多个线性回归:

  1. 这种关系在两个或多个独立变量和一个依赖变量之间的强度有多强(例如,降雨量,温度和肥料的量如何增加作物生长)。
  2. 在独立变量的一定值下依赖变量的值(例如,降雨量,温度和肥料的一定程度的作物的预期产量)。
例子
您是对影响心脏病的社会因素的公共卫生研究员。您调查了500个城镇,并收集了吸烟的每个城镇的人们百分比的数据,每个城镇都有工作的人的百分比,以及每镇的人群患有心脏病的人的百分比。

因为您有两个独立的变量和一个依赖变量,并且所有变量都是定量的,所以您可以使用多个线性回归来分析它们之间的关系。

多个线性回归的假设

多个线性回归使所有与之相同的假设简单的线性回归

方差的均匀性(同性恋性):我们预测中错误的大小不会在独立变量的值中显着变化。

观察的独立性:使用统计上有效的方法收集数据集中的观察,并且变量之间没有隐藏的关系。

在多个线性回归中,一些独立变量可能实际上彼此相关,因此在开发回归模型之前检查这些变量很重要。如果两个独立变量太高了(R2>〜0.6),则只应在回归模型中使用其中一个。

常态:数据遵循a正常分布

线性:通过数据点最佳拟合线是直线,而不是曲线或某种分组因子。

如何执行多个线性回归

多个线性回归公式

多个线性回归的公式是:

多个线性回归公式

  • y=从属变量的预测值
  • B.0.= y-entercept(当所有其他参数设置为0时Y的值)
  • B.1X1=回归系数(B1)第一个独立变量(X1)(a.k.a.增加独立变量的价值的效果对预测的y价值)
  • ......=为您正在测试的许多独立变量做同样的事情
  • B.NXN=最后一个独立变量的回归系数
  • E.=模型错误(A.K.A.我们估计有多少变异y

要找到每个独立变量的最佳拟合线,多元线性回归计算三件事:

  • 导致整体模型错误最小的回归系数。
  • T.- 整体模型的艺术性。
  • 相关的P.-价值(如果独立和依赖变量之间没有关系的空假设是真的,则如何偶然发生T统计学是有可能的。

然后计算T.- 术和P.-Value在模型中的每个回归系数。

r中的多个线性回归

虽然可以用手做多个线性回归,但它是通过统计软件进行的更常见的。我们将为我们的例子使用R,因为它是免费的,强大的,广泛的可用。下载Sample DataSet以自己尝试。

多个线性回归的数据集(.csv)

将Ceart.Data DataSet加载到R环境中并运行以下代码:

用于多个线性回归的R代码
heart.disease.lm <-lm(heart.disease〜骑自行车+吸烟,数据= heart.data)

此代码采用数据集heart.data.并计算独立变量的效果骑自行车抽烟在依赖变量上心脏病使用线性模型的等式:lm()

通过按照完整的逐步指南了解更多信息r线性回归

你的抄袭是什么?

将您的论文与超过6000亿网络页面和3000万个出版物进行比较。

  • 2020年18luck新利备用网登录最好的抄袭验证者
  • 抄袭报告和百分比
  • 最大的抄袭数据库

Scribbr 18luck新利备用网登录Plagiarism Checker.

解释结果

要查看模型的结果,可以使用概括()功能:

摘要(heart.disease.lm)

此函数从线性模型中获取最重要的参数,并将它们放入视图这样的表中:

R多个线性回归摘要输出

摘要首先打印出公式('呼叫'),然后是模型残差('残差')。如果残差大致偏心零点,并且在任何一侧都有类似的差,那么这样做(中位数0.03,最小,最大左右 - 2和2)那么模型可能符合异源性的假设。

接下来是模型的回归系数('系数')。系数表的第1行被标记为(拦截) - 这是回归方程的Y截距。知道估计的截距有助于将其插入回归方程并预测因变量的值:

心脏病= 15 +(-0.2 *骑自行车)+(0.178 *吸烟)±e

此输出表中最重要的事情是下一个表 - 独立变量的估计值。

估计列是估计的影响,也称为回归系数或者r.2价值。表格中的估计值得告诉我们,骑自行车的每一个百分之百百分比增加心脏病有一个相关的0.2%的心脏病,并且每一个百分之一增加吸烟增加了,心脏病有一个相关的.17%增加。

std.error.列显示标准错误估计。此数字显示回归系数的估计估计有多少变化。

t价值列显示测试统计信息。除非另有说明,否则线性回归中使用的测试统计T.- 从双面留空T-Test.。测试统计量越大,偶然发生的结果不太可能。

Pr(> | T |)列显示P.-价值。这表明计算的可能性有多可能T.- 如果没有参数的任何效果的NULL假设是真的,则偶然发生value。

因为这些值太低了(P.两种情况下<0.001),我们可以拒绝零假设并得出结论,骑自行车工作和吸烟都可能影响心脏病的影响。

呈现结果

报告结果时,包括估计效果(即回归系数),估计的标准误差和P.-价值。您还应该解释您的号码,以使您的读者清除回归系数意味着什么。

在我们对500个城镇的调查中,我们在骑自行车的频率和心脏病频率和心脏病频率和心脏病频率的频率之间发现了显着的关系(每次P <0.001)。具体而言,我们发现在心脏病的频率下每次1%增加0.2%的减少(±0.0014),每1.178%的频率增加(±0.0035),每次吸烟增加一次。

在图表中可视化结果

它也有助于包含与结果的图表。多个线性回归比简单的线性回归有些复杂,因为参数比将在二维图上适应更多的参数。

但是,有些方法可以显示结果,其中包括在从属变量上包含多个独立变量的效果,即使只能在x轴上绘制一个独立变量。

R图中的多元回归

在这里,我们已经计算了在骑自行车工作百分比的观察到值的依赖范围的依赖变量(心脏病)的预测值。

为了包括吸烟对独立变量的影响,我们计算了这些预测值,同时在最小,平均值和最大观察到的吸烟率下持有吸烟恒定。

关于多个线性回归的常见问题

什么是回归模型?

回归模型是一种统计模型,估计一个依赖之间的关系多变的使用一行(或在两个或多个独立变量的情况下的平面)的一个或多个独立变量。

除了在逻辑回归的情况下,可以使用回归模型,除了逻辑回归的情况下,依赖变量是二进制的。

什么是多个线性回归?

多元线性回归是一种回归模型,其估计使用直线的定量相关变量和两个或多个独立变量之间的关系。

线性回归模型中的错误是如何计算的?

线性回归最常使用均方错误(MSE)来计算模型的错误。MSE通过:

  1. 测量观察到的Y值的距离在x的每个值下预测的y值;
  2. 平衡这些距离中的每一个;
  3. 计算吝啬的每个平方距离。

线性回归通过查找导致最小的MSE的回归系数来适合数据。

这篇文章有用吗?
2
Rebecca Bevans.

Rebecca正在努力在土壤生态学中培养她的博士学位,并花费她的空闲时间。她很高兴能够与你们所有人统计。

2评论

Paromita Banerjee.
10月25日,2020年下午3:41

需要对数据集中的变量有更多的洞察力。例如。骑自行车变量记录是什么,是自行车在一周,一个月或一年内工作的频率。所以对于其他变量也是如此。否则,结果的解释仍然不确定。

回复

Shona McCombes.
Shona McCombes(Scribbr队)
10月27日,2020年下午6:42

嗨Paromita,

在真实的研究中,你是纠正的,需要更多的精确度运行,测量和报告变量。本文中的示例不使用真实数据 - 我们使用了一个发明的简化数据集来演示过程:)

回复

还有疑问吗?

请单击左侧的复选框以验证您是不是机器人。