理解并计算置信区间

当你在统计学上做一个估计时,它是否是一个汇总统计数据或者一个检验统计量在美国,这个估计总是存在不确定性,因为这个数字是基于一个样本你正在研究的人群中。

置信区间是在再次进行实验或以同样的方式对总体进行重新采样时,您期望您的估计值在某一百分比之间的范围。

置信水平您期望在置信区间的上界和下界之间重新进行估计的时间百分比是由alpha值

什么是置信区间?

置信区间是的意思是加上和减去你的估计的变化。这是您期望在一定程度的信心范围内重新进行测试时,您估计的值之间的范围。

信心在统计学中,是描述概率的另一种方式。例如,如果构造一个置信区间,置信水平为95%,那么在100次估计中有95次会落在置信区间指定的上值和下值之间。

你期望的自信水平通常是1减去α(一个)值你在你的统计测试中使用:

置信水平= 1−一个

如果你用值p< 0.05表示统计显著性,那么您的置信水平将是1 - 0.05 = 0.95,即95%。

什么时候使用置信区间?

你可以计算多种统计估计的置信区间,包括:

  • 比例
  • 人口意味着
  • 总体平均值或比例之间的差异
  • 组间差异的估计

这些都是点估计,并没有给出任何关于数字变化的信息。置信区间对于传达一个点估计的变化是有用的。

例如:估算值的变化
你调查了100名英国人和100名美国人看电视的习惯,发现两组人平均每周看电视35小时。

然而,被调查的英国人在看电视的时间上差别很大,而美国人看电视的时间差不多。

尽管两组的估计点(平均观看时间)相同,但英国的估计比美国的估计有更大的置信区间,因为数据的差异更大。

图示两个样本总体具有相同的平均值,但在平均值附近有不同的变化水平。

计算置信区间:您需要知道的内容

当您运行统计测试时,大多数统计程序将包括估计的置信区间。

如果你想自己计算置信区间,你需要知道:

  1. 构建置信区间的点估计
  2. 测试统计量的临界值
  3. 标准偏差的样本
  4. 样本的大小

一旦知道了这些组件中的每一个,就可以通过将它们插入与数据对应的置信区间公式来计算估计的置信区间。

点估计

你的置信区间的点估计将是你所做的任何统计估计(例如,总体平均值,总体平均值之间的差异,比例,组间的变化)。

例如:点估计
在看电视的例子中,估计的点是平均观看时间:35小时。

求临界值

临界值告诉你需要离均值多少个标准差远才能达到置信区间的期望置信水平。

找到临界值有三个步骤。

  1. 选择你的alpha (一个)值。

值是统计显著性的概率阈值.最常见的alpha值是p= 0.05,但有时使用0.1,0.01,甚至0.001。最好看看你所在领域发表的论文来决定使用哪个alpha值。

  1. 决定是需要单尾间隔还是双尾间隔。

您很可能会使用双尾间隔,除非您正在执行单侧t检验

对于双尾间隔,将alpha除以2得到上下尾的alpha值。

  1. 查找与alpha值对应的临界值。

如果你的数据遵循正态分布,或者如果你有很大的样本量(n近似正态分布,你可以使用z分布找到你的关键价值。

对于一个z-statistic,一些最常见的值如下表所示:

置信水平 90% 95% 99%
alpha表示单尾CI 0.1 0.05 0.01
alpha表示双尾CI 0.05 0.025 0.005
z统计 1.64 1.96 2.57

如果您正在使用一个小的数据集(n≤30),它是近似正态分布的,使用t分布代替。

t-分布遵循相同的形状z-分布,但对小样本量进行修正。为t-分布,你需要知道你的自由度(样本大小- 1)

看看这套t找到你的t统计。作者包含了置信水平和p用于单侧和双侧测试,以帮助您找到t你需要的值。

对于正态分布,比如t分布和z-分布,临界值在均值两侧相同。

例如:临界值
在电视观看调查中,有超过30个观察,数据遵循近似正态分布(钟形曲线),所以我们可以使用z-测试统计量的分布。

对于双尾95%置信区间,alpha值为0.025,对应的临界值为1.96。

这意味着为了计算置信区间的上下界,我们可以取平均值±1.96个标准差。

求标准差

大多数统计软件都有计算标准差的内置函数,但要用手算,你可以先求样本方差,然后开方求标准差。

  1. 求样本方差

样本方差定义为与均值之差的平方和,也称为均方误差(MSE):

求均方误差的公式

要找到MSE,需要从数据集中的每个值中减去样本均值,对结果数平方,然后除以n−1(样本量- 1)。

然后把所有这些数字加起来,得到总样本方差(年代2).对于较大的样本集,最容易在Excel中做到这一点。

  1. 求标准差。

标准偏差根据您的估计(年代等于样本方差/样本误差的平方根(年代2):

计算标准差公式

例如:标准差
在看电视的调查中,GB估计的方差是100,而美国估计的方差是25。方差的平方根得到样本标准差(年代):

  • GB估计为10。
  • 美国的估计是5。

样本大小

样本容量是你的数据集中的观察数。

例如:样本量
在我们对美国人和英国人的调查中,每一组的样本量是100人。

你剽窃的分数是多少?

将你的论文与超过600亿个网页和3000万份出版物进行比较。

  • 2020年18luck新利备用网登录最佳剽窃检查
  • 抄袭报告及百分比
  • 最大剽窃数据库

Scribbr剽18luck新利备用网登录窃检查程序

正态分布数据均值的置信区间

正态分布数据在图表上形成钟形,样本均值在中间,其余数据平均分布在均值的两边。

符合标准正态分布的数据置信区间为:

计算具有标准正态分布数据的置信区间的公式

地点:

  • CI =置信区间
  • =总体平均值
  • Z* =的临界值z分布
  • σ =总体标准差
  • √n =人口规模的平方根

t分布的置信区间遵循相同的公式,但替换了Z*与t*.

在现实生活中,你永远不知道人口的真实价值(除非你能做一个完整的人口普查)。相反,我们用样本数据中的值替换总体值,因此公式变为:

计算样本置信区间的公式

地点:

  • ˆx =样本均值
  • S =样本标准差
示例:计算置信区间
在美国人和英国人看电视习惯的调查中,我们可以用样本均值、样本标准差和样本大小来代替人口均值、人口标准差和人口大小。

为了计算95%置信区间,我们可以简单地将值代入公式。

美国:

如何计算置信区间的示例(美国数据)

所以对于美国,95%置信区间的下界和上界分别是34.02和35.98。

GB:

如何计算置信区间的示例(英国数据)

因此,对于GB, 95%置信区间的下界和上界分别为33.04和36.96。

比例置信区间

比例的置信区间和均值的置信区间是一样的,但标准差的位置用样本比例乘以1减去比例

公式计算一个比例的置信区间

地点:

  • ˆp =你的样本中的比例(例如说他们看任何电视的受访者的比例)
  • Z*=的临界值z分布
  • N =样本量

非正态分布数据的置信区间

要计算非正态分布数据均值附近的置信区间,你有两个选择:

  1. 您可以找到与数据形状匹配的分布,并使用该分布计算置信区间。
  2. 您可以对数据执行转换,使其符合正态分布,然后找到转换数据的置信区间。

    执行数据转换在统计中非常常见,例如,当数据遵循对数曲线,但我们希望将其与线性数据一起使用时。你只需要记住在计算置信区间的上界和下界时要对数据做反向变换。

    报告的置信区间

    虽然研究人员更多的是报告他们估计的标准差,但在论文中有时也会报告置信区间。

    如果要求您报告置信区间,则应该包括置信区间的上下界。

    示例:报告置信区间
    “我们发现,美国和英国平均每周看电视的时间都是35小时,尽管英国的估计差异(95% CI = 33.04, 36.96)比美国(95% CI = 34.02, 35.98)更大。”

    置信区间常用的一个地方是图。当显示组间的差异,或绘制线性回归时,研究人员通常会包括置信区间,以给出估计数周围的变化的可视化表示。

    示例:图中的置信区间
    你可以画出美国和英国平均电视观看小时数的估计值,95%的置信区间在平均值附近。

    平均看电视时间的平均值和95%的置信区间。

    使用置信区间时要小心

    置信区间有时被解释为你估计的“真实值”在置信区间的范围内。

    但事实并非如此。置信区间不能告诉你找到统计估计的真实值的可能性有多大因为它是基于样本的,而不是总体的。

    置信区间只告诉您,如果您重新进行抽样或以同样的方式再次运行实验,您期望找到的值的范围。

    你的抽样计划越准确,或者你的实验越真实,你的置信区间包含你估计的真实值的可能性就越大。但这种准确性是由你的研究方法决定的,而不是你在收集数据后所做的统计!

    关于置信区间的常见问题

    置信区间和置信水平之间的区别是什么?

    置信水平是指如果你以同样的方式再次进行实验或重新采样,你期望接近相同估计值的次数的百分比。

    置信区间是您期望在给定置信水平下找到的估计的实际上界和下界。

    例如,如果根据随机的婴儿样本估计每年出生的女婴的平均比例的95%置信区间,你可能会发现上限为0.56,下限为0.48。这是置信区间的上下界。置信水平是95%

    这意味着在95%的情况下,你可以预期你的估算值在0.56到0.48之间。

    如何计算置信区间?

    计算置信区间,你需要知道:

    然后您可以将这些组件插入与您的数据相对应的置信区间公式。公式取决于估计的类型(例如平均值或比例)和数据的分布。

    什么是标准正态分布?

    标准正态分布,也叫z-分布,是一个特殊的正态分布在哪里的意思是是0标准偏差是1。

    任何正态分布都可以通过将个体值转化为标准正态分布z分数。在一个z分布,z-scores告诉你每个值离平均值有多少个标准差远。

    什么是z分数和t分数?

    z分数和t分数(又名z价值和t-value)显示多少标准差远离的意思是假设你的数据遵循az分布或t分布

    这些分数用于统计测试显示你的统计估计离预测分布的均值有多远。如果您的测试产生z- 2.5,这意味着你的估计距离预测的平均值有2.5个标准差。

    您的估计的预测平均值和分布由零假设你正在使用的统计检验。你的估计值离预期均值的标准差越大,在零假设条件下发生估计值的可能性就越小。

    什么是临界值?

    的值为临界值检验统计量它定义了a的上下界置信区间,或者定义了阈值统计显著性在统计检验中。它描述的是,为了覆盖数据中一定数量的总变化(如90%、95%、99%),你需要离分布的平均值多远。

    如果你在构造一个95%置信区间并且使用一个阈值的统计显著性p= 0.05,那么在这两种情况下你的临界值将是相同的。

    如果置信区间包含0,这意味着什么?

    如果你的置信区间因为组间的差异包含零,这意味着如果你再次进行实验,很有可能发现组间没有差异。

    如果相关性的置信区间回归包含0,这意味着如果你再次进行实验,很有可能在数据中发现不相关。

    在这两种情况下,你也会发现一种快感p价值当你进行统计测试时,这意味着你的结果可能是在零假设下出现的变量之间没有关系或者组之间没有差异。

    如果我的数据不是正态分布,如何计算置信区间?

    如果你想计算a置信区间周围的平均值数据不是正态分布,你有两个选择:

    1. 找到与数据形状匹配的分布,并使用该分布计算置信区间。
    2. 对数据执行转换,使其符合正态分布,然后找到转换数据的置信区间。
    这篇文章有用吗?
    0
    丽贝卡·贝

    丽贝卡正在攻读土壤生态学博士学位,空闲时间用来写作。她很高兴能和你们大家一起钻研统计数据。

    1评论

    丽贝卡·贝
    Rebecca Bevans (Scribbr团队)
    2020年8月7日下午1:51分

    感谢你的阅读!希望这篇文章对你有所帮助。如果有任何不清楚的地方,或者如果你没有找到你想要的东西,请留下评论,我们会看看我们是否能帮助你。

    仍然有问题吗?

    请单击左边的复选框以验证您不是机器人。