我方差(方差):衡量一个随机变量或一组数据的分散程度。
在概率论中,方差用于测量随机变量与其数学期望值(即平均值)之间的偏差。
统计学中的方差(样本方差)是每个样本值与所有样本值的平均值之差的平方值的平均值。
概率论中的方差表示:
不偏不倚,不偏不倚。对于一组随机变量,随机选择n个样本。这组样本的方差是席^2除以n-1的平方和。
总体方差,也称为偏差估计,实际上是我们从初中学来的标准定义方差。除数是n。
统计学中的方差表示:
2、为什么样本方差的分母是n-1?为什么也称为无偏估计?
简单的答案是因为你用N个数字的平均值来估计平均值。在计算方差时,只有(n-1)个数与均值信息无关。
您的第n个数字可以由第一个(n-1)数字和平均值唯一确定。事实上,没有多少信息。所以在计算方差时,只需除以(n-1)。
那更严格的证据呢?
样品方差计算公式分母n-1的目的是使方差估计无偏。
直觉上,无偏估计优于有偏估计,尽管一些统计学家认为最小化均方误差(即MSE)更有意义,我们在这里不讨论这一点;
不直观的是,为什么分母必须是n-1而不是n才能使估计无偏。
首先,我们假设随机变量的数学期望已知,但方差未知。在这种情况下,根据方差的定义,我们有
从中我们可以得到
这个结果是直观的,在数学上是显而易见的。
现在,让我们考虑随机变量。
3、理论推导
为了便于叙述,这里对数学符号进行了解释:
如前所述,样本方差应除以(n-1)的原因是,这种方差估计量是总体方差的无偏估计量。就公式而言,它是样本方差的估计预料等于总体方差。详情如下:
但没有修正方差公式,它的期望值不等于总方差
换句话说,如果样本方差估计器使用未修正的方差公式来估计总方差,那么它是有偏差的
以下是对公式推导过程的更好理解:
也就是说,除非
否则就会有
应该指出的是不平等右边的是对对方差异的“正确”估计,但我们不知道真正的总体含义是什么。我们只能用样本平均数代替总体平均数。
因此,如果样本方差估计器使用未修正的方差公式来估计总方差,它将产生偏差并低估总体样本方差。为了无偏差地估计总方差,应修改平方差计算公式,如下所示:
这种修正估计量将是总体方差的无偏估计量,下面将给出这种修正的来源;
为了理解这种修正是如何产生的,我们必须首先得到以下方程式:
1.方差计算公式:
2.均值和方差的计算公式:
对于未经修正的方差计算公式,我们有:
因为:
因此有:
在这里,如果要修改方差公式,使修改后的方差公式计算出的方差的期望值为总方差,则需要将其添加到未修正的方差公式之前进行修正,即:
因此,将有这样一个修正公式:
我们看到的是修正后的最终结果:
这就解释了为什么应该修正差值计算公式,以及为什么应该这样修正。
如果以上解释中有任何错误或不正确的解释,欢迎您改正。非常感谢。希望可以帮你一点忙。
最新评论