标准误
张宇亮 / 2017-11-12
这篇博文主要mark一下标准误的由来,以及为什么在作图的时候要在bar图上下添加误差条。之前大学上生统的时候老师讲过,但我觉得没讲对也不太全,重新整理一下。
比如下图的例子,柱状图的高度表示这一组样本的均值,上下两个条线到均值的距离就是标准误。在正式引入标准误的定义之前,先要区分群体(population)和样本(sample)。群体可以类比为某一草原上所有的牛,假如有十万头,这十万头牛就构成了一个群体,我们现在准备估计草原上牛的平均重量,随机选取了一百头测量了它们的体重,用着一百头牛的平均体重来估计整个草原上牛的体重,这一百头牛就是样本,因为考虑到实际情况,我们不能把十万头牛的体重都测了,所以要取一百头作为样本。我们现在可以根据这一百头牛的数据把柱状图的高度确定下来了,我们要添加的误差线就是均值这一变量的标准差,也就是标准误,那么如何估计均值的标准差呢,我们假设总共取了m次样本,每次都为n头牛,对于其中一次取样的样本来说,这次取样的均值就可以用$\frac{Y_1+Y_2+Y_3+ ..... + Y_n}{n}$来表示,而此次样本中的每个牛或每个个体样本都来源于同一个分布(一百万头牛),所以每个个体的方差是相同的,都为$\sigma$,则样本均值的方差可以表示为 $\sigma_{\bar Y}^{2}=\frac{\sigma_1^2+\sigma_2^2+\sigma_3^2+ ..... + \sigma_n^2}{n^2}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}$ ,标准差开根号即得。

