标准误

张宇亮 / 2017-11-12

这篇博文主要mark一下标准误的由来，以及为什么在作图的时候要在bar图上下添加误差条。之前大学上生统的时候老师讲过，但我觉得没讲对也不太全，重新整理一下。

比如下图的例子，柱状图的高度表示这一组样本的均值，上下两个条线到均值的距离就是标准误。在正式引入标准误的定义之前，先要区分群体(population)和样本(sample)。群体可以类比为某一草原上所有的牛，假如有十万头，这十万头牛就构成了一个群体，我们现在准备估计草原上牛的平均重量，随机选取了一百头测量了它们的体重，用着一百头牛的平均体重来估计整个草原上牛的体重，这一百头牛就是样本，因为考虑到实际情况，我们不能把十万头牛的体重都测了，所以要取一百头作为样本。我们现在可以根据这一百头牛的数据把柱状图的高度确定下来了，我们要添加的误差线就是均值这一变量的标准差，也就是标准误，那么如何估计均值的标准差呢，我们假设总共取了m次样本，每次都为n头牛，对于其中一次取样的样本来说，这次取样的均值就可以用 $\frac{Y_1+Y_2+Y_3+ ..... + Y_n}{n}$ 来表示，而此次样本中的每个牛或每个个体样本都来源于同一个分布(一百万头牛)，所以每个个体的方差是相同的，都为 $\sigma$ ，则样本均值的方差可以表示为 $\sigma_{\bar Y}^{2}=\frac{\sigma_1^2+\sigma_2^2+\sigma_3^2+ ..... + \sigma_n^2}{n^2}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}$ ，标准差开根号即得。