咱们从样本来推断总体,就是为了把那个真实的平均值给“锁死”。所谓的标准误,其实是衡量平均数波动的一个标尺,它跟标准差不一样,专门看不同样本的均值是怎么散开的。简单说,它能告诉你每次抽样算出的平均值会上下跳多高。要是这个标准误很小,说明抽样误差就小,不同样本算出来的均值就跟真正的数值差不多。 拿到一堆数据后,咱们想用局部来猜总体,这时候就要用到置信区间做“保险杠”。这个区间的宽窄主要受三个因素影响:一是样本量,人越多标准误越小,区间就会变窄;二是置信水平,要求越高区间越宽;三是数据的离散程度,数据越乱区间就得留得越宽。 相比单纯给个点估计值,区间估计更靠谱。因为点估计只给了一个数,完全没说这数可能差多少;而区间估计是在数轴上划一条路,明确告诉大家参数有95%的概率落在这儿。要是算出来的范围正好包住了真实值,说明样本跟总体在这个置信度上没什么差别;要是完全没包含真实值,那就说明差别很大了。说白了就是区间估计能提供“正确的概率”。 咱们拿总体方差来举例子。先从总体里随便拿n个样本算方差,把这些方差再平均一下,得到的就是总体方差的抽样分布。最后按照这个分布在数轴上划个框框。框框两边离中间的距离,是由标准误、置信水平还有自由度这三样东西决定的。 很多人会误以为“区间估计”就是抽样分布本身,但其实不对。抽样分布其实是那些统计量(比如均值、方差)的分布情况。它告诉我们反复抽样无数次后,这些统计量会以什么概率出现在哪儿。只有先搞懂了这个抽样分布,才能反过来算出参数落在某个区间里的概率有多大,也才能判断估计到底靠不靠谱。可以说没有抽样分布就没有区间估计。 接下来咱们把理论变成实际操作。用六步就能把样本数据“翻译”成总体均值的置信区间:第一步算样本的平均数还有标准差;第二步用样本标准差除以根号n算出标准误;第三步确定想要的置信水平(比如95%)并查表找临界值;第四步按公式算出区间的上下限;第五步报告结果时要带上置信水平;第六步看这个区间包没包住真实值来判断差别有没有统计学意义。 只要走完这六步,你就得到了一条既不太宽也不太窄、还贴着“正确概率”标签的置信区间。拿着它既可以看清数据的全貌,也能在科研报告里写结论的时候心里踏实得多。