0. 统计学概念
基本概念
- population: 一个实验中所有数据的综合
- sample: population 的一个子集,包含了一些已经被观察过的元素
- outlier: 一个样本中与其他数据相差较大的数据
简单随机样本 SRS
尺寸为 n 是一个每个元素都相同可能性下被挑选出来的sample
常见计算公式
样本均值 sample mean
即样本的平均值
偏差 deviation
一个样本值到平均值的距离
样本方差 sample variance
样本值到平均值的距离的平方和
为什么是 n - 1?
slides 上说实测效果更好,用 n 作为分母会 underestimate the population variance
样本标准差 sample standard deviation
样本方差的平方根
中位数 sample median
很多时候如果存在 outlier,用中位数会更好(基本不受 outlier 影响)
将所有数据按大小排序,取中间的值
- 如果 n 为奇数,取第 (n+1)/2 个值
- 如果 n 为偶数,取第 n/2 和 n/2 + 1 个值的平均值
四分位数 quartiles
将数据分成四等分,Q1, Q2, Q3
- Q1: 位置的值
- Q2: 中位数
- Q3: 位置的值
四分位距 interquartile range
这是一种利用四分位数来计算样本离散度的方法
稳定性 robust
一个统计数据如果不受到 outlier 的影响,称之为 robust
- median 会比 mean 更加 robust 因为其只会用到 center 的数据
图片
茎叶图 stem-leaf plot
数据分布的描述
- Shape:
- mode(极值): 单峰 unimodal, 双峰 bimodal, 多峰 multimodal
- 对称性: 对称 symmetric, 左偏 skewed left, 右偏 skewed right
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
