统计学常用概念

  • 数据分类

    • 可分类数据 Category

      • 可整理的数据 tabulating data

      • 可画图的数据 graphing data

        • 帕累托图 Pareto

          • 将柱状图从左到右依次递减排序,即重要性递减

            • 满足二八法则
        • 直方图 Histogram

          • 柱状图,没有间隔
          • 一般单位是 %\%
        • 茎叶图 Stem-and-Leaf

          • 将最高位提出放在表格的第一列,其余部分放在后面
    • 数量数据 Numerical

      • 表示方式

        • 中心趋势 central tendency

          • 算术平均值 arithmetic mean

          • 中位数 median

            • 类似的有四分 (quartile->Q1,Q2,Q3)
          • 众数 mode

          • 几何平均值 geometric mean

            • 用于银行存钱利息等
        • 离散程度 Variation

          • range: maxmin\max - \min

          • interquartile range: minQ1medianQ3max\min-Q_1-\operatorname{median}-Q_3-\max

          • 方差

            • 全体方差 population variance: σ2=Σ(xiμ)2N\sigma^2 = \frac{\Sigma(x_i - \mu)^2}{N}

            • 样本方差 sample variance: S2=Σ(xixˉ)2n1S^2 = \frac{\Sigma(x_i - \bar x)^2}{n-1}

            • 标准差 population standard deviation: σ=Σ(xiμ)2N\sigma = \sqrt{\frac{\Sigma(x_i - \mu)^2}{N}}

            • 变异系数 Coefficient of Variation: CV=(σμ)×100%CV = (\frac{\sigma}{\mu})\times 100\%

              • 用于将标准差归一化

              • 切比雪夫定理:对于一个区间分布,在平均数 ±kσ\pm k\sigma 的范围内的分布概率最小值为 11k21-\frac 1 {k^2}

                • 经验参数: 对于铃铛形状分布的概率(正态分布) k=1k = 1 分布量 68%68\%
                • k=2k=2 分布量 95%95\%
                • k=3k=3 分布量 99.7%99.7\%
                • zscorez-score: z=xiμσz = \frac{x_i - \mu}{\sigma}