随机变量 Random Variable (RV)

一个变量,可以被赋予一个 sample space 中的值,常常用 XX 表示
可以被分为 连续的或者 离散的(也可能是混合)
离散 表示可能的值是有限的或者 countable 的
分布 distribution 表示选中的值随着概率的变化

概率质量函数 probability mass function (pmf)

离散变量的独有特性,符号一般为 p, 公式

p(x)=P(X=x)p(x) = P(X = x)

性质

  • p(x)=1\sum p(x) = 1
  • p(x)0p(x) \ge 0

累计分布函数 cumulative distribution function (cdf)

可以是离散或者连续变量的函数,符号 FF, 表示小于等于 xx 值的可能性积累量

F(x)=P(Xx)F(x) = P(X \le x)

离散的cdf 是一个 step function

均值 mean

一般用 μ\mu 表示 population mean, 用 xˉ\bar{x} 表示 sample mean
离散的随机变量的均值或者期望 expectation 写作:

E[X]=μX=xp(x)E[X] = \mu_X = \sum x\cdot p(x)

期望并不一定落在 样本空间内,并不一定需要进行四舍五入 round-up 操作

均值函数的线性特征

对于一个期望函数 E[]E[\cdot], 这是一个线性函数, 即 E[aX+b]=aE[X]+bE[aX + b] = aE[X] + b

方差 variance

一般用 s2s^2 表示 sample variance, 用 σ2\sigma^2 表示 population variance
离散变量的方差写作

Var(X)=σX2=E[(Xμ)2]=(xμ)2p(x)Var(X) = \sigma^2_X = E[(X - \mu)^2] = \sum(x - \mu)^2p(x)

有一种计算方式为

Var(X)=E[X2]E2[X]Var(X) = E[X^2] - E^2[X]

方差一定是正数

标准差 standard deviation

SD(X)=σX=Var(X)=σX2SD(X) = \sigma_X = \sqrt{Var(X)} = \sqrt{\sigma_X^2}

方差的单位是随机变量单位的平方
标准差的单位和一般变量的单位一致

连续随机变量 Continuous Random Variable

定义是可能取值的集合是一个区间

概率密度函数 robability density function (pdf)

只作用于连续函数,一般用符号 f(x)f(x) 进行表示,一般用区间标记概率的大小

P[a<X<b]=abf(x)dxP[a < X <b] = \int_a^b f(x)dx

某一个点处的概率是 0: ccf(x)dx=0\int_c^c f(x)dx = 0
因此在区间边界去点与否对于结果没有影响

性质

  • P(<X<)=1P(-\infty < X < \infty) = 1
  • f(x)0f(x) \ge 0 for all x

均匀分布 uniform distribution

表示各个取值概率一致

f(x)={1ba,a<x<b0,otherwisef(x) = \begin{cases}\frac{1}{b-a}, a < x < b\\0, otherwise\end{cases}

cumulative distribution function

表示对各个点概率积累得到的累积概率
也就是对pdf 进行积分得到的公式
相反对 cdf 求导得到的就是 pdf

期望和方差

E[X]=μX=xf(x)dxE[X] = \mu_X = \int_{-\infty}^{\infty}xf(x)dx

Var(X)=σX2=(xμ)2f(x)dxVar(X) = \sigma^2_X = \int_{-\infty}^{\infty}(x - \mu)^2f(x)dx

计算公式

Var(X)=E[X2]E2[X]Var(X) = E[X^2] - E^2[X]

标准差的计算方式

SD(X)=σX=Var(X)=σX2SD(X) = \sigma_X = \sqrt{Var(X)} = \sqrt{\sigma_X^2}

中位数、Q1 Q3 的计算

我们定义 cdf 关系

F(xm)=P(Xxm)=xmf(x)dx=m/100F(x_m) = P(X \le x_m) = \int_{-\infty}^{x_m} f(x)dx = m / 100

其中 m 为 [0,100] 的一个数,表示占百分比
例如 median 的计算方式: F(x50)=0.5=x50f(x)dxF(x_{50}) = 0.5 = \int_{-\infty}^{x_{50}} f(x)dx 反向求解积分上界 x50x_{50}

复合分布随机变量

如果多个随机变量互相之间存在一定的关系,那么我们称之为 jointed distribution
如果分布是离散的,我们称之为 jointly discrete

定义

pXY(x,y)=P[X=x,Y=y]p_{XY}(x,y) = P[X = x, Y = y]

性质

  • xypXY(x,y)=1\sum_x\sum_y p_{XY}(x,y) = 1
  • pXY(x,y)0p_{XY}(x,y) \ge 0