随机变量 Random Variable (RV)
一个变量,可以被赋予一个 sample space 中的值,常常用 X 表示
可以被分为 连续的或者 离散的(也可能是混合)
离散 表示可能的值是有限的或者 countable 的
分布 distribution 表示选中的值随着概率的变化
概率质量函数 probability mass function (pmf)
离散变量的独有特性,符号一般为 p, 公式
p(x)=P(X=x)
性质
- ∑p(x)=1
- p(x)≥0
累计分布函数 cumulative distribution function (cdf)
可以是离散或者连续变量的函数,符号 F, 表示小于等于 x 值的可能性积累量
F(x)=P(X≤x)
离散的cdf 是一个 step function
均值 mean
一般用 μ 表示 population mean, 用 xˉ 表示 sample mean
离散的随机变量的均值或者期望 expectation 写作:
E[X]=μX=∑x⋅p(x)
期望并不一定落在 样本空间内,并不一定需要进行四舍五入 round-up 操作
均值函数的线性特征
对于一个期望函数 E[⋅], 这是一个线性函数, 即 E[aX+b]=aE[X]+b
方差 variance
一般用 s2 表示 sample variance, 用 σ2 表示 population variance
离散变量的方差写作
Var(X)=σX2=E[(X−μ)2]=∑(x−μ)2p(x)
有一种计算方式为
Var(X)=E[X2]−E2[X]
方差一定是正数
标准差 standard deviation
SD(X)=σX=Var(X)=σX2
方差的单位是随机变量单位的平方
标准差的单位和一般变量的单位一致
连续随机变量 Continuous Random Variable
定义是可能取值的集合是一个区间
概率密度函数 robability density function (pdf)
只作用于连续函数,一般用符号 f(x) 进行表示,一般用区间标记概率的大小
P[a<X<b]=∫abf(x)dx
某一个点处的概率是 0: ∫ccf(x)dx=0
因此在区间边界去点与否对于结果没有影响
性质
- P(−∞<X<∞)=1
- f(x)≥0 for all x
表示各个取值概率一致
f(x)={b−a1,a<x<b0,otherwise
cumulative distribution function
表示对各个点概率积累得到的累积概率
也就是对pdf 进行积分得到的公式
相反对 cdf 求导得到的就是 pdf
期望和方差
E[X]=μX=∫−∞∞xf(x)dx
Var(X)=σX2=∫−∞∞(x−μ)2f(x)dx
计算公式
Var(X)=E[X2]−E2[X]
标准差的计算方式
SD(X)=σX=Var(X)=σX2
中位数、Q1 Q3 的计算
我们定义 cdf 关系
F(xm)=P(X≤xm)=∫−∞xmf(x)dx=m/100
其中 m 为 [0,100] 的一个数,表示占百分比
例如 median 的计算方式: F(x50)=0.5=∫−∞x50f(x)dx 反向求解积分上界 x50
复合分布随机变量
如果多个随机变量互相之间存在一定的关系,那么我们称之为 jointed distribution
如果分布是离散的,我们称之为 jointly discrete
定义
pXY(x,y)=P[X=x,Y=y]
性质
- ∑x∑ypXY(x,y)=1
- pXY(x,y)≥0