切比雪夫不等式 Chebyshev’s Inequality

马尔可夫不等式 Markov’s Inequality

公式:

P[Xt]E[X]tP[X \ge t] \le \frac{E[X]}{t}

这个公式限制了限制了随机变量的累积分布函数存在一个下界限制,可以用来推导切比雪夫不等式

证明

E[X]=xf(x)dx=0xxf(x)dxaxf(x)dxaaf(x)dx=aP(xa)E[X] = \int_{-\infty}^\infty xf(x)dx = \int_0^x xf(x)dx \ge \int_a ^\infty xf(x)dx \ge \int_a^\infty af(x)dx = aP(x\ge a)

切比雪夫不等式公式

切比雪夫不等式会使用方差来作为一随机变量超过平均值概率的上限:

P[Xμt]Var[X]t2P[|X - \mu| \ge t] \le \frac{Var[X]}{t^2}

或者可以用标准差来写:

P[Xμtσ]1t2P[|X - \mu| \ge t\sigma] \le \frac{1}{t^2}

证明

这里我们使用马尔可夫不等式进行推导:

P[Xμt]=P[(Xμ)2t2]E[(Xμ)2]t2=Var[X]t2P[|X - \mu| \ge t] = P[(X - \mu)^2 \ge t^2] \le \frac{E[(X - \mu)^2]}{t^2} = \frac{Var[X]}{t^2}

也就是将马尔可夫不等式的 X 换元成了 Xμ|X-\mu| 然后进行平方处理,利用等式 Var[X]=E2[X]E[X]2Var[X] = E^2[X] - E[X]^2 推出不等式

作用

从这个表达式中我们可以看出,这个不等式说明了随机变量分布在离 均值达到 t×σt\times \sigma 的距离内的概率是存在下界约束的,超出部分 (outlier) 则存在一定的上界约束

大数定律 Law of Large Numbers

描述相当多次数重复实验的结果, 当样本数量越多, 其算术平均值越接近于其期望
关注样本均值趋向于总体均值的长期行为,强调了均值的稳定性和可预测性
大数定律从分类上有两种: 强大数定律和弱大数定律

弱大数定律 WLLN, 辛钦定律

样本均值依概率收敛于期望
对于任意正数 ϵ\epsilon, 有:

limnP(Xˉnμϵ)=0\lim_{n\to \infty}P(|\bar{X}_n - \mu| \ge \epsilon)= 0

利用切比雪夫不等式证明

带入切比雪夫公式,我们有:

P(Xˉnμϵ)Var[Xˉn]ϵ2=Var[X]nϵ2P(|\bar{X}_n - \mu| \ge \epsilon) \le \frac{Var[\bar{X}_n]}{\epsilon^2} = \frac{Var[X]}{n\epsilon^2}

由于对于一组数据其方差有限,所以我们可以得到:

limnP(Xˉnμϵ)=0\lim_{n\to \infty}P(|\bar{X}_n - \mu| \ge \epsilon)= 0

强大数定律 SLLN

样本均值依概率1收敛于期望

P(limnXˉn=μ)=1P(\lim_{n\to \infty} \bar{X}_n = \mu) = 1

这个证明方法就比较困难,我们这里就不叙述了

特征函数 Characteristic Function

特征函数定义了随机变量的概率分布
公式 ϕX(t)=E(eitX)\phi_X(t) = E(e^{itX})
其中 t 是一个实数,E 表示期望
如果用矩母函数来进行描述,特征函数就是 iXiX 的矩母函数,或言之是 XX 在虚数轴上求得的矩母函数

φX(t)=MiX(t)=MX(it)\varphi_X(t) = M_{iX}(t) = M_X (it)

虽然对于某些随机变量而言矩母函数并不存在,但是特征函数是一定存在的
那么利用期望的性质,公式为

φX(t)=eitXfX(x)dx\varphi_X(t) = \int_{-\infty}^\infty e^{itX} f_X(x)dx

这个形式与傅立叶变换类似,因此我们可以认为这是一个对概率密度函数进行傅里叶变换的公式。特征函数本质上是分布的频域表示,而概率密度函数是其时域表示。
用概率密度函数表示,则为 ϕX(t)=eitXdFX(x)\phi_X(t) = \int_{-\infty}^{\infty} e^{itX} dF_X(x); 而对于离散型随机变量,我们有 ϕX(t)=E[eitX]=xp(x)eitx\phi_X(t) = E[e^{itX}] = \sum_{x} p(x) e^{itx}

反演公式

用如下公式从特征函数恢复到一半分布

fX(x)=12πeitxφX(t)dtf_X(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty}e^{-itx} \varphi_X(t)dt

常用性质

乘积性质

φX+Y(t)=φX(t)φY(t)\varphi_{X+Y}(t) = \varphi_X(t)\cdot \varphi_Y(t)

随机变量的矩

中心极限定理 Central Limit Theorem, CLT

对于独立并同样分布的随机变量,即使原始变量本身不是正态分布,其均值的分布会趋向于正态分布
简单来说,对于任意一种分布进行多次独立采样,其结果也会符合正态分布的图像

青春版: 棣莫弗-拉普拉斯定理 De Moivre–Laplace theorem

参数为n, p的二项分布以 np 为均值、np(1-p) 为方差的正态分布为极限

在高尔顿板问题上的应用


高尔顿绘制的高尔顿板模型,其中的小球显出钟形曲线。
棣莫弗-拉普拉斯定理指出二项分布的极限为正态分布。高尔顿板可以看作是伯努利试验的实验模型。如果我们把小球碰到钉子看作一次实验,而把从右边落下算是成功,从左边落下看作失败,就有了一次 p=12p=\frac{1}{2} 的伯努利试验。小球从顶端到底层共需要经过 n 排钉子,这就相当于一个 n 次伯努利试验。小球的高度曲线也就可以看作二项分布随机变量的概率密度函数。因此,中央极限定理解释了高尔顿板小球累积高度曲线为什么是正态分布独有的钟形曲线。

社区版: 林德伯格-列维中心极限定理 Lindeberg–Lévy

独立同分布且期望方差有限的随机变量以标准正态分布为极限
令随机变量 X1,X2,,XnX_1, X_2, \cdots, X_n 独立同分布,期望为 μ\mu,方差为 σ2\sigma^2,则:

limnP(i=1nXinμσnx)=Φ(x)\lim_{n\to \infty} P(\frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \le x) = \Phi(x)

其中 Φ(x)\Phi(x) 为标准正态分布的分布函数