Yuchen You

从二项分布到柏松分布

在二项分布中我们只讨论一个事件的发生次数，而其载体是离散的“机会”，但是如果这个机会是一个连续的区间，例如一个面积或者一个时间，就是一个柏松分布

伯努利分布的概率质量函数

首先我们将一个连续的一维空间（这里用时间举例）分割成 n 个小块，确保每个小块内至多有一次事件发生，那么这小块内就是一个简单的伯努利分布，发生 1 次的概率为 $p$ , 而不发生的概率就是 $1 - p$ , 发生 2 次及以上的概率为 0
那么我们需要找到 n 和 p 的关系

期望中间值

我们定义 $E[X] = np := \lambda_t$ 为一个时间段内发生的次数的期望值，那么我们可以转写二项分布中的概率质量函数为：

\lim_{n\to\infty} \binom{n}{k} (\frac{\lambda_t}{n})^k (1-\frac{\lambda_t}{n})^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}

或者我们可以写作

p_{X_t}(x) = \begin{cases} \frac{\lambda^k e^{-\lambda}}{k!} & x = 0,1,2 ... \\ 0 & o.w. \end{cases}

在统计学中很多时候一个随机变量的形式并不和这里讨论的柏松分布形式相近，但是其仍然会被表述为柏松分布，这是由其公式形式决定的

柏松分布形式

X_t \sim Poisson(\lambda_t)

那么我们的期望表达式为

E[X_t] = \lambda_t

方差表达式为

Var[X_t] = \lambda_t

这个的推导公式可以带入二项分布的方差公式: $Var[X] = np(1-p)$ , 既然有 $np = \lambda_t$ 那么就有 $Var[X] =\lim_{n\to \infty} \lambda_t(1 - \frac{\lambda_t}{n}) = \lambda_t$

$\lambda_t$ 的变换

一般我们用讨论区间的长度来描述这里的 $t$ , 例如我们想知道 1:10 - 1:20 发生的次数，那么就会表述为 $\lambda_{10}$
但是，我们一般知道的期望并不一定直接等于我们需要求的区间长度，那么我们可以通过线性变换来求解，由于期望本身是一个线性函数，当输入长度发生变化的时候， $E[n_1t] = \frac{n_1}{n_2} E[n_2t]$ 即 $\lambda_{n_1t} = \frac{n_1}{n_2} \lambda_{n_2t}$

指数分布 Exponential Distribution

这是一个和柏松分布相反的定义，这个关注的是在第一件事件发生前等待时间的长短