泊松分布

引言

在通信系统的性能分析中,对于新传输请求的到达常基于泊松分布建立模型,为了加深对泊松分布的理解,记录泊松分布的推导过程。

问题引入

现在有一台交换机,需要确定在时间$T$内,这台交换机处理$k$个数据包的概率是多大。将$T$内到达的数据包数量记为事件$X$,该问题的数学表达为
$$P(X=k) = ?$$

问题求解

理想模型

将观察时间$T$分为$n$段,保证每段内至多只有一个数据包到达。且已知数据包到达的概率为$p$,没有到达的概率为$q = 1 - p$。

那么,原问题就转化为一个二项分布问题,数学模型为:
$$P(X=k) = C_n^k \cdot p^k \cdot (1-p)^{n-k}$$

模型改进

上述模型中的两个假设存在一些限制:

  • 交换机每秒都会收到多份数据包,为保证每段内至多只有一个数据包到达,应当将时段无限细分,即满足$n \to \infty$;
  • 实际场景中很难统计一个数据包的到达概率。

改进方法:

  • 对于第一个限制,在原模型基础上直接添加$n \to \infty$即可;
  • 对于第二个限制,用均值计算概率。

下面展开介绍对假设二的改进。

二项分布的期望$\lambda$的计算公式为:
$$\lambda = n \cdot p$$
根据大数定律,当样本足够多时,均值以概率一与期望相等($\overline{X} \stackrel{P}{\longrightarrow} E[X]$)。因此,可以在实际场景中用统计平均代替期望,进而计算出到达概率$p$,为:
$$p = \frac{\lambda}{n}$$

至此,改进后的模型所对应的数学模型可以写为:
$$\lim_{n \to \infty} P(X=k) = \lim_{n \to \infty} C_n^k \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k}$$

将上式展开化简:
$$
\begin{align}
\lim_{n \to \infty} P(X = k) &= \lim_{n \to \infty} \frac{n!}{k!(n-k)!} \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k} \\
&= \lim_{n \to \infty} \frac{n!}{k!(n-k)!} \cdot (\frac{\lambda}{n})^k\cdot (1-\frac{\lambda}{n})^{n} \cdot 1^{-k} \\
&= \lim_{n \to \infty} \frac{n!}{n^k(n-k)!} \cdot (\frac{\lambda^k}{k!})\cdot e^{-\lambda} \\
&= 1 \cdot \frac{\lambda^k}{k!} \cdot e^{-\lambda} \\
\end{align}
$$

最后,化简后的结果即为泊松分布的表达式。由此,可以得到:泊松分布是二项分布的极限情况。

结果分析

  • 泊松分布是二项分布的极限情况;
  • 泊松分布中$\lambda$的含义是:$T$时长内事件发生的均值

参考资料