进阶版-概率统计 – 历史的进程

连续随机变量分布

1.指数分布（类比感觉有点问题，继续思考）

[mathjax]

了解指数分布，我们可以先从自己熟悉的点入手，我平常涉及最多的是发光寿命的计算。计算当$t=0$时刻，有$n$个电子处在激发态，然后这些激发态的电子会陆续衰减（假设只有一个衰减通道），任意时刻每个激发态电子弛豫到基态的概率都是$p$，不会随着时间或者激发态电子的个数而变化。$$\begin{array}{l}{d n=-n p d t \Rightarrow \frac{d n}{n}=-p d t \Rightarrow \ln n=-p t+C} \\ \\{\Rightarrow n=A e^{-p t}=A e^{\frac{-t}{\tau}}}\end{array}$$

随机变量时间的分布是连续的，也就是说“某时刻有$a$个电子回到基态，继而利用$a/n$来计算该时刻电子弛豫下来的概率”是没有意义的，问题的关键是时间的连续可以无限分割的特点。这里的$n$是激发态电子的数目，那么$A$就是在初始时刻激发态电子的数目。我们定义寿命是说发光强度变为初始值的$1/e$，这个等价于激发态电子的数目变为初始时的$1/e$。初始值的变化不会改变衰减特性，只是让每个时刻对应的发光强（激发态电子数目）等比例变化。

很容易知道，$t-n$函数与对应的第一象限轴围成的面积是$\frac{A}{p}$，在实际数学意义上的概率密度函数的积分面积一定是$1$，所以进行归一化之后，可以得到$A=p$，也即如下：$f(t ; p)=p e^{-p t}$

再看看维基百科的描述，一个指数分布的概率密度函数是：
$$f(x ; \lambda)=\left\{\begin{array}{cc}{\lambda e^{-\lambda x}} & {, x \geq 0} \\ {0} & {, x<0}\end{array}\right.$$
其中$\lambda$表示的是单位时间该事件发生的次数，次数是离散的，但是$x$是连续的。分布函数如下：
$$F\left( a \right) =P\left( x\le a \right) =1-\int _{ 0 }^{ a }{ f\left( x;\lambda \right) } dx=1-\int _{ 0 }^{ a }{ \lambda e^{ -\lambda t } } =1-e^{ -\lambda a }\\ $$
这里的$F(a)$表示的是$a$时间内发生该事件的概率，注意这里只是强调该事件发生，并不管事件发生多少次，可能发生1次，也可能发生100次。如果随机变量$X$是表示在$a$时间内某一事件发生的次数，那么：
$$P\left( X\ge 1 \right) =F\left( a \right) =1-{ e }^{ -\lambda a }\\
P\left( X=0 \right) =1-P\left( X\ge 1 \right) =1-F\left( a \right) ={ e }^{ -\lambda a }$$下面回忆一下泊松分布，单位时间内发生的次数期望$\lambda$，那么$a$时间内发生的次数期望是$\lambda a$，于是有如下：
$$\begin{array}{l}{P(X=k)=\frac{e^{-\lambda} \lambda^{k}}{k !} \Rightarrow P(X=k)=\frac{e^{-\lambda a}(\lambda a)^{k}}{k !}}\\ \\ {\Rightarrow P(X=0)=\frac{e^{-\lambda a}(\lambda a)^{0}}{0 !}=e^{-\lambda a}}\end{array}$$

指数分布最重要的特点是无记忆性(memoryless property，又称遗失记忆性)，通俗来讲，就是一个灯泡已经用了3天，那么能再用2天不坏的概率，和一个新的灯泡用2天不坏的概率相等。我们可以同样用先前激发态电子衰减的例子类比，比如在$t=0$时刻，$A$电子处在激发态，而$B$电子处在基态，$t=t_0$时刻，$A$电子还是处在激发态，而$B$电子也被激发到激发态，那么这个时候，$A$和$B$量子电子是等效的，也就是说所有的特性都是一样的。

对于灯泡寿命的无记忆性，可能有点难以理解，用了3天之后，相比新的灯泡而言，应该更容易坏。这里我们是采用理想化的情况，如果将灯泡或者其他电器考虑作理想的电器，器件不会因为使用而老化。此时，电器的寿命是随机的，内部仿佛每秒钟都在扔硬币，扔到正面，电器就坏了，在这种情况下，我们就认为电器的寿命是服从指数分布的。

下面参考别人的内容，通过举实际的例子，加深对指数分布的理解，以及指数分布（连续随机变量）和泊松分布（离散随机变量）之间的联系。

指数分布是事件的时间间隔的概率。下面这些都属于指数分布。

婴儿出生的时间间隔

来电的时间间隔

奶粉销售的时间间隔

网站访问的时间间隔

指数分布的公式可以从泊松分布推断出来。假设某个医院每小时出生$\lambda$个婴儿，并且这个概率是稳定的，也就是说，单位时间内出生的婴儿的数目的数学期望是稳定的，那么每$t$小时，出生的婴儿数目期望是$\lambda t$。如果要计算多久$(t)$之后，下一个婴儿出生，等效于$t$小时内没有婴儿出生，于是有如下：

糊涂了，待续
F\left( a \right) =P\left( x\le a \right) =\int _{ 0 }^{ a }{ f\left( x;\lambda \right) } dx=1-\int _{ 0 }^{ a }{ \lambda e^{ -\lambda t } } =1-e^{ -\lambda a }

2.贝塔分布

3.伽马分布

4.洛伦兹分布/柯西分布

5.正态分布

正态分布可以从两个方面来理解。首先简单来看，如果只是基因起决定作用，假设要从一个人控制身高的基因有10个，每一个基因可能的情况有1000种（10个基因片段都是从这1000种里面抽取），在不考虑顺序的情况下，也就是从1000个数里面选择10个，最终对身高的影响是数值叠加。根据中心极限定理，很容易知道，最终的身高肯定是服从正态分布。现在考虑更复杂的情况，假设有A、B、C、D、E、F、G、H、I、J十个因素影响身高，然后每个因素都是从各自不同的一堆可能性中取一个值，比如A因素为基因，可能的基因选择有100种，对身高的影响为1:1:100，也就是最多+100，最少+1，最终10个因素的影响加和得到的值，也是复合中心极限定理的。

为何如此多的变量都大致服从正态分布？这个现象可以由如下定理解释：当在大量随机变量上重复很多次实验时，它们的分布总和将非常接近正态分布。由于人的身高是一个随机变量，并且基于其他随机变量，例如一个人消耗的营养量，他们所处的环境，他们的遗传等等，这些变量的分布总和最终是非常接近正态的。这就是中心极限定理。参考

for i=1:100000  %抽样的总次数
b(i)=round(100*sin(rand(1)))+round(50*(rand(1)))+round(50*(rand(1)))+round(50*(rand(1)))+round(50*(rand(1)))+round(100/((rand(1)+0.5)))+round(100*cos(rand(1)))+round(100*(rand(1)^2));
end

for i= 121:684
N(i-120)=numel(find(b==i));
end
scatter(121:684,N,'r','filled')

连续随机变量分布

1.指数分布 （类比感觉有点问题，继续思考）

2.贝塔分布

3.伽马分布

4.洛伦兹分布/柯西分布

5.正态分布

You Might Also Like

MIT-离散随机过程

概率系统分析和应用概率

简单回忆-概率论与数理统计

Leave a Reply Cancel reply

1.指数分布（类比感觉有点问题，继续思考）