连续随机变量分布
1.指数分布 (类比感觉有点问题,继续思考)
[mathjax]
了解指数分布,我们可以先从自己熟悉的点入手,我平常涉及最多的是发光寿命的计算。计算当\(t=0\)时刻,有\(n\)个电子处在激发态,然后这些激发态的电子会陆续衰减(假设只有一个衰减通道),任意时刻每个激发态电子弛豫到基态的概率都是\(p\),不会随着时间或者激发态电子的个数而变化。$$\begin{array}{l}{d n=-n p d t \Rightarrow \frac{d n}{n}=-p d t \Rightarrow \ln n=-p t+C} \\ \\{\Rightarrow n=A e^{-p t}=A e^{\frac{-t}{\tau}}}\end{array}$$
随机变量时间的分布是连续的,也就是说“某时刻有\(a\)个电子回到基态,继而利用\(a/n\)来计算该时刻电子弛豫下来的概率”是没有意义的,问题的关键是时间的连续可以无限分割的特点。这里的\(n\)是激发态电子的数目,那么\(A\)就是在初始时刻激发态电子的数目。我们定义寿命是说发光强度变为初始值的\(1/e\),这个等价于激发态电子的数目变为初始时的\(1/e\)。初始值的变化不会改变衰减特性,只是让每个时刻对应的发光强(激发态电子数目)等比例变化。
很容易知道,\(t-n\)函数与对应的第一象限轴围成的面积是\(\frac{A}{p}\),在实际数学意义上的概率密度函数的积分面积一定是\(1\),所以进行归一化之后,可以得到\(A=p\),也即如下:\(f(t ; p)=p e^{-p t}\)
再看看维基百科的描述,一个指数分布的概率密度函数是:
$$f(x ; \lambda)=\left\{\begin{array}{cc}{\lambda e^{-\lambda x}} & {, x \geq 0} \\ {0} & {, x<0}\end{array}\right.$$
其中\(\lambda\)表示的是单位时间该事件发生的次数,次数是离散的,但是\(x\)是连续的。分布函数如下:
$$F\left( a \right) =P\left( x\le a \right) =1-\int _{ 0 }^{ a }{ f\left( x;\lambda \right) } dx=1-\int _{ 0 }^{ a }{ \lambda e^{ -\lambda t } } =1-e^{ -\lambda a }\\ $$
这里的\(F(a)\)表示的是\(a\)时间内发生该事件的概率,注意这里只是强调该事件发生,并不管事件发生多少次,可能发生1次,也可能发生100次。如果随机变量\(X\)是表示在\(a\)时间内某一事件发生的次数,那么:
$$P\left( X\ge 1 \right) =F\left( a \right) =1-{ e }^{ -\lambda a }\\
P\left( X=0 \right) =1-P\left( X\ge 1 \right) =1-F\left( a \right) ={ e }^{ -\lambda a }$$下面回忆一下泊松分布,单位时间内发生的次数期望\(\lambda\),那么\(a\)时间内发生的次数期望是\(\lambda a\),于是有如下:
$$\begin{array}{l}{P(X=k)=\frac{e^{-\lambda} \lambda^{k}}{k !} \Rightarrow P(X=k)=\frac{e^{-\lambda a}(\lambda a)^{k}}{k !}}\\ \\ {\Rightarrow P(X=0)=\frac{e^{-\lambda a}(\lambda a)^{0}}{0 !}=e^{-\lambda a}}\end{array}$$
指数分布最重要的特点是无记忆性(memoryless property,又称遗失记忆性),通俗来讲,就是一个灯泡已经用了3天,那么能再用2天不坏的概率,和一个新的灯泡用2天不坏的概率相等。我们可以同样用先前激发态电子衰减的例子类比,比如在\(t=0\)时刻,\(A\)电子处在激发态,而\(B\)电子处在基态,\(t=t_0\)时刻,\(A\)电子还是处在激发态,而\(B\)电子也被激发到激发态,那么这个时候,\(A\)和\(B\)量子电子是等效的,也就是说所有的特性都是一样的。
对于灯泡寿命的无记忆性,可能有点难以理解,用了3天之后,相比新的灯泡而言,应该更容易坏。这里我们是采用理想化的情况,如果将灯泡或者其他电器考虑作理想的电器,器件不会因为使用而老化。此时,电器的寿命是随机的,内部仿佛每秒钟都在扔硬币,扔到正面,电器就坏了,在这种情况下,我们就认为电器的寿命是服从指数分布的。
下面参考别人的内容,通过举实际的例子,加深对指数分布的理解,以及指数分布(连续随机变量)和泊松分布(离散随机变量)之间的联系。
指数分布是事件的时间间隔的概率。下面这些都属于指数分布。
- 婴儿出生的时间间隔
- 来电的时间间隔
- 奶粉销售的时间间隔
- 网站访问的时间间隔
指数分布的公式可以从泊松分布推断出来。假设某个医院每小时出生\(\lambda\)个婴儿,并且这个概率是稳定的,也就是说,单位时间内出生的婴儿的数目的数学期望是稳定的,那么每\(t\)小时,出生的婴儿数目期望是\(\lambda t\)。如果要计算多久\((t)\)之后,下一个婴儿出生,等效于\(t\)小时内没有婴儿出生,于是有如下:
糊涂了,待续
F\left( a \right) =P\left( x\le a \right) =\int _{ 0 }^{ a }{ f\left( x;\lambda \right) } dx=1-\int _{ 0 }^{ a }{ \lambda e^{ -\lambda t } } =1-e^{ -\lambda a }
2.贝塔分布
3.伽马分布
4.洛伦兹分布/柯西分布
5.正态分布
正态分布可以从两个方面来理解。首先简单来看,如果只是基因起决定作用,假设要从一个人控制身高的基因有10个,每一个基因可能的情况有1000种(10个基因片段都是从这1000种里面抽取),在不考虑顺序的情况下,也就是从1000个数里面选择10个,最终对身高的影响是数值叠加。根据中心极限定理,很容易知道,最终的身高肯定是服从正态分布。现在考虑更复杂的情况,假设有A、B、C、D、E、F、G、H、I、J十个因素影响身高,然后每个因素都是从各自不同的一堆可能性中取一个值,比如A因素为基因,可能的基因选择有100种,对身高的影响为1:1:100,也就是最多+100,最少+1,最终10个因素的影响加和得到的值,也是复合中心极限定理的。
为何如此多的变量都大致服从正态分布? 这个现象可以由如下定理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。 由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。 这就是中心极限定理。参考
for i=1:100000 %抽样的总次数 b(i)=round(100*sin(rand(1)))+round(50*(rand(1)))+round(50*(rand(1)))+round(50*(rand(1)))+round(50*(rand(1)))+round(100/((rand(1)+0.5)))+round(100*cos(rand(1)))+round(100*(rand(1)^2)); end for i= 121:684 N(i-120)=numel(find(b==i)); end scatter(121:684,N,'r','filled')