三种简单的分布 (离散随机变量)
1.伯努利分布 (Bernoulli distribution)
伯努利分布,又叫作两点分布或者0-1分布,是为了纪念瑞士数学家雅各布·伯努利而得此名。试验成功,得到的随机变量是0;试验失败,随机变量取1。每次成功的概率为p。很容易知道,数学期望也是p。方差的计算如下:
\((0-p)^{2}(1-p)+(1-p)^{2} p=p(1-p)\)
要注意的是,伯努利分布描述的是每一次单独试验的随机变量的分布。如果我们将伯努利试验重复n次,就可以得到二项分布。
2. 二项分布 (Binomial distribution)
同样的类似伯努利分布,每次试验要么成功要么失败,每次成功的概率是\(p\),但是这里的实验次数是\(n \)次,而不是\(1 \)次,也就是说当\(n=1 \)的时候,二项分布退化为伯努利分布。\(n \)次实验中,成功的次数由概率质量函数给出:
\(f(k, n, p)=\operatorname{Pr}(X=k)=\left(\begin{array}{l}{n} \\ {k}\end{array}\right) p^{k}(1-p)^{n-k}\)
3.泊松分布 (Poisson distribution)
前面的二项分布试验重复的次数\(n \)一般不会很大,也就是说每次试验需要花费的时间是不可忽略的,比如丢硬币,每次丢硬币或者数硬币都是要花时间的。如果每次试验发生的时间是可以忽略不计的,换句话说,每一秒发生了无穷多次试验。在连续时间段内,该事件发生的次数服从泊松分布。虽然每次试验花费的时间无穷小,但是连续时间其实可以认为是无穷大的。假设每一秒试验\(n \)次,\(n \)趋近于无穷大,也就是说每次试验花费\(\frac { 1}{ n } \)秒,那么在\( 1\)秒内,试验的次数是\(n \)无穷大,而且这\(n \)次试验每次都是相互独立的(可以看作是伯努利分布),\(n \)次试验放在一起的结果就相当于二项分布的极限形式。比如五分钟内,某电子元件遭受脉冲的次数、某一服务设施在一定时间内受到的服务请求的次数。
为了计算泊松分布的概率质量函数,我们要用到试验次数\(n \),但\(n \)趋近于无穷大,我们不可能把\(n \)带入直接计算,面前伯努利分布的\(n \)是\( 1\)次,二项分布的\(n \)是一个有限的数,所以它们都很容易计算,但是对于泊松分布,不能简单的带入\(n \)计算。虽然\(n \)是无穷大,但是我们可以知道单位时间内随机事件的平均发生率λ(次数)。
概率质量函数:
\(P(X=k)=\frac{e^{-\lambda} \lambda^{k}}{k !}\)
简单证明如下:
\( \begin{aligned} \lim _{n \rightarrow \infty} P(X=k) &=\lim _{n \rightarrow \infty}\left(\begin{array}{c}{n} \\ {k}\end{array}\right) p^{k}(1-p)^{n-k} \\ &=\lim _{n \rightarrow \infty} \frac{n !}{(n-k) ! k !}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k} \\ &=\lim _{n \rightarrow \infty}\left[\frac{n !}{\left(n^{k}(n-k) !\right.}\right]\left(\frac{\lambda^{k}}{k !}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-k} \\ &=\lim _{n \rightarrow \infty}\left[\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \cdots\left(1-\frac{k-1}{n}\right)\right]\left(\frac{\lambda^{k}}{k !}\right)\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-k} \\ &=\left(\frac{\lambda^{k}}{k !}\right) \exp (-\lambda) \end{aligned}\)
其实关键就是利用\(e\)的定义。
当二项分布的n很大,而且p很小的时候,可以采用泊松分布来逼近。
下面举一些实际的例子来加深理解,
日常生活中,大量事件是有固定频率的。
- 某医院平均每小时出生3个婴儿
- 某公司平均每10分钟接到1个电话
- 某超市平均每天销售4包xx牌奶粉
- 某网站平均每分钟有2次访问
它们的特点就是,我们可以预估这些事件的总数(单位时间或者说某一段时间内发生的次数,其实也就是期望,但是\(n \)很大,\( p\)很小),但是没法知道具体的发生时间。已知平均每小时出生\(3 \)个婴儿,请问下一个小时/三个小时,出生\(0 \)个婴儿的概率是多少?不记得点这里。
三大定律/定理
1. 大数定律 (Law of large numbers)
用我自己的话说就是,对多次重复实验而言,重复的次数越多,那么实验结果的算术平均值越接近理论的期望值。比如扔硬币实验中,扔一次硬币,只有两种结果,要么1要么0,扔两次的话,会有四种结果,而且算数平均值为1/2的概率最大。随着扔硬币次数的增多,实际得到的平均值越来越接近1/2,虽然不是每多做一次实验,就越靠近理论期望值,但是只要总的趋势是实验次数越多,越靠近理论期望值。还有一个例子是掷骰子,实验次数越多,算术平均值越接近3.5。用数学的语言来说,对于任意一个很小的正数m,在实际实验过程中,总会有一个数n,使得重复n次试验之后,实际平均值和理论平均值的差值的绝对值小于m;用另一种方式描述,当n趋近于无穷大,实际平均值等于理论平均值的概率就是1,实际值最终收敛于期望值。
2. 中心极限定理(Central limit theorem)
维基百科和百度上的解释有点不是很好理解。先了解如下的描述方法:设从均值为\(\mu\),方差为\(\sigma^2\)的任意一个总体中抽取样品量为\( n\)的样品,当\( n\)充分大时,样本的均值\(\bar{X}\)的抽样分布近似服从均值为\(\mu\),方差为\(\sigma^2/n\)的正态分布。
同样以掷骰子作为例子,然后用matlab代码分析
n=1; %每次抽样的样本数(每次抽样掷骰子的次数)
for i=1:100000 %抽样的总次数
b(i)=sum(unidrnd(6,[1,n]));% 每次循环得到1*n的数组,里面的元素都是1-6的随机整数,将数组求和得到的值赋给b(i),总共抽取(循环)100000次
for i= n*1:n*6 % 上一个循环中,每个循环得到的数组含有n个元素,所以每个数组元素和必定分布在n*1到n*6的范围内。
N(i-n+1)=numel(find(b==i)); % 统计b数组中包含的n*1到n*6的范围每个数的个数。
end
scatter(n*1:n*6,N,'r','filled')
那么抽样\(100000 \)次(足够多,以展现抽样结果的分布情况),
当\( n=1\),接近均分,结果如下:
当\(n=2 \),结果如下:
当n=5,很接近正态分布:
当n=100,很接近正态分布:
具体的变化过程可以参见这里(只要每次取和的元素足够多,一般\(n \)超过\( 30\)即可,无论什么函数最终的结果都满足正态分布)。另外高尔顿板问题也很好地展示了中心极限定理。高尔顿板可以看作是伯努利试验的实验模型。如果我们把小球碰到钉子看作一次实验,而把从右边落下算是成功,从左边落下看作失败,就有了一次\( p=\frac {1 }{ 2 } \)的伯努利试验。小球从顶端到底层共需要经过n排钉子,这就相当于一个\( n\)次伯努利试验(相当于每次采样,要取n个数(里面每个数都可能是\( 1\)或者\(0 \),而且概率都是\( \frac { 1 }{ 2 } \))的和;所有小球的总个数就是采样的次数)。小球的高度曲线也就可以看作二项分布随机变量的概率密度函数。因此,中央极限定理解释了高尔顿板小球累积高度曲线为什么是正态分布独有的钟形曲线。
对于中心极限理论的通俗理解可以展示,可以参考这里。对任何满足中心极限定理的情况,为了计算特定范围的概率,我们必须先把得到的高斯分布归一化,得到的
注:高尔顿板,也叫梅花机,和杨辉三角异曲同工。
3. 贝叶斯定理(Bayes' theorem)
贝叶斯定理是关于随机事件A和B的条件概率的一则定理
\(P(A | B)=\frac{P(B | A) P(A)}{P(B)}\)
具体参见视频,总而言之,就是A,B两件事情不是完全独立的,两者之间存在相互联系。比如每4个人中就有一个人因为心脏病而死亡,也就是说是四分之一的概率,那么哥哥和弟弟同时因为心脏病而死亡的概率不是简单的十六分之一,因为如果哥哥因为心脏病而死亡,那么弟弟由于和哥哥基因以及生活方式的相似性,得心脏病的几率要比原来的四分之一高很多。问题的关键是A和B之间存在correlation。
其他概念
1.概率质量函数和概率密度函数,概率分布函数
概率质量函数Probability mass function,概率密度函数Probability density function的区别是,前者描述的是离散随机变量,后者描述的是连随机续变量。每一个概率质量函数的数值就是对应的事件发生的概率大小,所有不同事件发生的概率和为1;类似但是有些不同地,某一点的概率密度函数是不能表示该事件发生的概率,因为肯定是无穷小,只有概率密度函数在连续随机变量的一段区间上积分,积分的面积才是发生的概率,那么概率密度函数对连续随机变量总的积分面积就是1。可以参考这里。
概率质量函数用\(P(X=k)\)来表示,概率密度函数一般用\(f(x,\lambda)\),其中\(\lambda\)为数学期望,计算的时候,这个期望是已知的固定值。
概率分布函数是概率论的基本概念之一。在实际问题中,常常要研究一个随机变量ξ取值小于某一数值x的概率,这概率是x(离散、连续均可)的函数,称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞)。