概率统计随机过程核心之大数定理和中心极限定理

定义1:设随机变量序列{Xn}\{X_n\}的分布函数列是{Fn(X)}\{F_n(X)\}XX的分布函数是F(X)F(X),若在F(X)F(X)的每一个连续点都成立limnFn(X)=F(X)\lim_{n→\infty}F_n(X)=F(X),则称Fn(X)WF(X)F_n(X)\overset{W}{\longrightarrow} F(X),或XnL/DXX_n\overset{L/D}{\longrightarrow} X

其中W,WeakW,\text{Weak}表示弱收敛,用于分布函数列;L,convergence in law;D,DistributionL,\text{convergence in law}; D,\text{Distribution}表示依分布收敛,用于随机变量序列。依分布收敛的本质是函数列的收敛,而非随机变量的收敛,因此我们要重点关注的是分布“函数”,在函数列弱收敛的“弱”则体现在函数不是所有点的点点收敛,而是只有在连续点才收敛。在这个定义中,我们需要注意几个点:

(1)F(x)F(x)要求的是所有连续点,并非所有点。

例1:一个离散随机变量序列XnX_n分布列如下所示: |XnX_n|1n\frac{1}{n}|n\overset{n→\infty}{\longrightarrow}|XX| 0 | |:---:|:-----------:|:-----------------------------------:|:-:|:-:| | P | 1 |{\longrightarrow}|PP| 1 | XnX_n依分布收敛到XX,但是分布函数F(x)F(x)在间断点x=0x=0显然是不收敛的。

(2)只有F(x)F(x)是一个分布函数的时候,而不是任意函数,才能说是依分布收敛。

定义2:设{Xn}\{X_n\}为一随机变量序列,XX为一随机变量,如果对任意的ε>0\varepsilon>0,有 limnP(XnX<ε)=1\lim_{n→∞}P({|X_n-X|<\varepsilon})=1 则称{Xn}\{X_n\}依概率收敛于XX,记作XnPXX_n\overset{P}{\longrightarrow}XPP表示Probability,概率。

这个定义也有几个注意事项:

(1)与数列极限{an}\{a_n\}的区别。数列极限的收敛比较好理解,就是逐渐逼近某个点。比如下右图中y=(sinxx)2y=(\frac{\sin x}{x})^2所示,点序列含逐渐趋向于0。而依概率收敛,是指偏离收敛目标的概率趋于0,以下左图为例,Gamma分布的概率密度函数随β\beta值减小,逐渐集中到0附近,也就是说取值大于0+ε0+\varepsilon的概率会越来越小并趋于0,但是仍然有取到一个远大于0的值的可能性。所以依概率收敛是从概率密度/质量函数的角度理解的。 依概率收敛与数列收敛区别.png

Figure 1: 依概率收敛与数列收敛区别.png

(2)XX既可以是随机变量,也可以是一常数(退化分布)。(但是,我遇到的场景基本上都是常数)。

依概率收敛的等价形式:

  • limnE(Xn)=c\lim_{n→∞} E(X_n) = c,且limnvar(Xn)=0\lim_{n→∞} \text{var}(X_n) = 0,则XnPcX_n\overset{P}{\longrightarrow}c。(可用切比雪夫不等于证明)

依概率收敛的性质:

  1. 四则运算。设Xn,Yn{X_n},{Y_n}是两个随机变量序列,X,YX,Y是两个随机变量(常数也可以),如果XnPX,YnPYX_n\overset{P}{\longrightarrow}X,Y_n\overset{P}{\longrightarrow}Y 1)  Xn±YnPX±Y2)  Xn×YnPX×Y3)  Xn÷YnPX÷Y1)~~ X_n\pm Y_n \overset{P}{\longrightarrow} X\pm Y\\ 2)~~ X_n\times Y_n \overset{P}{\longrightarrow} X\times Y\\ 3)~~ X_n\div Y_n \overset{P}{\longrightarrow} X\div Y
  2. 适用于函数。如果XnPX,g(x)X_n\overset{P}{\longrightarrow}X,g(x)是直线上的连续函数,则:g(Xn)Pg(X)g(X_n)\overset{P}{\longrightarrow}g(X)
  3. 依概率收敛与依分布收敛的关系。依概率收敛\Rightarrow依分布收敛;当二者收敛到同一常数时,有依概率收敛PC\overset{P}{\longrightarrow} C\Leftrightarrow 依分布收敛PC\overset{P}{\longrightarrow} C

定义3:设{Xn}\{X_n\}为一随机变量序列,XX为一随机变量,如果有 limnP(Xn=X)=1\lim_{n→∞}P({X_n=X})=1 则称{Xn}\{X_n\}几乎处处(依概率1)收敛于XX,记作Xna.s/a.eXX_n\overset{a.s/a.e}{\longrightarrow}Xa.s/a.ea.s/a.e表示almost surely 或 almost everywhere,几乎处处。

显然,几乎处处收敛(依概率1收敛)的收敛性比依概率收敛更强,与ε\varepsilon无关。

  1. 几乎处处收敛(依概率1收敛)\Rightarrow依概率收敛\Rightarrow依分布收敛。
  2. LpL^p收敛\Rightarrow依概率收敛\Rightarrow依分布收敛。
  3. LpL^p收敛与几乎处处收敛(依概率1收敛)之间互相不可推导,即没有等价性。
  4. 依概率收敛与一系列弱大数定律相关。
  5. 几乎处处收敛(依概率1收敛)与强大数定律相关。
  6. 在收敛到同一常数时,依概率收敛与依分布收敛等价。

在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。这个定律核心是,样本数量越多,则其算术平均值就有越高的概率接近期望值

大数定律很重要,因为它“说明”了一些随机事件的均值的长期稳定性。人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,亦即偶然之中包含着必然。

切比雪夫不等式的一个特殊情况辛钦定理伯努利大数定律等等都概括了这一现象,都可以称为大数定律。而这几种大数定律都是依概率收敛的,而相对于几乎处处收敛较弱,所以又是弱大数定律的几种表现形式。对应的,能够证明为几乎处处收敛的大数定律称为强大数定律

弱大数定律主要描述一系列依概率收敛随机变量序列,利用在序列序数趋近于无穷时,序列与收敛目标的距离小于一小正数ε\varepsilon这种模式定义。具体描述为,当随机变量序列{Xn}\{X_n\}满足一些条件时有: 1ni=1nXiPE(1ni=1nXi)=1ni=1nE(Xi)limnP{1ni=1nXi1ni=1nE(Xi)<ε}=1(1)\frac{1}{n}\sum_{i=1}^n X_i\overset{P}{\longrightarrow}E(\frac{1}{n}\sum_{i=1}^n X_i)=\frac{1}{n}\sum_{i=1}^n E(X_i)\\ 即\lim_{n\rightarrow\infty} P\{|\frac{1}{n}\sum_{i=1}^n X_i-\frac{1}{n}\sum_{i=1}^n E(X_i)|<\varepsilon\}=1\tag{1} 也就是说,这些随机变量的平均值趋近于其各期望的和的平均值。注意,我们在第一项中不需要取平均的期望,虽然是随机变量,但是其平均仍然具有稳定性(趋向于确定性)。

历史上,有很多人名命名的弱大数定律,以下分两大类共八个弱大数定律来具体阐释。

(一)切比雪夫大数定律:设{Xn}\{X_n\}两两不相关的随机变量序列,方差为:Var(Xi)=σi2(i=1, 2, ){\displaystyle \operatorname {Var} (X_{i})=\sigma_i^{2}\quad (i=1,\ 2,\ \dots )},且有一致上界,即var(Xi)c\text{var}(X_i)\leq c,对任意ii成立。则有式(1)(1)成立。

证明:利用切比雪夫不等式。 P{1ni=1nXiE(1ni=1nXi)ε}var(1ni=1nXi)ε2=两两不相关i=1nvar(Xi)n2ε2var(Xi)cncn2ε2=cnε2\begin{aligned} P\{|\frac{1}{n}\sum_{i=1}^n X_i-E(\frac{1}{n}\sum_{i=1}^n X_i)|\geq \varepsilon\}&\leq \frac{\text{var}(\frac{1}{n}\sum_{i=1}^n X_i)}{\varepsilon^2}\\ \overset{两两不相关}{=}\frac{\sum_{i=1}^n\text{var}(X_i)}{n^2\varepsilon^2}\overset{\text{var}(X_i)\leq c}{\leq} \frac{nc}{n^2\varepsilon^2}&=\frac{c}{n\varepsilon^2} \end{aligned} 显然当nn→∞时,有cnε20\frac{c}{n\varepsilon^2}→0。切比雪夫大数定律得证。

(二)独立同分布场合的大数定律:设{Xn}\{X_n\}为独立同分布的随机变量序列,且方差σ2\sigma^2存在,则有式(1)(1)成立。

这个大数定律没有以人名命名,是一直被普遍认为比较直观的大数定律。独立同分布是比两两不相关更强的条件,且由于是i.i.d的,所以方差存在,等同于有一致上界。因此可以由()()(一)\Rightarrow (二)

(三)伯努利大数定律:设在nn独立重复伯努利试验中,事件XX发生的次数为nxn_{x},事件XX在每次试验中发生的总体概率为ppnxn\frac{n_{x}}{n}代表样本发生事件XX的频率。则对任意正数ε>0\varepsilon >0,伯努利大数定律表明: limnP{nxnp<ε}=1\lim _{n\to \infty }{P{\left\{\left|{\frac {n_{x}}{n}}-p\right|<\varepsilon \right\}}}=1

换言之,事件发生的频率依概率收敛于事件的总体概率。该定理以严格的数学形式表达了频率的稳定性,也就是说当nn很大时,事件发生的频率于总体概率有较大偏差的可能性很小。

伯努利大数定律是第一个被明确提出的大数定律。原始证明没有用切比雪夫不等于证明(当时还没有此不等式),而是用了很繁琐的方式。今天,我们可以直接从(一)或(二)证明出来。因为nn次独立重复伯努利是nn个i.i.d的随机变量序列,且方差为p(1p)p(1-p)存在,显然(三)就是(二)的一种特殊情况。

(四)马尔可夫大数定律

切比雪夫大数定理的进一步

(五)泊松大数定律

伯努利大数定律大数定理的进一步

(六)伯恩斯坦大数定律

有相互独立性扩展为序列渐进不相关(比独立性更弱的要求)

(七)格涅坚科大数定律

矩估计的理论基础

(八)辛钦大数定理:陈述为:独立同分布的样本均值依概率收敛于期望值。 Xn P μasn {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \quad {\textrm {as}}\quad n\to \infty } 也就是说对于任意正数εε, limnP(Xnμ>ε)=0或者limnP(Xnμ<ε)=1\lim_{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0 或者\\ \lim_{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1

定律 分布情况 期望 方差 结论
辛钦大数定律 相互独立且同分布 存在 无要求(存在即能相等) 估算期望
切比雪夫大数定律 相互独立(不必同分布) 相同 相同 估算期望
伯努利大数定律 二项分布 相同 相同 频率=概率
相同点:n−>+∞,依概率趋近 条件逐渐变得严格

后面的数学家在弱大数定理的基础上证明出了更好的强大数定理。

强大数定律指出,样本均值以概率1收敛于期望值。a.s. 表示almost surely. Xn a.s. μasn {\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty }P(limnXn=μ)=1 {\displaystyle P\left(\lim_{n\to \infty }{\overline {X}}_{n}=\mu \right)=1}

中心极限定理是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。

棣莫佛-拉普拉斯(de Moivre - Laplace)定理是中央极限定理的最初版本,讨论了服从二项分布的随机变量序列。它指出,参数为n,pn, p的二项分布以npnp为均值、np(1p)np(1-p)为方差的正态分布为极限。

XB(n,p)X\sim B(n,p)nn次伯努利实验中事件AA出现的次数,每次试验成功的概率为pp,且q=1pq=1-p,则对任意有限区间[a,b][a,b]

xk=knpnpqx_{k}={\frac {k-np}{\sqrt {npq}}}(标准化xkx_k),当nn\to {\infty }

  1. P(X=k)1npq12πe12xμn2{\displaystyle P(X=k)\to {\frac {1}{\sqrt {npq}}}\cdot {\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}x_{\mu_{n}}^{2}}}
  2. P(aXnpnpqb)abφ(x)dx{\displaystyle P(a\leq {\frac {X-np}{\sqrt {npq}}}\leq {b})\to \int _{a}^{b}\varphi (x)dx},其中φ(x)=12πex22(<x<)\varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}(-\infty <x<\infty).

棣莫弗-拉普拉斯定理指出二项分布的极限为正态分布。

林德伯格-列维(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列均值的中心极限定理。它表明,独立同分布(iid)、且数学期望和方差有限的随机变量序列均值的标准化和以标准正态分布为极限。

设随机变量X1,X2,,XnX_{1},X_{2},\cdots ,X_{n}独立同分布,且具有有限的数学期望和方差E(Xi)=μE(X_{i})=\muD(Xi)=σ20(i=1,2,,n)D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n)。记 Xˉ=1ni=1nXiζn=Xˉμσ/n {\bar{X}}={\frac {1}{n}}\sum_{i=1}^{n}X_{i},\zeta_{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}},limnP(ζnz)=Φ(z)\lim_{n\rightarrow \infty }P\left(\zeta_{n}\leq z\right)=\Phi \left(z\right) 其中Φ(z)\Phi (z)是标准正态分布的分布函数。

TODO 林德伯格条件

林德伯格-费勒定理,是中心极限定理的高级形式,是对林德伯格-列维定理的扩展,讨论独立,但不同分布的情况下的随机变量和。它表明,满足林德伯格条件时,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

TODO 李雅普诺夫条件

作者:runze Zheng 链接:https://www.zhihu.com/question/21110761/answer/23815273 来源:知乎。著作权归作者所有。

强弱大数定律都是在说:随着样本数的增大,用样本的平均数来估计总体的平均数,是靠谱的。

  1. 强弱大数定律的前提条件一样:要求独立同分布iid的随机序列,要求其期望存在。
  2. 强弱大数定律的结论不同(废话)。弱大数定律比较早被证明出来,弱大数定律表示样本均值“依概率收敛”于总体均值;而强大数定律是比较晚被证明出来的,它证明了样本均值可以“以概率为1收敛”于总体均值。简单的来说,就是数学家先证明了弱大数定律,后来在没有改变前提的情况下把弱大数定律推进了一步,得到了更厉害的强大数定律。
  3. 弱大数定律和强大数定律的区别在于,前者是“依概率收敛(convergence in probability)”,后者是“几乎确定收敛(almost surely convergence)或以概率为1收敛、几乎处处收敛”。后者比前者强,满足后者的必定满足前者,而满足前者的未必满足后者。

依概率收敛的例子:考虑下图,图中的每条线都代表一个数列,虚线表示一个非常小的区间。总的来说每个数列都越来越趋近0,且大部分时候不会超过虚线所表示的小边界,但是,偶尔会有一两条线超过虚线、然后再回到虚线之内。而且我们不能保证,有没有哪一个数列会在未来再次超出虚线的范围然后再回来——虽然概率很小。注意虚线的范围可以是任意小的实数,此图中大约是,可以把这个边界缩小到,甚至,随你喜欢,这个性质始终存在。

弱大数定理

Figure 2: 弱大数定理

弱大数定理

几乎处处收敛的例子:图中的黑线表示一个随机数列,这个数列在大约n=200之后进入了一个我们定的小边界(用虚线表示),之后我们可以确定,它再也不会超出虚线所表示的边界(超出这个边界的概率是0)。跟上面的例子一样,虚线所表示的边界可以定得任意小,而一定会有一个n值,当这个数列超过了n值之后,超出这个边界的概率就是0了。

强大数定理

Figure 3: 强大数定理

强大数定理

弱大数定律是较早被数学家最早证明的,即对于独立同分布的随机序列X1,X2,,Xn,X_1,X_2,\dotsb,X_n,\dotsb,只要总体均值μ\mu存在,那么样本均值会随着nn增大而“依概率收敛”到总体均值,就是弱大数定律。但是弱大数定律“依概率收敛”不够完美,随着增大,样本均值有没有可能(即使概率很小)偶然偏离总体均值很多呢?后来数学家们证明了强大数定律,就是告诉我们不用担心,Sn=1ni=1nXiS_n=\frac{1}{n}\sum_{i=1}^n X_i会“几乎处处收敛”到μ\mu