概率统计随机过程核心之大数定理和中心极限定理
概率统计随机过程核心大数定理和中心极限定理
随机变量序列的收敛性
依分布收敛
定义1:设随机变量序列{ X n } \{X_n\} { X n } 的分布函数列是{ F n ( X ) } \{F_n(X)\} { F n ( X )} ,X X X 的分布函数是F ( X ) F(X) F ( X ) ,若在F ( X ) F(X) F ( X ) 的每一个连续点都成立lim n → ∞ F n ( X ) = F ( X ) \lim_{n→\infty}F_n(X)=F(X) lim n → ∞ F n ( X ) = F ( X ) ,则称F n ( X ) ⟶ W F ( X ) F_n(X)\overset{W}{\longrightarrow} F(X) F n ( X ) ⟶ W F ( X ) ,或X n ⟶ L / D X X_n\overset{L/D}{\longrightarrow} X X n ⟶ L / D X 。
其中W , Weak W,\text{Weak} W , Weak 表示弱收敛,用于分布函数列;L , convergence in law ; D , Distribution L,\text{convergence in law}; D,\text{Distribution} L , convergence in law ; D , Distribution 表示依分布收敛,用于随机变量序列。依分布收敛的本质是函数列的收敛,而非随机变量的收敛,因此我们要重点关注的是分布“函数”,在函数列弱收敛的“弱”则体现在函数不是所有点的点点收敛,而是只有在连续点才收敛。在这个定义中,我们需要注意几个点:
(1)F ( x ) F(x) F ( x ) 要求的是所有连续点,并非所有点。
例1:一个离散随机变量序列X n X_n X n 分布列如下所示: |X n X_n X n |1 n \frac{1}{n} n 1 |⟶ n → ∞ \overset{n→\infty}{\longrightarrow} ⟶ n → ∞ |X X X | 0 | |:---:|:-----------:|:-----------------------------------:|:-:|:-:| | P | 1 |⟶ {\longrightarrow} ⟶ |P P P | 1 | X n X_n X n 依分布收敛到X X X ,但是分布函数F ( x ) F(x) F ( x ) 在间断点x = 0 x=0 x = 0 显然是不收敛的。
(2)只有F ( x ) F(x) F ( x ) 是一个分布函数的时候,而不是任意函数,才能说是依分布收敛。
依概率收敛
定义2:设{ X n } \{X_n\} { X n } 为一随机变量序列,X X X 为一随机变量,如果对任意的ε > 0 \varepsilon>0 ε > 0 ,有 lim n → ∞ P ( ∣ X n − X ∣ < ε ) = 1 \lim_{n→∞}P({|X_n-X|<\varepsilon})=1 n → ∞ lim P ( ∣ X n − X ∣ < ε ) = 1 则称{ X n } \{X_n\} { X n } 依概率收敛于X X X ,记作X n ⟶ P X X_n\overset{P}{\longrightarrow}X X n ⟶ P X 。P P P 表示Probability,概率。
这个定义也有几个注意事项:
(1)与数列极限{ a n } \{a_n\} { a n } 的区别。数列极限的收敛比较好理解,就是逐渐逼近某个点。比如下右图中y = ( sin x x ) 2 y=(\frac{\sin x}{x})^2 y = ( x s i n x ) 2 所示,点序列含逐渐趋向于0。而依概率收敛,是指偏离收敛目标的概率趋于0,以下左图为例,Gamma分布的概率密度函数随β \beta β 值减小,逐渐集中到0附近,也就是说取值大于0 + ε 0+\varepsilon 0 + ε 的概率会越来越小并趋于0,但是仍然有取到一个远大于0的值的可能性。所以依概率收敛是从概率密度/质量函数的角度理解的。
Figure 1: 依概率收敛与数列收敛区别.png
(2)X X X 既可以是随机变量,也可以是一常数(退化分布)。(但是,我遇到的场景基本上都是常数)。
依概率收敛的等价形式:
若lim n → ∞ E ( X n ) = c \lim_{n→∞} E(X_n) = c lim n → ∞ E ( X n ) = c ,且lim n → ∞ var ( X n ) = 0 \lim_{n→∞} \text{var}(X_n) = 0 lim n → ∞ var ( X n ) = 0 ,则X n ⟶ P c X_n\overset{P}{\longrightarrow}c X n ⟶ P c 。(可用切比雪夫不等于证明)
依概率收敛的性质:
四则运算。设X n , Y n {X_n},{Y_n} X n , Y n 是两个随机变量序列,X , Y X,Y X , Y 是两个随机变量(常数也可以),如果X n ⟶ P X , Y n ⟶ P Y X_n\overset{P}{\longrightarrow}X,Y_n\overset{P}{\longrightarrow}Y X n ⟶ P X , Y n ⟶ P Y 1 ) X n ± Y n ⟶ P X ± Y 2 ) X n × Y n ⟶ P X × Y 3 ) X n ÷ Y n ⟶ P X ÷ Y 1)~~ X_n\pm Y_n \overset{P}{\longrightarrow} X\pm Y\\
2)~~ X_n\times Y_n \overset{P}{\longrightarrow} X\times Y\\
3)~~ X_n\div Y_n \overset{P}{\longrightarrow} X\div Y 1 ) X n ± Y n ⟶ P X ± Y 2 ) X n × Y n ⟶ P X × Y 3 ) X n ÷ Y n ⟶ P X ÷ Y
适用于函数。如果X n ⟶ P X , g ( x ) X_n\overset{P}{\longrightarrow}X,g(x) X n ⟶ P X , g ( x ) 是直线上的连续函数,则:g ( X n ) ⟶ P g ( X ) g(X_n)\overset{P}{\longrightarrow}g(X) g ( X n ) ⟶ P g ( X ) 。
依概率收敛与依分布收敛的关系。依概率收敛⇒ \Rightarrow ⇒ 依分布收敛;当二者收敛到同一常数时,有依概率收敛⟶ P C ⇔ \overset{P}{\longrightarrow} C\Leftrightarrow ⟶ P C ⇔ 依分布收敛⟶ P C \overset{P}{\longrightarrow} C ⟶ P C 。
几乎处处收敛(依概率1收敛)
定义3:设{ X n } \{X_n\} { X n } 为一随机变量序列,X X X 为一随机变量,如果有 lim n → ∞ P ( X n = X ) = 1 \lim_{n→∞}P({X_n=X})=1 n → ∞ lim P ( X n = X ) = 1 则称{ X n } \{X_n\} { X n } 几乎处处(依概率1)收敛于X X X ,记作X n ⟶ a . s / a . e X X_n\overset{a.s/a.e}{\longrightarrow}X X n ⟶ a . s / a . e X 。a . s / a . e a.s/a.e a . s / a . e 表示almost surely 或 almost everywhere,几乎处处。
显然,几乎处处收敛(依概率1收敛)的收敛性比依概率收敛更强,与ε \varepsilon ε 无关。
收敛性之间的关系
几乎处处收敛(依概率1收敛)⇒ \Rightarrow ⇒ 依概率收敛⇒ \Rightarrow ⇒ 依分布收敛。
L p L^p L p 收敛⇒ \Rightarrow ⇒ 依概率收敛⇒ \Rightarrow ⇒ 依分布收敛。
L p L^p L p 收敛与几乎处处收敛(依概率1收敛)之间互相不可推导,即没有等价性。
依概率收敛与一系列弱大数定律相关。
几乎处处收敛(依概率1收敛)与强大数定律相关。
在收敛到同一常数时,依概率收敛与依分布收敛等价。
大数定理
在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。这个定律核心是,样本数量越多,则其算术平均值就有越高的概率接近期望值 。
大数定律很重要,因为它“说明”了一些随机事件的均值的长期稳定性 。人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,亦即偶然之中包含着必然。
切比雪夫不等式的一个特殊情况 、辛钦定理 和伯努利大数定律 等等都概括了这一现象,都可以称为大数定律。而这几种大数定律都是依概率收敛 的,而相对于几乎处处收敛较弱,所以又是弱大数定律 的几种表现形式。对应的,能够证明为几乎处处收敛 的大数定律称为强大数定律 。
弱大数定律及其几种形式
弱大数定律主要描述一系列依概率收敛 的随机变量序列 ,利用在序列序数趋近于无穷时,序列与收敛目标的距离小于一小正数ε \varepsilon ε 这种模式定义。具体描述为,当随机变量序列{ X n } \{X_n\} { X n } 满足一些条件时 有: 1 n ∑ i = 1 n X i ⟶ P E ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) 即 lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ε } = 1 (1) \frac{1}{n}\sum_{i=1}^n X_i\overset{P}{\longrightarrow}E(\frac{1}{n}\sum_{i=1}^n X_i)=\frac{1}{n}\sum_{i=1}^n E(X_i)\\
即\lim_{n\rightarrow\infty} P\{|\frac{1}{n}\sum_{i=1}^n X_i-\frac{1}{n}\sum_{i=1}^n E(X_i)|<\varepsilon\}=1\tag{1} n 1 i = 1 ∑ n X i ⟶ P E ( n 1 i = 1 ∑ n X i ) = n 1 i = 1 ∑ n E ( X i ) 即 n → ∞ lim P { ∣ n 1 i = 1 ∑ n X i − n 1 i = 1 ∑ n E ( X i ) ∣ < ε } = 1 ( 1 ) 也就是说,这些随机变量的平均值趋近于其各期望的和的平均值。注意,我们在第一项中不需要取平均的期望,虽然是随机变量,但是其平均仍然具有稳定性(趋向于确定性)。
历史上,有很多人名命名的弱大数定律,以下分两大类共八个弱大数定律来具体阐释。
切比雪夫不等于相关的大数定律
(一)切比雪夫大数定律:设{ X n } \{X_n\} { X n } 为两两不相关 的随机变量序列,方差为:Var ( X i ) = σ i 2 ( i = 1 , 2 , … ) {\displaystyle \operatorname {Var} (X_{i})=\sigma_i^{2}\quad (i=1,\ 2,\ \dots )} Var ( X i ) = σ i 2 ( i = 1 , 2 , … ) ,且有一致上界 ,即var ( X i ) ≤ c \text{var}(X_i)\leq c var ( X i ) ≤ c ,对任意i i i 成立。则有式( 1 ) (1) ( 1 ) 成立。
证明:利用切比雪夫不等式。 P { ∣ 1 n ∑ i = 1 n X i − E ( 1 n ∑ i = 1 n X i ) ∣ ≥ ε } ≤ var ( 1 n ∑ i = 1 n X i ) ε 2 = 两两不相关 ∑ i = 1 n var ( X i ) n 2 ε 2 ≤ var ( X i ) ≤ c n c n 2 ε 2 = c n ε 2 \begin{aligned}
P\{|\frac{1}{n}\sum_{i=1}^n X_i-E(\frac{1}{n}\sum_{i=1}^n X_i)|\geq \varepsilon\}&\leq \frac{\text{var}(\frac{1}{n}\sum_{i=1}^n X_i)}{\varepsilon^2}\\
\overset{两两不相关}{=}\frac{\sum_{i=1}^n\text{var}(X_i)}{n^2\varepsilon^2}\overset{\text{var}(X_i)\leq c}{\leq} \frac{nc}{n^2\varepsilon^2}&=\frac{c}{n\varepsilon^2}
\end{aligned} P { ∣ n 1 i = 1 ∑ n X i − E ( n 1 i = 1 ∑ n X i ) ∣ ≥ ε } = 两两不相关 n 2 ε 2 ∑ i = 1 n var ( X i ) ≤ var ( X i ) ≤ c n 2 ε 2 n c ≤ ε 2 var ( n 1 ∑ i = 1 n X i ) = n ε 2 c 显然当n → ∞ n→∞ n → ∞ 时,有c n ε 2 → 0 \frac{c}{n\varepsilon^2}→0 n ε 2 c → 0 。切比雪夫大数定律得证。
(二)独立同分布场合的大数定律:设{ X n } \{X_n\} { X n } 为独立同分布的随机变量序列,且方差σ 2 \sigma^2 σ 2 存在,则有式( 1 ) (1) ( 1 ) 成立。
这个大数定律没有以人名命名,是一直被普遍认为比较直观的大数定律。独立同分布是比两两不相关更强的条件,且由于是i.i.d的,所以方差存在,等同于有一致上界。因此可以由( 一 ) ⇒ ( 二 ) (一)\Rightarrow (二) ( 一 ) ⇒ ( 二 ) 。
(三)伯努利大数定律:设在n n n 次独立重复伯努利 试验中,事件X X X 发生的次数为n x n_{x} n x ,事件X X X 在每次试验中发生的总体概率为p p p ,n x n \frac{n_{x}}{n} n n x 代表样本发生事件X X X 的频率。则对任意正数ε > 0 \varepsilon >0 ε > 0 ,伯努利大数定律表明: lim n → ∞ P { ∣ n x n − p ∣ < ε } = 1 \lim _{n\to \infty }{P{\left\{\left|{\frac {n_{x}}{n}}-p\right|<\varepsilon \right\}}}=1 n → ∞ lim P { ∣ ∣ n n x − p ∣ ∣ < ε } = 1
换言之,事件发生的频率依概率收敛于事件的总体概率 。该定理以严格的数学形式表达了频率的稳定性,也就是说当n n n 很大时,事件发生的频率于总体概率有较大偏差的可能性很小。
伯努利大数定律是第一个被明确提出的大数定律。原始证明没有用切比雪夫不等于证明(当时还没有此不等式),而是用了很繁琐的方式。今天,我们可以直接从(一)或(二)证明出来。因为n n n 次独立重复伯努利是n n n 个i.i.d的随机变量序列,且方差为p ( 1 − p ) p(1-p) p ( 1 − p ) 存在,显然(三)就是(二)的一种特殊情况。
(四)马尔可夫大数定律
切比雪夫大数定理的进一步
(五)泊松大数定律
伯努利大数定律大数定理的进一步
(六)伯恩斯坦大数定律
有相互独立性扩展为序列渐进不相关(比独立性更弱的要求)
(七)格涅坚科大数定律
矩估计的理论基础
用特征函数证明的大数定律
(八)辛钦大数定理:陈述为:独立同分布 的样本均值依概率收敛 于期望值。 X ‾ n → P μ as n → ∞
{\displaystyle {\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \quad {\textrm {as}}\quad n\to \infty }
X n P μ as n → ∞ 也就是说对于任意正数ε ε ε , lim n → ∞ P ( ∣ X ‾ n − μ ∣ > ε ) = 0 或者 lim n → ∞ P ( ∣ X ‾ n − μ ∣ < ε ) = 1 \lim_{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0 或者\\
\lim_{n\to \infty }P\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1 n → ∞ lim P ( ∣ X n − μ ∣ > ε ) = 0 或者 n → ∞ lim P ( ∣ X n − μ ∣ < ε ) = 1
八个弱大数定律的比较
强大数定律
后面的数学家在弱大数定理的基础上证明出了更好的强大数定理。
强大数定律指出,样本均值以概率1收敛于期望值。a.s. 表示almost surely. X ‾ n → a.s. μ as n → ∞
{\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty } X n a.s. μ as n → ∞ 即 P ( lim n → ∞ X ‾ n = μ ) = 1
{\displaystyle P\left(\lim_{n\to \infty }{\overline {X}}_{n}=\mu \right)=1} P ( n → ∞ lim X n = μ ) = 1
中心极限定理
中心极限定理是概率论中的一组定理 。中心极限定理说明,在适当的条件下,大量相互独立随机变量 的均值经适当标准化后依分布收敛于正态分布 。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
独立同分布条件下的中心极限定理
棣莫佛-拉普拉斯定理
棣莫佛-拉普拉斯(de Moivre - Laplace)定理是中央极限定理的最初版本,讨论了服从二项分布的随机变量序列。它指出,参数为n , p n, p n , p 的二项分布以n p np n p 为均值、n p ( 1 − p ) np(1-p) n p ( 1 − p ) 为方差的正态分布为极限。
若X ∼ B ( n , p ) X\sim B(n,p) X ∼ B ( n , p ) 是n n n 次伯努利实验中事件A A A 出现的次数,每次试验成功的概率为p p p ,且q = 1 − p q=1-p q = 1 − p ,则对任意有限区间[ a , b ] [a,b] [ a , b ] :
令x k = k − n p n p q x_{k}={\frac {k-np}{\sqrt {npq}}} x k = n pq k − n p (标准化x k x_k x k ),当n → ∞ n\to {\infty } n → ∞ 时
P ( X = k ) → 1 n p q ⋅ 1 2 π e − 1 2 x μ n 2 {\displaystyle P(X=k)\to {\frac {1}{\sqrt {npq}}}\cdot {\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}x_{\mu_{n}}^{2}}} P ( X = k ) → n pq 1 ⋅ 2 π 1 e − 2 1 x μ n 2
P ( a ≤ X − n p n p q ≤ b ) → ∫ a b φ ( x ) d x {\displaystyle P(a\leq {\frac {X-np}{\sqrt {npq}}}\leq {b})\to \int _{a}^{b}\varphi (x)dx} P ( a ≤ n pq X − n p ≤ b ) → ∫ a b φ ( x ) d x ,其中φ ( x ) = 1 2 π e − x 2 2 ( − ∞ < x < ∞ ) \varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}(-\infty <x<\infty) φ ( x ) = 2 π 1 e − 2 x 2 ( − ∞ < x < ∞ ) .
棣莫弗-拉普拉斯定理指出二项分布的极限为正态分布。
林德伯格-列维中心极限定理
林德伯格-列维(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布 随机变量序列均值的中心极限定理。它表明,独立同分布 (iid)、且数学期望和方差有限 的随机变量序列均值的标准化和以标准正态分布为极限。
设随机变量X 1 , X 2 , ⋯ , X n X_{1},X_{2},\cdots ,X_{n} X 1 , X 2 , ⋯ , X n 独立同分布,且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E ( X i ) = μ ,D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯ , n ) D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n) D ( X i ) = σ 2 = 0 ( i = 1 , 2 , ⋯ , n ) 。记 X ˉ = 1 n ∑ i = 1 n X i , ζ n = X ˉ − μ σ / n ,
{\bar{X}}={\frac {1}{n}}\sum_{i=1}^{n}X_{i},\zeta_{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}, X ˉ = n 1 i = 1 ∑ n X i , ζ n = σ / n X ˉ − μ , 则 lim n → ∞ P ( ζ n ≤ z ) = Φ ( z ) \lim_{n\rightarrow \infty }P\left(\zeta_{n}\leq z\right)=\Phi \left(z\right)
n → ∞ lim P ( ζ n ≤ z ) = Φ ( z ) 其中Φ ( z ) \Phi (z) Φ ( z ) 是标准正态分布的分布函数。
非独立同分布条件下的中心极限定理
林德伯格-费勒定理
TODO 林德伯格条件
林德伯格-费勒定理,是中心极限定理的高级形式,是对林德伯格-列维定理的扩展,讨论独立,但不同分布 的情况下的随机变量和。它表明,满足林德伯格条件时 ,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。
李雅普诺夫中心极限定理
TODO 李雅普诺夫条件
弱大数定理和强大数定理的区别
作者:runze Zheng 链接:https://www.zhihu.com/question/21110761/answer/23815273 来源:知乎。著作权归作者所有。
强弱大数定律都是在说:随着样本数的增大,用样本的平均数来估计总体的平均数,是靠谱的。
强弱大数定律的前提条件一样:要求独立同分布iid的随机序列,要求其期望存在。
强弱大数定律的结论不同(废话)。弱大数定律比较早被证明出来,弱大数定律表示样本均值“依概率收敛 ”于总体均值;而强大数定律是比较晚被证明出来的,它证明了样本均值可以“以概率为1收敛 ”于总体均值。简单的来说,就是数学家先证明了弱大数定律,后来在没有改变前提的情况下把弱大数定律推进了一步,得到了更厉害的强大数定律。
弱大数定律和强大数定律的区别在于,前者是“依概率收敛(convergence in probability)”,后者是“几乎确定收敛(almost surely convergence)或以概率为1收敛、几乎处处收敛”。后者比前者强,满足后者的必定满足前者,而满足前者的未必满足后者。
依概率收敛的例子:考虑下图,图中的每条线都代表一个数列,虚线表示一个非常小的区间。总的来说每个数列都越来越趋近0,且大部分时候不会超过虚线所表示的小边界,但是,偶尔会有一两条线超过虚线、然后再回到虚线之内。而且我们不能保证,有没有哪一个数列会在未来再次超出虚线的范围然后再回来——虽然概率很小。注意虚线的范围可以是任意小的实数,此图中大约是,可以把这个边界缩小到,甚至,随你喜欢,这个性质始终存在。
几乎处处收敛的例子:图中的黑线表示一个随机数列,这个数列在大约n=200之后进入了一个我们定的小边界(用虚线表示),之后我们可以确定,它再也不会超出虚线所表示的边界(超出这个边界的概率是0)。跟上面的例子一样,虚线所表示的边界可以定得任意小,而一定会有一个n值,当这个数列超过了n值之后,超出这个边界的概率就是0了。
弱大数定律是较早被数学家最早证明的,即对于独立同分布的随机序列X 1 , X 2 , ⋯ , X n , ⋯ X_1,X_2,\dotsb,X_n,\dotsb X 1 , X 2 , ⋯ , X n , ⋯ ,只要总体均值μ \mu μ 存在,那么样本均值会随着n n n 增大而“依概率收敛”到总体均值,就是弱大数定律。但是弱大数定律“依概率收敛”不够完美,随着增大,样本均值有没有可能(即使概率很小)偶然偏离总体均值很多呢?后来数学家们证明了强大数定律,就是告诉我们不用担心,S n = 1 n ∑ i = 1 n X i S_n=\frac{1}{n}\sum_{i=1}^n X_i S n = n 1 ∑ i = 1 n X i 会“几乎处处收敛”到μ \mu μ 。