概率统计随机过程之经验函数分布

x1,x2,,xnx_1, x_2, \cdots, x_n是取自总体XX的样本, 其分布函数为F(x)F(x),F(x)F(x)是未知的. 为了估计分布函数F(x)=P(Xx)F(x)=P(X\le x), 使用如下统计量 Fn(x)=#{i:xix}n, F_n(x)=\frac{\#\{i: x_i\leq x\}}{n}, 其中#A\#A表示集合AA中元素的个数, Fn(x)F_n(x)称为经验分布函数 (empirical distribution function). 上式中经验分布函数Fn(x)F_n(x)的定义体现了用频率近似概率的想法.

如果用IA(x)I_A(x)表示集合AA的特征函数(示性函数), 即 IA(x):={1,xA,0,xA, I_A(x):=\begin{cases} 1,x \in A,\\ 0,x \notin A, \end{cases} 则经验分布函数Fn(x)F_n(x)可以改写成 Fn(x)=1ni=0nI[xi,](x).I[xi,](x)={1,xix,0,xi>x, F_n(x)=\frac{1}{n}\sum_{i=0}^nI_{[x_i,\infty]}(x).\\ I_{[x_i,\infty]}(x)=\begin{cases} 1,x_i \le x,\\ 0,x_i > x, \end{cases} 将样本x1,x2,,xnx_1,x_2,⋯,x_n理解成样本值时, Fn(x)F_n(x)是一个分布函数. 设随机变量WFn(x)W∼F_n(x), 则WW服从离散分布, 在{x1,x2,,xn}\{x_1,x_2,⋯,x_n\}内取值, 如果各xix_i互不相同则WW服从{x1,x2,,xn}\{x_1,x_2,⋯,x_n\}上的离散均匀分布P(W=xi)=1/n,i=1,2,,n.P(W=x_i)=1/n, i=1,2,⋯,n.如果{x1,x2,,xn}\{x_1,x_2,⋯,x_n\}中有相同的观测值则其相应的取值概率是1/n1/n乘以重复次数.

对样本x1,x2,,xnx_1,x_2,⋯,x_n从小到大排序得到x(1)x(2)x(n)x_{(1)}≤x_{(2)}≤⋯≤x_{(n)}, 称为样本的次序统计量. 如果x(1)x(2)x(n)x_{(1)}≤x_{(2)}≤⋯≤x_{(n)}, 易见 Fn(x)={0,x<x(1),in,x(i)x<x(i+1),i=1,2,,n1,1,xx(n). F_n(x)=\begin{cases} 0, & \textrm{当}\, x< x_{(1)},\\ \dfrac{i}{n}, & \textrm{当}\,x_{(i)}\leq x< x_{(i+1)},\quad i=1,2,\cdots, n-1,\\ 1, & \textrm{当}\, x\geq x_{(n)}. \end{cases} 将样本x1,x2,,xnx_1,x_2,⋯,x_n看成随机变量时, Fn(x)F_n(x)是样本统计量.

I[xi,)(x)I_{[x_i,∞)}(x)是独立同分布的随机变量, 其共同分布为两点分布b(1,F(x))b(1,F(x)). 由Glivenko-Cantelli定理可知, 当nn→∞时, supxRFn(x)F(x)    a.s.    0. \sup_{x\in\mathbb R}|F_n(x)-F(x)| \xrightarrow[]{\;\;{\rm a.s.}\;\;} 0. 此结果表明Fn(x)F_n(x)F(x)F(x)的一致强相合估计(uniformly and strongly consistent estimator). 于是当样本容量nn充分大时, Fn(x)F_n(x)能良好地逼近总体分布函数F(x)F(x). 这是在统计学中以样本推断总体的依据.

如果随机变量WFn(x)W∼F_n(x), 显然WW的期望 E(W)=1ni=1nxi=xˉ, E(W)=\frac{1}{n}\sum_{i=1}^nx_i=\bar x, 即样本均值. 所以样本均值可以理解成服从经验分布的随机变量的数学期望. 样本均值xˉ\bar x用于估计总体均值E(X)E(X), 其本质上是用经验分布函数Fn(x)F_n(x)近似总体分布函数F(x)F(x). 用经验分布函数Fn(x)F_n(x)近似总体分布函数F(x)F(x)的一个应用是bootstrap方法.

直方图 (histogram) 是估计分布密度非常直观简单的方法.

参考文献