概率统计随机过程之经验函数分布
概率统计随机过程之经验函数分布
设x1,x2,⋯,xn是取自总体X的样本, 其分布函数为F(x),F(x)是未知的. 为了估计分布函数F(x)=P(X≤x), 使用如下统计量 Fn(x)=n#{i:xi≤x}, 其中#A表示集合A中元素的个数, Fn(x)称为经验分布函数 (empirical distribution function). 上式中经验分布函数Fn(x)的定义体现了用频率近似概率的想法.
如果用IA(x)表示集合A的特征函数(示性函数), 即 IA(x):={1,x∈A,0,x∈/A, 则经验分布函数Fn(x)可以改写成 Fn(x)=n1i=0∑nI[xi,∞](x).I[xi,∞](x)={1,xi≤x,0,xi>x, 将样本x1,x2,⋯,xn理解成样本值时, Fn(x)是一个分布函数. 设随机变量W∼Fn(x), 则W服从离散分布, 在{x1,x2,⋯,xn}内取值, 如果各xi互不相同则W服从{x1,x2,⋯,xn}上的离散均匀分布P(W=xi)=1/n,i=1,2,⋯,n.如果{x1,x2,⋯,xn}中有相同的观测值则其相应的取值概率是1/n乘以重复次数.
对样本x1,x2,⋯,xn从小到大排序得到x(1)≤x(2)≤⋯≤x(n), 称为样本的次序统计量. 如果x(1)≤x(2)≤⋯≤x(n), 易见 Fn(x)=⎩⎨⎧0,ni,1,当x<x(1),当x(i)≤x<x(i+1),i=1,2,⋯,n−1,当x≥x(n). 将样本x1,x2,⋯,xn看成随机变量时, Fn(x)是样本统计量.
I[xi,∞)(x)是独立同分布的随机变量, 其共同分布为两点分布b(1,F(x)). 由Glivenko-Cantelli定理可知, 当n→∞时, x∈Rsup∣Fn(x)−F(x)∣a.s.0. 此结果表明Fn(x)是F(x)的一致强相合估计(uniformly and strongly consistent estimator). 于是当样本容量n充分大时, Fn(x)能良好地逼近总体分布函数F(x). 这是在统计学中以样本推断总体的依据.
经验分布函数与样本均值的关系
如果随机变量W∼Fn(x), 显然W的期望 E(W)=n1i=1∑nxi=xˉ, 即样本均值. 所以样本均值可以理解成服从经验分布的随机变量的数学期望. 样本均值xˉ用于估计总体均值E(X), 其本质上是用经验分布函数Fn(x)近似总体分布函数F(x). 用经验分布函数Fn(x)近似总体分布函数F(x)的一个应用是bootstrap方法.
经验分布函数与直方图的关系
直方图 (histogram) 是估计分布密度非常直观简单的方法.
直方图作法
参考文献