概率统计随机过程之数理统计常用概念

概率统计随机过程之数理统计常用概念

总体与样本

总体是个体的集合;样本是样品的集合。一个样本里样品个数叫样本容量\(n\),每个样品都是随机抽取的,所以样品是随机变量。每次抽取的实际值/物品,是观察/观测值。\(n\)个样品(随机变量)组成\(n\)维样本空间,因此一个样本容量为\(n\)个样本是一个\(n\)维随机变量。

总体 \(\overset{N\rightarrow \infty}{\leftarrow}\) 个体
\(\downarrow\) 抽样 \(\downarrow\)
样本(\(n\)维) \(\overset{n个}{\leftarrow}\) 样品
\(\downarrow\) 等效 \(\downarrow\)
\(n\)维随机变量 \(\overset{n个}{\leftarrow}\) 随机变量
\(\downarrow\) 观测 \(\downarrow\)
\(n\)维向量 \(\overset{n个}{\leftarrow}\) 观测值
  • 对总体的要求:远比样本容量大,最好是无限总体。
  • 对样本的要求:抽样要独立、随机\(\Rightarrow\)n个独立同分布样品(i.i.d)\(\Rightarrow\)n维随机变量\(\leftrightarrow\)n个i.i.d的一维随机变量
  • 抽样方法:简单随机抽样、分层抽样、系统抽样、按比例抽样……

统计量与估计量

统计量:通过样本构造出的不含任何未知量的函数(样本函数),称此函数为统计量。

统计量通过构造函数把分散在样品中的反应总体的信息按人们的要求提取出来。需要强调的是由于样本是N维随机变量,因此其构造的函数(统计量)也是随机变量(大多数是一维)。我们通过观测,得到样本观察值后,立即可算得统计量的值。

关于统计量有以下几点说明:

  • 统计量既是函数也是随机变量。函数是从统计量的构造方式角度来说的,它是样本空间到参数空间的一个映射;而由于其自变量是一个N维随机变量(样本),同时一个随机变量的函数也是随机变量,随机变量是从值域的角度来考虑。
  • 构造统计量的目的是统计推断。统计推断包括:抽样分布(精确,渐进,近似)、参数估计(点,区间)、假设检验(参数,非参数)
  • 统计量随机性来源于自变量的随机性,当有一组样本的观测值被取出,那么统计量的随机性就没了,值也就固定了(就是单纯函数映射关系)。
  • 统计量可以简单理解为随机变量的函数

估计量:在参数估计大类的点估计中,那么用于估计未知参数的统计量称为点估计(量),简称为估计(量)

从上面的定义中,我们注意以下几点:

  • 估计量是一种统计量,也是由样本构造的函数。二者区别在于目的:估计量要估计一个未知参数
  • 要估计的未知参数设为\(\theta\),估计量用\(\hat{\theta}=\hat{\theta}(x_1,x_2,\dotsb,x_n)\)表示,\(\hat{\theta}\)的取值范围称为参数空间\(\varTheta=\{\theta\}\),那么估计量就是一个从样本空间到参数空间的映射,一个具体的观测值所得一个估计值;
  • 参数\(\theta\)可以是(1)分布中的未知参数(2)分布中的特征数(期望、方差、偏度、分位数……)(3)某事件的概率;
  • 由于构造出来以估计参数的函数不止一种,因此一个参数的估计量也不止一个。

估计量的评价指标

(1)无偏性(小样本性质)/渐进无偏性(大样本性质):表示的是无系统偏差,虽然每次的估计值与参数会有随机偏差,但这些随机偏差期望为0;

无偏估计不具有变换不变性,典型的例子就是无偏样本方差\(s^2=\frac{\sum (x_i-\bar{x})^2}{n-1}\)的平方根\(s\)(样本标准差)是总体标准差的有偏估计。但是如果变换是线性变换,那么无偏估计还是无偏的。

(2)有效性:之前指出估计量也是随机变量,如果这个估计的期望等于位置参数则为无偏;在无偏估计的基础上,我们希望每次观测得出估计值尽量差距小,这就用估计量的方差来表示。方差越小(即偏离无偏估计参数的概率越小),有效性越高。

通常,我们希望在无偏估计的基础上,估计量的方差尽量小,这就是一致最小方差无偏估计,简称为UMVUE

(3)相合性(大样本性质):当样本容量增加时,随机变量\(\hat{\theta}\)收敛于\(\theta\),直观的讲就是随着样本容量的增大,一个估计量的值能够稳定(以很大概率)在待估参数真值的附近,这就是估计量的相合性的要求。

根据随机变量收敛性的强弱,又可分为弱相合(\(\hat{\theta}\overset{P}{\rightarrow}\theta\)),强相合(\(\hat{\theta}\overset{a.s.}{\rightarrow}\theta\)),r阶矩相合(\(\hat{\theta}\overset{r}{\rightarrow}\theta\))。理论基础时大数定理。相合性也可等效于无偏(或渐进无偏)+ 方差(弱、强、r阶矩)收敛到0。

(4)渐进正态性(大样本性质):估计量的渐进正态性来源于中心极限定理,若统计量在样本容量\(n\rightarrow \infty\)时,也渐近于正态分布,称为渐进正态性。具体可定义为:如果存在一序列\(\{\sigma_n^2\}\),满足\((\hat\theta_n-\theta)/\sigma_n(\theta)\overset{L}{\rightarrow}N(0,1)\),则称\(\hat\theta_n\)\(\theta\)的渐进正态估计,\(\sigma_n^2\)称为\(\hat\theta_n\)的渐进方差。从\((\hat\theta_n-\theta)/\sigma_n(\theta)\)来看,分子项依概率收敛于\(\theta\)的速度与分母项\(\sigma_n(\theta)\)趋近于0的速度相同时,其比值才会稳定与正态分布。因此,\(\hat\theta_n\)收敛速度与渐近方差直接相关,渐近方差越小,收敛越快。

渐进正态性和相合性的关系类似于中心极限定理和大数定律。相合性是对估计的一种较低要求,它只要求估计序列\(\{\hat\theta_n\}\)在样本数量\(n\)增加的时候也趋近于\(\theta\),但是并没有指出趋近的速度(例如是\(1/n,1/\sqrt{n}\)\(1/\ln n\))。而渐进正态性补充了这一点,收敛速度与渐进方差相关。经验来看,大多数渐进正态估计都是以\(1/\sqrt{n}\)的速度收敛于被估参数的

样本的经验分布函数和样本矩

经验分布函数部分可参考笔记《概率统计随机过程之经验函数分布》。

样本矩:样本的经验分布函数\(F_n(x)\)的各阶矩统称为样本矩,又称矩统计量。

这个说法太形式化了,直白的说,经验分布函数的概率质量函数都是\(\frac{1}{n}\),样本矩就是以\(p=\frac{1}{n}\)为概率的各种期望。矩统计量我们心里默默替换成用样本构造的矩相关的函数来理解就行了。大体就这下面两种:

\[\begin{aligned} A_k&=\frac{1}{n}\sum_{i=1}^n x_i^k(k=1,2,\dotsb)&\text{样本k阶(原点)矩}\\ B_k&=\frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^k(k=1,2,\dotsb) &\text{样本k阶中心矩} \end{aligned} \]

我们可以容易证明:一般样本k阶原点矩是无偏的,样本k阶中心矩是有偏的。

所谓矩估计,就是用这些样本矩构造(凑)出特定的参数,例如偏度系数\(\hat{\beta}=B_3/B_2^{\frac{3}{2}}\)。如果需要估计的未知参数没法用样本矩构造出来,则认为此参数的矩估计不存在;相对的,如果可以用多种方法构造出来,那么就有多种矩估计,可以通过有效性,无偏性再进行进一步筛选。

抽样分布

抽样分布:统计量作为一个随机变量,其概率分布称为抽样分布,也称统计量分布、随机变量函数分布。

抽样分布就是寻求特定样本的函数(统计函数)的分布,大体分为以下三类:

  1. 精确(抽样)分布:在总体\(X\)的分布已知,如果对任意\(n\)都能导出统计量\(T(x_1,\dotsb,x_n)\)的分布的解析表达式,则为精确分布。在小样本问题中很有用。一般比较难求,大多以正态总体为研究对象,例如统计三大分布\(\chi^2,t,F\)分布等。
  2. 渐进(抽样)分布:精确分布大多数求不出来,或者很复杂。因此,退一步,在样本容量n很大或者趋近无穷时作为近似的分布,称为渐进分布。大样本时可以使用,比如中心极限定理下的正态分布、卡方分布等。
  3. 近似(抽样)分布:没啥特定规律的分布,可以在一定条件下用近似分布,常见的有假定正态分布并用样本前两阶矩替代总体前两阶矩;还有很多随机模拟方法,MCMC,Gibs采样等等。

常见统计量的抽样分布

统计抽样三大分布:卡方分布、t分布、F分布。

见笔记《概率统计随机过程之抽样的分布》

概率分布族

分布族分布类型参数空间组成一个(概率)参数分布族。此外,分布/概率和特定条件组成,且不能由该特定条件确定具体分布的分布族成为非参数分布族。

分布族是一个看似很高端,其实就是某一类概率分布的统称,比如常见的参数分布族可写成:

  • 二项分布族:\(\{b(n,p);0<1<p,n\in Z^+\}\)
  • 泊松分布族:\(\{p(\lambda);\lambda>0\}\)
  • 正态分布族:\(\{N(\mu,\sigma^2);-∞<\mu<∞,\sigma>0\}\)
  • 均匀分布族:\(\{U(a,b);-∞<a<b<∞\}\)
  • 指数分布族:\(\{\exp(\lambda);\lambda>0\}\)
  • 伽马分布族:\(\{Ga(\alpha,\lambda);\alpha>0,\lambda>0\}\)
  • 贝塔分布族:\(\{Beta(a,b);a>0,b>0\}\)

还有一些非参数分布族的例子:

  • \(\mathfrak{p}_1=\{p(x);p(x)\text{是连续分布}\}\)
  • \(\mathfrak{p}_2=\{F(x);F(x)\text{的一二阶矩存在}\}\)
  • \(\mathfrak{p}_3=\{p(x);p(x)\text{是对称连续分布}\}\)

指数型分布族

区别于指数分布族,指数型分布族是指数分布族的推广,更是囊括了正态分布族、二项分布族、伽马分布族、多项分布族等等。

指数型分布族:一个概率分布族\(\mathfrak{p}=\{p_{\theta}(x);\theta∈\varTheta\}\)可称为指数型分布族,假如\(\mathfrak{p}\)中的分布(分布列或密度函数)都可表示为如下形式: \[p_\theta(x)=h(x)c(\theta)\exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)\right\}\tag{1}\] 其中,k为自然数;\(\theta\)可以是数字,也可以是向量。分布的支撑\(\{x:p(x)>0\}\)与参数\(\theta\)无关;诸\(c(\theta),c_1(\theta),\dotsb,c_k(\theta)\)是定义在参数空间\(\varTheta\)上的函数;诸\(T_1(x),\dotsb,T_k(x)\)\(x\)的函数,称为充分统计向量,但\(T_1(x),\dotsb,T_k(x)\)线性无关。\(h(x)\)也只是\(x\)的函数,且\(h(x)>0\),通常是一个常数。

\(c(\theta)\)是作为归一化参数存在的,称为叫做配分函数(partition function)。 \[c(\theta)^{-1} = \int h(x) \exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)\right\} dx\] 此外,指数族还有另一种表述方式,就是将外面的\(c(\theta)\)放到指数符号中: \[p_\theta(x)=h(x)\exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)-A(\theta)\right\}\tag{2}\] 由于通常\(A(\theta)\)含有\(\log\)符号,该部分也称为“Log Partition Function”,易知\(A(\theta)=\ln c(\theta)\)。 如果我们使用向量值函数来表达指数型分布族可写为: \[p_\theta(x)=h(x)\exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)-A(\theta)\right\}\tag{3}\]

从上述定义可知,一个分布族是不是指数型分布族的关键在于其概率分布能否改写为定义中方式,其中主要有两条:一条是“分布的支撑与\(\theta\)无关”;另一条是“\(T_1(x),\dotsb,T_k(x)\)线性无关”,若其间线性相关,如\(T_1(x)=2T_2(x)+3T_3(x)\),则把\(T_1(x)\)归拢到\(T_2(x),T_3(x)\)中即可。

下面这张截图就是将3个常见分布族改写成指数型分布族的例子。

指数型分布族例子

指数型分布族例子

指数型分布族的向量化写法

下面我们使用向量值函数将式(3)进行进一步改造。

向量值函数:有时也称为向量函数,是一个单变量或多变量的、值域是多维向量或者无穷维向量的集合的函数。向量值函数的输入可以是一个标量或者一个向量,输出是向量,定义域的维度和值域的维度是不相关的。

对于\(\theta\)的一系列函数\(c_1(\theta),c_2(\theta),\dotsb\)和充分统计量向量\(T_1(x),T_2(x),\dotsb\),我们写出列向量形式: \[ \mathbf{C}(\theta)=\begin{bmatrix}c_1(\theta)\\c_2(\theta)\\\vdots\\c_k(\theta)\end{bmatrix} \mathbf{T}(x)=\begin{bmatrix}T_1(x)\\T_2(x)\\\vdots\\T_k(x)\end{bmatrix} \] 那么式(3)可写成 \[ p(x;\theta)=h(x)\exp\left\{\mathbf{C}^T(\theta)\mathbf{T}(x)-A(\theta)\right\}\tag{4} \] 其中,\(\mathbf{C}(\theta),\mathbf{T}(x)\)都是向量值函数,\(h(x),A(\theta)\)都是普通函数,通常文章会把\(A(\theta)\)写成\(A(\mathbf{C}(\theta))\)的形式,这两种本质上是等价的,但是\(A(\mathbf{C}(\theta))\)的参数形式更加统一,为主流用法。

均值方差皆未知的高斯分布的指数族形式:如果高斯分布的均值和方差都是未知的,那么就需要使用多个线性不相关的充分统计量来表示指数型分布族: \[ \begin{aligned} p(x|\mu,\sigma^2)&=\frac{1}{(2\pi\sigma^2)^{1/2}} \exp[ -\frac{1}{2\sigma^2}(x-\mu)^2]\\ &=\frac{1}{(2\pi\sigma^2)^{1/2}} \exp[-\frac{1}{2\sigma^2} x^2 +\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2]\\ &=\frac{1}{(2\pi)^{1/2}} \exp[-\frac{1}{2\sigma^2} x^2 +\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2-\ln{\sigma}] \end{aligned} \] 对照指数族的形式,有\(h(x)=\frac{1}{(2\pi)^{1/2}}, \mathbf{C}=\begin{bmatrix}\mu/\sigma^2 \\-1/2\sigma^2\end{bmatrix},\mathbf{T}=\begin{bmatrix}x\\x^2\end{bmatrix},A(\mu,\sigma)=\frac{1}{2\sigma^2}\mu^2+\ln{\sigma}\)

需要指出的是,一般情况下,我们在\(A(\mu,\sigma)\)中最好不要在使用原有的\(\mu,\sigma\),而是使用\(\mathbf{C}\)中的分量\(c_1=\mu/\sigma^2,c_2=-1/2\sigma^2\)表示,即 \[ A(\mathbf{C})=\frac{-c_1^2}{4c_2}-\frac{1}{2}\log(-2c_2) \] 在其他文献中,也有令\(h(x)=1\),然后把\(\frac{1}{(2\pi)^{1/2}}\)放到\(A(\mathbf{C})\)中的,即\(A(\mathbf{C})=\frac{-c_1^2}{4c_2}-\frac{1}{2}\log(-2c_2)-\frac{1}{2}\log(2\pi)\),这样是等价的。

指数型分布族的重要性体现在以下多个方面:

  • 指数族分布是唯一有共轭先验的分布族,这就简化了后验的计算
  • 在特定的规范化条件下(regularity conditions),指数族分布是唯一有限规模充分统计量(finite-sized sufficient statistics)的分布族,这意味着可以将数据压缩称固定规模的浓缩概括而不损失信息
  • 指数族分布是广义线性模型(generalized linear models)的核心
  • 指数族分布也是变分推理(variational inference)的核心

次序统计量

次序统计量:设\(X_1,X_2,\dotsb,X_n\)是取自总体\(X\)的一个样本,\(X_{(k)}\)称为该样本的的第k个次序统计量,假如每当获得样本观测值后将其从小到大排序可得如下有序样本\[x_{(1)}≤x_{(2)}≤x_{(3)}≤\dotsb≤x_{(k)}≤\dotsb≤x_{(n)}\] 其中,第k个观测值\(x_{(k)}\)就是\(X_{(k)}\)的取值,并称\(X_{(1)},X_{(2)},\dotsb,X_{(n)}\)为该样本的次序统计量,特别的,\(X_{(1)}=\min(X_1,X_2,\dotsb,X_n)\)称为该样本的最小次序统计量\(X_{(n)}=\max(X_1,X_2,\dotsb,X_n)\)称为该样本的最大次序统计量

次序统计量引申出来的概念有最小次序统计量、最大次序统计量、极差、中位数、P分位数。次序统计量作为随机变量也是有概率分布的,用的不多,等用到的时候再补充。

充分统计量

充分统计量的概念比较难理解,但十分重要。由于我看得是茆诗松的《数理统计学》,这本书里的定义包括了分布族的充分统计量,这和其他资料上的充分统计量有一个区别,就是一般资料上充分统计量都是和分布的某个参数\(\theta\)相关的,我也更倾向这样定义(更实用主义)。

充分统计量:假如\(\mathcal{F}=\{F_\theta,\theta\in \varTheta\}\)是参数分布族(\(\theta\)可以是向量),在给定\(T=t\)下,样本\(x\)(n维随机变量)的条件分布与\(\theta\)无关,则称\(T\)为参数\(\theta\)的充分统计量\[P(X=x\mid T(X)=t,\,\theta )=P(X=x\mid T(X)=t)\]

从上面这个式子中,我们两边同时乘以\(P(\theta)\),有 \[ P(X=x\mid T(X)=t,\,\theta)P(\theta)=P(X=x,\theta\mid T(X)=t)\\ =P(X=x\mid T(X)=t)P(\theta) \] 显然,有\(P(X=x\mid T(X)=t),P(\theta)\)二者独立。当我们已知\(T(x)=t_0\)以后,样本的联合概率函数中不含有\(\theta\)项,或者说\(T(x)\)完全包含了\(\theta\)\(X\)有影响的信息。例子如下:

\(x_1,x_2,\dotsb,x_n\)是来自两点分布\(b(1,p)\)的一个样本,其中\(p\in(0,1),n>2\),考察以下两个统计量是否为充分统计量: \[ T_1=\sum_{i=1}^n x_i,\qquad T_2=x_1+x_2 \] 首先,该样本的联合分布是: \[ P(X_1=x_1,X_2=x_2,\dotsb,X_n=x_n)=p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i} \] 其中,\(x_i\)非0即1。统计量\(T_1=\sum_{i=1}^n x_i\)的分布为二项分布\(b(n,p)\),即 \[ P(T_1=t)={n\choose t}p^t(1-p)^{n-t},t=0,1,\dotsb,n \] 在给定\(T_1=t\)下,样本的条件分布为: \[ \begin{aligned} &P(X_1=x_1,X_2=x_2,\dotsb,X_n=x_n|T_1=t)\\ &=\frac{P(X_1=x_1,X_2=x_2,\dotsb,X_n=t-\sum_{i=1}^{n-1}x_i)}{P(T_1=t)}\\ &=\frac{p^t(1-p)^{n-t}}{{n\choose t}p^t(1-p)^{n-t}}\\ &=\frac{1}{{n\choose t}} \end{aligned} \] 计算结果表明,这个条件分布与参数\(p\)无关,即他不含参数\(p\)的信息,这意味着样本中有关\(p\)的信息都含在统计量\(T_1\)中。

在统计量\(T_2=x_1+x_2\)的分布为\(b(2,p)\),在\(T_2=t\)下,样本的条件分布为: \[ \begin{aligned} &P(X_1=x_1,X_2=x_2,\dotsb,X_n=x_n|T_2=t)\\ &=\frac{P(X_1=x_1,X_2=t-x_1,\dotsb,X_n=x_n)}{P(T_2=t)}\\ &=\frac{p^{t+\sum_{i=3}^n x_i}(1-p)^{n-t-\sum_{i=3}^n x_i}}{{2\choose t}p^t(1-p)^{2-t}}\\ &=\frac{p^{\sum_{i=3}^n x_i}(1-p)^{n-2-\sum_{i=3}^n x_i}}{{2\choose t}} \end{aligned} \] 显然此条件分布与参数\(p\)有关,即它还有参数\(p\)的信息,而样本中关于\(p\)的信息没有完全包含在统计量\(T_2\)中。

可以设想为: \[ \left\{样本\mathbf{x}中所含有有关\theta的信息\right\}=\\ \left\{t统计量T中含有有关\theta的信息\right\}+\left\{当T取值为t后,样本\mathbf{x}中还含有有关\theta的信息\right\} \] 如果后一项为0,那么统计量\(T\)即为充分统计量。

我们再从统计量定义的角度反过来看,统计量是一组样本为自变量的函数。样本中包含了未知参数\(\theta\)部分信息的,\(\theta\)的统计量是将样本中的关于\(\theta\)的信息提取出来,如果我们构造这个函数(统计量)能够把样本中所有\(\theta\)信息都提取出来,那么对于估计未知参数\(\theta\)而言,样本和该关于\(\theta\)统计量效果是一样的,此时的统计量就是充分统计量。

我们举个例子来说明充分统计量不损失有关\(\theta\)信息,比如你已经抽样的1000个数据全都写在了一张纸上,这些数据是给你写论文用的。突然有一天你的狗把你这张写满数据的纸吃掉了,这个时候假如你的数据满足指数分布,只有参数\(\lambda\)未知,且你已经提前把这些数据的的\(\hat\lambda\)算了出来,那你的狗也没坏了什么大事——因为这个充分统计量包含了这1000个数据的所有有用信息。你可以设计一个指数分布且\(\lambda=\hat\lambda\)的随机试验重新获得样本,这个新样本和过去的样本可能不完全一样,但它和老样本有相同的分布,当样本容量趋于无穷,新老两个样本应是等效的。

从信息论的角度来说,就是\(X,T(X)\)中包含关于\(\theta\)的信息相同,即互信息相同\[I{\bigl (}\theta ;T(X){\bigr )}=I(\theta ;X)\]

根据数据处理不等式,当我们仅对已知数据进行加工时,不可能获得额外的信息,只可能保持信息量不减,即\(I(X;Y)≥I(X;f(Y))\),充分统计量就是在对数据\(X\)进行加工变成\(T(X)\)时,里面关于\(\theta\)的信息没有变化。

此外,如果另一个统计量\(S(x)\)\(T(x)\)有一一对应关系,那么\(S(x)\)也是\(\theta\)的一个充分统计量。这种一一对应关系一般并不会导致信息的损失。

因子分解定理

虽然我们说的很好听,但是实际情况下通过条件概率方式的验证并不是特别容易。因此我们给出一个叫作因子分解定理的东西。它的证明并不需要掌握,而其用法又很简单,所以这个计算的难度就大大降低了。

因子分解定理(费希尔分解定理):设总体概率函数(分布列或密度函数)为\(f(x;\theta)\),\(X_1,X_2,\dotsb,X_n\)为样本,那么\(T=T(X_1,X_2,\dotsb,X_n)\)为充分统计量的充要条件为:存在函数\(g(t,\theta)\)\(h(x_1,\dotsb,x_n)\)使得对任意的\(\theta\)和任意一组的观测值\(x_1,\dotsb,x_n\),都有 \[f(x_1,\dotsb,x_n;\theta)=g(T(x_1,\dotsb,x_n),\theta)h(x_1,\dotsb,x_n)\] 其中,\(g(t,\theta)\)只通过统计量\(T(x_1,\dotsb,x_n)\)的取值二依赖于样本。

这个定理把抽样的样本发生的联合概率密度分成两个部分,一是只和\(t,\theta\)相关的\(g(t,\theta)\),其中\(t\)可以用样本\(x_1,\dotsb,x_n\)表示;另一个是只和\(x_1,\dotsb,x_n\)相关的\(h(x_1,\dotsb,x_n)\)。因子分解定理比条件概率的方法容易了许多。有一个一般性的情况是通常\(h(x_1,\dotsb,x_n)=c\),即它通常是一个常数。然后把样本的概率函数用统计量\(t\)\(\theta\)表示出来。

最小充分统计量

充分统计量做到了“用已知刻画未知”。那么更进一步的,我们当然希望充分统计量越简单,越精细越好。所以这其实就是极小充分统计量的定义。

最小充分统计量:若一个充分统计量是任何其他充分统计量的函数,则称其是一个最小充分统计量。即,统计量\(S(X)\)是最小充分统计量当且仅当

  • \(S(X)\)是充分统计量,
  • 如果\(T(X)\)是一个充分统计量,那么存在一个函数\(f\)使得\(S(X)= f(T(X))\)

如果任何一个充分统计量\(T\)都可以通过加工得到\(S\),这就说明\(S\)一定是更精细的(或者更严谨地说,一定不会变得更粗糙)充分统计量,而“任何一个”保证了最小性。我们也可以通过数据处理不等于来理解加工只可能减少信息量这一事实。一般而言,最小充分统计量不太好证出来,而且最小充分统计量也不是唯一的,只要与最小充分统计量有一一对应关系的统计量,都是最小充分统计量。

可以证明:

一个充分完全统计量必是最小充分统计量。

下面我们来解释什么是完全统计量。

完全(完备)统计量

完全统计量,又称完备统计量。打个不大恰当的比方,完全统计量类似充分必要条件中的必要条件。我们首先定义一个辅助统计量来帮助理解完全统计量:

辅助(ancillary)统计量:一个统计\(V(x)\)是辅助统计量,当且仅当其概率分布不依赖与任何未知量。

一个典型但没啥用的辅助统计量就是常数,即\(V(x)\equiv C\)常数是不含有任何概率分布信息的。再举一个典型例子(位移族):

已知某一概率密度函数\(f(x)\),对其沿\(x\)轴向右平移一段未知距离\(\mu\),则新的pdf为\(f(x-\mu)\),现在从平移后的pdf中抽样得到i.i.d的样本\(x_1,x_2,\dotsb,x_n\),我们想从样本估计参数\(\mu\)。如果我们构造一个统计量\(V(x)=x_{(k)}-x_{(l)}\),其中\(x_{(k)},x_{(l)}\)是次序统计量,那么\(V(x)\)的pdf只会和\(f(x)\)有关,与\(\mu\)无关,即为辅助统计量。

这是一个过于严格的要求,下面再给出一个放松的定义:

一阶辅助统计量:一个统计\(V(x)\)是一阶辅助统计量,当且仅当其期望\(E[V(x)]\)不依赖与任何未知量。

显然,辅助统计量必然是一阶辅助统计量。需要指出,ancillary一词的翻译辅助,有附加、附属的意思,不一定是指辅助做了什么事。

如果对一个统计量\(T\)能找到(存在)一个非平凡(不是常函数)的辅助统计量\(V\),使得\(V(T(x))\neq C\),也就是说\(V(x')\)可以从统计量\(T(x)\)中再提取一些和带估计参数\(\theta\)无关的信息出来。那么说明,统计量\(T(x)\)中除了含有\(\theta\)的信息之外,还有其他冗余的信息,可以进一步压缩,此时我们就不能称\(T\)是完全统计量。完全统计量是纯粹性的体现,意味着不包含其他与参数估计无关的信息。统计量可以是完全但不充分的,这意味再样本信息压缩过程中,不仅仅把和待估计参数\(\theta\)无关的信息剔除掉,甚至与\(\theta\)有关的信息也可能去掉了一些,属于“有损压缩”。由此,我们给出完全统计量定义:

完全(完备)统计量:设\(\mathcal{F}=\{f(x,\theta),\theta\in\varTheta\}\)为一分布族,\(\varTheta\)是参数空间,设统计量\(T=T(x)\),若对任何辅助统计量\(\varphi(T(x))\),当 \[E[\varphi(T(x))]=0\] 都有 \[P(\varphi(T(x))=0)=1\] 则称\(T(x)\)是一完全(完备)统计量。

注意,辅助统计量是和待估计参数\(\theta\)无关的随机数,因此也可以说是对\(\forall \theta\in\varTheta\)都成立。\(P(\varphi(T(x))=0)=1\)表示以1的概率为0,其实等于其他常数也无所谓,只有将常数移到另一边就可以了,都不含分布信息,效果一样的。简单的说,如果以统计量\(T\)为自变量的辅助统计量的期望为0,那么它就是常数0。

关于统计量的充分性、完全性还可以参考网页资料文件加中的《概率论数理统计随机过程-关于充分完全统计量的一点儿思考.html》一文。

有函数处理的信息不增特性可知,若\(T(x)\)是完全统计量,则它任一函数\(\delta(T)\)也是完全统计量。

指数族中统计量的完全性

定理:设样本\(x=(x_1,x_2,\dotsb,x_n)\)的概率函数 \[f(x,\theta)=h(x)c(\theta)\exp\left\{\sum_{j=1}^k \theta_j T_j(x)\right\},\theta=(\theta_1,\dotsb,\theta_k)\in\varTheta^\star\] 为指数族的自然形式。令\(T(x)=(T_1(x),\dotsb,T_k(x))\),且自然参数空间\(\varTheta^\star\)作为\(R_k\)的自己有内点,则\(T(x)\)是完全统计量。

首先,该定理一个充分条件,只适用于判别指数族的完全性。\(\theta_j\)是可以是其他参数的函数,其结果作为\(\varTheta^\star\)的空间一维。

其次,有内点意味着\(\varTheta^\star\)不可以是K维空间的超平面,即\(\theta=(\theta_1,\dotsb,\theta_k)\)是满秩的。

最后,即使没有内点,统计量也不一定是不完全的,需要用定义或其他方法进一步判别。

最小充分统计量与完备性关系

定理:如果最小充分统计量存在,那么任何充分完全统计量都是最小充分统计量。

这是一个充分条件,而非充要条件。最小充分统计量可能是不完全的,即其可能包含无法分离出去的冗余内容。

有界完全统计量及其性质

有界完全(完备)统计量:设\(\mathcal{F}=\{f(x,\theta),\theta\in\varTheta\}\)为一分布族,\(\varTheta\)是参数空间,设统计量\(T=T(x)\),若对任何有界或a.s.有界辅助统计量\(\varphi(T(x))\),当 \[E[\varphi(T(x))]=0\] 都有 \[P(\varphi(T(x))=0)=1\] 则称\(T(x)\)是一有界完全(完备)统计量。

有界完全统计量是对完全统计量的放松,只是给辅助统计量的函数添加了有界这一条件。因此,一个完全统计量(严要求)必为有界完全统计量(松要求)。

Basu定理\(x\)是分布中抽取的一个样本,如果\(T(x)\)是一个充分,且有界完全统计量,那么\(T(x)\)独立于所有的辅助统计量。

常用概率分布与特征数表

常用概率分布族

常用概率分布族