概率统计随机过程之Fisher信息

概率统计随机过程之Fisher信息

Fisher信息是参数估计中的一个重要概念,它揭示了样本能够提供多少信息来给我们估计参数,并决定参数估计的精度,Fisher信息大小和样本容量、总体的概率分布、采用的估计方式都有关系。我们通过Fisher信息和Cramer-Rao界也可以确定参数估计的理论极限。Fisher信息是由著名的频率学派大佬,Ronald Fisher提出并推广,Fisher是一个统计学历史上非常重要的学者,几乎以一己之力构建了现代统计学框架,一些常见的统计学名词如统计显著性,P值,线性判别分析(LDA),最大似然估计,F分布,充分统计量,Fisher信息,方差分析(ANOVA)都是由Fisher发明或推广,同时也对贝叶斯学派的观点提出诸多批判。本篇笔记旨在系统的整理有关Fisher信息的相关内容,并结合文章《A Tutorial on Fisher Information》,总结Fisher信息在频率统计学派,贝叶斯学派以及最小描述长度模型中的应用。

注:本文前面部分默认Fisher信息的参数估计都是一维参数估计。对于多维参数估计,我们专门设置了Fisher信息矩阵的章节。

理解Fisher信息

为了深刻理解Fisher信息的意义,我们设计了一个多次反转的叙述结构来初步介绍Fisher信息

在参数估计中,我们要做的核心任务是已知一个含有未知参数\(\theta\)的模型,我们通过实际观测到数据来推断这个未知的参数\(\theta\)。对于观测到数据集\(X\),我们既可以直接使用整个观测集来做参数的估计,也可以从数据集中提取一些关键信息来进行参数估计。这些提取出来的信息,被称为统计量\(T(X)\),关于统计量的具体介绍,可以参考笔记概率统计随机过程之数理统计常用概念中充分统计量章节的内容。

简单地说,统计量是由观测数据构造出来的函数\(T=f(X)\),其包含并提纯了有关未知参数\(\theta\)的信息。注意该函数\(f(X)\)中并不能有其他未知的参数,也就是说只要给定观测集合\(X\),那么统计量的值\(T\)就是一个定值。如果该统计量\(T\)完全包含了观测数据集\(X\)中所有有关未知参数\(\theta\)的信息,则称为完全统计量(Sufficient Statistics),即\(I(T;\theta)=I(X;\theta)\)

无论是原始的数据集\(X\),还是有数据集构造的统计量\(T(X)\),其进行参数估计的理论根源是一样的:抽样的数据中含有关于未知参数\(\theta\)的信息,这是所有参数估计方法的基石。但是,原始数据集\(X\)和带估计参数\(\theta\)之间的关系是模糊的,需要我们逐渐求证的,因此能够建立数据集和带估计参数之间联系的参数估计方法就是非常关键的环节。本质上,参数估计方法也是通过数据集合\(X\)来构建统计量\(T\),只不过这个统计量需要与带估计参数\(\theta\)有更加直观的联系。目前使用的最广泛的估计方法——极大似然估计当然也不例外。实际上,在极大似然估计的处理流程,如构造似然函数、取\(ln\)、求偏导的过程,就是构建最大似然统计量\(T=f(X)\)的过程。

那么,我们应该如何确定数据集\(X\)或构造的统计量\(T=f(X)\)中含有多少关于带估计参数\(\theta\)的信息呢?这就是Fisher信息的由来的内生动力。

故事的开始:从最大似然估计开始

在参数估计中,使用的最广泛的方式就是最大似然估计(maximum likelihood estimation, MLE),而Fisher正是MLE最有力的推动者,没有之一。在Fisher所在的年代,大家都想为模型的参数估计提出一套牢靠可行的方法,Fisher从1912年到1922年发表了多篇文章系统性的阐述并推广了最大似然估计方法,并对最大似然估计的性能进行分析,而Fisher信息正可用来衡量最大似然估计

TIPS:有趣的是,Fisher一直尝试严谨地证明最大似然估计理论,但是一直没有成功,直到1938年统计学家 Samuel S. Wilks最终给出了最大似然估计的证明结果,被称为Wilks定理,大概内容是多个独立观测值的估计的对数似然比的误差是渐近卡方分布的。其中,唯一比较难的证明步骤取决于Fisher信息矩阵的期望值,但是这个值正好已经被Fisher的另一个定理证明了,Fisher就这样可惜地错过了严谨地证明最大似然估计理论。

最大似然估计的严谨证明费了一般波折,但是其核心思想非常的直观,就是如果一组事件发生了,那么我们就找出最容易使这些事件发生的概率模型。比如,我们抛了一个未知的硬币(可能是不均匀的),如果抛了10次,7次正面,3次反面,那我们就直观地认为该硬币得到正面的概率是0.7,所以说极大似然估计可能是最符合直觉的估计方法之一(虽然不一定是正确的,但是在抽样次数足够大时,能基本收敛到正确结果)。具体关于极大似然估计的内容可以参考笔记概率统计随机过程之最大似然估计拓展,其精简步骤总结如下:

  1. 写出总体的概率质量/密度函数(PMF/PDF)\(p(x;\theta)\)
  2. 根据采样的数据\(X=(x_1,x_2,\dotsb,x_n)\)写出似然估计函数\(L(\theta)=\prod_{i=1}^n p(x_i;\theta)\),其中\(\theta\)是待估计参数。
  3. 两边取自然对数\(\ln\),即为\(l(\theta)=\ln(L(\theta))=\sum_{i=1}^n \ln p(x_i;\theta)\)。(注意,对数似然函数是小写\(l\))
  4. \(l(\theta)\)\(\theta\)求导(多参数估计就是偏导),\(\frac{\partial l(\theta)}{\partial\theta}=\sum_{i=1}^n \frac{\partial \ln(p(x_i;\theta))}{\partial \theta}\),令其导数为0。
  5. 求出使导数为0的\(\theta\),即为最大似然估计参数\(\hat\theta_{MLE}=\arg\limits_{\theta}\{\sum_{i=1}^n \frac{\partial \ln(p(x_i;\theta))}{\partial \theta}=0\}\)

TIPS:对于有些分布的极大似然估计没法直接求,比如均匀分布。

似然函数取对数的原因:

  1. 减少计算量。乘法变成加法,从而减少了计算量;同时,如果概率中含有指数项,如高斯分布,能把指数项也化为求和形式,进一步减少计算量;另外,在对联合概率求导时,和的形式会比积的形式更方便。
  2. 计算时更准确。为概率值都在[0,1]之间,因此,概率的连乘将会变成一个很小的值,可能会引起浮点数下溢,尤其是当数据集很大的时候,联合概率会趋向于0,非常不利于之后的计算。
  3. 取对数后,可以是一个上凸函数,更有利于求取最大值。

那么最大似然估计的估计结果有多准确呢?我们可以借助“估计值\(\plusmn\)一个范围”来描述,比如,\(\hat\theta_{MLE}\plusmn \sigma\),如果我们要求一个比较高的概率能用这个范围覆盖住真实值\(\theta_0\),同时\(\sigma\)的比较小,我们就认为估计是比较准确的。如果估计的准确,我们也有理由认为估计时候信息比较充分,信息量比较多。不难发现,这里其实使用了区间估计的思想。

至此,我们确定一个目标:将最大似然估计的准确性和信息的定义联系起来,信息含量越大,估计的准确性越高。

但是,我们现在并不知道\(\hat{\theta}_{MLE}\)的具体分布是什么,不过我们通过采样的样本,我们可以用样本的均值和方差近似 总体的样本和方差。知道了样本、方差再通过某些概率不等式,我们能够计算出一些区间估计的界(bound),比如最常见的切比雪夫不等式,即我们可以借助切比雪夫不等式,只通过期望和方差就能确定一个大致的估计准确性的范围。

切比雪夫不等式:对任何分布形状的数据都适用。可表示为:对于任意随机变量\(T\),当给定某一\(\varepsilon>0\),有: \[P(|T-E(T)|\geqslant \varepsilon)\leq {\frac {Var(T)}{\varepsilon^{2}}}\tag{1}\]

注意,这里的随机变量\(T\)可以是由样本集\(X\)构造出来的任意随机变量,即\(T\)\(X\)的某种统计量。

使用切比雪夫不等式的最大优势就是前置要求少,并且几乎对任何概率分布都适用。从切比雪夫不等式我们可以发现,如果MLE是无偏估计的话(\(E(T)=\theta_0\)),我们可以用方差将估计误差\(\varepsilon\)限定在\(\frac {Var(T)}{\varepsilon^{2}}\)范围内。特别地,我们如果人为地取\(\varepsilon=k\sqrt{Var(T)}=k\sigma\),那么有 \[ P(|T-E(T)|\geqslant k\sigma)\leq {\frac {1}{k^2}}\tag{2} \]

纠结:方差与Fisher信息

从上文可知,直观地想,信息量越大,估计的越准确,这是大多数人的直觉,而且我可以告诉,这个直觉是对的。我们回看式(1)(2),在无偏估计下,样本期望就是真实值,即\(E(T)=\theta_0\),同时\(k,\varepsilon\)是与样本集无关我们可以人为选定的量,那么影响估计准确性的不可控因素就只剩下方差\(Var(T)=\sigma^2\)。这显然意味着,统计量的方差和样本中含有的未知参数的\(\theta\)的信息量密切相关

由于Fisher当时非常推崇MLE作为参数估计方法,且实际应用中效果也很好,因此Fisher在此发现的基础上,最开始提出了一个很intuitive想法:使用最大似然估计作为构造统计量的方法,然后计算方差: \[ T(X)=\theta_{MLE}=\arg\limits_{\theta} \{\sum_{i=1}^n \frac{\partial \ln(p(x_i;\theta))}{\partial \theta}=0\}\tag{3} \] 但是,其中的\(\arg\limits_\theta\)这个运算符很让他犯难,这个操作符的代表的运算很抽象,不同的式子,实际的求0过程可能迥然不同,比如 \[ \arg\limits_{x} \{ax-b=0\}\Rightarrow x=\frac{b}{a},(a\neq 0)\\ \arg\limits_{x} \{ax^2+bx+c=0\}\Rightarrow x=\frac{-b\plusmn\sqrt{b^2-4ac}}{2a},(a\neq 0) \] 同时,当时Fisher也并没有建立起MLE的严谨理论,因此退而求其次,Fisher构造重新了一个不包含\(\arg\)运算符且最接近MLE的统计量,即: \[ T(X)=\sum_{i=1}^n\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}=\frac{\partial l(X;\theta)}{\partial \theta}\tag{4} \] 在构造这个统计量时,仅仅是不包含\(\arg\)运算符,其他MLE结构都保留了下来。

当式(4)是以样本随机变量\(X\)为自变量的时候,我们叫他统计量\(T(X)\),但是如果我们换个角度,当式(4)以参数\(\theta\)为自变量时,我们将式(4)重新起一个名字,叫做分数函数\(S(\theta)\),即; \[ S(\theta)=\sum_{i=1}^n\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}=\frac{\partial l(X;\theta)}{\partial \theta}\tag{5} \] 为了方便,我们可以将\(\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}\)记为\(S(\theta;x_i)\),则式(5)可写为: \[ S(\theta)=\sum_{i=1}^n S(\theta;x_i)\tag{5.1} \]

从实质内容来看,式(4)(5)没有差别,只不过一个以\(X\)为自变量,把\(\theta\)当成已知的;一个以\(\theta\)作为自变量,把\(X\)当成已知的。我们之所以能这么做的原因,是因为式子中本质上存在两个未知变量:随机变量\(X\)和未知参数\(\theta\),式(4)(5)都只是其中一个角度来看待。

既然,已经选择好了一个好用的统计量\(T(X)\)或者另一个角度叫分数函数\(S(\theta)\),我们来计算下它的方差\(Var(S)=E[(S-E(S))^2]=E(S^2)-(E(S))^2\)吧。显然,求期望的操作消除了\(S\)中的随机变量\(X\),使之结果只可能和\(\theta\)有关(甚至可以证明期望和\(\theta\)都无关)。首先,我们来求其中的\(E(S)\)\[ \begin{aligned} E(S(X;\theta))&=E\big [ \sum_{i=1}^n\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}\big]=\sum_{i=1}^n E\big [\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}\big]\\ &=\sum_{i=1}^n\int_{-\infty}^{+\infty}\frac{\partial\ln p(x_i;\theta)}{\partial\theta}p(x_i;\theta)\mathrm{d}x_i\\ &=\sum_{i=1}^n\int_{-\infty}^{+\infty} \frac{1}{p(x_i;\theta)}\frac{\partial p(x_i;\theta)}{\partial \theta} p(x_i;\theta)\mathrm{d}x_i\\ &=\sum_{i=1}^n\int_{-\infty}^{+\infty} \frac{\partial p(x_i;\theta)}{\partial \theta}\mathrm{d}x_i(\text{交换积分和偏导})\\ &=\sum_{i=1}^n \frac{\partial }{\partial\theta}\int_{-\infty}^{+\infty} p(x_i;\theta)\mathrm{d}x_i=\sum_{i=1}^n \frac{\partial }{\partial\theta} 1=0 \end{aligned}\tag{6} \] 式(6)给出了一个很好的结论:分数函数的期望\(E(S)\)必然为0,和\(\theta\)也没有关系。那么,方差就可以简化为:\(Var(S)=E(S^2)\)。接下来,为了方便计算方差,我们先对其进行简化。由于对数似然函数中的每一个\(x_i\)都是独立同分布的,那么随机变量\(x_i\)的函数\(\frac{\partial \ln (p(x_i;\theta))}{\partial \theta}\)也是独立同分布的,根据方差的性质,独立同分布随机变量的和(差)的方差,等于独立同分布随机变量方差的和,即 \[ \begin{aligned} Var(S(\theta;X))&=Var[\sum_{i=1}^n\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}]=n\times Var[\frac{\partial \ln(p(x;\theta))}{\partial \theta}]\\ &=nE[(\frac{\partial \ln(p(x;\theta))}{\partial \theta})^2]=E[(\frac{\partial l(X;\theta)}{\partial \theta})^2] \end{aligned}\tag{7} \] 我们注意到,式(7)存在小写的随机变量\(x\)和大写的随机变量\(X\),大写的\(X\)是样本容量为\(n\)的样本,小写的\(x\)是每一次抽样的样品,当使用简单随机抽样时,由于每一个\(x_i\)都是独立同分布的,即每一个样品从概率论的角度来讲都是等价的,其概率特征如期望、方差都是一样的,在此情况下使用样本\(X\)和样品\(x\)的期望和方差都是\(n\)倍的关系,即\(Var(S(\theta;X))=nVar(S(\theta;x))\)

那么使用哪一个方差更合理呢?注意我们之前说过,我们默认使用的采样方式都是简单随机抽样,但是实际中采样方式可能不同,因此,\(X\)中每一个样品\(\{x_1,x_2,\dotsb,x_n\}\)可能并不是等价的。我们追求更精细化的表达,希望方差针对每一个样品进行定义,从这个角度,更倾向于使用单个样品的方差,即\(Var(S(\theta;x))\)。此时,整体样品本的方差就是所有单个样品方差的和。

最终千呼万唤始出来,历史上Fisher将每一个抽样样品随机变量\(x\)的方差定义成了Fisher信息

Fisher信息: \[I(\theta)=Var(S(\theta;x))=E[(\frac{\partial l(x;\theta)}{\partial \theta})^2]\tag{7.1}\]

注意,式(7.1)中使用的是小写\(x\),在简单随机抽样时,样本\(X\)中的各个样品\(x_i\)独立同分布,即都为等价的随机变量。

如果我们再对式(6)中\(\int_{-\infty}^{+\infty}\frac{\partial\ln p(x;\theta)}{\partial\theta}p(x;\theta)\mathrm{d}x\)再求\(\theta\)的偏导(二阶偏导)有(由于独立同分布,省略下标\(i\)): \[ \begin{aligned} 0&=\frac{\partial}{\partial\theta}\int_{-\infty}^{+\infty}\frac{\partial\ln p(x;\theta)}{\partial\theta}p(x;\theta)\mathrm{d}x(交互积分微分顺序)\\ &=\int_{-\infty}^{+\infty}[\frac{\partial^2\ln p(x;\theta)}{\partial\theta^2}p(x;\theta)+\frac{\partial\ln p(x;\theta)}{\partial\theta}\frac{\partial p(x;\theta)}{\partial\theta}]\mathrm{d}x\\ &\because \frac{\partial p(x;\theta)}{\partial\theta}=\frac{\partial\ln p(x;\theta)}{\partial\theta}p(x;\theta)\\ 0&=\int_{-\infty}^{+\infty}[\frac{\partial^2\ln p(x;\theta)}{\partial\theta^2}p(x;\theta)+(\frac{\partial\ln p(x;\theta)}{\partial\theta})^2p(x;\theta)]\mathrm{d}x\\ 0&=\int_{-\infty}^{+\infty}\frac{\partial^2\ln p(x;\theta)}{\partial\theta^2}p(x;\theta)\mathrm{d}x+\underbrace{\int_{-\infty}^{+\infty}(\frac{\partial\ln p(x;\theta)}{\partial\theta})^2p(x;\theta)\mathrm{d}x}_{I(\theta)}\\ \end{aligned} \] 从而有: \[ \begin{aligned} 0&=\int_{-\infty}^{+\infty}\frac{\partial^2\ln p(x;\theta)}{\partial\theta^2}p(x;\theta)\mathrm{d}x+I(\theta)\\ I(\theta)&=-\int_{-\infty}^{+\infty}\frac{\partial^2\ln p(x;\theta)}{\partial\theta^2}p(x;\theta)\mathrm{d}x\\ &=-E[\frac{\partial^2 l(x;\theta)}{\partial \theta^2}] \end{aligned}\tag{7.2} \] 综上所述,我们得到了Fisher信息的三种等价表达形式: \[I(\theta)=Var(S(\theta;x))\tag{8.1}\] \[I(\theta)=E[(\frac{\partial l(x;\theta)}{\partial \theta})^2]=E[S^2(\theta;x)]\tag{8.2}\] \[I(\theta)=-E[\frac{\partial^2 l(x;\theta)}{\partial \theta^2}]=-E[S'(\theta;x)]\tag{8.3}\] 为了简便,下文中\(S(\theta;x)\)默认写为\(S(\theta)\)

那么,现在我们明确知道了,Fisher信息是分数函数的方差(式(8.1)),式(8.2,)(8.2)是化简计算的结果。那么通常情况下,我们总觉得估计的方差应该是越小越好吧?!极端情况,当估计的方差为0时,我们就可以精确地得到结果。但是,从信息的直观意思来看,通常大家是认为信息量越大越有利于估计。这两种直觉貌似是针锋相对的。

实际上,这涉及到最根本的一个问题:分数函数的方差和待估计参数的方差是一回事吗?我们之前提到,Fisher在考虑利用方差设计Fisher信息时,认为第四步\(\arg\limits_{\theta}\)操作难以处理,而采取了近似操作,正是因为这步近似,使得分数函数的方差和待估计参数\(\theta_{MLE}\)的估计方差产生了区别!二者确实紧密相关,但是并不一样。硬要说的话,二者是整体与局部的关系,分数函数的方差是描述在整个参数空间内的整体的方差大小,而真正MLE估计的方差的是描述在\(\theta_{MLE}\)附近的性质,如果是无偏估计就是描述估计真值\(\theta_0\)附近的性质!那么,如何将描述整个参数空间性质的Fisher信息和真正MLE估计的能力联系起来呢?

MLE的一个准严格推导

MLE的估计精确估计结果需要较为复杂的推导,这里我们利用中心极限定理,给出一种在抽样规模较大的情形下的准严格推导。上一小节中,我们知道Fisher信息来自于分数函数的方差,算是对整体性质的描述,而实际上我们更需要知道,在MLE估计结果在真值点\(\theta=\theta_0\)邻域的效果如何。

数学中,如果想看一个函数在某点附近的特性,有一个非常常用的工具,即级数展开,比如泰勒级数,洛朗级数(泰勒级数在复变领域的扩展),傅里叶级数,狄利克雷级数等等。在这里,我们使用泰勒级数,在MLE估计的结果\(\theta=\theta_0\)进行展开,用以探索其邻域的性质

首先,根据MLE的计算,我们可以得到最大似然估计的结果\(\theta_{MLE}\),此时根据MLE的步骤5,显然有: \[ \theta_{MLE}=\arg\limits_{\theta}\{\sum_{i=1}^n \frac{\partial \ln(p(x_i;\theta))}{\partial \theta}=0\}\\ \Rightarrow S(\theta_{MLE};X)=\sum_{i=1}^n S(\theta_{MLE};x_i)=0\tag{9} \] 注意,\(\theta_{MLE}\)是让整体样本\(X\)的分数函数\(S(\theta_{MLE};X)\)为0,并不保证每一个样品\(x_i\)的分数函数\(S(\theta_{MLE};x_i)\)为0。其中: \[ S(\theta_{MLE};x_i)=[\frac{\partial \ln(p(x_i;\theta))}{\partial \theta}|\theta=\theta_{MLE}] \] 其次,我们将分数函数\(S(\theta;X)\)在真值点\(\theta_0\)处泰勒展开有: \[ \begin{aligned} S(\theta;X) &=\sum_{i=1}^n[S(\theta_0;x_i)+\frac{1}{1!}S'(\theta_0;x_i)(\theta-\theta_0)+o(\theta-\theta_0)]\\ &=\sum_{i=1}^n S(\theta_0;x_i)+ S'(\theta_0;x_i)(\theta-\theta_0)+\sum_{i=1}^n o(\theta-\theta_0) \end{aligned} \] 将式(9)结果代入上市可得: \[ 0=\sum_{i=1}^n S(\theta_0;x_i)+\sum_{i=1}^n S'(\theta_0;x_i)(\theta_{MLE}-\theta_0)+\sum_{i=1}^n o(\theta_{MLE}-\theta_0)\\ \text{两边同时除以}\frac{1}{n}\\ 0=\frac{1}{n}\sum_{i=1}^n S(\theta_0;x_i)+\frac{1}{n}\sum_{i=1}^n S'(\theta_0;x_i)(\theta_{MLE}-\theta_0)+\frac{1}{n}\sum_{i=1}^n o(\theta_{MLE}-\theta_0)\tag{10} \] 看似两边同时除以\(\frac{1}{n}\)是一个很普通的操作,但是,我们可以从概率论角度分别赋予等式右边各项实际含义。

首先,我们看等式右边第一项\(\frac{1}{n}\sum_{i=1}^n S(\theta_0;x_i)\),我们之前提到过分数函数和统计量是一体两面,实际上分数函数可以换成统计量的写法,即\(\frac{1}{n}\sum_{i=1}^n T(x_i;\theta)\),其中\(x_i\)都是由随机变量\(x\)抽样出来的样品,所以等式左右可以看成是随机变量抽取\(n\)次后求平均数,这恰好和中心极限定理的应用场景匹配!

林德伯格-列维中心极限定理:独立同分布(iid)、且数学期望和方差有限的随机变量序列均值的标准化和以标准正态分布为极限。用数学语言描述为:

设随机变量\(X_{1},X_{2},\cdots ,X_{n}\)独立同分布,且具有有限的数学期望和方差\(E(X_{i})=\mu\)\(D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n)\)。记 \[{\bar{X}}={\frac {1}{n}}\sum_{i=1}^{n}X_{i},\zeta_{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}},\]\[\lim_{n\rightarrow \infty }P\left(\zeta_{n}\leq z\right)=\Phi \left(z\right)\] 其中\(\Phi (z)\)是标准正态分布的分布函数。

因此当\(n\)较大时,式(10)的右侧第一项将会逐渐收敛于正态分布,且其期望、方差我们之前已经求出来:\(E[S(\theta_0;x)]=0,Var[S(\theta_0;x)]=I(\theta_0)\),即 \[ \frac{1}{n}\sum_{i=1}^n S(\theta_0;x_i)\sim N(0,\frac{1}{n}I(\theta_0))\tag{11} \] 式(11)是一个非常良好的结论,利用了中心极限定理得到了我们所期望的正态分布,也是后续步骤的根本。

式(10)的第二项中\(\theta_{MLE}-\theta_0\)与求和项\(i\)无关,可以当成系数,而\(\frac{1}{n}\sum_{i=1}^n S'(\theta_0;x_i)\)求均值的操作,在当\(n\)较大时,根据大数定律可以看成是\(E[S'(\theta_0;x)]\)。而根据式(8.3)可知,\(-E[S'(\theta_0;x)]=I(\theta_0)\),即 \[ \frac{1}{n}\sum_{i=1}^n S'(\theta_0;x_i)\approx -I(\theta_0)\tag{12} \]\(n\)较大时成立。

而式(10)的第三项,\(\frac{1}{n}\sum_{i=1}^n o(\theta_{MLE}-\theta_0)\)\((\theta_{MLE}-\theta_0)\)的一序列高阶项的均值,其结果依然是\((\theta_{MLE}-\theta_0)\)的高阶项。当\(n\)较大时,\(\theta_{MLE}\)趋近于\(\theta_0\),此时\(\frac{1}{n}\sum_{i=1}^n o(\theta_{MLE}-\theta_0)\)为高阶无穷小,可以近似忽略,那么,综合式(11,12),式(10)的最终结果可以简化为: \[ I(\theta_0)(\theta_{MLE}-\theta_0)\sim N(0,\frac{1}{n}I(\theta_0))\\ \Rightarrow \theta_{MLE}\sim N(\theta_0,\frac{1}{nI(\theta_0)})\tag{13} \] 即最大似然估计结果\(\theta_{MLE}\)渐进服从于以真值\(\theta_0\)为均值,\(\frac{1}{nI(\theta_0)})\)为方差的正态分布。

式(13)给出的结论就很显然了,为了让\(\theta_{MLE}\)更贴近\(\theta_0\),方差显然是越小越好。而且式(13)也给出了缩小方差的两个途径:

  1. 增加\(n\),即增加样本容量。这个很好理解,统计学一般都是抽样越多,效果越好。而且,在独立同分布场景下,样本总的Fisher信息量\(I(\theta_0;X)\)和样本容量\(n\)是线性关系,是单位样品Fisheries信息量\(I(\theta_0;x)\)\(n\)倍。
  2. 增加Fisher信息量\(I(\theta)\)。这里面门道就很多了,最重要的就是设计合理的估计方法。同时也告诉我们,当估计方法确定时,估计的精确性是有上限的!这个理论上限和Fisher信息量直接相关,学术界把它命名为Cramer-Rao界,和香农信息量规定的香农界一样,是统计学理论中最重要的理论边界之一。

TIPS:需要指出的是,Fisher信息和Cramer-Rao界和香农定理一样,只是告诉了我们这个理论上界,但是并没有告诉我们如何达到这个理论界限的方法。因此,如何设计达到或接近理论界限是学术研究中乐此不疲的领域。

Fisher信息的应用

Fisher信息应用从三个方面来看(主要参考文章A Tutorial on Fisher Information),分别是频率学派角度,贝叶斯学派角度和最小描述长度角度。

频率学派角度应用Fisher信息

由于Fisher信息本身就是由频率学派大佬Fisher提出来的,因此Fisher信息在频率学派统计方法中也应用最早。除了为了最原始的功能,即提供参数估计的性能边界,之外还可以用于试验精度要求设计、假设检验和置信区间构造与估计。其利用Fisher信息的核心都是MLE估计结果的概率分布或近似场景下的渐近正态性

感觉对我而言比较容易理解,同时用的不太多,需要用到是可以参考A Tutorial on Fisher Information中第二节内容,

贝叶斯学派角度应用Fisher信息

最小描述长度角度应用Fisher信息

最小描述长度(Minimum Description Length, MDL)原则是将奥卡姆剃刀形式化后的一种结果。其想法是,在给予假说的集合的情况下,能产生最多资料压缩效果的那个假说是最好的,即该原则寻求最简单、最不复杂的模型。它是在1978年由Jorma Rissanen所引入的。其原理是对于一组给定的实例数据\(D\),如果要对其进行保存,为了节省存储空间,一般采用某种模型\(H\)对其进行编码压缩,然后再保存压缩后的数据。同时,为了以后正确恢复这些实例数据,将所用的模型\(H\)也保存起来。所以需要保存的总数据长度(比如比特数) 等于这些实例数据\(D\)进行编码压缩后的长度加上保存模型\(H\)所需的长度,将该数据长度称为总描述长度,即 \[ L_{total}=L(H)+L(D|H) \] MDL原则就是就是要求选择对此数据集\(D\)总描述长度最小的模型\(H\)。MDL计算与BIC(Bayesian Information Criterion, 贝叶斯信息准则)非常相似,在某些情况下可以证明是等效的。