概率统计随机过程之最大似然估计拓展
概率统计随机过程之最大似然估计拓展
最大似然估计是参数点估计中非常常用且有效的估计方法,本文对其相关性质进行拓展介绍,包括渐进正态性,一致最小方差无偏估计,C-R界以及存在隐变量时采用的EM算法。
本文阅读需建立在已经理解最大似然估计基础上,首先我们精简的概述最大似然估计。
最大似然估计概述
核心思想:概率大的事件比概率小的事件更容易发生。要估计的参数能够使产生这个样本的概率最大。
步骤:
- 总体的概率/密度函数。
- 写出似然估计函数L(θ),其中θ是待估计参数。
- 两边取ln,即为l(θ)=ln(L(θ))。(注意,对数似然函数是小写l)
- 对l(θ)的θ求导(多参数估计就是偏导),令导数为0。
- 求出使导数为0的θ即为最大似然估计参数θ^MLE。
TIPS:对于有些分布的极大似然估计没法直接求,比如均匀分布。
似然函数取对数的原因:
- 减少计算量。乘法变成加法,从而减少了计算量;同时,如果概率中含有指数项,如高斯分布,能把指数项也化为求和形式,进一步减少计算量;另外,在对联合概率求导时,和的形式会比积的形式更方便。
- 计算时更准确。为概率值都在[0,1]之间,因此,概率的连乘将会变成一个很小的值,可能会引起浮点数下溢,尤其是当数据集很大的时候,联合概率会趋向于0,非常不利于之后的计算。
- 取对数后,可以是一个上凸函数,更有利于求取最大值。
需要指出的是:取对数不影响单调性。 p(x∣θ1)>p(x∣θ2)⇔ln(p(x∣θ1))>ln(p(x∣θ2)) 因为相同的单调性,它确保了概率的最大对数值出现在与原始概率函数相同的点上。因此,可以用更简单的对数似然来代替原来的似然。
最大似然估计的不变原理
我们介绍一个致使最大似然估计得到广泛应用的定理:
不变定理:设X∼p(x;θ),θ∈Θ,若θ的最大似然估计为θ^,则对任意函数γ=g(θ),γ的最大似然估计为γ^=g(θ^)。
最大似然估计服从渐进正态的条件
最大似然估计除了不变原理,还有另一个非常好的性质就是在一定条件下满足渐进正态性,从而保证了样本增加时的参数估计的收敛速度(通常为n1)。
渐近正态性
渐进正态性(大样本性质):估计量的渐进正态性来源于中心极限定理,若统计量在样本容量n→∞时,统计量的分布也渐近于正态分布,称为渐进正态性。具体可定义为:如果存在一序列{σn2},满足(θ^n−θ)/σn(θ)→LN(0,1),则称θ^n是θ的渐进正态估计,σn2称为θ^n的渐进方差。
严格定义如下:
渐近正态性:设θ^n=θ^(x1,x2,⋯,xn)是θ的一个相合估计序列,若存在一个趋于零的正数列σn(θ),使得规范变量yn=σn(θ)θ^n−θ的概率分布函数Fn(y)收敛于标准正态分布函数Φ(y),即: Fn(y)=P(σn(θ)θ^n−θ≤y)→Φ(y)(n→∞) 如果用依分布收敛符号L可表示为: σn(θ)θ^n−θ→LN(0,1)(n→∞) 则称θ^n是θ的渐进正态估计,或称θ^n具有渐进正态性,即: θ^n∼AN(θ,σn2(θ)) 其中,σn2(θ)称为θ^n的渐进方差。
从(θ^n−θ)/σn(θ)来看,分子项依概率收敛于θ的速度与分母项σn(θ)趋近于0的速度相同时,其比值才会稳定与正态分布。因此,θ^n收敛速度与渐近方差直接相关,渐近方差越小,收敛越快。
还需要指出,渐进方差并不是唯一的,如果存在另一τn(θ)有τn(θ)σn(θ)→1(n→∞),根据依概率收敛定义可知τn(θ)也是θ的渐近方差。
渐进正态性和相合性的关系类似于中心极限定理和大数定律。相合性是对估计的一种较低要求,它只要求估计序列{θ^n}在样本数量n增加的时候也趋近于θ,但是并没有指出趋近的速度(例如是1/n,1/n或1/lnn)。而渐进正态性补充了这一点,收敛速度与渐进方差相关。经验来看,大多数渐进正态估计都是以1/n的速度收敛于被估参数的。
最大似然估计具有正态性定理
在一定条件下,最大似然估计具有渐进正态性。我们将通过如下定理阐释。需要指出的是,定理是以连续分布的形式给出,但是对于离散场景也是适用的。
设p(x;θ)是某密度函数,其参数空间Θ={θ}是直线上的非退化区间(即不是一个点),假如:
- 对一切θ∈Θ,p(x;θ)对θ如下偏导都存在:∂θ∂lnp,∂θ2∂2lnp,∂θ3∂3lnp
- 对一切θ∈Θ,有∣∂θ∂lnp∣<F1(x),∣∂θ2∂2lnp∣<F2(x),∂θ3∂3lnp<H(x)成立,其中F1(x)与F2(x)在实数轴上可积,而H(x)满足:∫−∞∞H(x)p(x;θ)<M,这里M与θ无关。
- 对一切θ∈Θ,有0<I(θ)=E[(∂θ∂lnp)2]<+∞
则在参数真值θ为参数空间Θ内点的情况下,其似然方程有一个解存在,且此解θ^n=θ(x1,x2,⋯,xn)依概率收敛于θ,且: θ^n∼AN(θ,[nI(θ)]−1) 其中,I(θ)为分布p(x;θ)中含有θ的费雪信息量,简称信息量。
这个定理的意义在于给定了最大似然分布有渐进正态性的条件,其中渐进方差(体现大样本效率)完全由样本数量n和分布的费雪信息量I(θ)决定,且费雪信息量越大(分布中含有θ)的信息越多,渐进方差在同等样本数量下越小,从而最大似然估计效果越好。
我们在这个定理中引入了费雪信息量这一概念,因此还要注意费雪信息量是否存在。对此,我们给出一个简单的概要:Cramer-Rao正则分布族中的分布费雪信息都是存在的。Cramer-Rao正则分布族定义如下:
Cramer-Rao正则分布族:分布p(x;θ),θ∈Θ属于Cramer-Rao正则分布族,则需要满足以下五个条件:
- 参数空间Θ是直线上的开区间;
- ∂θ∂lnp对所有θ∈Θ都存在;
- 分布的支撑{x:p(x;θ)>0}与θ无关;
- p(x;θ)的微分与积分运算可交换;
- 对所有θ∈Θ,期望0<E[(∂θ∂lnp(x;θ))2]<+∞。
常用的分布大多数都属于Cramer-Rao正则分布族,但是均匀分布U(0,θ)不是,因为其分布的支撑与θ相关。
Cramer-Rao正则分布族下费雪信息量的另一种表示
若p(x;θ)为Cramer-Rao正则分布族,若其二节偏导数∂θ2∂2lnp(x;θ)对一切θ存在,其费雪信息量还可以写为: I(θ)=−E[∂θ2∂2lnp(x;θ)] 这种方式可以帮助我们简便计算费雪信息量。此外,这是理解费雪信息量的另一个角度。我们知道二阶导数衡量一个函数的“凸程度”,绝对值越大,越陡峭,说明真值集中性越强。意味着,费雪信息量越大,我们更可能在凸峰出取到真实值附近的值。下面我们证明这两种表示是相等的。
证明:由于p(x;θ)为Cramer-Rao正则分布族,且其二阶偏导数总是存在,对于定积分 1=∫−∞+∞p(x;θ)dx 两侧对θ求偏导,由于定积分是个常数,因此导数必为0: 0=∂θ∂∫−∞+∞p(x;θ)dx 根据Cramer-Rao正则分布族的第4条定义,我们交换上式中积分与微分的顺序: 0=∂θ∂∫−∞+∞p(x;θ)dx=∫−∞+∞∂θ∂p(x;θ)dx 下面用到了一个计算技巧:∂θ∂p(x;θ)=∂θ∂lnp(x;θ)p(x;θ),代入其中有: 0=∫−∞+∞∂θ∂lnp(x;θ)p(x;θ)dx=E[∂θ∂lnp(x;θ)] 我们得到一个副结论:Log似然函数的一阶导期望为0。但我们还没有得到的结论,结论中需要二阶导,所以我们再对∫−∞+∞∂θ∂lnp(x;θ)p(x;θ)dx求θ的偏导有: 000=∂θ∂∫−∞+∞∂θ∂lnp(x;θ)p(x;θ)dx(交互积分微分顺序)=∫−∞+∞[∂θ2∂2lnp(x;θ)p(x;θ)+∂θ∂lnp(x;θ)∂θ∂p(x;θ)]dx∵∂θ∂p(x;θ)=∂θ∂lnp(x;θ)p(x;θ)=∫−∞+∞[∂θ2∂2lnp(x;θ)p(x;θ)+(∂θ∂lnp(x;θ))2p(x;θ)]dx=∫−∞+∞[∂θ2∂2lnp(x;θ)p(x;θ)dx+I(θ)=E[(∂θ∂lnp(x;θ))2]∫−∞+∞(∂θ∂lnp(x;θ))2p(x;θ)]dx 从而有: I(θ)=0−∫−∞+∞∂θ2∂2lnp(x;θ)p(x;θ)dx=−E[∂θ2∂2lnp(x;θ)] 得证。
关于副结论:Log似然函数的一阶导期望为0。我们有时候也把p的Log似然函数称为分数函数,即分数函数的期望为0,而费雪信息量正好是分数函数的二阶原点矩,同时由于其期望为0,二阶原点矩等于二阶中心矩,即费雪信息量也正好是分数函数的方差。
Cramer-Rao不等式与界
从最大似然估计的渐进正态性,我们知道估计量始终会是一个随机变量,有自己的概率分布,而不是一个准确的值。Cramer-Rao除了给出了Cramer-Rao正则分布族这种费雪信息的存在条件,还有另一个更重要的贡献:C-R不等式,可以说给了统计学理论上的绝望。
C-R不等式,其实就是在说:统计,对真实的概率分布参数估计能力是有限的。举个不太恰当的类比,有点像量子理论中的测不准原理 (二者证明有相似之处哦)。C-R不等式告诉我们,无论我们如何抽样充足,无论我们统计方法如何科学,我们对参数的估计值,永远不可能无限逼近是逻辑上的真实值!它有自己估计的上限!
最大似然估计与相对熵(KL散度)、交叉熵的等价性
在机器学习、广义线性模型的应用场景中,常常使用最小(大)化交叉熵或相对熵,又叫KL散度来替换一些最大似然估计的操作,从理论上来看它们是具有等价性的。关于相对熵的概念,可以先看笔记《无线通信之信息熵回忆总结》。最大似然估计的目标是最大化似然函数,我们将其写为: θargmaxln(L(θ))=θargmaxln(i=1∏np(xi;θ)) 显然,似然函数L(θ)是由抽样出来的已知样本xi的概率密度函数(pdf)连乘得来的。当参数θ已知时,∏i=1np(xi;θ)就是x=(x1,x2,⋯,xn)的联合概率密度值;如果θ未知,那么就会得到一个关于θ的函数L(θ),而找到让函数L(θ)最大的θ⋆就是最大似然估计的核心。
如果将ln符号和∏符号交换,上式可改写成: θargmaxln(i=1∏np(xi;θ))=θargmaxi=1∑nln(p(xi;θ)) 简单地,我 们可以对似然函数加个负号,然后取最大值就变成了取最小值: θargmaxi=1∑nln(p(xi;θ))=θargmini=1∑n−ln(p(xi;θ)) 由于n是一个固定的数,因此在上式前面乘以一个常数n1不改变θargmin的结果,即θargminn1i=1∑n−ln(p(xi;θ))。
接下来是体现抽样与概率关系的一步。我们知道xi都是从总体抽出来的样本,概率密度大的地方抽样出来的样本多,概率密度小的地方抽出来的样本就少。那么,想想我们如何使用蒙特卡洛法求一个随机变量函数的期望E[f(Y)]的?其中Y是一个随机变量。理论上来说: E[f(Y)]=∫−∞∞p(y)f(y)dy 但是,我们常常不知道Y精确的概率密度函数p(y),因此我们会从总体Y中抽取一定量的yi,然后用 E~[f(Y)]=n1i=1∑nf(yi) 来近似计算期望,我们抽样的数量越多,这个值越准确。当抽样的数量趋近于无穷时,E~[f(y)]→E[f(y)](P=1)。这个表述是不是看得眼熟,没错这就是强大数定律!由此我们可以得到一个结论:
结论1:当样本数足够大时,可以使用n1∑i=1nf(yi)替代期望E[f(Y)]。
回到原来θargminn1i=1∑n−ln(p(xi;θ))的场景,我们令f(x)=−ln(p(xi;θ)),并且xi都是从总体的抽样出来的,那么当样本数量较大时,我们同样可以用求期望的方式去近似函数均值,即: θargminn1i=1∑n−ln(p(x;θ))≈⎩⎨⎧θargminx∫p(x)[(−ln(p(x;θ))]dx,x为连续随机变量θargminx∑p(x)[(−ln(p(x;θ))],x为离散随机变量=θargminE[−ln(p(x;θ))]=θargminH(x;θ) 需要注意的是,作为概率的p(x)是与θ无关的事实概率密度函数。因为抽样是从真实分布中抽样的,抽样结果只和x的真实分布有关,或者说抽样结果已经是包含参数θ信息之后,体现出来的结果。到这里,我们又发现了一个重要的结论:
结论2:最大似然估计的效果等同于调节参数让信息熵最小。
这个直观上很好理解,最大似然估计是找出让事件发生概率最大的参数θ,而熵是衡量事件不确定性的度量,越可能发生的事情,其信息含量越小,熵也越小。因此,最大似然估计会使得θargminH(x;θ)。
到这里,我们距离交叉熵与相对熵(KL散度)貌似还有一些距离。因为上式中,我们使用的是一般的熵,而不是交叉熵、相对熵,那么区别在哪里呢?
答案就是似然函数−ln(p(x;θ))。我们在上文中都默认使用了真实的概率分布p(x;θ),然而我们实际上,我们并不知道!并且真实分布是客观存在的,实际上也不存在参数θ。我们只是选取了一种带有参数θ概率分布族q(x;θ)的去近似真实的概率p(x);或者假定数据xi服从某一带有参数θ概率分布族q(x;θ)。然而,实际情况是q(x;θ)与真实分布p(x)是有差距的。因此,我们写出实际情况: θargminn1i=1∑n−ln(p(x;θ))≈⎩⎨⎧θargminx∫p(x)[(−ln(q(x;θ))]dx,x为连续随机变量θargminx∑p(x)[(−ln(q(x;θ))],x为离散随机变量=θargminE[−ln(q(x;θ))] 注意只是将p(x;θ)换成了q(x;θ),抽样的xi反应的是真实的概率分布,因此就是约等于p(x),且根据大数定律,样本数越大,越接近真实分布。根据笔记《无线通信之信息熵回忆总结》的定义,我们知道 E[−ln(q(x;θ))]=x∑p(x)(−lnq(x;θ))=H(p,q) 其中,H(p,q)成为交叉熵,只有我们设定的参数分布族q(x;θ)才与θ相关,真实分布作为客观存在与θ无关。
根据交叉熵和相对熵的关系 DKL(p∣∣q)=H(p,q)−H(p) 可知,相对熵和交叉熵相差一个真实熵H(p)。因为p(x)是客观存在的,因此H(p)也是一个客观存在的常数,虽然我们不知道具体是多少,但是它确实只是个常数,与θ无关,因此 θargminE[−ln(q(x;θ))]=θargminH(p,q)=θargminDKL(p∣∣q) 其中,q是与θ相关的分布族,p与θ无关。
综上可知,最大似然估计等同于最小化交叉熵或相对熵(KL散度)。
最大似然估计不具备的性质
- 最大似然估计不一定是无偏的。
- 当待估计参数与自变量x相关时,无法用求导的方式求解。我们需要回到最大似然估计的基本定义,既让似然函数概率最大,来考虑问题。