概率统计随机过程之条件期望与重期望公式

之前对条件期望的理解有一些偏差,现在重新看了下条件期望的内容与重期望公式。注意(X|Y)的条件期望实际上是关于Y的函数,而重期望公式则与分区加权求和有着本质联系,提供了求X期望的另一种方式。

如果我们对条件分布求期望,则称为条件数学期望。在离散分布列和连续密度函数的定义方式如下,以二维举例:

XX关于Y=yY=y的条件期望: E(XY=y)={ixiP(X=xiY=y),(X,Y)为二维离散随机变量xp(xy)dx,(X,Y)为二维连续随机变量(1)E(X|Y=y)=\begin{cases}\sum\limits_i x_iP(X=x_i|Y=y),\qquad(X,Y)为二维离散随机变量\\ \int_{-\infty}^{\infty}xp(x|y)\mathrm{d}x,\qquad(X,Y)为二维连续随机变量\end{cases}\tag{1}

YY关于X=xX=x的条件期望: E(YX=x)={iyiP(Y=yiX=x),(X,Y)为二维离散随机变量yp(yx)dy,(X,Y)为二维连续随机变量(2)E(Y|X=x)=\begin{cases}\sum\limits_i y_iP(Y=y_i|X=x),\qquad(X,Y)为二维离散随机变量\\ \int_{-\infty}^{\infty}yp(y|x)\mathrm{d}y,\qquad(X,Y)为二维连续随机变量\end{cases}\tag{2}

注意,E(XY=y)E(X|Y=y)是在yy为特定值时,对xx求和/积分,抹去了xx的随机性,得到一个关于yy的函数。同理,E(YX=x)E(Y|X=x)抹去的是yy的随机性,得到一个关于xx的函数。

条件期望E(XY=y)E(X|Y=y)和无条件期望E(X)E(X)的一大区别是,E(X)E(X)是一个数,而条件期望E(XY)E(X|Y)是一个函数g(y)g(y)

举个例子,如用XX表示中国成年人的身高,则E(X)=170E(X)=170表示中国成年人的平均身高为170 cm,是一个具体的数字。若用YY表示中国成年人的足长,则E(XY=y)E(X|Y=y)表示足长为yy的中国成年人的平均身高,根据研究可知 E(XY=y)=6.876y E(X|Y=y)=6.876y 这显然是一个与yy相关的函数,对yy的不同取值,条件期望的取值也在变化。可以记: g(y)=E(XY=y) g(y)=E(X|Y=y) 进一步,还可以将条件期望看成是随机变量YY的函数,即E(XY)=g(Y)E(X|Y)=g(Y),而将E(XY=y)E(X|Y=y)看成是Y=yY=yE(XY)E(X|Y)的一个取值。从这个角度来看,E(XY)E(X|Y)也是一个随机变量

如果条件期望也是一个随机数,那么条件期望的期望是什么呢?下面就用重期望公式做进一步说明。

前面提到,g(Y)=E(XY)g(Y)=E(X|Y)也是一个随机变量,如果我们对其求期望,以连续函数为例,注意随机变量是YYE[g(Y)]=E(XY=y)pY(y)dy E[g(Y)]=\int_{-\infty}^\infty E(X|Y=y) p_Y(y)\mathrm{d}y 我们将条件期望的定义(1)式代入可得: E[g(Y)]=[xp(xY=y)dx]  pY(y)dy(全概率公式)=xp(x,y)dxdy(提出x=x{p(x,y)dy}dx(x的边际pdf)=xpX(x)dx=E(X)(3) \begin{aligned} E[g(Y)]&=\int_{-\infty}^\infty[\int_{-\infty}^\infty xp(x|Y=y)\mathrm{d}x]\;p_{_Y}(y)\mathrm{d}y\\ (全概率公式)&=\int_{-\infty}^\infty\int_{-\infty}^\infty xp(x,y)\mathrm{d}x\mathrm{d}y\\ (提出x)&=\int_{-\infty}^\infty x\{\int_{-\infty}^\infty p(x,y)\mathrm{d}y\}\mathrm{d}x\\ (求x的边际pdf)&=\int_{-\infty}^\infty xp_{_X}(x)\mathrm{d}x\\ &=E(X) \end{aligned}\tag{3} 我们“惊讶”的发现,条件期望的期望竟然是XX的无条件期望!由此,我们给出重期望公式:

定理:(重期望公式)设(X,Y)(X,Y)是二维随机变量,且E(X)E(X)存在,则

E(X)=E[E(XY)]E(X)=E[E(X|Y)]

重期望公式是概率论中比较深刻的一个结论。我们也可以换个角度理解:我们找到一个与XX相关的量YY,用YY的不同取值(要互斥)把XX划分成若干小区域(场景),现在小区域上求XX的期望或均值,然后再根据YY的出现概率对各个小区域的期望E(Xyi)E(X_{y_i})求加权平均,即可求出整体XX的期望。

具体一些,重期望公式也可以写成如下形式: E(X)={iE(XY=yi)P(Y=yi),离散场景E(XY=y)PY(y)dy,连续场景 E(X)=\begin{cases}\sum\limits_i E(X|Y=y_i)P(Y=y_i),\qquad 离散场景\\ \int_{-\infty}^\infty E(X|Y=y)P_{_Y}(y)\mathrm{d}y,\qquad 连续场景\end{cases}

X1,X2,X_1,X_2,\dotsb为一系列独立同分布的随机变量,随机变量NN只取正整数值,且NN{Xn}\{X_n\}独立,证明: E(i=1NXi)=E(X1)E(N) E(\sum_{i=1}^N X_i)=E(X_1)E(N)

证明:由重期望公式可知: E(i=1NXi)=E[E(i=1NXiN)]=i=1E(i=1NXiN=n)P(N=n){Xn}N独立)=i=1E(i=1nXi)P(N=n){Xn}i.i.d=i=1nE(X1)P(N=n)=E(X1)i=1nP(N=n)=E(X1)E(N) \begin{aligned} E(\sum_{i=1}^N X_i)&=E[E(\sum_{i=1}^N X_i | N)]\\ &=\sum_{i=1}^\infty E(\sum_{i=1}^N X_i | N=n)P(N=n)\\ (\{X_n\}与N独立)&=\sum_{i=1}^\infty E(\sum_{i=1}^n X_i)P(N=n)\\ (\{X_n\}i.i.d)&=\sum_{i=1}^\infty nE(X_1)P(N=n)\\ &=E(X_1)\sum_{i=1}^\infty nP(N=n)\\ &=E(X_1)E(N) \end{aligned}

  • Var(X)=E[Var(XY)]+Var[E(XY)]\mathrm{Var}(X)=E[\mathrm{Var}(X|Y)]+\mathrm{Var}[E(X|Y)]

证明: E[Var(XY)]=E{E(X2Y)[E(XY)]2}=E(X2)E[E2(XY)]Var[E(XY)]=E[E2(XY)][EE(XY)E(X)]2=E[E2(XY)][E(X)]2}E[Var(XY)]+Var[E(XY)]=E(X2)E[E2(XY)]+E[E2(XY)][E(X)]2=E(X2)E2(X)=Var(X) \left . \begin{aligned} &E[\mathrm{Var}(X|Y)]=E\{E(X^2|Y)-[E(X|Y)]^2\}=E(X^2)-E[E^2(X|Y)]\\ \\ &\mathrm{Var}[E(X|Y)]=E[E^2(X|Y)]-[\underbrace{E\cdot E(X|Y)}_{E(X)}]^2=E[E^2(X|Y)]-[E(X)]^2 \end{aligned} \right\}\Rightarrow\\ E[\mathrm{Var}(X|Y)]+\mathrm{Var}[E(X|Y)]=E(X^2)-E[E^2(X|Y)]+E[E^2(X|Y)]-[E(X)]^2\\ =E(X^2)-E^2(X)=\mathrm{Var}(X)

  • E[f(Y)Y]=f(Y)E[f(Y)|Y]=f(Y)

证明: 当随机变量YY取到固定值yy时(Y=yY=y),就不存在随机性了。所以对于Y=y\forall Y=y,有 E[f(Y)Y=y]=E[f(Y=y)Y=y]=E[f(y)]=f(y) E[f(Y)|Y=y]=E[f(Y=y)|Y=y]=E[f(y)]=f(y) 所以,有E[f(Y)Y]=f(Y)E[f(Y)|Y]=f(Y)

  • E[g(X)YX]=g(X)E[YX]E[g(X)\cdot Y|X]=g(X)E[Y|X]
  • E(XY)=E[XE(YX)]E(XY)=E[X\cdot E(Y|X)]
  • Cov[X,E(YX)]=Cov(X,Y)\mathrm{Cov}[X,E(Y|X)]=\mathrm{Cov}(X,Y)