概率统计随机过程之抽样的分布

概率统计随机过程之抽样的分布(统计量的分布)

样本均值的抽样分布——正态分布

样本均值的分布问题是被最早研究的问题,关于它的研究为中心极限定理的出现提供了巨大帮助。

定理1:设\(\{x_1,x_2,\dotsb,x_n\}\)是来自某个总体的样本,\(\bar{x}\)为其样本均值:

(1)若总体分布为\(N(\mu,\sigma^2)\),则\(\bar{x}\)的精确(抽样)分布为\(N(\mu,\sigma^2/n)\);

(2)若总体的分布未知或不是正态分布,但\(E(x)=\mu,Var(x)=\sigma^2\)存在,则\(n\)较大时\(\bar{x}\)的渐进分布为\(N(\mu,\sigma^2/n)\)(通常\(n>30\)就接近于正态分布),常记为\(\bar{x}\dot{\sim} N(\mu,\sigma^2/n)\)

证明:

(1)样本中的每个样品都是独立同分布的随机变量且服从\(x_i\sim N(\mu,\sigma^2)\),则根据正态分布的线性性质,n个i.i.d的正态随机变量和为\(N(n\mu,n\sigma^2)\)。同样根据正态分布的线性性质,和再除以\(1/n\),有\(\bar{x}\sim N(\mu,\sigma^2/n)\)

(2)就是独立同分布的中心极限定理(林德伯格-莱维中心极限定理)的结果。证明的话是用随机变量分布列的特征函数收敛到正态分布的特征函数的思路。

需要指出,此处的抽样分布一般都是放回抽样,对于无放回抽样,样本均值的标准误差需要添加一个修正系数: \[ \sigma^2_{\bar{x}}=\sigma^2/n\times \frac{N-n}{N-1}<\sigma^2/n \] 显然不放回抽样的样本均值的标准误差更小。

样本方差的抽样分布

卡方分布

定义1:卡方分布\(\chi^2(n)\)的概率密度是 \[f(x)=\begin{cases} \frac{1}{2^{n/2}\Gamma(n/2)}x^{{n\over2} -1}e^{-x\over 2},&x>0\\ 0,&\text{其他} \end{cases}\] 其中参数\(n\)称为自由度,\(\Gamma(x)=\int_0^{\infty}t^{x-1}e^{-t} \mathrm{d}t\)为伽马函数。

卡方分布.png

卡方分布.png

一些没用的观察:

  1. 自由度为2时,卡方分布就是一个的指数分布。
  2. \(n>2\),单峰曲线,且在\(x=n-2\)时取最大值。
  3. 卡方分布不对称,但是\(n\)越大越对称,且趋向于正态分布。

定理2(服从卡方分布):如果随机变量\(x_1,x_2,\dotsb,x_n\)独立,且服从\(N(0,1)\)分布,那么 \[ \sum_{i=1}^n x_i^2 \sim \chi^2(n) \] 即标准正态分布的平方和是卡方分布,自由度是\(n\)表示加数的个数。

证明:令\(y=x_i^2 ≥ 0\),其分布函数为\(F_{y}(y)\),所以当\(y≤0\)时有\(F_{y}(y)=0\),当\(y>0\)时有 \[\begin{aligned} F_{y}(y)&=P(x_i^2≤y)=P(-\sqrt{y}≤x≤\sqrt{y})\\ &=\int_{-\sqrt{y}}^0 p_x(x) dx + \int_{0}^{\sqrt{y}} p_x(x) dx\\ &=F_x(\sqrt{y}) - F_x(-\sqrt{y}) \end{aligned}\] 我们把上式对\(y\)求导,有: \[\begin{aligned} p_y(y)&=F_y'(y)=F'_x(\sqrt{y}) - F'_x(-\sqrt{y})\\ &=p_x(\sqrt{y})\cdot (\sqrt{y})'-p_x(-\sqrt{y})\cdot (-\sqrt{y})'\\ &=[p_x(\sqrt{y})+p_x(-\sqrt{y})]/(2\sqrt{y})\\ &=\frac{1}{\sqrt{2\pi}}y^{-1/2}e^{-y/2},y>0\\ &=\frac{(1/2)^{1/2}}{\Gamma(1/2)}y^{\frac{1}{2}-1}e^{-\frac{1}{2}y}=Ga(\frac{1}{2},\frac{1}{2})\end{aligned}\] 即单个标准正态分布的平方服从\(Ga(\frac{1}{2},\frac{1}{2})\)。而Gamma分布是有可加性的(证明见附录1-Gamma分布可加性证明)。因此,n个标准正态分布的平方的和服从\(Ga(\frac{n}{2},\frac{1}{2})\)。将\(Ga(\frac{n}{2},\frac{1}{2})\)写出可发现就等于\(\chi^2(n)\)。得证。

卡方分布性质:若\(X\sim \chi^2(n)\),则有:

  1. \(E(X)=n,D(X)=2n\)。分部积分可得,或者直接用特征函数求。
  2. 由中心极限定理可知,\(X\sim \chi^2(n)\)\(n\)充分大,\(\frac{X-n}{\sqrt{2n}}\overset{近似}{\sim} N(0,1)\)。参见中心极限定理的林德伯格-列维形式。
  3. 卡方分布可加性:\(X\sim \chi^2(n),Y\sim \chi^2(m),X,Y\)独立,则\(X+Y\sim \chi^2(m+n)\)
  • 推论:\(X_i\sim \chi^2(m_i)\),各个\(X_i\)独立,则\(\sum_{i=1}^n X_i\sim \chi^2(\sum_{i=1}^n m_i)\)
  • 简单论证:\(\chi^2\)分布是特殊的Gamma分布(即\(Ga(\frac{n}{2},\frac{1}{2})\)),而Gamma分布有可加性,所以\(\chi^2\)分布也有可加性。也可以从\(\chi^2\)分布的构成来看,它是由多个随机变量\(X_i\sim N(0,1)\)加出来,因此卡方分布的相加无非就是多几个标准正态分布相加的事,因此不改变分布类型,只改变分布参数。

样本方差的抽样分布服从\(\chi^2(n)\)分布

引理1: N维随机变量线性变换的分布。设在两个n维随机变量\(X=(x_1,x_2,\dotsb,x_n)'\)\(Y=(_1,y_2,\dotsb,y_n)'\)间存在一个线性变换关系\(Y=AX\),其中\(A=(a_{ij})\)为一个\(n\times n\)的n阶方阵,则它们的期望向量和方差(协方差)矩阵之间有如下关系: \[E(Y)=AE(X)\\Var(Y)=AVar(X)A'\]

证明:

(1)首先矩阵变换是一种线性变换,求期望(无论是积分还是求和)也是线性变换,有\(E(Y)=E(AX)\)\(A\)都是常数,所以可以把它当成线性变换的系数提出来,就有了\(E(Y)=AE(X)\)

(2)由于方差(协方差)运算中有变量之间的乘法,所以不是线性运算。我们老实根据定义求解,根据协方差矩阵的定义有: \[\begin{aligned} Var(Y)&=E[(Y-E(Y))(Y-E(Y))']\\ &\overset{Y=AX}{=}E[AX-E(AX)(AX-E(AX))']\\ &=E[AX-AE(X)(AX-AE(X))']\\ &\overset{\text{结合律}}{=}E[A(X-E(X))(A(X-E(X)))']\\ &\overset{(AB)'=B'A'}{=}E[A(X-E(X))(X-E(X))'A']\\ &=AE[(X-E(X))(X-E(X))']A'\\ &=AVar(X)A' \end{aligned}\]

定理3:设\(X=(x_1,x_2,\dotsb,x_n)\)是来自正态分布\(N(\mu,\sigma^2)\)的样本,其样本均值和样本方差分别为\(\bar{x}\)\(s^2\),则有

  1. \(\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)\)
  2. \(\bar{x},s^2\)相互独立。

证明:

首先对于n维随机变量\(X\),期望\(E(X)=\underbrace{(\mu,\mu,\dotsb,\mu)'}_{n个}\);n维随机变量的自协方差矩阵为\(Var(X)=\sigma^2I\),因为各维度之间是独立的(\(\Rightarrow\)不相关),所以只有对角线上的元素\(conv(x_i,x_i)=\sigma^2\),其他\(conv(x_i,x_j)=0,i\neq j\)。(conv表示协方差)。

我们看 \[(n-1)s^2=\sum_{i=1}^n (x-\bar{x})^2=\sum_{i=1}^n x_i^2 - 2\underbrace{\sum_{i=1}^n x_i}_{=n\bar{x}}\bar{x}+n\bar{x}^2=(\sum_{i=1}^n x_i^2)- n\bar{x}^2\]

我们在处理样本方差的时候,最需要注意的一点就是样本样品和样本均值不独立,此外,一般分布都是看可加性,而上式是两个随机变量相减。所以我们需要通过引理1构造一组不相关的随机变量相加,再通过正态分布不相关=独立的性质进行计算。证明定理3最精巧的一步在于构造的统计量为\(Y=AX\)\(A\)是个正交矩阵(\(AA'=I\)),因为根据引理1的方差公式,正交矩阵不改变\(Var(X)\),既 \[Var(Y)=AVar(X)A'=A\sigma^2I A'=\sigma^2I\] 由于\(Y\)各元素是独立的正态分布随机变量\(\{x_i\}\)的线性组合,即\(Y\)各维度也服从正态分布;而\(Y\)的协方差矩阵为\(I\),说明各维度之间不相关,又因为正态分布的不相关和独立等价,所以\(Y=(y_1,y_2,\dotsb,y_n)'\)的各个分量相互独立,且其方差都是\(\sigma^2\)

如果我们想把\((n-1)s^2\)\(\chi^2(n-1)\)分布上靠,首先就要把其变换成独立的正态分布平方的和。同时正交矩阵\(A\)不改变原n维向量的模(的平方),即\(\sum_{i=1}^n y_i^2=Y'Y=(AX)'AX=X'(A'A)X=X'X=\sum_{i=1}^n x_i^2\)。这正是\((n-1)s^2\)的前半部分。下一步关键是如果改造\(\bar{x}\),由于\(\sum_{i=1}^n y_i^2=\sum_{i=1}^n x_i^2\)都很像自由度为n的\(\chi^2(n)\)分布(只是“像”)。我们希望\(n\bar{x}^2\)变成某个\(y_k^2\),这样就可以正好减掉一个自由度,变成\(\chi^2(n-1)\),这就需要更精细的构造矩阵\(A\)。先来看看\(n\bar{x}^2\)的构成: \[n\bar{x}^2=n\times (\frac{1}{n}\sum_{i=1}^n x)^2=(\sum_{i=1}^n\frac{1}{\sqrt{n}}x_i)^2\] 如果我们令\(A\)的第\(k\)行为\((\frac{1}{\sqrt{n}},\frac{1}{\sqrt{n}},\dotsb,\frac{1}{\sqrt{n}})\)\(A_k(A_k)'=1\),那么\(y_k=A_{k}X=\sqrt{n}\bar{x}\),即\(n\bar{x}^2 = y_k^2\)。这样,就使得 \[(n-1)s^2=(\sum_{i=1}^n x_i^2)- n\bar{x}^2=(\sum_{i=1}^n y_i^2)-y_k^2,k\in\{1,2,\dotsb,n\}\] 不失一般性,我们不妨让\(k=1\),则 \[(n-1)s^2=\sum_{i=2}^n y_i^2\] 我们发现,\((n-1)s^2\)已经变成了\(n-1\)个正态分布随机变量的和,但是还不是标准正态随机变量。而根据要证的\(\frac{(n-1)s^2}{\sigma^2}\)和已知的\(Y\)各维度元素方差都是\(\sigma^2\),因此有 \[\frac{(n-1)s^2}{\sigma^2}=\sum_{i=2}^n (\frac{y_i}{\sigma})^2\] 其中,\(\frac{y_i}{\sigma}\sim N(\frac{\mu_i}{\sigma},1),i=2,3,\dotsb,n,\mu_i\)\(y_i\)的均值。我们希望\(\sum_{i=2}^n (\frac{y_i}{\sigma})^2\)则需要\(\frac{y_i}{\sigma}\sim N(0,1)\),现在还差\(\mu_i=0\),还需要进一步构造\(A\)的第\(2\sim n\)行,由于\(x_i\)是i.i.d的,即\(x_i\)的均值都是\(\mu\),而\(\mu_k=E(y_k)=\mu\sum_{i=1}^n a_{ki}\)。要让\(\mu_k=0\),则需要让\(\sum_{i=1}^n a_{ki}=0\),也就是说\(A\)的第\(2\sim n\)行的和都为0,又需要\(A\)是正交矩阵,我们因此构造如下矩阵: \[ A=\begin{bmatrix} \frac{1}{\sqrt{n}}&\frac{1}{\sqrt{n}}&\frac{1}{\sqrt{n}}&\dotsb&\frac{1}{\sqrt{n}}\\ \frac{1}{\sqrt{2\cdot 1}}&-\frac{1}{\sqrt{2\cdot 1}}&0&\dotsb&0\\ \frac{1}{\sqrt{3\cdot 2}}&\frac{1}{\sqrt{3\cdot 2}}&-\frac{2}{\sqrt{3\cdot 2}}&\dotsb&0\\ \vdots&\vdots&\vdots&\ddots&\vdots&\\ \frac{1}{\sqrt{n\cdot (n-1))}}&\frac{1}{\sqrt{n\cdot (n-1))}}&\frac{1}{\sqrt{n\cdot (n-1))}}&\dotsb&-\frac{n-1}{\sqrt{n\cdot (n-1))}}\\ \end{bmatrix} \] 这时有\(\frac{y_i}{\sigma}\sim N(0,1),i=2,3,\dotsb,n;y_1=\sqrt{n}\bar{x}\),且 \[\frac{(n-1)s^2}{\sigma^2}=\sum_{i=2}^n (\frac{y_i}{\sigma})^2\sim \chi^2(n-1)\] 样本方差的抽样分布服从\(\chi^2(n-1)\)分布得证。

通过构造的矩阵\(A\),我们还发现\(\bar{x}\)只和\(y_1\)有关,而\(s^2\)只和\(y_2,\dotsb,y_n\)有关,同时\(y_i\)之间是相互独立的,因此\(\bar{x},s^2\)也是相互独立的。

样本均值与样本方差比值的分布

t分布

TIPS名字来源

t,为Student简写,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。

t分布介绍

表达式:t分布的概率密度为 \[ p(x)=\frac{\Gamma \left(\frac{n+1}{2} \right)} {\sqrt{n\pi}\,\Gamma \left(\frac{n}{2} \right)} \left(1+\frac{x^2}{n} \right)^{-\frac{n+1}{2}} \] 其中参数\(n\)称为自由度,\(\Gamma(x)=\int_0^{\infty}t^{x-1}e^{-t} \mathrm{d}t\)为伽马函数。

TStudent分布.png

TStudent分布.png

一些观察:

  1. t分布是比正态分布“宽容”分布,像正态分布但是集中度没有正态分布强。在描述重尾分布时更好。
  2. \(n=1\)时,t分布为柯西分布,它的期望、方差都不存在。
  3. t分布是关于y轴对称的,所以\(X\sim t(n),E(X)=0(n>1)\)。当\(n>2\)时,t分布的方差存在,为\(n/(n-2)\)
  4. \(n\geq 30\)时,t分布于正态分布差别很小。
  5. t分布被广泛应用于小样本假设检验。虽然是很小的样本,但是,却强大到可以轻松的排除异常值的干扰,准确把握住数据的特征(集中趋势和离散趋势)

样本均值与样本方差比值服从t分布

定理4(相互独立的标准正态分布与卡方分布之比服从t分布):\(X\sim N(0,1),Y\sim \chi^2(n),X,Y独立\),则\(\frac{X}{\sqrt{Y/n}}\sim t(n)\),其中\(t(n)\)是自由度为n的分布。

证明:思路先求\(\sqrt{Y/n}\)的分布,然后再通过独立随机变量商的分布求\(\frac{X}{\sqrt{Y/n}}\)

\(z=g(y)=\sqrt{y/n}(y\geq 0)\),则其反函数为\(y=h(z)=nz^2(z\geq 0)\)。卡方分布在\(y<0\)时都等于0,因此有\(F_{z}(z)=0,z<0\)。当\(y,z>0\)时,根据随机变量的单调函数分布定理有: \[ p_{_Z}(z)=p_{_Y}(h(z))h'(z)=p_{_Y}(nz^2)(2nz)\\ =\frac{1}{2^{\frac{n}{2}-1}\Gamma(\frac{n}{2})}n^{\frac{n}{2}}z^{n-1}e^{-\frac{nz^2}{2}} \] 由于\(X,Y\)相互独立,所以\(X,Z\)也是独立的。联合概率密度\(p(x,z)\)就是\(X,Z\)两个概率密度的乘积,因此我们可以通过随机变量商的密度函数公式(参见笔记:概率统计随机过程之随机变量函数的分布.md)可得\(T=X/Z\)的密度函数为: \[ \begin{aligned} p_{_T}(t;n)&=\int_{-\infty}^\infty p_{_Z}(z)p_{_X}(zt) |z| \mathrm{d}z (z>0)\\ &=\int_{0}^\infty \frac{1}{2^{\frac{n}{2}-1}\Gamma(\frac{n}{2})}n^{\frac{n}{2}}z^{n-1}e^{-\frac{nz^2}{2}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{(zt)^2}{2}}z \mathrm{d}z\\ \overset{\text{提出非积分项}}{=}&\frac{n^{\frac{n}{2}}}{\sqrt{\pi}2^{\frac{n-1}{2}}\Gamma(\frac{n}{2})}\int_{0}^\infty z^{n}e^{-\frac{z^2}{2}(n+t^2)}\mathrm{d}z\\ \overset{u=\frac{z^2}{2}(n+t^2)}{=}&\frac{1}{\sqrt{n\pi}\Gamma(\frac{n}{2})(1+\frac{t^2}{n})^{\frac{n+1}{2}}}\int_{0}^\infty u^{\frac{n+1}{2}-1}e^{-u}\mathrm{d}u\\ &=\frac{\Gamma \left(\frac{n+1}{2} \right)} {\sqrt{n\pi}\,\Gamma \left(\frac{n}{2} \right)} \left(1+\frac{t^2}{n} \right)^{-\frac{n+1}{2}} \end{aligned} \] 得证。

定理5:样本均值与样本方差比值服从t分布。设\(X=(x_1,x_2,\dotsb,x_n)\)是来自正态分布\(N(\mu,\sigma^2)\)的样本,其样本均值和样本方差分别为\(\bar{x}\)\(s^2\),则有 \[t=\frac{\sqrt{n}(\bar{x}-\mu)}{s}\sim t(n-1)\]

证明:首先根据定理3\(\bar{x},s^2\)是独立的,所以\(\bar{x},s\)也是独立的。根据定理1\(\bar{x}\sim N(\mu,\sigma^2/n)\),则\(\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\),而根据定理3\(\frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)\)。仿照定理5的结构,我们可以构造: \[\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\bigg / \sqrt{\frac{(n-1)s^2}{\sigma^2}\big /(n-1)}\sim t(n-1)\] 化简后即可得: \[t=\frac{\sqrt{n}(\bar{x}-\mu)}{s}\sim t(n-1)\]

两个独立正态样本方差比的分布

F分布

F分布是1924年英国统计学家Ronald.A.Fisher爵士提出,并以其姓氏的第一个字母命名的。

F分布的PDF表达式: \[ p(x,n_1,n_2)=\begin{cases} \frac{(n1/n2)^{n_1 \over 2}}{B(n_1/2,n_2/2)}x^{{n_1\over 2}-1}(1+{n_1\over n_2}x)^{-{n_1+n_2 \over 2}},x>0\\ 0,x\leq 0 \end{cases} \] 其中,\(n_1,n_2\)都是自由度,\(B(n_1/2,n_2/2)\)是BETA函数,\(B(m,n)=\frac{\Gamma(m)\Gamma(n)}{\Gamma(m+n)}\)

自由度为\(m, n\)的F 分布的密度函数如下图: F分布.png

一些观察:

  1. \(F\sim F(n_1,n_2)\),则\(\frac{1}{F}\sim F(n_2,n_1)\);
  2. \(n_2>2\)时,F分布存在数学期望\(n_2/(n_2-2)\);
  3. \(n_2>4\)时,F分布存在方差\(\frac{2n_2^2(n_1+n_2-2)}{n_1(n_2-2)^2(n_2-4)}\)
  4. \(t\sim t(n)\),则\(t^2\sim F(1,n)\)

两个独立正态样本方差比的服从F分布

定理6(两个独立的卡方分布之比服从F分布):\(X\sim \chi^2(n_1),Y\sim \chi^2(n_2),X,Y\)独立,则\(\frac{X/n_1}{Y/n_2}\sim F(n_1.n_2)\)

证明:首先通过两独立随机变量的商的分布得到\(\frac{X}{Y}\)的分布,然后再通过随机变量的单调函数的分布得到\(\frac{n_2}{n_1}\frac{X}{Y}\)的分布。证明不难,但是比较繁琐,我直接贴图片了。

F分布形式证明

F分布形式证明

定理7:两个独立正态样本方差比的服从F分布。设\(X,Y\)是分别来自正态分布\(N(\mu_1,\sigma_1^2),N(\mu_2,\sigma_2^2)\)的容量为\(n_1,n_2\)样本,,样本方差分别为\(s_1^2,s_2^2\),则有 \[\frac{X_1/(n_1-1)}{X_2/(n_2-1)}=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)\]

证明:由定理3可知样本方差\(s_1^2,s_2^2\)的线性变换\(X_1=(n_1-1)s_1^2/\sigma_1^2,X_2=(n_2-1)s_2^2/\sigma_2^2\)的分布分别服从\(\chi^2(n_1-1),\chi^2(n_2-1)\),且相互独立。在将分子分母的自由度分别代入定理6,可得\(\frac{X_1/(n_1-1)}{X_2/(n_2-1)}\sim F(n_1-1,n_2-1)\)定理7得证。

正态总体下的抽样分布总结

正态总体下的抽样分布.jpg

正态总体下的抽样分布.jpg

附录

附录1-Gamma分布可加性证明

可以利用Gamma分布的特征函数快速证明。记Gamma分布为\(Ga(\alpha_i,\lambda)\),则其特征函数为 \[ \varphi_i(t)=(1-\frac{it}{\lambda})^{-\alpha_i} \]\(\lambda\)相同时,有 \[Ga(\alpha_i,\lambda)+Ga(\alpha_j,\lambda)=\varphi_i(t)*\varphi_j(t)\\ =(1-\frac{it}{\lambda})^{-(\alpha_i+\alpha_j)}=Ga(\alpha_i+\alpha_j,\lambda)\] 得证。