概率统计随机过程之假设检验
概率统计随机过程之假设检验
统计推断两大内容:参数估计(点估计、区间估计)与假设检验。与参数估计不同,假设检验不需要去计算具体的数值或范围,只需要回答“Yes Or No”的问题。
- 假设检验
- 假设检验研究的问题
- “假设”
- 如何选择原假设与备择假设?
- 基本方法与步骤
- 两类错误
- 显著性水平
- P值
- 显著性水平和P值的区别
- 一个总体的参数假设检验
- 总体均值的检验
- 总体比例的检验
- 总体方差的检验
- 两个总体的参数假设检验
- 均值差异性检验
- 两个总体比例差的检验
- 两个总体方差之比的检验
假设检验
假设检验的基本思想是对总体参数的具体数值进行假设性陈述(如使用=,≥,≤等符号),再利用样本或实验结果来推断此假设的可信度。通常,逻辑上采用反证法,但只是概率性证伪,依据是统计上的小概率原理。
小概率原理:一个事件如果发生的概率很小的话,那么它在一次试验中是几乎不可能发生的,但在多次重复试验中几乎是必然发生的。
多小能称之为小概率呢?统计学上,一般认为地认为等于或小于0.05或0.01的概率为小概率。
假设检验研究的问题
总体分布存在未知内容,对总体分布的“某种推断”做出某些“假设”,再通过抽样的样本进行对假设进行检验。主要分为以下两种:
- 分布类型未知:非参数假设,例如假设服从正态分布,均匀分布……这类一般很难。针对分布类型未知的假设检验为非参数的假设检验。
- 参数未知:参数假设。针对分布类型已知而其中某些参数未知的假设建议称为参数的假设检验(重点)。
“假设”
原假设(Null hypothesis) | 备择假设(Alternative hypothesis) | |
---|---|---|
表示记号 | ||
别称 | 零假设 | 研究假设 |
含义 | 待检验的假设 | 与原假设对立的假设 二者相互对立,有且只有一个成立 |
目的 | 研究者想收集证据予以反对的假设 | 研究者想收集证据予以支持的假设 |
等号 | 带有,=,≥,≤ | 不带有,≠,<,> |
原假设与备择假设二选一,接受则拒绝,反则反之。
假设设计步骤:
- 先确定备择假设,在确定原假设
- =,≥,≤放在原假设中
- 检验目的是收集证据拒绝原假设
如何选择原假设与备择假设?
科学的审慎原则与原假设的优势性。在科学研究中,通常要求保守主义,遵守习俗、惯例和延续性。比如新的工艺或技术默认无效、新的要没有疗效、变量无关联等。
原假设是具有先天优势的,因为必须拿出充分的证据才可以推翻,具备先天受保护性,相对于备择假设更有优势。
- 一般不能轻易推翻(否定)的假设为原假设,原假设不能轻易拒绝,除非有足够的证据。
- 保守性的作为原假设。
- 分析人员想证明正确的命题作为备择假设,把分析人员努力证明他不正确的命题作为原假设。
- 如果命题成立,但是误判为不成立时会造成严重后果的;命题为原假设。
个人总结:惰性,严谨性(悲观性)
基本方法与步骤
基本方法:
用样本构造统计量,在原假设情况下,的分布已知,发生的概率与此次抽样相关,关注小概率事件在一次抽样中是否发生。
假设检验和区间估计方法是类似的。
步骤:
- 提出原假设与备择假设
- 假定成立,构造统计量,其分布已知
- 对于给定的小概率,找到对应的小概率区间,使得。我们也称为拒绝域,对应的大概率对应的区间为接受域。
- 由样本数据值,求出统计量的值
- 若样本数据构造的 在拒绝域,拒绝;若样本数据构造的在接受域,接受;
补充:
- 单侧检验,备择假设有方向性,拒绝域只在左侧(<)或右侧(>)。
- 双侧检验,备择假设没有方向性,拒绝域在两侧(=)
两类错误
我们根据概率做的决策未必是对的。
- 第一类错误:弃真。原假设为真,但是推翻原假设。。此就是上文中的,称为显著性水平。成为置信水平。
- 第二类错误:纳伪。原假设为假,但是不推翻原假设。。称为检测效率。
两类错误通常在样本一定时无法兼顾,第一类错误低,必然导致第二类错误升高。
N-P原则:尽量保证不犯第一类错误的前提下,尽量减少第二类错误。
注意,我们只能说不能拒绝原假设,而不能轻易说接受原假设。一般文中的接受域只是术语。
显著性水平
显著性水平是一个概率值,代表着拒绝原假设$H_0率,其概率范围叫拒绝域。通常显著性水平的值比较小,如0.01,0.05,0.10,这种小概率也表明要拒绝原假设的概率应该很小,除非证据充分。

Figure 1: 拒绝域.png
拒绝域.png
- 双侧检验:|检测统计量值|>临界值,拒绝.
- 左侧检验:检测统计量值 < 临界值,拒绝.
- 右侧检验:检测统计量值 > 临界值,拒绝.
显著性水平是人为规定的,其概率大小与犯第一类错误的大小有关,显著性水平越大,拒绝原假设的概率越大,那么发生第一类错误的概率也就越大。
P值
在上一小结使用显著性性水平和置信度的体系中,我们人为地规定了置信度,然后根据置信度确定临界值划分接受域和拒绝域。这实际上只回答了Yes Or NO的问题,具体抽样出来的样本发生概率有多小,并没有计算出来。为了近似的计算这个样本发生的概率,我们使用P值这个指标。
P值(P value)就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。
需要注意P值不是说所得样本发生的概率,而是所有比样本更加离谱发生的概率的总和,它是一组事件集合的概率。对于不同的检验,离谱/极端的定义是不一样的,比如:
- 左侧检验:检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。
- 右侧检验:检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率。
- 双侧检验:既要考虑小于等于又要考虑大于等于的情形。
如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。用公式表示为: 其中,是我们选定的概率。

Figure 2: P值.png
P值.png
显著性水平和P值的区别
显著性水平是人为定的,我们根据显著性水平得到临界值,用临界值和统计量比较。
P值是设计一个统计量,然后计算该统计量所有极端情况的概率和,再和一个人为定义的概率做比较。此外,P值能够得到极端情形的概率,能够提供更多的信息。
二者的思路正好是互补的,只不过显著性水平和人为定义的小概率值通常取得一致,比如都是0.1,0.05,所以才容易搞混。
通常在研究报告中,作者会求出P值,然后让读者去自行选择拒绝的小概率,而非使用显著性水平,直接拒绝原假设。
一个总体的参数假设检验
在总体分布类型已知的情况下,如果只有一个参数需要检验,会有以下常见情况。
总体均值的检验
根据中心极限定理,当样本数量足够多时,样本的均值服从渐进正态分布,其中是总体真正的均值,是总体的标准差,是样本容量。通常,当样本容量时,我们就可以使用正态分布作为样本均值的分布。

Figure 3: 一个参数均值检验.png
一个参数均值检验.png
当总体的标准差未知时,我们可以用样本的标准差近似代替总体的标准差。需要注意,样本方差公式中分母是 其中为样本均值。
z检验就是正态检验,t检验是student检验。
总体比例的检验
总体比例的检验多见于使用二项分布的场景。比如,总体中具有某一个特征的个体可能比例为,现在抽样的样本容量为,其中具有该特征的样本数量为,要求检验比例的准确性。本质上是检验与的关系。
我们知道当较大时,二项分布是不太好求的,因为存在计算量很大的阶乘项,但是根据二项分布的中心极限定理,当较大,且的值不是很小()时,则可用正态分布去近似二项分布。
根据抽样要求可知,具有某一个特征的个体数量服从二项分布,即 当很大时,我们可以用正态分布近似二项分布,即,那么根据随机变量的关系有,将标准化后可得 这样我们可以通过正态(Z)检验来对比例进行假设检验。
总体方差的检验
根据笔记概率统计随机过程之抽样的分布中内容可知,样本方差与总体方差有如下关系: 因此,可以对总体的方差进行卡方检验,方法与Z检验类似,只是卡方检验多用于单侧检验,且分布需要使用卡方分布。
两个总体的参数假设检验
两个总体的检验和单个总体的检验分类一样,也是分为均值、比例和方差的检验,如下图所示:

Figure 4: 两个总体的检验
两个总体的检验
通常我们研究的两个总体之间的差距,因此,一般研究的是两个总体的均值之差、比例之差与方差之比。
均值差异性检验

Figure 5: 两个总体均值差的检验
两个总体均值差的检验

Figure 6: 两个正态总体的参数假设检验1.png
两个正态总体的参数假设检验1.png
两个总体比例差的检验

Figure 7: 两个总体比例差的检验
两个总体比例差的检验
两个总体方差之比的检验

Figure 8: 两个总体方差之比的检验
两个总体方差之比的检验