卡方检验是什么,第1张

卡方检验是一种广泛使用的统计数据假设检验方法。属于非参数检验的范畴,主要比较两个或两个以上的样本率(构成比)和两个分类变量的相关性分析。基本思路是比较理论频率与实际频率的符合程度或拟合优度。

卡方检验是一种广泛使用的统计数据假设检验方法。属于非参数检验的范畴,主要比较两个或两个以上的样本率(构成比)和两个分类变量的相关性分析。基本思路是比较理论频率与实际频率的符合程度或拟合优度。

卡方检验是什么,卡方检验是什么,第2张

它在分类数据统计推断中的应用包括:卡方检验,用于比较两个比率或两个组成比率;卡方检验用于多比率或多成分比率的比较和分类数据的相关分析等。

卡方检验的基本原理

卡方检验的基本思想

卡方检验是一种常见的基于χ2分布的假设检验方法,其无效假设H0是观察频率和期望频率没有差异。

这个检验的基本思路是:首先假设H0成立,然后在这个前提下计算χ2值,表示观测值与理论值的偏离程度。根据χ2分布和自由度,可以确定H0假设成立时获得当前统计量和更极端情况的概率p。如果p值很小,说明观测值与理论值偏差太大,应剔除无效假设,说明对比数据存在显著差异;否则,我们不能排斥零假设,也不能认为样本所代表的实际情况与理论假设不同。

卡方值的计算及其意义

χ2值表示观察值与理论值的偏离程度。计算这个偏离度的基本思路如下。

(1)设a代表某一类别的观测频率,e代表基于H0计算的期望频率,a和e之差称为残差。

(2)显然,残差可以表示某一类别的观测值与理论值之间的偏离程度,但如果简单地加上残差来表示各个类别的观测频率与期望频率之间的差异,则存在一定的不足。因为残差是正负的,相加后会互相抵消,和还是0,所以残差可以平方求和。

(3)另一方面,剩余大小是一个相对的概念。当期望频率为10时,20的残差很大,但当期望频率为1 000时,残差很小。考虑到这一点,人们将剩余平方除以期望频率,并将其相加,以估计观察频率和期望频率之间的差异。

经过以上运算,得到常用的χ2统计量。因为它最早是由英国统计学家卡尔·皮尔逊在1900年提出的,所以也叫皮尔逊χ2,它的计算公式是(i=1,2,3,…,k)

其中,Ai为I级的观测频率,Ei为I级的期望频率,N为总频率,pi为I级的期望频率。I级的期望频率Ei等于总频率n×I级的期望概率pi,k为小区数。当n相对较大时,χ2统计量近似服从k-1(用于计算Ei的参数数量)自由度的卡方分布。

作为学术界的领袖,皮尔逊先生最初发表在《哲学杂志》上的χ2论文的标题是:在相关变量系统的情况下,一个给定的偏离可能性的系统是这样的,可以合理地假设它是由随机抽样产生的。

根据卡方计算公式,当观测频率与期望频率完全一致时,χ2值为0;观测频率越接近预期频率,两者之间的差异越小,χ2值越小。反之,观测频率与期望频率的差值越大,两者的差值越大,χ2值越大。换句话说,较大的χ2值表示观测频率与预期频率相差甚远,即与假设相差甚远。小χ2值表示观测频率接近预期频率和假设。所以χ2是观测频率与期望频率之间距离的度量,也是假设成立与否的度量。如果χ2值“小”,研究人员往往不会拒绝H0;如果χ2较大,则倾向于拒绝H0。至于每个具体的研究中χ2应该有多大才能剔除H0,应该通过卡方分布找到相应的P值来确定。

卡方检验的样本量要求

卡方分布本身是一个连续分布,但在分类数据的统计分析中,频率显然只能以整数形式出现,所以计算出来的统计量是不连续的。只有当样本量足够大时,它们之间的差异才能被忽略,否则可能会导致较大的偏差。特别地,一般认为对于卡方检验中的每个细胞,最小预期频率应该大于1,并且至少4/5的细胞应该具有大于5的预期频率。此时用卡方分布计算的概率值是准确的。如果数据不符合要求,可以用精确概率法计算概率。

卡方检验的类型

1.四格表数据的卡方检验

四个网格数据的卡方检验用于比较两个比率或两个组成比率。

1)特殊配方:

如果四格表数据的四格的频率为A,B,C,D,那么四格表数据卡方检验的卡方值为=,自由度v=(行数-1)(列数-1)

2)申请条件:

要求样本含量大于40,每个网格的理论频率不小于5。当样本量大于40但理论频率小于5时,需要修正卡方值。当样本量小于40时,概率只能用精确概率法计算。

2.行×列表数据的卡方检验

行×列表数据的卡方检验用于比较多个比率或多个组成比率。

1)特殊配方:

r行和列表c中数据卡方检验的卡方值=

2)申请条件:

要求每个网格中的理论频率t大于5或1

3.列联表数据的卡方检验

对于同一组对象,观察每个个体对两种分类方法的表现,形成双向交叉排列的统计表就是列联表。

1)r×c列联表的卡方检验:

R×C列联表的卡方检验用于R×C列联表的相关分析,卡方值的计算和检验过程与行×列表数据相同。

2)2×2列联表卡方检验:

2×2列联表卡方检验又称配对计数数据卡方检验或配对四格表数据卡方检验,可以根据卡方值的不同计算公式达到不同的目的。使用一般四格表的卡方检验时,卡方值为(AD-BC) 2n/(A+B) (C+D) (A+C) (B+D),用于配对四格表的相关性分析,如检查两种检验方法的结果是否相关;当卡方值= (| b c | 1) 2/(b+c)时,用卡方检验来检验四个表的差异,比如两种方法的检出率是否有差异。

列联表卡方检验的应用注意事项与R×C表相同。

卡方检验的使用

卡方检验最常见的用途是调查两个或多个组之间无序分类变量的每个水平的分布是否一致。其实除了这个用途,卡方检验的用途更广。具体来说,其用途主要包括以下几个方面:

(1)检查连续变量的分布是否与理论分布一致。如是否符合正态分布、均匀分布、泊松分布等。

(2)检查某个分类变量的出现概率是否等于指定概率。比如7中36的抽奖,每个数字出现的概率是否为1/36;抛硬币时,两面出现的概率是0.5吗?

(3)检查两个分类变量是否相互独立。比如吸烟(第二分类变量:是,否)是否与呼吸道疾病有关(第二分类变量:是,否);产品原材料类型(多分类变量)是否与产品合格性(第二分类变量)有关。

(4)控制一个或几个分类因子后,检查其他两个分类变量是否相互独立。如上例,控制性别和年龄的影响后,吸烟是否与呼吸道疾病有关;在控制了产品加工工艺的影响后,产品原材料类别是否与产品合格有关。

(5)检查两种方法的结果是否一致。如果用两种诊断方法对同一人群进行诊断,诊断结果是否一致;用两种方法预测客户的价值类别,预测结果一致。

卡方检验的应用条件

适用于四格表的应用条件:

1)随机样本数据。两个独立样本的比较可分为以下三种情况:

(1)所有理论数T≥5和总样本量n≥40均用皮尔逊卡方检验。

(2)如果理论数t < 5,但T≥1,n≥40,则用连续性校正的卡方检验。

(3)如果有理论数t < 1或n < 40,则采用费希尔试验。

2)卡方检验的理论频率不能太小。

R×C表卡方检验的应用条件:

(1)r×c表中理论数小于5的网格数不能超过1/5;

(2)理论值不能小于1。如果实验中存在不符合R×C表的卡方检验,可以通过增加样本数和合并列来实现。

卡方检验的应用实例

1.应用示例-体能测试

与虚无假设的预期次数相比,实际执行多项式检验得到的观察次数称为卡方检验,是利用样本数据检验总体分布是否为某一分布的统计方法。这里以骰子为例,介绍一下节制测试的方法。

[示例1]

(1)假设一个骰子滚动120次,每个点出现次数为A,B为每个点出现的期望值120×1/6=20,建立工作表文件,如图1所示。

(2)设零假设H0:观测分布等于期望分布。

(3)计算卡方检验统计量,如图2所示。

D2=(B2-C2)^2/C2

D8 =总和(D2:D7)

(4)确定自由度,(6-1)×(2-1)= 5;选择显著性水平α=0.05。

(5)用Excel提供的CHIINV函数求临界值,在D9单元格中键入" = CHIINV (0.05,5)",按回车键得到临界值11.07。

(6)临界值与统计学比较,11.07 >;2.3,即临界值大于统计值,所以差异不显著,接受H0。

2.应用示例2-独立性测试

卡方独立性检验用于检验两个属性是否独立。一个变量作为行,另一个作为列。下面的例子介绍了卡方独立性检验的方法。

【例2】某机构想了解目前性别是否与收入有关。他们随机抽取了500人,询问他们的观点。结果分为“相关、不相关、难以启齿”三个答案,从图3的县调中获得的数据。

图3

下面是用Excel解决这个问题的步骤。

(1)零假设H0:性别与收入无关。

(2)确定自由度为(3-1)×(2-1)=2,选择显著性水平α=0.05。

(3)为解决男女对收入和性别的不同看法的预期次数,每个预期值都是用列的总值除以总值的乘积来计算的。如图4所示,在单元格B9中键入“=B5*E3/E5”,也是如此(第一个等号理解为在单元格中键入):

B10=“=B5*E4/E5,C9=“=C5*E3/E5”,C10=“=C5*E4/E5”,D9=“=D5*E3/E5”,D10=“=D5*E4/E5”。

图4

(4)利用卡方统计计算公式计算统计量,在单元格B15中键入“= (B3-B9) 2/B9”,其他单元格依次类推。结果如图5所示。

图5

(5)利用Excel提供的CHIINV函数计算显著性水平为0.05、2卡方分布自由度的临界值,在Excel单元格中键入“=CHIINV(0.05,2)”,按回车键,临界值为5.9915。

(6)将统计量与临界值进行比较,统计量14.32483大于临界值5.9915,因此拒绝零假设。

3.应用示例3-均匀性测试

一般称为卡方均匀性检验或卡方同质性检验,检验两个或两个以上总体的某一特征分布,即每个“类别”的比例是否均匀或相似。下面的例子是使用卡方单位检验的例子。

[3]某咨询公司想知道南京和北京市民对最低生活保障是否同样满意。他们选择了600名南京居民和600名北京居民。每个居民可以选择一种满意(非常满意、满意、不满意、非常不满意),只能选择一种。将统计结果输入Excel工作表,如图6所示。

下面是用Excel解决这个问题的步骤。

(1)零假设H0:南京和北京居民对最低生活保障的满意度比例相同。

(2)确定自由度为(4-1)×(2-1)=3,选择显著性水平α=0.05。

(3)求解卡方检验的L临界值,在Excel单元格中键入" = CHIINV (0.05,3)",按回车键,临界值为7.81。

(4)计算北京和南京不同满意度的期望值,分别在单元格B11和C11中键入“=$B*D3/$D”和“=$C*D3/$D”,选择B11:C11,按住C11右下角填写控制点,填至C14。

(5)计算卡方统计,在单元格B19中键入“= (B3-B11) 2/B11”,其他单元格类推,结果如图7所示。

(6)统计量与临界值比较,统计量1.3875小于临界值7.81,接受零假设。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 卡方检验是什么

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情