用R语言做数据分析——卡方检验的功效分析

云烟 • 2024年 9月 24日上午6:25 • 未分类

卡方检验

卡方检验常常用来评价两个类别型变量的关系。典型的零假设是变量之间福利，备择假设是不独立。pwr.chisq.test()函数可以评估卡方检验的功效、效应值和所需样本大小。格式为：

pwr.chisq.test(w=, N=, df=, sig.level=, power=)

其中，w是效应值，N是总样本大小，df是自由度。此处，效应值w如下定义：

此处从1到m进行求和，m指的是列联表中单元格的数目，函数ES.w2(P)可以计算双因素列联表中备择假设的小颖子，P是一个假设的双因素概率表。

例子：我们需要研究人中与工作晋升的关系，预期样本中70%是白种人，10%是美国黑人，20%是西班牙裔人。而且，我们认为相比30%的美国黑人和50%的西班牙裔人，60%的白种人更容易晋升。研究假设的晋升概率如下图所示：

从表中可以看出，预期总人数的42%是晋升的白种人（0.42=0.70*0.60），总人数的7%是未晋升的美国黑人（0.07=0.10*0.70）。让我们取0.05的显著水平和0.90的预期功效水平。双因素列联表的自由度为（r-1）（c-1），r是行数，c是列数，分析代码如下：

> library(pwr)

> data<-c(.42,.28,.03,.07,.10,.10)

> prob<-matrix(data,byrow = TRUE,nrow = 3)

> ES.w2(prob)

[1] 0.1853198

> pwr.chisq.test(w=.1853, df=2, sig.level = .05, power = .9)

Chi squared power calculation

w = 0.1853

N = 368.5317

df = 2

sig.level = 0.05

power = 0.9

NOTE: N is the number of observations

结果表明，在既定的效应值、功效水平和显著性水平下，该研究需要369个受试者才能检验人中与工作晋升的关系。

选择合适的效应值

功效分析中，预期效应值时最难决定的参数。它通常需要我们对主题有一定的了解，并有相应的测量考验。例如，过去研究中的数据可以用来计算效应值，这能为后面深层次的研究提供一些参考。

但是当面对全新的研究情况，没有任何过去的经验可借鉴时，该怎么办呢？Cohen效应值基准为我们提供了一个很好的参考，这套基准可为各种统计经验划分为小、中、大三种效应值，基准值如下图所示：

当我们对研究的效应值一无所知时，这个表可以给我们提供一些指引。例如，我们想在0.05的显著性水平下，对5个组、每组25个受试者的设计进行单因素方差分析，那么拒绝错误零假设的概率有多大呢？

> pwr.anova.test(k=5, n=25, f=.10,sig.level = .05)

Balanced one-way analysis of variance power calculation

k = 5

n = 25

f = 0.1

sig.level = 0.05

power = 0.1180955

NOTE: n is number in each group

> pwr.anova.test(k=5, n=25, f=.25,sig.level = .05)

Balanced one-way analysis of variance power calculation

k = 5

n = 25

f = 0.25

sig.level = 0.05

power = 0.5738

NOTE: n is number in each group

> pwr.anova.test(k=5, n=25, f=.40,sig.level = .05)

Balanced one-way analysis of variance power calculation

k = 5

n = 25

f = 0.4

sig.level = 0.05

power = 0.9569163

NOTE: n is number in each group

由以上结果可得出结论：在给定样本大小的限制下，在大效应值时我们才可能发现要研究的效应。

另外，我们还需要牢记Cohen的基准值仅仅是根据许多社科类研究得出的一般性建议，对于特殊的研究领域可能并不适用。其他可选择的方法是改变研究参数，记录其对诸如样本大小和功效等方面的营销。仍然以五个分组的单因素方差分析为例，计算为检测一系列效应值所需的样本大小：

> es<-seq(.1,.5,.01)

> nes <- length(es)

> samsize<-NULL

> for(i in 1:nes){

+ result<-pwr.anova.test(k=5,f=es[i],sig.level = .05,power = .9)

+ samsize[i]<-ceiling(result$n)

+ }

> plot(samsize,es,type = “l”, lwd=2,col=”red”,ylab = “Effect Size”, xlab = “Sample Size (per cell)”, main=”one way ANOVA with Power=.90 and Alpha=.05″)

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/74397.html