欢迎大家来到IT世界,在知识的湖畔探索吧!
在我们之前的推送中,展示过一个“P值可能具有误导性”的例子:三位同学对同一基因在两组样本中的表达量的差异进行测定分析;其中,两位同学的结论是差异不显著,另一位同学的结论与它们相反(三个实验重复够吗?再谈“error bar“。)。当增加了样本数量后,t检验计算的到的P值具有显著性。这个例子反映出:对于方差较大的分布,采样个数不足够多时,“本来显著差异”的两组样本可能得到“并不显著的P值”。
相反的,我们还常常遇到这样的情况:对于来自相同分布的两组样本,如果很多次采集数据并进行假设检验,“本不应显著的”两组样本也会出现P值很小的“显著结果”(“P-hacking”)。如下图,我们对来自相同正态分布n(5,5)的x和y进行仿真,每次模拟三个重复,并进行t检验;假设我们有这么一个“劳模”进行了1000次(x轴)独立实验,并各自计算出p值(y轴);其中,红线为p=0.05的阈值线。从图上看出,1000次实验中,有很多次已经出现p<0.05的情况了。实际上,这种情况下“P-value”服从[0,1]区间的“均匀分布”;在随机情况下,1000次实验出现也能出现大约50次“P<0.05的情况”。
第一个例子,本来显著差异的情况,P值竟然不显著;第二个例子,本来不该显著差异的,P值居然显著了。对于统计小白来说,计算个“P值”,“咱也看不懂,咱也不敢信”。
对于第一种情况,根据我们之前的讨论说明,需要增加样本的个数,来降低对均值估计的标准误差。对于第二种情况,进行了很多次假设检验的时候,就要进行“多检验矫正”(multiple-testing correction),也就是计算FDR或者q-value了(本文暂不进行深入讨论)。
近年来学术界已经对“P值的局限性”进行了很多的讨论,例如建议在科学研究中限制使用“P值”甚至“放弃使用P值”云云。实际上,“P值”也很冤枉,人家这个概念本身没有错(有严格推导);只是我们很多研究者在使用的时候,存在着“深深的误解”。问题到底出在哪里呢?
我们在计算P值时,使用的是”无效假设显著性检验(-hypothesis significance testing, NHST)”分析框架。这种框架下的核心问题是“有差异吗”?但我们知道很多科学结论是没办法用这种“非黑即白”的模式来表述的,我们还要关心的是“有多大差别”。但在目前的大环境中,没有得到“显著差异”结论的研究在发表时可能还是会遇到困难。所以这篇推送更多的是为大家提供一些思路,如果不用P值还能用什么?
为大家介绍一篇今年7月发表在Nature Methods 上的文章,题目为“Moving beyond P values: data analysis with estimation graphics”。这篇文章从估计统计学(Estimation statistics)的角度提供了一种可视化试验数据的方法:Estimation Plot。
我们先来看看传统的可视化方法有什么问题。如下图,对于常见的处理/对照两组数据,我们常常用柱状图(高度为均值)加误差线(Error bar)来展示。这种可视化方法的问题在于:(1)看不到每个数据点,(2)没有展示具体的组间效应量(effect size)以及对这个效应量估计的准确度和置信度,(3)使用一颗基于二分法进行差异分类的”星标”(给读者一种“非黑即白”的印象)。
接下来文章作者提出的“Estimation Plot模式”用于看这两组数据的差别。针对前面提到的问题,作者在新的可视化方法中都一一作出了改进。(1)左半部分把柱状图换成了有规律排列的散点图(swarm plot),可以看到每个数据点和总体分布规律。(2)右半部分是用自助法得到的效应量的分布和95%置信区间(bootstrap 95% confidence interval)。
左半部分很好理解,右半部分要怎么看呢?首先要明确,右半部分的作用是对效应量进行估计。在本例中效应量是平均值的差,两条水平线分别代表两组数据的平均值,它们之间的距离即效应量。为了方便观察,最右侧有一条相同单位长度的坐标轴,以对照组均值为零点。灰色曲线代表使用自助法得到的对效应量分布的估计,黑色竖线是这个分布的95%置信区间,即真实的效应值大概率会在这个范围之内。综合右半部分的信息,我们可以对效应值的大小和准确度有一个直观的认知。用一张表来总结这种方法的优点:
这种方法不仅可以代替处理/对照这样的未配对学生t检验(Unpaired Student’s t-test),还可以用在配对数据(Paired Student’s t-test)、单因素方差分析和多重比较(One-way ANOVA + multiple comparisons)等假设检验形式上。
为方便大家使用,作者为这个项目建立了一个网页(https://www.estimationstats.com/),只需提供数据即可出图。同时也提供了相同功能的Matlab,Python,R 的包。各位感兴趣的老师、同学可以试一试。
综上所述,小编做如下总结:习惯于仅依靠单一的统计量(均值、P值、标准差、效应量)下结论是危险的,而是应该在理解统计概念的基础上综合不同统计量进行讨论。
参考文献:
Moving beyond P values: data analysis with estimation graphics, Nature Methods, (2019) 16:565–566
Scientists rise up against statistical significance, Nature, (2019)567:305-307
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/33802.html