反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?统计数据 究竟能有多不靠谱 设想有两所医院 统计它们在一年内救治的病人总数 发现 A 医院的治愈率是 50

欢迎大家来到IT世界,在知识的湖畔探索吧!

统计数据,究竟能有多不靠谱?

设想有两所医院(A和B),统计它们在一年内救治的病人总数,发现:

  • A医院的治愈率是50%
  • B医院的治愈率是55%

由此,可以说明B医院比A医院的治疗水平更高吗?

当然不行!

因为上面的数据是被精心挑选的数据,而完整的数据是:

A医院

B医院

大病病人

就诊600人

治愈200人

就诊200人

治愈50人

小病病人

就诊400人

治愈300人

就诊800人

治愈500人

(暂且别管大病和小病具体是什么,我们知道大病比小病更难治就行了)

分别计算上面表格中治愈率,可以发现:

A医院

B医院

大病病人

33.3%

25.0%

小病病人

75.0%

62.5%

不管是治疗大病还是小病,在治愈率方面,A医院都比B医院更高。

但是,一旦计算总体的治愈率,却会回到文章开头抛出的数据,B医院总体的治愈率反倒超过了A医院。

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?



欢迎大家来到IT世界,在知识的湖畔探索吧!

辛普森悖论

上文中的情况就是典型的辛普森悖论

有时候,每一项指标都占优势,总体看来,反倒处于劣势

人类很早就注意到了这种现象,但是直到1951年,这种现象才在统计学家E.H.辛普森的论文中得以正式描述(“辛普森悖论”也由此得名)

当然,称其为“悖论”并不恰当,它只是与人们的直觉不符的现象而已,这种现象其实非常多:

  • 不同学校的男女录取比例。
  • 足球队的胜率。
  • 治安水平。
  • 平均工资。
  • ……

你能看到的所有统计数据,都或多或少地被辛普森悖论修改过。

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

乍一看,辛普森悖论很神奇,但是它的原理非常简单。

回到医院的例子:

A医院

B医院

大病病人

就诊600人

治愈200人

33.3%

就诊200人

治愈50人

25.0%

小病病人

就诊400人

治愈300人

75.0%

就诊800人

治愈500人

62.5%

总计

就诊1000人

治愈500人

50.0%

就诊1000人

治愈550人

55.0%

治小病比治大病更容易。

  • 在A医院就诊的大病病人,远远多于在B医院就诊的大病病人,拉低了A医院总体的治愈率。
  • 在B医院就诊的小病病人,远远多于在A医院就诊的小病病人,抬高了B医院总体的治愈率。

这种现象其实很符合实际情况:能者多劳,劳而无功

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

我们还是看上文的“医院模型”,A医院治疗大病的水平更高,所以一旦有人患大病,首选A医院。

医院的空间毕竟是有限的,A医院救治了大病病人,就难以顾及小病病人。这就让更多的小病病人涌入B医院。

虽然对于小病病人也可以做出同样的分析,但是小病的治愈率毕竟高于大病,小病病人对于A医院的依赖,并不像大病病人那么强。

所以,终究还是更多的大病病人涌入A医院。从某种意义上讲,A医院的治疗水平高超,反倒坏了A医院的名声

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

为什么能者多劳?

因为有些事情,交给能者来干,大家才放心。

为什么劳而无功?

因为有些事情,就算交给能者来干,依然很难干好。

如果大家不懂辛普森悖论,就很可能会把高手当成菜鸟,又把菜鸟当成高手。这也是辛普森悖论最值得科普的地方:别以成败论英雄

  • 某位律师的业务水平越高,就越会有难缠的官司找上门。
  • 某位警察的办案能力越强,就越会有难缠的案子找上门。
  • 某位修理工的技术越高,就越会有难修的机器找上门。
  • 某位教授的学术水平越高,就越会碰上困难的研究课题。
  • ……

以上这些现象,可能是用户自发的选择的结果,也可能是高手自己的选择(比如:牛顿、爱因斯坦在后半生的时间里都没做出贡献,主要是因为他们选择了非常困难的研究课题)

总之,辛普森悖论可以自发形成,并不一定要由刻意操纵来实现。

所以,人才被埋没,其实是很正常的事。

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

当然,现实中通常是把辛普森悖论“反着用”,也就是刻意制造辛普森悖论。

虽然某些人可能各方面都不怎么样,但就是可以在统计数据上做一些操作,名正言顺地获得纸面上的胜利。尽管出示的所有统计数据都无比真实,但就是能混淆视听。

具体内容可能会有些敏感,我就不多说了。

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

抽象一点

上文只是简单介绍了辛普森悖论,其实形成辛普森悖论需要特定的条件

事实上,每一个现象、理论都有自己的适用条件,抛开适用条件就别谈理论了。虽然很多理论的适用条件都不明确,不过好在辛普森悖论的适用条件很明确,也很简单。

如果想更深入地了解辛普森悖论,就需要借助更多的数学工具,我们可以把上文的“医院模型”进一步抽象:

A医院

B医院

大病病人

就诊600人

治愈200人

33.3%

就诊200人

治愈50人

25.0%

小病病人

就诊400人

治愈300人

75.0%

就诊800人

治愈500人

62.5%

总计

就诊1000人

治愈500人

50.0%

就诊1000人

治愈550人

55.0%

用a表示A医院的各项治愈率,用b表示B医院的各项治愈率。

借助上面的表格,可以得到:

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

总体的治愈率,是大病和小病治愈率的加权平均数

虽然总体的治愈率受到大病和小病治愈率的影响,但是还有其它因素在影响总体的治愈率,也就是大病和小病治愈率所占的权重

权重,其实就是大病或小病病人占病人总数的比例。

如果分别用n、m来表示A、B医院的大病和小病治愈率的权重,就会得到:

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

值得注意的是,对同一所医院来说,各项权重的加和必然等于一。

由此可以得到总体的治愈率的取值范围:

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

一段时间内,一所医院接诊大病和小病病人的人数难以确定,这会让各项权重不断变化(这体现的是所有病人的病情,难以控制)

但是,一所医院接诊大病和小病病人的治愈率却很难改变(这体现的是医疗水平的高低,很难在短时间内提升)

上文计算的取值范围也因此派上用场,它告诉我们:能否通过改变医院接诊大病和小病病人的人数,实现辛普森悖论

对于文中的例子:

  • A医院的总体治愈率,取值范围是33.3%到75.0%
  • B医院的总体治愈率,取值范围是25.0%到62.5%

这两个取值范围有重合的部分,这是实现辛普森悖论的前提条件。

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

如果A医院实在太强,或者B医院实在太水,造成了这种情况:

  • A医院的总体治愈率,取值范围是65.3%到87.0%
  • B医院的总体治愈率,取值范围是25.0%到62.5%

也就是说,A医院治大病的成功率,都比B医院治小病的成功率更高。此时,就永远不会发生辛普森悖论

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

这其实类似于“田忌赛马”,你的上等马不如对方的上等马、中等马不如对方的中等马、下等马不如对方的下等马。

但是这都不重要,真正重要的是条件是:你的上等马能战胜对方的中等马、中等马能战胜对方的下等马

想玩类似的诡计,终究还是要有点真本事。

反直觉的“辛普森悖论”,为什么高手屡战屡败,菜鸟却稳操胜券?

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/126798.html

(0)
上一篇 2天前
下一篇 2天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信