欢迎大家来到IT世界,在知识的湖畔探索吧!
统计数据,究竟能有多不靠谱?
设想有两所医院(A和B),统计它们在一年内救治的病人总数,发现:
- A医院的治愈率是50%
- B医院的治愈率是55%
由此,可以说明B医院比A医院的治疗水平更高吗?
当然不行!
因为上面的数据是被精心挑选的数据,而完整的数据是:
|
A医院 |
B医院 |
|
|
大病病人 |
就诊600人 治愈200人 |
就诊200人 治愈50人 |
|
小病病人 |
就诊400人 治愈300人 |
就诊800人 治愈500人 |
(暂且别管大病和小病具体是什么,我们知道大病比小病更难治就行了)
分别计算上面表格中治愈率,可以发现:
|
A医院 |
B医院 |
|
|
大病病人 |
33.3% |
25.0% |
|
小病病人 |
75.0% |
62.5% |
不管是治疗大病还是小病,在治愈率方面,A医院都比B医院更高。
但是,一旦计算总体的治愈率,却会回到文章开头抛出的数据,B医院总体的治愈率反倒超过了A医院。
欢迎大家来到IT世界,在知识的湖畔探索吧!
辛普森悖论
上文中的情况就是典型的辛普森悖论:
有时候,每一项指标都占优势,总体看来,反倒处于劣势。
人类很早就注意到了这种现象,但是直到1951年,这种现象才在统计学家E.H.辛普森的论文中得以正式描述(“辛普森悖论”也由此得名)。
当然,称其为“悖论”并不恰当,它只是与人们的直觉不符的现象而已,这种现象其实非常多:
- 不同学校的男女录取比例。
- 足球队的胜率。
- 治安水平。
- 平均工资。
- ……
你能看到的所有统计数据,都或多或少地被辛普森悖论修改过。
乍一看,辛普森悖论很神奇,但是它的原理非常简单。
回到医院的例子:
|
A医院 |
B医院 |
|
|
大病病人 |
就诊600人 治愈200人 33.3% |
就诊200人 治愈50人 25.0% |
|
小病病人 |
就诊400人 治愈300人 75.0% |
就诊800人 治愈500人 62.5% |
|
总计 |
就诊1000人 治愈500人 50.0% |
就诊1000人 治愈550人 55.0% |
治小病比治大病更容易。
- 在A医院就诊的大病病人,远远多于在B医院就诊的大病病人,拉低了A医院总体的治愈率。
- 在B医院就诊的小病病人,远远多于在A医院就诊的小病病人,抬高了B医院总体的治愈率。
这种现象其实很符合实际情况:能者多劳,劳而无功。
我们还是看上文的“医院模型”,A医院治疗大病的水平更高,所以一旦有人患大病,首选A医院。
医院的空间毕竟是有限的,A医院救治了大病病人,就难以顾及小病病人。这就让更多的小病病人涌入B医院。
虽然对于小病病人也可以做出同样的分析,但是小病的治愈率毕竟高于大病,小病病人对于A医院的依赖,并不像大病病人那么强。
所以,终究还是更多的大病病人涌入A医院。从某种意义上讲,A医院的治疗水平高超,反倒坏了A医院的名声。
为什么能者多劳?
因为有些事情,交给能者来干,大家才放心。
为什么劳而无功?
因为有些事情,就算交给能者来干,依然很难干好。
如果大家不懂辛普森悖论,就很可能会把高手当成菜鸟,又把菜鸟当成高手。这也是辛普森悖论最值得科普的地方:别以成败论英雄。
- 某位律师的业务水平越高,就越会有难缠的官司找上门。
- 某位警察的办案能力越强,就越会有难缠的案子找上门。
- 某位修理工的技术越高,就越会有难修的机器找上门。
- 某位教授的学术水平越高,就越会碰上困难的研究课题。
- ……
以上这些现象,可能是用户自发的选择的结果,也可能是高手自己的选择(比如:牛顿、爱因斯坦在后半生的时间里都没做出贡献,主要是因为他们选择了非常困难的研究课题)。
总之,辛普森悖论可以自发形成,并不一定要由刻意操纵来实现。
所以,人才被埋没,其实是很正常的事。
当然,现实中通常是把辛普森悖论“反着用”,也就是刻意制造辛普森悖论。
虽然某些人可能各方面都不怎么样,但就是可以在统计数据上做一些操作,名正言顺地获得纸面上的胜利。尽管出示的所有统计数据都无比真实,但就是能混淆视听。
具体内容可能会有些敏感,我就不多说了。
抽象一点
上文只是简单介绍了辛普森悖论,其实形成辛普森悖论需要特定的条件。
事实上,每一个现象、理论都有自己的适用条件,抛开适用条件就别谈理论了。虽然很多理论的适用条件都不明确,不过好在辛普森悖论的适用条件很明确,也很简单。
如果想更深入地了解辛普森悖论,就需要借助更多的数学工具,我们可以把上文的“医院模型”进一步抽象:
|
A医院 |
B医院 |
|
|
大病病人 |
就诊600人 治愈200人 33.3% |
就诊200人 治愈50人 25.0% |
|
小病病人 |
就诊400人 治愈300人 75.0% |
就诊800人 治愈500人 62.5% |
|
总计 |
就诊1000人 治愈500人 50.0% |
就诊1000人 治愈550人 55.0% |
用a表示A医院的各项治愈率,用b表示B医院的各项治愈率。
借助上面的表格,可以得到:
总体的治愈率,是大病和小病治愈率的加权平均数。
虽然总体的治愈率受到大病和小病治愈率的影响,但是还有其它因素在影响总体的治愈率,也就是大病和小病治愈率所占的权重。
权重,其实就是大病或小病病人占病人总数的比例。
如果分别用n、m来表示A、B医院的大病和小病治愈率的权重,就会得到:
值得注意的是,对同一所医院来说,各项权重的加和必然等于一。
由此可以得到总体的治愈率的取值范围:
一段时间内,一所医院接诊大病和小病病人的人数难以确定,这会让各项权重不断变化(这体现的是所有病人的病情,难以控制)。
但是,一所医院接诊大病和小病病人的治愈率却很难改变(这体现的是医疗水平的高低,很难在短时间内提升)。
上文计算的取值范围也因此派上用场,它告诉我们:能否通过改变医院接诊大病和小病病人的人数,实现辛普森悖论?
对于文中的例子:
- A医院的总体治愈率,取值范围是33.3%到75.0%
- B医院的总体治愈率,取值范围是25.0%到62.5%
这两个取值范围有重合的部分,这是实现辛普森悖论的前提条件。
如果A医院实在太强,或者B医院实在太水,造成了这种情况:
- A医院的总体治愈率,取值范围是65.3%到87.0%
- B医院的总体治愈率,取值范围是25.0%到62.5%
也就是说,A医院治大病的成功率,都比B医院治小病的成功率更高。此时,就永远不会发生辛普森悖论。
这其实类似于“田忌赛马”,你的上等马不如对方的上等马、中等马不如对方的中等马、下等马不如对方的下等马。
但是这都不重要,真正重要的是条件是:你的上等马能战胜对方的中等马、中等马能战胜对方的下等马。
想玩类似的诡计,终究还是要有点真本事。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/126798.html