反直觉的“辛普森悖论”，为什么高手屡战屡败，菜鸟却稳操胜券？

欢迎大家来到IT世界,在知识的湖畔探索吧!

统计数据，究竟能有多不靠谱？

设想有两所医院（A和B），统计它们在一年内救治的病人总数，发现：

A医院的治愈率是50%
B医院的治愈率是55%

由此，可以说明B医院比A医院的治疗水平更高吗？

当然不行！

因为上面的数据是被精心挑选的数据，而完整的数据是：

A医院

B医院

大病病人

就诊600人

治愈200人

就诊200人

治愈50人

小病病人

就诊400人

治愈300人

就诊800人

治愈500人

（暂且别管大病和小病具体是什么，我们知道大病比小病更难治就行了）

分别计算上面表格中治愈率，可以发现：

	A医院	B医院
大病病人	33.3%	25.0%
小病病人	75.0%	62.5%

不管是治疗大病还是小病，在治愈率方面，A医院都比B医院更高。

但是，一旦计算总体的治愈率，却会回到文章开头抛出的数据，B医院总体的治愈率反倒超过了A医院。

欢迎大家来到IT世界,在知识的湖畔探索吧!

辛普森悖论

上文中的情况就是典型的辛普森悖论：

有时候，每一项指标都占优势，总体看来，反倒处于劣势。

人类很早就注意到了这种现象，但是直到1951年，这种现象才在统计学家E.H.辛普森的论文中得以正式描述（“辛普森悖论”也由此得名）。

当然，称其为“悖论”并不恰当，它只是与人们的直觉不符的现象而已，这种现象其实非常多：

不同学校的男女录取比例。
足球队的胜率。
治安水平。
平均工资。
……

你能看到的所有统计数据，都或多或少地被辛普森悖论修改过。

乍一看，辛普森悖论很神奇，但是它的原理非常简单。

回到医院的例子：

	A医院	B医院
大病病人	就诊600人治愈200人 33.3%	就诊200人治愈50人 25.0%
小病病人	就诊400人治愈300人 75.0%	就诊800人治愈500人 62.5%
总计	就诊1000人治愈500人 50.0%	就诊1000人治愈550人 55.0%

治小病比治大病更容易。

在A医院就诊的大病病人，远远多于在B医院就诊的大病病人，拉低了A医院总体的治愈率。
在B医院就诊的小病病人，远远多于在A医院就诊的小病病人，抬高了B医院总体的治愈率。

这种现象其实很符合实际情况：能者多劳，劳而无功。

我们还是看上文的“医院模型”，A医院治疗大病的水平更高，所以一旦有人患大病，首选A医院。

医院的空间毕竟是有限的，A医院救治了大病病人，就难以顾及小病病人。这就让更多的小病病人涌入B医院。

虽然对于小病病人也可以做出同样的分析，但是小病的治愈率毕竟高于大病，小病病人对于A医院的依赖，并不像大病病人那么强。

所以，终究还是更多的大病病人涌入A医院。从某种意义上讲，A医院的治疗水平高超，反倒坏了A医院的名声。

为什么能者多劳？

因为有些事情，交给能者来干，大家才放心。

为什么劳而无功？

因为有些事情，就算交给能者来干，依然很难干好。

如果大家不懂辛普森悖论，就很可能会把高手当成菜鸟，又把菜鸟当成高手。这也是辛普森悖论最值得科普的地方：别以成败论英雄。

某位律师的业务水平越高，就越会有难缠的官司找上门。
某位警察的办案能力越强，就越会有难缠的案子找上门。
某位修理工的技术越高，就越会有难修的机器找上门。
某位教授的学术水平越高，就越会碰上困难的研究课题。
……

以上这些现象，可能是用户自发的选择的结果，也可能是高手自己的选择（比如：牛顿、爱因斯坦在后半生的时间里都没做出贡献，主要是因为他们选择了非常困难的研究课题）。

总之，辛普森悖论可以自发形成，并不一定要由刻意操纵来实现。

所以，人才被埋没，其实是很正常的事。

当然，现实中通常是把辛普森悖论“反着用”，也就是刻意制造辛普森悖论。

虽然某些人可能各方面都不怎么样，但就是可以在统计数据上做一些操作，名正言顺地获得纸面上的胜利。尽管出示的所有统计数据都无比真实，但就是能混淆视听。

具体内容可能会有些敏感，我就不多说了。

抽象一点

上文只是简单介绍了辛普森悖论，其实形成辛普森悖论需要特定的条件。

事实上，每一个现象、理论都有自己的适用条件，抛开适用条件就别谈理论了。虽然很多理论的适用条件都不明确，不过好在辛普森悖论的适用条件很明确，也很简单。

如果想更深入地了解辛普森悖论，就需要借助更多的数学工具，我们可以把上文的“医院模型”进一步抽象：

	A医院	B医院
大病病人	就诊600人治愈200人 33.3%	就诊200人治愈50人 25.0%
小病病人	就诊400人治愈300人 75.0%	就诊800人治愈500人 62.5%
总计	就诊1000人治愈500人 50.0%	就诊1000人治愈550人 55.0%

用a表示A医院的各项治愈率，用b表示B医院的各项治愈率。

借助上面的表格，可以得到：

总体的治愈率，是大病和小病治愈率的加权平均数。

虽然总体的治愈率受到大病和小病治愈率的影响，但是还有其它因素在影响总体的治愈率，也就是大病和小病治愈率所占的权重。

权重，其实就是大病或小病病人占病人总数的比例。

如果分别用n、m来表示A、B医院的大病和小病治愈率的权重，就会得到：

值得注意的是，对同一所医院来说，各项权重的加和必然等于一。

由此可以得到总体的治愈率的取值范围：

一段时间内，一所医院接诊大病和小病病人的人数难以确定，这会让各项权重不断变化（这体现的是所有病人的病情，难以控制）。

但是，一所医院接诊大病和小病病人的治愈率却很难改变（这体现的是医疗水平的高低，很难在短时间内提升）。

上文计算的取值范围也因此派上用场，它告诉我们：能否通过改变医院接诊大病和小病病人的人数，实现辛普森悖论？

对于文中的例子：

A医院的总体治愈率，取值范围是33.3%到75.0%
B医院的总体治愈率，取值范围是25.0%到62.5%

这两个取值范围有重合的部分，这是实现辛普森悖论的前提条件。

如果A医院实在太强，或者B医院实在太水，造成了这种情况：

A医院的总体治愈率，取值范围是65.3%到87.0%
B医院的总体治愈率，取值范围是25.0%到62.5%

也就是说，A医院治大病的成功率，都比B医院治小病的成功率更高。此时，就永远不会发生辛普森悖论。

这其实类似于“田忌赛马”，你的上等马不如对方的上等马、中等马不如对方的中等马、下等马不如对方的下等马。

但是这都不重要，真正重要的是条件是：你的上等马能战胜对方的中等马、中等马能战胜对方的下等马。

想玩类似的诡计，终究还是要有点真本事。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/126798.html

云烟 2023年 4月 25日

你这文采，堪称现代李白

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主有大厦之将倾而面不改色，狂澜于既倒而稳如泰山只能。

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主好文采

评论于古天乐拍戏误伤眼球缝八针！而他第一时间却只想给粉丝道歉[通俗易懂]
样 2023年 4月 25日

干货干货

评论于 UG编程，钻孔攻丝，铣螺纹，干货知识[亲测有效]
云烟 2023年 4月 25日

人家是chatGPT 不是GBT

评论于程序开发中MySql、SQLServer、SQLite数据库的使用场景及性能评测

	A医院	B医院
大病病人	就诊600人治愈200人 33.3%	就诊200人治愈50人 25.0%
小病病人	就诊400人治愈300人 75.0%	就诊800人治愈500人 62.5%
总计	就诊1000人治愈500人 50.0%	就诊1000人治愈550人 55.0%

	A医院	B医院
大病病人	就诊600人治愈200人 33.3%	就诊200人治愈50人 25.0%
小病病人	就诊400人治愈300人 75.0%	就诊800人治愈500人 62.5%
总计	就诊1000人治愈500人 50.0%	就诊1000人治愈550人 55.0%

反直觉的“辛普森悖论”，为什么高手屡战屡败，菜鸟却稳操胜券？

统计数据，究竟能有多不靠谱？

辛普森悖论

抽象一点

发表回复

联系我们YX

mu99908888

反直觉的“辛普森悖论”，为什么高手屡战屡败，菜鸟却稳操胜券？

统计数据，究竟能有多不靠谱？

辛普森悖论

抽象一点

相关推荐

发表回复

联系我们YX

mu99908888