有个小朋友跟我说:他特别喜欢看篮球比赛,最喜欢的球星是湖人队的勒布朗·詹姆斯。他曾经把詹姆斯和历史上的著名球员马龙做过比较,结果发现了一个神奇的现象:在整个生涯中,无论是二分球的命中率还是三分球的命中率,詹姆斯都比马龙高。但是如果把二分球和三分球加到一块儿,詹姆斯的进球率反而比马龙要低了。这是怎么回事儿呢?
詹姆斯和马龙的生涯数据对比
(相关资料图)
实际上,这是统计学上的一个著名悖论——辛普森悖论。最早由爱德华·辛普森在1951年发表的论文中进行了详细阐述。辛普森悖论是指:当我们进行统计比较的时候,如果对数据进行分层,统计结果与整体可能是不同的。下面我们通过几个例子来认识这个悖论。
辛普森
01
录取比例问题
历史上一个比较典型的辛普森悖论的例子,是美国加州大学伯克利分校的录取比例问题。伯克利是美国的一所著名大学,建校一百多年来,一共诞生了110位诺贝尔奖得主、14位菲尔兹奖得主、25位图灵奖得主。原子弹之父奥本海默、著名华人物理学家朱棣文、华裔物理学家吴健雄,还有数学家丘成桐、陈省身,都在伯克利学习和工作过。
加州大学伯克利分校
可是1973年的秋天,伯克利公布的研究生招生名单却引起了一场风波。那一年,许多女同学向学校表达了强烈抗议,因为从招生名单来看,男生申请者中有44%被录取,而女生申请者只有35%被录取,男生录取率是女生的1.25倍!这简直是赤裸裸的歧视!
压力之下,伯克利大学被迫展开调查,结果发现:许多部门招收学生时,反而是女性录取比例更高,这到底是怎么回事呢?
我们用一些虚拟的数据来说明一下这个问题。假设有100个男同学和100个女同学申请伯克利的研究生,他们分别申请了物理学院和文学院。
男生中有80人申请物理学院,录取38人;20人申请文学院,录取2人;
女生中有20人申请物理学院,录取14人;80人申请文学院,录取16人。
录取结果和比例如下:
我们首先分组比较数据:男生申请物理学院的通过率是47.5%,女生申请物理学院的通过率有70%,女生的通过率要比男生高很多。男生申请文学院的录取率为10%,女生的录取率是20%,女生通过的几率是男生的两倍。单独从两个学院的数据来看,好像不是女生受到了歧视,反而是男生受到了歧视。
但从总体的数据来看,提交申请的男生和女生都是100人,男生有40个人被录取,女生只有30个人被录取,男生的录取比例比女生多出1/3,这样看来好像又变成了歧视女性。
为什么数据都是一样的,却能得到两种不同的结论呢?这就是辛普森悖论。
各种阴谋家往往会利用辛普森悖论煽动大众:如果我想批评伯克利歧视男性,就可以隐藏总体数据,只让你看到每个学院的录取数据——每个学院的女生录取比例都比男生要高,这样就可以呼吁男同胞们起来对抗学校了。反过来,如果我是个女权主义者,就可以避开每个学院的数据,只给出总体录取数据——同样的人数申请同一所学校,凭什么男生录取比例比女生高1/3?这难道不是涉嫌歧视女性吗?
02
肾结石的治愈率
辛普森悖论还有另一个典型案例——肾结石的治疗方法。
肾结石
肾结石患者往往需要通过手术的方法治疗,手术方式有两种:一种方法是开放式手术,它可能对人造成较大创伤;另一种方法是封闭式手术,用内窥镜把结石取出来,手术创伤较小。患者的结石情况也可分为小结石和大结石两种,医生会按照结石大小选择不同的治疗方案。
某位医生对两种治疗方法的治愈率进行了统计。开放式手术案例共350例,其中273例有效。封闭式手术共350例,其中289例有效。具体数据如下:
大家看:小结石患者中87人使用开放式手术治疗,治愈率达到93%;有270人选择了封闭式手术,治愈率是87%,这样来看,对于小结石患者,似乎开放式治疗的效果更好一点。
再看有大结石的患者:有263人选择了开放式手术,治愈率是73%;有80人选择了封闭式手术,治愈率是69%,大结石患者,依然应该选用开放式手术,因为它的痊愈比例更高。
既然不管是大结石还是小结石,都是开放式手术的治愈率更高,那我们是否应该只给病人推荐开放式手术呢?先别急,假如我们看一下总体数据,就会发现开放式手术的平均治愈率是78%,而封闭式手术的平均治愈率有83%,这样一来,反而是封闭式手术的效果更好。这又构成了辛普森悖论。
假如医生想推荐开放式手术,就可以只向患者展示分层数据。患者发现:不管大小结石,开放式手术的治愈率都更高,肯定会倾向于开放式疗法。反过来,如果医生想要推荐封闭式手术,就会隐去分层数据,只给患者展示总体数据,同样是350名患者,封闭式手术的治愈率更高,患者自然希望采用封闭式手术。同样的数据,用不同的表述方式就得出了不同的结论。
03
篮球的命中率
现在,我们来看看詹姆斯和马龙的投篮命中率问题。詹姆斯和马龙都是著名的长寿球员,马龙退役时40岁,詹姆斯今年36岁,依然活跃在篮球场上。
不同时期的詹姆斯
如果我们忽略罚球数据,统计在整个生涯中詹姆斯和马龙的投篮数据,会得到下面这张表:
我们可以发现:单独看二分球,詹姆斯的命中率有54.9%,高于马龙的51.9%;詹姆斯的二分球命中率高出3个百分点。单独看三分球,詹姆斯命中率34.4%,马龙27.4%,詹姆斯的命中率高出7个百分点!既然二分球和三分球,詹姆斯的命中率都高,那么整体命中率应该也是詹姆斯更高才对。
可是事实并非如此。如果把二分三分球加到一起,詹姆斯的平均命中率是50.4%,居然低于马龙的51.6%平均命中率,这也是辛普森悖论。
同样的数据也可能会因人的喜好而选择不同的解读方式,如果一个人更喜欢詹姆斯,就可以用二分球和三分球的分层数据支持自己;同样如果另一个人喜欢马龙,则可以只讨论全体命中率。
04
为什么会出现悖论?
为什么会出现这种奇怪的现象呢?一般而言,辛普森悖论有两个条件。
首先,分层数据中每一层的成功率有显著不同。例如:伯克利的物理学院录取率在男女生中分别是47.5%和70%,相对于文学院的录取率10%、20%高得多;用两种不同方式治疗小结石,治愈率在90%左右,大结石不好治,两种方式的治愈率都在70%左右;二分球更好命中,詹姆斯和马龙的命中率都超过50%,三分球不好进,他们的命中率都在30%左右。每一层成功率有显著差别,这就是辛普森悖论的第一个条件。
其次,作比较的两者在分层数据中的分配比例不同。比如:申请伯克利的男同学虽然在两个物理学院和文学院的录取比例都低于女同学,但是更多的男同学(80人)申请了比较容易通过的物理学院,而更多的女同学(80人)申请了比较难通过的文学院。所以,虽然整体来讲,男同学通过的比例反而会高一些。
再来看治疗肾结石的例子:大结石本身治愈率就低,很多大结石患者都选用了难度较大的开放性疗法来;小结石容易被治愈,大部分采用了创伤较小的封闭式疗法。所以封闭式疗法的整体治愈率会高一些——它治疗了更多的轻症患者。
同样道理,詹姆斯虽然二分球和三分球进球率都高,但是他投了5409个三分球,拉低了自己的平均命中率。而马龙生涯中只投了310个三分球,于是整体命中率就会接近于二分球命中率,这就比詹姆斯的平均命中率高了。
做每一件事的成功率不同,如果一个人多去干那些成功率高的事,就会让他的整体成功率变大,这就是辛普森悖论的本质。顺便一说,为了衡量一个球员的真正实力,人们又发明了真实命中率的概念,它综合了投篮命中率、三分球命中率和罚球命中率
詹姆斯在17年的生涯中真实命中率是58.6%,而马龙在19年的生涯中是57.7%。
05
辛普森悖论的几何解释
我们还可以通过几何的方法来研究这个问题。投篮次数和命中次数画在直角坐标系中,横坐标是投篮的次数,纵坐标是进球的次数,例如詹姆斯的二分球和三分球矢量图如下:
我们知道:一条线的斜率k等于纵坐标与横坐标之比,在本例中就表示投篮命中率——直线越竖,命中率就越高;直线越平,命中率就越低。图中表示出了二分球的命中率高于三分球。
整体投篮命中率怎么计算呢?数学上可以证明:只要我们用二分球矢量和三分球矢量为邻边做一个平行四边形,这个平行四边形对角线矢量就表示整体投篮出手次数和命中次数,它的斜率就表示平均命中率。
再进一步:为什么马龙的二分球和三分球命中率都低,但是整体命中率却高呢?请看下面的示意图:
用黄色线表示马龙的数据,紫色线表示詹姆斯的数据。马龙的三分球命中率(A1)低于詹姆斯(B1),马龙的二分球命中率(A2)也低于詹姆斯(B2),但是,马龙的三分球少(A1短),二分球多(A2长),詹姆斯的三分球多(B1长)而二分球少(B2短),利用平行四边形法则求出整体命中率后,马龙就更高一些(kA斜率比kB大)。
在我们的生活当中,每时每刻都会接触到不同的数据。比如说作为一个老师,要看学生们考试的平均分;作为一个销售,要看自己每个月的接单情况和成交率……马克吐温说:世界上有三种谎言:谎言、糟透了的谎言和统计数字。
虽然数据是客观和真实的,但是不同的人利用同样的数据却可以讲出不同的故事。用真实的数据推测出一个未经证实的结论,并以此为根据煽动仇恨达到自己的目的,是许多阴谋论的最爱。比如,下图是我在网上找到的两个城市最近六个月二手房成交均价走势图,你会得到什么结论呢?
你是否会认为:城市A房价暴跌,而城市B房价平稳呢?
其实,A和B都是北京市,只是在作图时,纵坐标(价格)的起始位置不同而已。
下一篇:最后一页
各种阴谋家往往会利用辛普森悖论煽动大众:如果我想批评伯克利歧视男性,就可以隐藏总体数据,只让你看...
滴滴一周收浙江38张罚单因服务车辆未取得营运证等
《生化危机4重制版》狙击枪怎么选择呢?有不少小伙伴们在游戏中碰到这里摸不着头脑,对于碰到这个问题的...
3月30日消息,中国银行保险监督管理委员会海西监管分局行政处罚信息公开表显示,太平洋财产保险股份有限...
《2023年河北省二级建造师相应专业增项考试报名入口》由二级建造师考试报名网发布,主要内容:各位考生注...
新华财经北京3月30日电据国家发展改革委价格成本调查中心消息,为切实做好煤炭生产成本调查有关工作,发...
“老太,今天想吃点什么?”“老太,让士芳给你洗脸,一会太阳出来
控增量,排风险,住建部建立经营性自建房安全管理长效机制,住建部,严跃进,房屋安全,经营性自建房,城乡房...
大家都散了吧,“北极鲶鱼”搅混的水太深,可能大鱼不会出现了!,违法,大鱼,一等功,北极鲶鱼
3月30日上午,2023年湖南省重大项目集中开工活动在14市州同步举行,集中开工重大项目1158个。省委书记沈...
乐居财经严明会3月29日,据上海证券交易所上市审核委员会2023年第21次审议会议结果,深圳威迈斯新能源股...
用硬约束刹住餐饮浪费行为---近日,市场监管总局(标准委)批准发布《饭店业信用等级评价规范》,把制止...
本文目录一览:1、撒拉嘿呦啥意思2、撒拉嘿的意思是什么?撒拉嘿呦啥意思撒拉嘿呦是我爱你的意思。撒拉嘿
中国新能源汽车龙头企业比亚迪发布2022年年报,营收4240 61亿元,同比增长96 20%,归母净利润166 22...
1、陈怡荣。2、何润东。以上就是【雪地里的星星结局,雪地里的星星】相关内容。
1、情窦初开(qíngdòuchūkāi)【解释】窦:孔穴;情窦:情意的发生或男女爱情萌动。2、指刚刚懂得爱情...
中国基金报记者赵岗3月29日记者从业内获悉,为配合证监会《证券经纪业务管理办法》的发布,引导证券公司...
(记者王晓斌)博鳌亚洲论坛2023年年会29日举行“对话海南:中国(海南)-东盟热带农业合作及展望”分论坛。
人工智能的风险引发了更多人的担忧。
当地时间3月29日上午,西班牙瓦伦西亚大区紧急事务部门报告称,目前较为有利的天气条件已经使得该大区山...
荣盛石化涨停机构净卖出1 66亿元
武汉经开:14个月,产线贯通!猛士科技首款电动豪华越野车下半年上市---金晨、李岿、高旭)3月28日上午...
养老金怎么计算退休领取金额如下:退休后养老金领取公式:每月领取总额=基础养老金+个人账户养老金。基...
为明确美术材料蕴含的价值与功能,能够把握幼儿关键经验与美术能力发展水平,更加注重对材料投放与使用...
分时图快速拉升意味此时存在大单买入,在大单的推动下,股价快速地上涨。截止发稿,中青宝(300052)涨...
X 关闭
X 关闭