大数与中心极限

大数定律与中心极限定理是概率统计的两个重要定理,这里简单介绍说明一下。

大数定律

小数定律

喜欢总结规律是人类的天性。例如,人们抱着娱乐或者认真的态度总结了世界杯足球赛的各种“定律”,其中比较著名的有“巴西队的礼物”——“巴西队的礼物”是指:只要巴西夺冠,下一届的冠军就将是主办大赛的东道主,除非是巴西队自己夺冠。我们来看下历史下真实的数据:1962年巴西夺冠后,4年后英格兰在本土称雄。1970年巴西三夺金杯,1974年轮到东道主西德捧杯。1994年巴西在美国夺冠,下一届东道主法国队在本土夺冠。1958年,巴西队在瑞典夺冠,4年后他们未免成功,收回了“礼物”。看起来这个定律很有意思,但是这一定律在2006年被打破。2006年在德国的世界杯,德国和巴西队都没有夺冠,而是由我们中国人耳熟能详的主队里皮率领的意大利队夺冠。还有一些未被打破的定律,这些看似没有规律的神奇定律,之所有神奇,完全纯属巧合。世界杯每4年举办一次,总共才举办了20多届。只要数据足够少,我们总能发现一些神奇的定律。

如果数据少,随机现象可以看起来很不随机。甚至非常整齐,好像真的有规律一样。即小数定律——如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系也没有

大数定律

大数定律就是我们从统计学中推测真相的理论基础——大数定律说如果统计数据足够大,那么事物出现的频率就能无限接近它的期望值。

某个事件的期望,也就是收益,实际上各种不同结果出现的概率乘结果的收益的和。拿我们最熟悉的投骰子举例,游戏规则是投中1点获得1元,投中2点获得2元,以此类推。那么,这个事件的期望是多少呢?

显然是 1×16+2×16+3×16+4×16+5×16+6×16=3.51\times \frac{1}{6}+2\times \frac{1}{6}+3\times \frac{1}{6}+4\times \frac{1}{6}+5\times \frac{1}{6}+6\times \frac{1}{6}=3.5

这个期望3.5代表什么意思呢?也就是说,只要你一直玩下去,你每次游戏的预期收益是3.5元。可能你某次赢了1元,某一次赢了6元,只要你长期投下去, 你平均下来每次就赢3.5元。

中心极限定理

中心极限定理是许多统计活动的“动力源泉”,这些活动存在着一个共同的特点,那就是使用样本对总体进行估计,例如我们经常看到的民意调查就是这方面的经典案例。

中心极限定理是说:

  • 样本的平均值约等于总体的平均值。

  • 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

假设有一个群体,如我们之前提到的清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步:

  1. 随机抽取1个样本,求该样本的平均值。例如我们抽取了100名毕业于清华的人,然后对这些人的收入求平均值。该样本里的100名清华的人,这里的100就是该样本的大小。有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。

  2. 我将第1步样本抽取的工作重复再三,不断地从毕业的人中随机抽取100个人,例如我抽取了5个样本,并计算出每个样本的平均值,那么5个样本,就会有5个平均值。这里的5个样本,就是指样本数量是5,即抽取了5次,形成了5个样本。

  3. 根据中心极限定理,这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。

  4. 中心极限定理告诉我们,不论所研究的群体是怎样分布的,这些样本平均值会在总体平均值周围呈现一个正态分布。

Source

Last updated