各分布相关联系
伯努利分布(Bernoulli)
伯努利分布是关于布尔变量 x ∈ { 0 , 1 } x\in\{0,1\} x ∈ { 0 , 1 } 的概率分布,其连续参数 μ ∈ [ 0 , 1 ] \mu\in[0,1] μ ∈ [ 0 , 1 ] 表示变量 x = 1 x=1 x = 1 的概率
P ( x ∣ μ ) = B e r n ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x P(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{1-x} P ( x ∣ μ ) = B er n ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x
E ( x ) = μ E(x)=\mu E ( x ) = μ v a r ( x ) = μ ( 1 − μ ) var(x) = \mu(1-\mu) v a r ( x ) = μ ( 1 − μ )
二项分布(Binomial)
二项分布就是重复 n n n 次独立的伯努利试验,即当 n = 1 n = 1 n = 1 时,二项分布退化为伯努利分布。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变
一枚硬币扔 n n n 次,扔出正面概率为 p r o b ( h e a d ) = p prob(head) = p p ro b ( h e a d ) = p ,得到 k k k 次正面的概率:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P ( X = k ) = ( k n ) p k ( 1 − p ) n − k
当 n n n 非常大且 p p p 固定时,我们就得到 μ = n p , σ = s q r t ( n p ( 1 − p ) ) \mu=np,\ \sigma=sqrt(np(1-p)) μ = n p , σ = s q r t ( n p ( 1 − p )) 的正态分布
泊松分布(Poisson)
当 n n n 非常大且 p p p 很小时,我们就得到泊松分布。泊松分布可作为二项分布的近似,通常当 n ≥ 20 n \geq 20 n ≥ 20 , p ≤ 0.05 p\leq 0.05 p ≤ 0.05 时,就可以用泊松公式近似得计算:
由二项分布:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k = ( n k ) ( λ n ) k ( 1 − ( λ n ) ) n − k , λ = n p P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} = \binom{n}{k}(\frac{\lambda}{n})^k(1-(\frac{\lambda}{n}))^{n-k} , \ \ \ \lambda = np P ( X = k ) = ( k n ) p k ( 1 − p ) n − k = ( k n ) ( n λ ) k ( 1 − ( n λ ) ) n − k , λ = n p
当 n → ∞ n \to \infty n → ∞ 时:
( n k ) n k → 1 k ! \frac{\binom{n}{k}}{n^k}\to \frac{1}{k!} n k ( k n ) → k ! 1 和 ( 1 − ( λ n ) ) n → e − λ (1-(\frac{\lambda}{n}))^n \to e^{-\lambda} ( 1 − ( n λ ) ) n → e − λ
所以,代入上式:
P ( X = k ) = ( n k ) ( λ n ) k ( 1 − ( λ n ) ) n − k P(X=k)=\binom{n}{k}(\frac{\lambda}{n})^k(1-(\frac{\lambda}{n}))^{n-k} P ( X = k ) = ( k n ) ( n λ ) k ( 1 − ( n λ ) ) n − k
= e − λ λ k k ! = λ k k ! e − λ , λ = n p = \frac{e^{-\lambda}\lambda^k}{k!} = \frac{\lambda^k}{k!}e^{-\lambda} , \ \ \ \lambda = np = k ! e − λ λ k = k ! λ k e − λ , λ = n p
二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。把二项分布公式推广至多种状态,比如掷骰子(6种状态),就得到了多项分布。由二项分布P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P ( X = k ) = ( k n ) p k ( 1 − p ) n − k ,第一部分( n k ) \binom{n}{k} ( k n ) 即表示扔 n n n 次硬币正面朝上 k k k 次有多少种组合,第二部分p k ( 1 − p ) n − k p^k(1-p)^{n-k} p k ( 1 − p ) n − k 即扔 k k k 次正面概率 ( n − k ) (n-k) ( n − k ) 次背面概率。推广到多项式如下:
设我们现在有 n n n 个相同箱子,每个箱子都含 k k k 个标记为 x 1 , x 2 , … , x k x_1,x_2,\dots,x_k x 1 , x 2 , … , x k 的小球,每次从一个箱子里取出一个小球, r i r_i r i 表示取出标记为 x i x_i x i 小球的个数,显然 r 1 + r 2 + ⋯ + r k = n r_1+r_2+\cdots+r_k=n r 1 + r 2 + ⋯ + r k = n (一个箱子取一个球,取出的球总数和箱子数一致)。我们取出 r 1 r_1 r 1 个 x 1 x_1 x 1 , r 2 r_2 r 2 个 x 2 x_2 x 2 ... r k r_k r k 个 x k x_k x k 有多少种取法呢?即下式:
C n r 1 , r 2 , … , r k = C n r 1 C n − r 1 r 2 C n − r 1 − r 2 r 3 … C n − r 1 − r 2 − … r k − 1 r k C_n^{r_1,r_2,\dots,r_k} = C_n^{r_1}C_{n-r_1}^{r_2}C_{n-r_1-r_2}^{r_3}\dots C_{n-r_1-r_2-\dots r_{k-1}}^{r_k} C n r 1 , r 2 , … , r k = C n r 1 C n − r 1 r 2 C n − r 1 − r 2 r 3 … C n − r 1 − r 2 − … r k − 1 r k (每拿 r r r 个球就表示少了 r r r 个可拿球箱子)
= n ! r 1 ! ( n − r 1 ) ! ⋅ ( n − r 1 ) ! r 2 ! ( n − r 1 − r 2 ) ! ⋯ ( n − r 1 − r 2 … r k − 2 ) ! r k − 1 ! ( n − r 1 − r 2 … r k − 1 ) ! =\frac{n!}{r_1!(n-r_1)!}\cdot\frac{(n-r_1)!}{r_2!(n-r_1-r_2)!}\cdots \frac{(n-r_1-r_2\dots r_{k-2})!}{r_{k-1}!(n-r_1-r_2\dots r_{k-1})!} = r 1 ! ( n − r 1 )! n ! ⋅ r 2 ! ( n − r 1 − r 2 )! ( n − r 1 )! ⋯ r k − 1 ! ( n − r 1 − r 2 … r k − 1 )! ( n − r 1 − r 2 … r k − 2 )!
= n ! r 1 ! r 2 ! … r k − 1 ! ( n − r 1 − r 2 … r k − 1 ) ! =\frac{n!}{r_1!r_2!\dots r_{k-1}!(n-r_1-r_2\dots r_{k-1})!} = r 1 ! r 2 ! … r k − 1 ! ( n − r 1 − r 2 … r k − 1 )! n ! (又 r 1 + r 2 + … r k = n r_1+r_2+\dots r_k=n r 1 + r 2 + … r k = n )
= n ! r 1 ! r 2 ! … r k ! r k ! =\frac{n!}{r_1!r_2!\dots r_{k}!r_k!} = r 1 ! r 2 ! … r k ! r k ! n !
这里 n ! r 1 ! r 2 ! … r k ! r k ! \frac{n!}{r_1!r_2!\dots r_{k}!r_k!} r 1 ! r 2 ! … r k ! r k ! n ! 即多项分布第一部分(表示取出 r 1 r_1 r 1 个 x 1 x_1 x 1 , r 2 r_2 r 2 个 x 2 x_2 x 2 ... r k r_k r k 个 x k x_k x k 有多少种取法),第二部分显然就是他们的概率与次数作为次方 p i r i p_i^{r_i} p i r i 的累乘,即如下公式:
P ( r 1 , r 2 , … , r k ∣ n , p ) = n ! r 1 ! r 2 ! … r k ! r k ! p 1 r 1 ⋅ p 2 r 2 ⋯ p k r k = n ! r 1 ! r 2 ! … r k ! r k ! ∏ i = 1 k p i r i P(r_1,r_2,\dots,r_k|n,p) = \frac{n!}{r_1!r_2!\dots r_{k}!r_k!} p_1^{r_1}\cdot p_2^{r_2}\cdots p_k^{r_k} = \frac{n!}{r_1!r_2!\dots r_{k}!r_k!} \prod\limits_{i=1}^kp_i^{r_i} P ( r 1 , r 2 , … , r k ∣ n , p ) = r 1 ! r 2 ! … r k ! r k ! n ! p 1 r 1 ⋅ p 2 r 2 ⋯ p k r k = r 1 ! r 2 ! … r k ! r k ! n ! i = 1 ∏ k p i r i
E ( r i ) = n p i E(r_i) = np_i E ( r i ) = n p i v a r ( r i ) = n p i ( 1 − p i ) var(r_i)=np_i(1-p_i) v a r ( r i ) = n p i ( 1 − p i ) c o v ( r 1 , r 2 ) = − n p j p i cov (r_1,r_2) =-np_jp_i co v ( r 1 , r 2 ) = − n p j p i
Γ \Gamma Γ 函数,也叫做伽玛函数(Gamma函数),是阶乘函数在实数与复数域上的扩展。如果n n n 为正整数,则:
Γ ( n ) = ( n − 1 ) ! \Gamma(n)=(n-1)! Γ ( n ) = ( n − 1 )!
对于实数部分为正的复数 x x x ,伽玛函数定义为:
Γ ( x ) = ∫ 0 ∞ t x − 1 e − t d t \Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt Γ ( x ) = ∫ 0 ∞ t x − 1 e − t d t
通过分部积分的方法,可以推导出这个函数有如下递归性质:
Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1)=x\Gamma(x) Γ ( x + 1 ) = x Γ ( x )
我们把数列的通项公式定义从整数集合延拓到实数集合,例如 1 , 4 , 9 , 16 , ⋯ 1,4,9,16,\cdots 1 , 4 , 9 , 16 , ⋯ 可用通项公式 n 2 n^2 n 2 表达。直观的说,也就是可以找到一条平滑的曲线通过 y = x 2 y = x^2 y = x 2 通过所有的整数点 ( n , n 2 ) (n,n^2) ( n , n 2 ) 这些点,从而把定义在整数集上的公式延拓到实数集合。对于阶乘序列 1 , 2 , 6 , 24 , 120 , 720 , ⋯ 1,2,6,24,120,720,\cdots 1 , 2 , 6 , 24 , 120 , 720 , ⋯ ,我们可以计算 2 ! 2! 2 ! , 3 ! 3! 3 ! ,那么 2.5 ! 2.5! 2.5 ! 如何计算呢?
通过欧拉的推导,我们就有了: Γ ( x ) = ∫ 0 ∞ t x − 1 e − t d t = ( x − 1 ) ! \Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt = (x-1)! Γ ( x ) = ∫ 0 ∞ t x − 1 e − t d t = ( x − 1 )! ,为什么不定义为 Γ ( n ) = n ! \Gamma(n)=n! Γ ( n ) = n ! ,可能因为通过Gamma函数构造Beta函数时,Beta函数更协调。
对Gamma函数的定义做一个变形,就可以得到如下式子:
∫ 0 ∞ x α − 1 e − x Γ ( α ) d x = 1 \int_0^{\infty}\frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}dx=1 ∫ 0 ∞ Γ ( α ) x α − 1 e − x d x = 1
于是,取积分中的函数作为概率密度,就得到一个形式最简单的Gamma分布的密度函数:
G a m m a ( x ∣ α ) = x α − 1 e − x Γ ( α ) Gamma(x|\alpha) = \frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)} G amma ( x ∣ α ) = Γ ( α ) x α − 1 e − x
如果做一个变换 x = β t x=\beta t x = βt ,就得到Gamma分布更一般形式
G a m m a ( t ∣ α , β ) = β α t α − 1 e − β t Γ ( α ) Gamma(t|\alpha,\beta)=\frac{\beta^{\alpha}t^{\alpha-1}e^{-\beta t}}{\Gamma(\alpha)} G amma ( t ∣ α , β ) = Γ ( α ) β α t α − 1 e − βt
Gamma分布是统计学的一种连续概率函数。伽玛分布中的参数 α \alpha α ,称为形状参数(shape parameter),主要决定了分布曲线的形状;β \beta β 称为尺度参数(rate parameter)或者 1 β \frac{1}{\beta} β 1 称为scale parameter,主要决定曲线有多陡。
概率密度函数 累积分布函数
Gamma分布和众多统计分布都有千丝万缕的联系。我们容易发现,Gamma分布的概率密度和Poisson分布在数学形式上具有高度的一致性:
P o i s s o n ( X = k ∣ λ ) = λ k e − λ k ! Poisson(X=k|\lambda) = \frac{\lambda^ke^{-\lambda}}{k!} P o i sso n ( X = k ∣ λ ) = k ! λ k e − λ
在Gamma分布的密度中取 α = k + 1 \alpha=k+1 α = k + 1 ,得到
G a m m a ( x ∣ α = k + 1 ) = x k e − x Γ ( k + 1 ) = x k e − x k ! Gamma(x|\alpha=k+1)=\frac{x^ke^{-x}}{\Gamma(k+1)}=\frac{x^ke^{-x}}{k!} G amma ( x ∣ α = k + 1 ) = Γ ( k + 1 ) x k e − x = k ! x k e − x
两个分布数学形式上一致,只是Poisson分布是离散的,Gamma分布是连续的,可以直观的认为Gamma分布是Poisson分布在正实数集上的连续化版本。
贝塔函数(B函数或第一类欧拉积分),是一个特殊函数,由下式定义:
B ( x , y ) = ∫ 0 1 t x − 1 ( 1 − t ) y − 1 d t B(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}dt B ( x , y ) = ∫ 0 1 t x − 1 ( 1 − t ) y − 1 d t
贝塔函数具有对称性质 B ( x , y ) = B ( y , x ) B(x,y) = B(y,x) B ( x , y ) = B ( y , x ) ;当 x , y x,y x , y 是正整数时,我们可以从Gamma函数定义得到如下式子 B ( x , y ) = ( x − 1 ) ! ( y − 1 ) ! ( x + y − 1 ) ! B(x,y) = \frac{(x-1)!(y-1)!}{(x+y-1)!} B ( x , y ) = ( x + y − 1 )! ( x − 1 )! ( y − 1 )! ,它有许多其他形式,比如 B ( x , y ) = Γ ( x ) Γ ( y ) Γ ( x + y ) B(x,y) = \frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)} B ( x , y ) = Γ ( x + y ) Γ ( x ) Γ ( y )
假设一均匀分布 X ∼ U n i f o r m ( 0 , 1 ) X\sim Uniform(0,1) X ∼ U ni f or m ( 0 , 1 ) ,随机生成10个数,把这10个数排序,问第7大的数的概率分布是多少?这就是一个Beta分布。
我们先将之一般化,对于一般的情况 X k X_k X k 的概率密度是什么呢?下面,我们尝试计算一下 X k X_k X k 落在一个区间 [ x , x + Δ x ] [x,x+\Delta x] [ x , x + Δ x ] 的概率值: P ( x ≤ X k ≤ x + Δ x ) = ? P(x\leq X_k\leq x+ \Delta x) = ? P ( x ≤ X k ≤ x + Δ x ) = ?
如上图所示,我们把 [ 0 , 1 ] [0,1] [ 0 , 1 ] 区间划分成 [ 0 , x ) [0,x) [ 0 , x ) , [ x , x + Δ x ] [x,x+\Delta x] [ x , x + Δ x ] , ( x + Δ x , 1 ] (x+\Delta x,1] ( x + Δ x , 1 ] 三段。我们假定, Δ x \Delta x Δ x 足够小,只能够容纳一个点,则由排列组合理论可得
P ( x ≤ X k ≤ x + Δ x ) = ( n 1 ) Δ x ( n − 1 k − 1 ) x k − 1 ( 1 − x − Δ x ) n − k P(x\leq X_k\leq x+ \Delta x) = \binom{n}{1}\Delta x\binom{n-1}{k-1}x^{k-1}(1-x-\Delta x)^{n-k} P ( x ≤ X k ≤ x + Δ x ) = ( 1 n ) Δ x ( k − 1 n − 1 ) x k − 1 ( 1 − x − Δ x ) n − k
所以我们可以得到 X k X_k X k 的概率密度函数为
f ( x ) = lim x → 0 P ( x ≤ X k ≤ x + Δ x ) Δ x f(x)=\lim \limits_{x\to0}\frac{P(x\leq X_k\leq x+ \Delta x)}{\Delta x} f ( x ) = x → 0 lim Δ x P ( x ≤ X k ≤ x + Δ x )
= ( n 1 ) ( n − 1 k − 1 ) x k − 1 ( 1 − x ) n − k = \binom{n}{1}\binom{n-1}{k-1}x^{k-1}(1-x)^{n-k} = ( 1 n ) ( k − 1 n − 1 ) x k − 1 ( 1 − x ) n − k
= n ! ( k − 1 ) ! ( n − k ) ! x k − 1 ( 1 − x ) n − k = \frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k} = ( k − 1 )! ( n − k )! n ! x k − 1 ( 1 − x ) n − k
= Γ ( n + 1 ) Γ ( k ) Γ ( n − k + 1 ) x k − 1 ( 1 − x ) n − k = \frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)}x^{k-1}(1-x)^{n-k} = Γ ( k ) Γ ( n − k + 1 ) Γ ( n + 1 ) x k − 1 ( 1 − x ) n − k
我们取 α = k , β = n − k + 1 \alpha=k,\ \beta=n-k+1 α = k , β = n − k + 1 ,于是
f ( x ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} f ( x ) = Γ ( α ) Γ ( β ) Γ ( α + β ) x α − 1 ( 1 − x ) β − 1
这就是Beta分布。
回到上面题目,把n = 10 , k = 7 n=10,\ k=7 n = 10 , k = 7 带入其中,得到密度函数 f ( x ) = 10 ! 6 ! × 3 ! x 6 ( 1 − x ) 3 , x ∈ [ 0 , 1 ] f(x) = \frac{10!}{6!\times3!}x^6(1-x)^3,\ x\in[0,1] f ( x ) = 6 ! × 3 ! 10 ! x 6 ( 1 − x ) 3 , x ∈ [ 0 , 1 ]
贝塔分布是关于连续变量 μ ∈ [ 0 , 1 ] \mu\in[0,1] μ ∈ [ 0 , 1 ] 的概率分布,它由两个参数a > 0 a>0 a > 0 和b > 0 b>0 b > 0 确定,概率密度函数如下
概率密度函数 累积分布函数
狄利克雷分布是关于一组 d d d 个连续变量 μ i ∈ [ 0 , 1 ] \mu_i\in [0,1] μ i ∈ [ 0 , 1 ] 的概率分布, ∑ i = 1 d μ i = 1 \sum_{i=1}^d\mu_i=1 ∑ i = 1 d μ i = 1 ,令 μ = ( μ 1 ; μ 2 ; … ; μ d ) \mu=(\mu_1;\mu_2;\dots;\mu_d) μ = ( μ 1 ; μ 2 ; … ; μ d ) ,参数 α = ( α 1 ; α 2 ; … ; α d ) , α i > 0 , α ^ = ∑ i = 1 d α i \alpha=(\alpha_1;\alpha_2;\dots;\alpha_d),\ \alpha_i>0,\ \hat{\alpha}=\sum_{i=1}^d\alpha_i α = ( α 1 ; α 2 ; … ; α d ) , α i > 0 , α ^ = ∑ i = 1 d α i 。Dirichlet是多变量普遍化的Βeta分布,常用于成分分析模型,可以看到,将 d = 2 d=2 d = 2 时,Dirichlet退化为Beta分布。
P ( μ ∣ α ) = D i r ( μ ∣ α ) = Γ ( α ^ ) Γ ( α 1 ) … Γ ( α i ) ∏ i = 1 d μ i α i − 1 P(\mu|\alpha)=Dir(\mu|\alpha)=\frac{\Gamma(\hat{\alpha}) }{\Gamma(\alpha_1)\dots\Gamma(\alpha_i)}\prod\limits_{i=1}^d\mu_i^{\alpha_i-1} P ( μ ∣ α ) = D i r ( μ ∣ α ) = Γ ( α 1 ) … Γ ( α i ) Γ ( α ^ ) i = 1 ∏ d μ i α i − 1
其中均值 E [ μ i ] = α i α ^ E[\mu_i]=\frac{\alpha_i}{\hat{\alpha}} E [ μ i ] = α ^ α i , 方差v a r [ μ i ] = α i ( α ^ − α i ) α ^ 2 ( α ^ + 1 ) var[\mu_i]=\frac{\alpha_i(\hat{\alpha}-\alpha_i)}{\hat{\alpha}^2(\hat{\alpha}+1)} v a r [ μ i ] = α ^ 2 ( α ^ + 1 ) α i ( α ^ − α i ) ,协方差 c o v [ μ j , μ i ] = α j α i α ^ 2 ( α ^ + 1 ) cov[\mu_j,\mu_i]=\frac{\alpha_j\alpha_i}{\hat{\alpha}^2(\hat{\alpha}+1)} co v [ μ j , μ i ] = α ^ 2 ( α ^ + 1 ) α j α i
高斯分布(Gaussian)
高斯分布是最常见的数据分布,又称正态分布
N ( x ; μ , Σ ) = 1 2 π D ∣ Σ ∣ e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) x ∈ R D \mathcal{N}(x;\mu,\Sigma) = \frac{1}{\sqrt{2\pi^D|\Sigma|}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)} \ \ \ \ \ x \in \mathbb{R}^D N ( x ; μ , Σ ) = 2 π D ∣Σ∣ 1 e − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) x ∈ R D 其中均值 μ = E ( x ) \mu = E(x) μ = E ( x ) ,协方差 Σ = c o v ( x ) \Sigma =cov(x) Σ = co v ( x )
若损失函数使用欧氏距离的平方: N ( x ; μ , Σ ) = 1 ( 2 π σ 2 ) 1 / 2 e − ( x − μ ) 2 2 σ 2 \mathcal{N}(x;\mu,\Sigma) = \frac{1}{(2\pi \sigma^2)^{1/2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} N ( x ; μ , Σ ) = ( 2 π σ 2 ) 1/2 1 e − 2 σ 2 ( x − μ ) 2
拉普拉斯分布(Laplacian)
拉普拉斯分布多用于稀疏模型,比高斯分布要陡,使用绝对距离非欧氏距离
P ( x ; μ , b ) = 1 2 b e − ∣ x − μ ∣ b P(x;\mu,b) = \frac{1}{2b}e^{-\frac{|x-\mu|}{b}} P ( x ; μ , b ) = 2 b 1 e − b ∣ x − μ ∣ 其中均值 μ \mu μ ,协方差 2 b 2 2b^2 2 b 2
卡方分布(χ 2 \chi^2 χ 2 )是一种特殊的伽玛分布 ,是统计推断 中应用最为广泛的概率分布 之一,例如假设检验 和置信区间 的计算。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。
若 k k k 个独立的随机变量 Z 1 , Z 2 , … , Z k Z_1,Z_2,\dots,Z_k Z 1 , Z 2 , … , Z k 是相互独立, 符合标准正态分布 的随机变量 (数学期望 为 0 0 0 、方差 为 1 1 1 ),则随机变量 Z Z Z 的平方和:
X = ∑ i = 1 k Z i 2 X=\sum\limits_{i=1}^kZ^2_i X = i = 1 ∑ k Z i 2
被称为服从自由度为 k k k 的卡方分布,记作:
X ∼ χ 2 ( k ) X\sim \chi^2(k) X ∼ χ 2 ( k ) 或 X ∼ χ k 2 X\sim \chi^2_k X ∼ χ k 2
在概率论和统计学中,学生t-分布(t-distribution),可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。t分布曲线形态与 n n n (确切地说与自由度 d f df df )大小有关。与标准正态分布曲线相比,自由度 d f df df 越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度 d f df df 愈大,t分布曲线愈接近正态分布曲线,当自由度 d f = ∞ df=\infty df = ∞ 时,t分布曲线为标准正态分布曲线。
由于在实际工作中,往往 σ \sigma σ 是未知的,常用 s s s 作为 σ \sigma σ 的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。 假设 X X X 是呈正态分布 的独立的随机变量 (随机变量的期望值 是 μ \mu μ ,方差 是 σ 2 \sigma^2 σ 2 但未知)。 令:
样本均值:X ‾ n = X 1 , + ⋯ X n n \overline{X}_n=\frac{X_1,+\cdots X_n}{n} X n = n X 1 , + ⋯ X n , 样本方差:S n 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ n ) 2 S_n^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X}_n)^2 S n 2 = n − 1 1 i = 1 ∑ n ( X i − X n ) 2
它显示了数量 Z = X ‾ n − μ σ n Z=\frac{\overline{X}_n-\mu}{\frac{\sigma}{\sqrt{n}}} Z = n σ X n − μ 呈正态分布且均值为 0 0 0 ,方差为 1 1 1 (标准正态分布)
另一个相关数量:
T = X ‾ n − μ S n n T=\frac{\overline{X}_n-\mu}{\frac{S_n}{\sqrt{n}}} T = n S n X n − μ
上式的 概率密度函数 是:
f ( t ) = Γ ( v + 1 2 ) v π Γ ( v 2 ) ( 1 + t 2 v ) − ( v + 1 ) 2 , v = n − 1 f(t)=\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}(1+\frac{t^2}{v})^{\frac{-(v+1)}{2}}, \ \ \ \ \ v=n-1 f ( t ) = v π Γ ( 2 v ) Γ ( 2 v + 1 ) ( 1 + v t 2 ) 2 − ( v + 1 ) , v = n − 1
T T T 的分布称为t分布,参数 v v v 一般称为自由度, Γ \Gamma Γ 是伽马函数。
T T T 的概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。随着自由度 v v v 的增加,则越来越接近均值为0方差为1的正态分布。
在概率论和统计学里,F-分布(F-distribution)是一种连续概率分布,被广泛应用于似然比率检验,特别是方差分析(ANOVA) 中。若总体 X ∼ N ( 0 , 1 ) X\sim N(0,1) X ∼ N ( 0 , 1 ) , ( X 1 , X 2 , … , X n 1 ) (X_1,X_2,\dots,X_{n_1}) ( X 1 , X 2 , … , X n 1 ) 与 ( Y 1 , Y 2 , … , Y n 2 ) (Y_1,Y_2,\dots,Y_{n_2}) ( Y 1 , Y 2 , … , Y n 2 ) 为来自 X X X 的两个独立样本,设统计量
F = ∑ i = 1 n 1 X i 2 n 1 / ∑ i = 1 n 2 Y i 2 n 2 F=\frac{\sum_{i=1}^{n_1}X_i^2}{n_1}/\frac{\sum_{i=1}^{n_2}Y_i^2}{n_2} F = n 1 ∑ i = 1 n 1 X i 2 / n 2 ∑ i = 1 n 2 Y i 2
则称统计量 F F F 服从自由度 n 1 n_1 n 1 和 n 2 n_2 n 2 的 F F F 分布,记为 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F ∼ F ( n 1 , n 2 )
F ( n 1 , n 2 ) F(n_1,n_2) F ( n 1 , n 2 ) 分布的概率密度为
f ( x ; n 1 ; n 2 ) = ( n 1 x ) n 1 n 2 n 2 ( n 1 x + n 2 ) n 1 + n 2 x B ( n 1 2 , n 2 2 ) = 1 B ( n 1 2 , n 2 2 ) ( n 1 n 2 ) n 1 2 x n 1 2 − 1 ( 1 + n 1 n 2 x ) − d 1 + d 2 2 f(x;n_1;n_2)=\frac{\sqrt{\frac{(n_1x)^{n_1}n_2^{n_2}}{(n_1x+n_2)^{n_1+n_2}}}}{xB(\frac{n_1}{2},\frac{n_2}{2})} = \frac{1}{B(\frac{n_1}{2},\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}x^{\frac{n_1}{2}-1}(1+\frac{n_1}{n_2}x)^{-\frac{d_1+d_2}{2}} f ( x ; n 1 ; n 2 ) = x B ( 2 n 1 , 2 n 2 ) ( n 1 x + n 2 ) n 1 + n 2 ( n 1 x ) n 1 n 2 n 2 = B ( 2 n 1 , 2 n 2 ) 1 ( n 2 n 1 ) 2 n 1 x 2 n 1 − 1 ( 1 + n 2 n 1 x ) − 2 d 1 + d 2
概率密度函数 累积分布函数
指数分布(Exponential Family)
任何分布写成 P ( X ; η ) = h ( x ) g ( η ) e η T u ( x ) P(X;\eta)=h(x)g(\eta)e^{\eta^Tu(x)} P ( X ; η ) = h ( x ) g ( η ) e η T u ( x ) ,其中 η \eta η 包含参数,u ( x ) u(x) u ( x ) 是 x x x 的函数,g ( η ) g(\eta) g ( η ) 为了标准化
比如高斯:将 u ( x ) = [ x x 2 ] u(x) = \left[ \begin{matrix} x \\ x^2 \end{matrix} \right] u ( x ) = [ x x 2 ] , h ( x ) = ( 2 π ) − 1 / 2 h(x) = (2\pi)^{-1/2} h ( x ) = ( 2 π ) − 1/2 , η = [ μ / σ 2 − 1 / 2 σ 2 ] \eta = \left[ \begin{matrix} \mu/\sigma^2 \\ -1/2\sigma^2 \end{matrix} \right] η = [ μ / σ 2 − 1/2 σ 2 ] , g ( η ) = ( − 2 η 2 ) 1 / 2 e η 1 2 / 4 η 2 g(\eta) = (-2\eta_2)^{1/2}e^{\eta_1^2/4\eta_2} g ( η ) = ( − 2 η 2 ) 1/2 e η 1 2 /4 η 2 代入
P ( X ; η ) = h ( x ) g ( η ) e η T u ( x ) → P ( x ; h ) = 1 ( 2 π σ 2 ) 1 / 2 e − 1 2 σ 2 x 2 + μ σ 2 x − 1 2 σ 2 μ 2 = 1 ( 2 π σ 2 ) 1 / 2 e − ( x − μ ) 2 2 σ 2 P(X;\eta)=h(x)g(\eta)e^{\eta^Tu(x)} \to P(x;h)=\frac{1}{(2\pi\sigma^2)^{1/2}}e^{-\frac{1}{2\sigma^2}x^2+\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2} = \frac{1}{(2\pi\sigma^2)^{1/2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} P ( X ; η ) = h ( x ) g ( η ) e η T u ( x ) → P ( x ; h ) = ( 2 π σ 2 ) 1/2 1 e − 2 σ 2 1 x 2 + σ 2 μ x − 2 σ 2 1 μ 2 = ( 2 π σ 2 ) 1/2 1 e − 2 σ 2 ( x − μ ) 2
假设变量 x x x 服从分布 P ( x ∣ Θ ) P(x|\Theta) P ( x ∣Θ ) ,其中 Θ \Theta Θ 为参数。 X = { x 1 , x 2 , … , x m } X=\{x_1,x_2,\dots,x_m\} X = { x 1 , x 2 , … , x m } 为变量 x x x 的观测样本,假设参数 Θ \Theta Θ 服从先验分布 ∏ ( Θ ) \prod(\Theta) ∏ ( Θ ) 。若由先验分布 ∏ ( Θ ) \prod(\Theta) ∏ ( Θ ) 和抽样分布(实验数据) P ( X ∣ Θ ) P(X|\Theta) P ( X ∣Θ ) 决定的后验分布 F ( Θ ∣ X ) F(\Theta|X) F ( Θ∣ X ) 与 ∏ ( Θ ) \prod(\Theta) ∏ ( Θ ) 是同种类型的分布,则称先验分布 ∏ ( Θ ) \prod(\Theta) ∏ ( Θ ) 为分布 P ( x ∣ Θ ) P(x|\Theta) P ( x ∣Θ ) 或 P ( X ∣ Θ ) P(X|\Theta) P ( X ∣Θ ) 的共轭分布(Conjugate Distribution)。
其中,贝塔分布(Beta)与伯努利分布(Bernoulli)共轭;狄利克雷分布(Dirichlet)与多项分布(Multinomial)共轭;高斯分布的共轭分布仍是高斯分布。
先验分布反映了某种先验信息;后验分布既反映了先验分布提供的信息,又反映了样本提供的信息。当先验分布与抽样分布(实验数据)共轭时,后验分布与先验分布属于同种类型,这意味着先验信息与样本提供的信息具有某种同一性。于是,若使用后验分布作为进一步抽样的先验分布,则新的后验分布仍将属于同种类型。因此,共轭分布在不少情况下会使得问题得以简化。
Source