概率分布

各分布相关联系

伯努利分布(Bernoulli)

伯努利分布是关于布尔变量 x{0,1}x\in\{0,1\} 的概率分布,其连续参数 μ[0,1]\mu\in[0,1] 表示变量 x=1x=1 的概率

P(xμ)=Bern(xμ)=μx(1μ)1xP(x|\mu) = Bern(x|\mu) = \mu^x(1-\mu)^{1-x}

E(x)=μE(x)=\mu var(x)=μ(1μ)var(x) = \mu(1-\mu)

二项分布(Binomial)

二项分布就是重复 nn 次独立的伯努利试验,即当 n=1n = 1 时,二项分布退化为伯努利分布。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变

一枚硬币扔 nn 次,扔出正面概率为 prob(head)=pprob(head) = p,得到 kk 次正面的概率:

P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

nn 非常大且 pp 固定时,我们就得到 μ=np, σ=sqrt(np(1p))\mu=np,\ \sigma=sqrt(np(1-p)) 的正态分布

泊松分布(Poisson)

nn 非常大且 pp 很小时,我们就得到泊松分布。泊松分布可作为二项分布的近似,通常当 n20n \geq 20p0.05p\leq 0.05 时,就可以用泊松公式近似得计算:

由二项分布:

P(X=k)=(nk)pk(1p)nk=(nk)(λn)k(1(λn))nk,   λ=npP(X=k)=\binom{n}{k}p^k(1-p)^{n-k} = \binom{n}{k}(\frac{\lambda}{n})^k(1-(\frac{\lambda}{n}))^{n-k} , \ \ \ \lambda = np

nn \to \infty 时:

(nk)nk1k!\frac{\binom{n}{k}}{n^k}\to \frac{1}{k!}(1(λn))neλ(1-(\frac{\lambda}{n}))^n \to e^{-\lambda}

所以,代入上式:

P(X=k)=(nk)(λn)k(1(λn))nkP(X=k)=\binom{n}{k}(\frac{\lambda}{n})^k(1-(\frac{\lambda}{n}))^{n-k}

=eλλkk!=λkk!eλ,   λ=np= \frac{e^{-\lambda}\lambda^k}{k!} = \frac{\lambda^k}{k!}e^{-\lambda} , \ \ \ \lambda = np

二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。把二项分布公式推广至多种状态,比如掷骰子(6种状态),就得到了多项分布。由二项分布P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k},第一部分(nk)\binom{n}{k} 即表示扔 nn 次硬币正面朝上 kk 次有多少种组合,第二部分pk(1p)nkp^k(1-p)^{n-k}即扔 kk 次正面概率 (nk)(n-k) 次背面概率。推广到多项式如下:

设我们现在有 nn 个相同箱子,每个箱子都含 kk 个标记为 x1,x2,,xkx_1,x_2,\dots,x_k 的小球,每次从一个箱子里取出一个小球, rir_i 表示取出标记为 xix_i 小球的个数,显然 r1+r2++rk=nr_1+r_2+\cdots+r_k=n (一个箱子取一个球,取出的球总数和箱子数一致)。我们取出 r1r_1x1x_1r2r_2x2x_2 ... rkr_kxkx_k 有多少种取法呢?即下式:

Cnr1,r2,,rk=Cnr1Cnr1r2Cnr1r2r3Cnr1r2rk1rkC_n^{r_1,r_2,\dots,r_k} = C_n^{r_1}C_{n-r_1}^{r_2}C_{n-r_1-r_2}^{r_3}\dots C_{n-r_1-r_2-\dots r_{k-1}}^{r_k} (每拿 rr 个球就表示少了 rr 个可拿球箱子)

=n!r1!(nr1)!(nr1)!r2!(nr1r2)!(nr1r2rk2)!rk1!(nr1r2rk1)!=\frac{n!}{r_1!(n-r_1)!}\cdot\frac{(n-r_1)!}{r_2!(n-r_1-r_2)!}\cdots \frac{(n-r_1-r_2\dots r_{k-2})!}{r_{k-1}!(n-r_1-r_2\dots r_{k-1})!}

=n!r1!r2!rk1!(nr1r2rk1)!=\frac{n!}{r_1!r_2!\dots r_{k-1}!(n-r_1-r_2\dots r_{k-1})!} (又 r1+r2+rk=nr_1+r_2+\dots r_k=n)

=n!r1!r2!rk!rk!=\frac{n!}{r_1!r_2!\dots r_{k}!r_k!}

这里 n!r1!r2!rk!rk!\frac{n!}{r_1!r_2!\dots r_{k}!r_k!} 即多项分布第一部分(表示取出 r1r_1x1x_1r2r_2x2x_2 ... rkr_kxkx_k 有多少种取法),第二部分显然就是他们的概率与次数作为次方 pirip_i^{r_i} 的累乘,即如下公式:

P(r1,r2,,rkn,p)=n!r1!r2!rk!rk!p1r1p2r2pkrk=n!r1!r2!rk!rk!i=1kpiriP(r_1,r_2,\dots,r_k|n,p) = \frac{n!}{r_1!r_2!\dots r_{k}!r_k!} p_1^{r_1}\cdot p_2^{r_2}\cdots p_k^{r_k} = \frac{n!}{r_1!r_2!\dots r_{k}!r_k!} \prod\limits_{i=1}^kp_i^{r_i}

E(ri)=npiE(r_i) = np_i var(ri)=npi(1pi)var(r_i)=np_i(1-p_i) cov(r1,r2)=npjpicov (r_1,r_2) =-np_jp_i

Γ\Gamma 函数,也叫做伽玛函数(Gamma函数),是阶乘函数在实数与复数域上的扩展。如果nn为正整数,则:

Γ(n)=(n1)!\Gamma(n)=(n-1)!

对于实数部分为正的复数 xx ,伽玛函数定义为:

Γ(x)=0tx1etdt\Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt

通过分部积分的方法,可以推导出这个函数有如下递归性质:

Γ(x+1)=xΓ(x)\Gamma(x+1)=x\Gamma(x)

我们把数列的通项公式定义从整数集合延拓到实数集合,例如 1,4,9,16,1,4,9,16,\cdots 可用通项公式 n2n^2 表达。直观的说,也就是可以找到一条平滑的曲线通过 y=x2y = x^2 通过所有的整数点 (n,n2)(n,n^2) 这些点,从而把定义在整数集上的公式延拓到实数集合。对于阶乘序列 1,2,6,24,120,720,1,2,6,24,120,720,\cdots ,我们可以计算 2!2!3!3! ,那么 2.5!2.5! 如何计算呢?

通过欧拉的推导,我们就有了: Γ(x)=0tx1etdt=(x1)!\Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt = (x-1)! ,为什么不定义为 Γ(n)=n!\Gamma(n)=n! ,可能因为通过Gamma函数构造Beta函数时,Beta函数更协调。

对Gamma函数的定义做一个变形,就可以得到如下式子:

0xα1exΓ(α)dx=1\int_0^{\infty}\frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}dx=1

于是,取积分中的函数作为概率密度,就得到一个形式最简单的Gamma分布的密度函数:

Gamma(xα)=xα1exΓ(α)Gamma(x|\alpha) = \frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}

如果做一个变换 x=βtx=\beta t ,就得到Gamma分布更一般形式

Gamma(tα,β)=βαtα1eβtΓ(α)Gamma(t|\alpha,\beta)=\frac{\beta^{\alpha}t^{\alpha-1}e^{-\beta t}}{\Gamma(\alpha)}

Gamma分布是统计学的一种连续概率函数。伽玛分布中的参数 α\alpha ,称为形状参数(shape parameter),主要决定了分布曲线的形状;β\beta 称为尺度参数(rate parameter)或者 1β\frac{1}{\beta} 称为scale parameter,主要决定曲线有多陡。

概率密度函数 累积分布函数

Gamma分布和众多统计分布都有千丝万缕的联系。我们容易发现,Gamma分布的概率密度和Poisson分布在数学形式上具有高度的一致性:

Poisson(X=kλ)=λkeλk!Poisson(X=k|\lambda) = \frac{\lambda^ke^{-\lambda}}{k!}

在Gamma分布的密度中取 α=k+1\alpha=k+1 ,得到

Gamma(xα=k+1)=xkexΓ(k+1)=xkexk!Gamma(x|\alpha=k+1)=\frac{x^ke^{-x}}{\Gamma(k+1)}=\frac{x^ke^{-x}}{k!}

两个分布数学形式上一致,只是Poisson分布是离散的,Gamma分布是连续的,可以直观的认为Gamma分布是Poisson分布在正实数集上的连续化版本。

贝塔函数(B函数或第一类欧拉积分),是一个特殊函数,由下式定义:

B(x,y)=01tx1(1t)y1dtB(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}dt

贝塔函数具有对称性质 B(x,y)=B(y,x) B(x,y) = B(y,x) ;当 x,yx,y 是正整数时,我们可以从Gamma函数定义得到如下式子 B(x,y)=(x1)!(y1)!(x+y1)!B(x,y) = \frac{(x-1)!(y-1)!}{(x+y-1)!} ,它有许多其他形式,比如 B(x,y)=Γ(x)Γ(y)Γ(x+y)B(x,y) = \frac{\Gamma(x)\Gamma(y)}{\Gamma(x+y)}

假设一均匀分布 XUniform(0,1)X\sim Uniform(0,1) ,随机生成10个数,把这10个数排序,问第7大的数的概率分布是多少?这就是一个Beta分布。

我们先将之一般化,对于一般的情况 XkX_k 的概率密度是什么呢?下面,我们尝试计算一下 XkX_k 落在一个区间 [x,x+Δx][x,x+\Delta x] 的概率值: P(xXkx+Δx)=?P(x\leq X_k\leq x+ \Delta x) = ?

如上图所示,我们把 [0,1][0,1] 区间划分成 [0,x)[0,x)[x,x+Δx][x,x+\Delta x](x+Δx,1](x+\Delta x,1] 三段。我们假定, Δx\Delta x 足够小,只能够容纳一个点,则由排列组合理论可得

P(xXkx+Δx)=(n1)Δx(n1k1)xk1(1xΔx)nkP(x\leq X_k\leq x+ \Delta x) = \binom{n}{1}\Delta x\binom{n-1}{k-1}x^{k-1}(1-x-\Delta x)^{n-k}

所以我们可以得到 XkX_k 的概率密度函数为

f(x)=limx0P(xXkx+Δx)Δxf(x)=\lim \limits_{x\to0}\frac{P(x\leq X_k\leq x+ \Delta x)}{\Delta x}

=(n1)(n1k1)xk1(1x)nk= \binom{n}{1}\binom{n-1}{k-1}x^{k-1}(1-x)^{n-k}

=n!(k1)!(nk)!xk1(1x)nk= \frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}

=Γ(n+1)Γ(k)Γ(nk+1)xk1(1x)nk= \frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)}x^{k-1}(1-x)^{n-k}

我们取 α=k, β=nk+1\alpha=k,\ \beta=n-k+1 ,于是

f(x)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}

这就是Beta分布。

回到上面题目,把n=10, k=7n=10,\ k=7 带入其中,得到密度函数 f(x)=10!6!×3!x6(1x)3, x[0,1]f(x) = \frac{10!}{6!\times3!}x^6(1-x)^3,\ x\in[0,1]

贝塔分布是关于连续变量 μ[0,1]\mu\in[0,1] 的概率分布,它由两个参数a>0a>0b>0b>0确定,概率密度函数如下

概率密度函数 累积分布函数

狄利克雷分布是关于一组 dd 个连续变量 μi[0,1]\mu_i\in [0,1] 的概率分布, i=1dμi=1\sum_{i=1}^d\mu_i=1 ,令 μ=(μ1;μ2;;μd)\mu=(\mu_1;\mu_2;\dots;\mu_d) ,参数 α=(α1;α2;;αd), αi>0, α^=i=1dαi\alpha=(\alpha_1;\alpha_2;\dots;\alpha_d),\ \alpha_i>0,\ \hat{\alpha}=\sum_{i=1}^d\alpha_i 。Dirichlet是多变量普遍化的Βeta分布,常用于成分分析模型,可以看到,将 d=2d=2 时,Dirichlet退化为Beta分布。

P(μα)=Dir(μα)=Γ(α^)Γ(α1)Γ(αi)i=1dμiαi1P(\mu|\alpha)=Dir(\mu|\alpha)=\frac{\Gamma(\hat{\alpha}) }{\Gamma(\alpha_1)\dots\Gamma(\alpha_i)}\prod\limits_{i=1}^d\mu_i^{\alpha_i-1}

其中均值 E[μi]=αiα^E[\mu_i]=\frac{\alpha_i}{\hat{\alpha}} , 方差var[μi]=αi(α^αi)α^2(α^+1)var[\mu_i]=\frac{\alpha_i(\hat{\alpha}-\alpha_i)}{\hat{\alpha}^2(\hat{\alpha}+1)} ,协方差 cov[μj,μi]=αjαiα^2(α^+1)cov[\mu_j,\mu_i]=\frac{\alpha_j\alpha_i}{\hat{\alpha}^2(\hat{\alpha}+1)}

高斯分布(Gaussian)

高斯分布是最常见的数据分布,又称正态分布

N(x;μ,Σ)=12πDΣe12(xμ)TΣ1(xμ)     xRD\mathcal{N}(x;\mu,\Sigma) = \frac{1}{\sqrt{2\pi^D|\Sigma|}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)} \ \ \ \ \ x \in \mathbb{R}^D 其中均值 μ=E(x)\mu = E(x) ,协方差 Σ=cov(x)\Sigma =cov(x)

若损失函数使用欧氏距离的平方: N(x;μ,Σ)=1(2πσ2)1/2e(xμ)22σ2\mathcal{N}(x;\mu,\Sigma) = \frac{1}{(2\pi \sigma^2)^{1/2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

拉普拉斯分布(Laplacian)

拉普拉斯分布多用于稀疏模型,比高斯分布要陡,使用绝对距离非欧氏距离

P(x;μ,b)=12bexμbP(x;\mu,b) = \frac{1}{2b}e^{-\frac{|x-\mu|}{b}} 其中均值 μ\mu ,协方差 2b22b^2

卡方分布(χ2\chi^2)是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验置信区间的计算。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。

kk 个独立的随机变量 Z1,Z2,,ZkZ_1,Z_2,\dots,Z_k 是相互独立, 符合标准正态分布随机变量数学期望00方差11 ),则随机变量 ZZ 的平方和:

X=i=1kZi2X=\sum\limits_{i=1}^kZ^2_i

被称为服从自由度为 kk 的卡方分布,记作:

Xχ2(k)X\sim \chi^2(k)Xχk2X\sim \chi^2_k

在概率论和统计学中,学生t-分布(t-distribution),可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。t分布曲线形态与 nn (确切地说与自由度 dfdf )大小有关。与标准正态分布曲线相比,自由度 dfdf 越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度 dfdf 愈大,t分布曲线愈接近正态分布曲线,当自由度 df=df=\infty 时,t分布曲线为标准正态分布曲线。

由于在实际工作中,往往 σ\sigma 是未知的,常用 ss 作为 σ\sigma 的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。 假设 XX 是呈正态分布的独立的随机变量(随机变量的期望值μ\mu方差σ2\sigma^2 但未知)。 令:

样本均值:Xn=X1,+Xnn\overline{X}_n=\frac{X_1,+\cdots X_n}{n} , 样本方差:Sn2=1n1i=1n(XiXn)2S_n^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X}_n)^2

它显示了数量 Z=XnμσnZ=\frac{\overline{X}_n-\mu}{\frac{\sigma}{\sqrt{n}}} 呈正态分布且均值为 00 ,方差为 11 (标准正态分布)

另一个相关数量:

T=XnμSnnT=\frac{\overline{X}_n-\mu}{\frac{S_n}{\sqrt{n}}}

上式的 概率密度函数是:

f(t)=Γ(v+12)vπΓ(v2)(1+t2v)(v+1)2,     v=n1f(t)=\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}(1+\frac{t^2}{v})^{\frac{-(v+1)}{2}}, \ \ \ \ \ v=n-1

TT 的分布称为t分布,参数 vv 一般称为自由度, Γ\Gamma 是伽马函数。

TT 的概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。随着自由度 vv 的增加,则越来越接近均值为0方差为1的正态分布。

在概率论和统计学里,F-分布(F-distribution)是一种连续概率分布,被广泛应用于似然比率检验,特别是方差分析(ANOVA)中。若总体 XN(0,1)X\sim N(0,1)(X1,X2,,Xn1)(X_1,X_2,\dots,X_{n_1})(Y1,Y2,,Yn2)(Y_1,Y_2,\dots,Y_{n_2}) 为来自 XX 的两个独立样本,设统计量

F=i=1n1Xi2n1/i=1n2Yi2n2F=\frac{\sum_{i=1}^{n_1}X_i^2}{n_1}/\frac{\sum_{i=1}^{n_2}Y_i^2}{n_2}

则称统计量 FF 服从自由度 n1n_1n2n_2FF 分布,记为 FF(n1,n2)F\sim F(n_1,n_2)

F(n1,n2)F(n_1,n_2) 分布的概率密度为

f(x;n1;n2)=(n1x)n1n2n2(n1x+n2)n1+n2xB(n12,n22)=1B(n12,n22)(n1n2)n12xn121(1+n1n2x)d1+d22f(x;n_1;n_2)=\frac{\sqrt{\frac{(n_1x)^{n_1}n_2^{n_2}}{(n_1x+n_2)^{n_1+n_2}}}}{xB(\frac{n_1}{2},\frac{n_2}{2})} = \frac{1}{B(\frac{n_1}{2},\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}x^{\frac{n_1}{2}-1}(1+\frac{n_1}{n_2}x)^{-\frac{d_1+d_2}{2}}

概率密度函数 累积分布函数

指数分布(Exponential Family)

任何分布写成 P(X;η)=h(x)g(η)eηTu(x)P(X;\eta)=h(x)g(\eta)e^{\eta^Tu(x)},其中 η\eta 包含参数,u(x)u(x)xx 的函数,g(η)g(\eta) 为了标准化

比如高斯:将 u(x)=[xx2]u(x) = \left[ \begin{matrix} x \\ x^2 \end{matrix} \right] h(x)=(2π)1/2h(x) = (2\pi)^{-1/2}η=[μ/σ21/2σ2]\eta = \left[ \begin{matrix} \mu/\sigma^2 \\ -1/2\sigma^2 \end{matrix} \right] g(η)=(2η2)1/2eη12/4η2g(\eta) = (-2\eta_2)^{1/2}e^{\eta_1^2/4\eta_2} 代入

P(X;η)=h(x)g(η)eηTu(x)P(x;h)=1(2πσ2)1/2e12σ2x2+μσ2x12σ2μ2=1(2πσ2)1/2e(xμ)22σ2P(X;\eta)=h(x)g(\eta)e^{\eta^Tu(x)} \to P(x;h)=\frac{1}{(2\pi\sigma^2)^{1/2}}e^{-\frac{1}{2\sigma^2}x^2+\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2} = \frac{1}{(2\pi\sigma^2)^{1/2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

假设变量 xx 服从分布 P(xΘ)P(x|\Theta) ,其中 Θ\Theta 为参数。 X={x1,x2,,xm}X=\{x_1,x_2,\dots,x_m\} 为变量 xx 的观测样本,假设参数 Θ\Theta 服从先验分布 (Θ)\prod(\Theta) 。若由先验分布 (Θ)\prod(\Theta) 和抽样分布(实验数据) P(XΘ)P(X|\Theta) 决定的后验分布 F(ΘX)F(\Theta|X)(Θ)\prod(\Theta) 是同种类型的分布,则称先验分布 (Θ)\prod(\Theta) 为分布 P(xΘ)P(x|\Theta)P(XΘ)P(X|\Theta) 的共轭分布(Conjugate Distribution)。

其中,贝塔分布(Beta)与伯努利分布(Bernoulli)共轭;狄利克雷分布(Dirichlet)与多项分布(Multinomial)共轭;高斯分布的共轭分布仍是高斯分布。

先验分布反映了某种先验信息;后验分布既反映了先验分布提供的信息,又反映了样本提供的信息。当先验分布与抽样分布(实验数据)共轭时,后验分布与先验分布属于同种类型,这意味着先验信息与样本提供的信息具有某种同一性。于是,若使用后验分布作为进一步抽样的先验分布,则新的后验分布仍将属于同种类型。因此,共轭分布在不少情况下会使得问题得以简化。

Source

Last updated