概率论笔记

随机事件与概率

基本概念

随机试验:E\mathcal{E}

样本点(基本事件):ω\omega

样本空间Ω\Omega

e.g.

E1\mathcal{E}_1 :抛一枚硬币

Ω1={H,T}\Omega_1=\{H,T\} (离散)

E2\mathcal{E}_2 :电视寿命

Ω2=[0,+)\Omega_2=[0,+\infty) (连续)

事件:A,BΩA, B\subseteq \Omega

逆事件/对立事件:Aˉ=ΩA\bar{A}=\Omega-A

不相容:AB=AB=\emptyset

并:AB=A+BA\cup B=A+B

交:AB=ABA\cap B=AB

差:ABA-B

F2Ω\mathcal{F}\in 2^\Omega ,且

  1. ΩF\Omega\in \mathcal{F}
  2. AF    AˉFA\in F\iff \bar{A}\in F
  3. AnF,n1    n=1AnF\forall A_n\in \mathcal{F}, n\le 1\implies \cup_{n=1}^\infty A_n\in \mathcal{F}

F\mathcal{F}事件域F\mathcal{F} 中的元素为事件

P:FRP:\mathcal{F} \to \R ,且

  1. AF,P(A)0\forall A\in \mathcal{F}, P(A)\ge 0 (非负性)
  2. P(Ω)=1P(\Omega)=1 (规范性)
  3. A1,A2,...A_1, A_2, ... 两两不相容,则 P(i=1Ai)=i=1P(Ai)P(\cup_{i=1}^\infty A_i)=\sum_{i=1}^\infty P(A_i) (可列可加性)

PP概率(Ω,F,P)(\Omega,\mathcal{F},P)概率空间

半可列可加性:

P(i=1nAi)i=1nP(Ai)1i<jnP(AiAj)P(\cup_{i=1}^nA_i)\ge \sum_{i=1}^n P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)

下连续性:若事件序列A1,A2,...A_1,A_2,... 单调增(A1A2...A_1\subset A_2\subset ...),则

limnP(An)=P(n=1An)\lim_{n\to \infty}P(A_n)=P(\cup_{n=1}^\infty A_n)

证明:

Bi=AiAi1B_i=A_i-A_{i-1}

BiB_i 两两不相容

P(n=1An)=P(i=1Bi)=i=1P(Bi)=limni=1n(P(Ai)P(Ai1))=limnP(Bi)P(\cup_{n=1}^\infty A_n)=P(\cup_{i=1}^\infty B_i)=\sum_{i=1}^\infty P(B_i)\\=\lim_{n\to \infty}\sum_{i=1}^n(P(A_i)-P(A_{i-1}))=\lim_{n\to \infty}P(B_i)

上连续性:若事件序列A1,A2,...A_1,A_2,... 单调减(A1A2...A_1\supset A_2\supset ...),则

limnP(An)=P(n=1An)\lim_{n\to \infty}P(A_n)=P(\cap_{n=1}^\infty A_n)

证明同理

古典概型(等可能概型)

样本空间元素有限,且可能性相等

Ω=...\Omega=...

A=...A=...

P(A)=...P(A)=...

几何概型

P(A)=S(A)S(Ω)P(A)=\frac{S(A)}{S(\Omega)}

蒲丰投针问题

Ω={(x,β)0xα2,0βπ}\Omega=\{(x,\beta)\mid 0\le x\le \frac{\alpha}{2},0\le \beta\le \pi\}

A={(x,β)0xl2sinβ}A=\{(x,\beta)\mid 0\le x\le \frac{l}{2}\sin \beta\}

P(A)=S(A)S(Ω)=l20πsinβdβα2π=2lαπP(A)=\frac{S(A)}{S(\Omega)}=\frac{\frac{l}{2}\int_0^\pi \sin \beta d\beta}{\frac{\alpha}{2}\pi}=\frac{2l}{\alpha\pi}

改为正方形

Ω={(x,β)0xα2,0βπ4}\Omega=\{(x,\beta)\mid 0\le x\le \frac{\alpha}{2},0\le \beta\le \frac{\pi}{4}\}

A={(x,β)0xmin(2l2cosβ,α2)}A=\{(x,\beta)\mid 0\le x\le \min(\frac{\sqrt{2}l}{2}\cos \beta,\frac{\alpha}{2})\}

P(A)=S(A)S(Ω)=0π4min(2l2cosβ,α2)dβαπ8P(A)=\frac{S(A)}{S(\Omega)}=\frac{\int_0^\frac{\pi}{4} \min(\frac{\sqrt{2}l}{2}\cos \beta,\frac{\alpha}{2}) d\beta}{\frac{\alpha\pi}{8}}

条件概率

P(AB)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}

P(A1A2...An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2...An1)P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})

全概率公式

i=1nBi=Ω,BiBj=(ij),P(Bi)>0\cup_{i=1}^nB_i=\Omega, B_iB_j=\emptyset(i\ne j), P(B_i)>0 ,称 B1,B2,...,BnB_1,B_2,...,B_n 为完备事件组。

P(A)=i=1nP(ABi)P(Bi)P(A)=\sum_{i=1}^nP(A|B_i)P(B_i)

可列个事件:

i=1Bi=Ω,BiBj=(ij),P(Bi)>0\cup_{i=1}^\infty B_i=\Omega, B_iB_j=\emptyset(i\ne j), P(B_i)>0 ,称 B1,B2,...B_1,B_2,... 为完备事件组。

P(A)=i=1P(ABi)P(Bi)P(A)=\sum_{i=1}^\infty P(A|B_i)P(B_i)

Bayes 公式

P(BiA)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}

先验概率:P(Bi)P(B_i)

后验概率:P(BiA)P(B_i|A)

B1=B,B2=BˉB_1=B, B_2=\bar{B}

P(BA)=P(B)P(AB)P(B)P(AB)+P(Bˉ)P(ABˉ)P(B|A)=\frac{P(B)P(A|B)}{P(B)P(A|B)+P(\bar{B})P(A|\bar{B})}

事件的独立性

P(AB)=P(A)P(B)P(AB)=P(A)P(B)A,BA,B 独立

A,BA,B 独立,则 Aˉ,B\bar{A},B 独立

证明:P(AˉB)=P(BAB)=P(B)P(AB)=P(B)P(A)P(B)=P(Aˉ)P(B)P(\bar{A}B)=P(B-AB)=P(B)-P(AB)=P(B)-P(A)P(B)=P(\bar{A})P(B)

A,B,CA,B,C 两两独立,P(ABC)=P(A)P(B)P(C)P(ABC)=P(A)P(B)P(C) ,则称 A,B,CA,B,C 相互独立

1i1<i2<...<ikn,P(Ai1)P(Ai2)...P(Aik)=P(Ai1)P(Ai2)...P(Aik)\forall 1\le i_1<i_2<...<i_k\le n, P(A_{i_1})P(A_{i_2})...P(A_{i_k})=P(A_{i_1})P(A_{i_2})...P(A_{i_k}) ,称 A1,A2,...,AnA_1,A_2,...,A_n 相互独立

2nn12^n-n-1 个式子

Bernoulli试验

随机试验 E\mathcal{E} 结果只有 A,AˉA, \bar{A} ,重复做 nn 次,称为 nn 重Bernoulli试验,记作 E\mathcal{E}

样本空间:Ω={(w1,w2,...,wn)wi{A,Aˉ}}\Omega=\{(w_1,w_2,...,w_n)\mid w_i\in \{A,\bar{A}\}\}

P(Bk)=(nk)pk(1p)nkP(B_k)=\binom{n}{k}p^k(1-p)^{n-k}

随机变量与概率分布

(Ω,F,P)(\Omega,\mathcal{F},P) 为概率空间,XX 为定义在 Ω\Omega 上的实值函数。若 xR,{Xx}\forall x\in \R, \{X\le x\} 为随机事件,即 {ω:X(ω)x}F\{\omega:X(\omega)\le x\}\in \mathcal{F} ,则称 XX随机变量

称实变实值函数 F(x)=P(Xx)F(x)=P(X\le x)XX 的分布函数 (CDF)。

P(X<a)=F(a0),P(X=a)=F(a)F(a0),P(aXb)=F(b)F(a0)P(X<a)=F(a-0), P(X=a)=F(a)-F(a-0), P(a\le X\le b)=F(b)-F(a-0)

单调性、有界性、右连续性

离散型随机变量

退化分布:

F(x)={0x<a1xaF(x)=\begin{cases}0&x<a\\1&x\ge a\end{cases}

分布律 \pmatrix{a\\1}

Bernoulli 分布:

F(x)={0x<01p0x<11x1F(x)=\begin{cases}0&x<0\\1-p&0\le x<1\\1&x\ge 1\end{cases}

分布律 \pmatrix{0&1\\1-p&p}

E(X)=pE(X)=p

D(X)=p(1p)D(X)=p(1-p)

二项分布

P(X=k)=b(k;n,p)=(nk)pk(1p)kP(X=k)=b(k;n,p)=\binom{n}{k}p^k(1-p)^k

记作 XB(n,p)X\sim B(n,p)

[(n+1)p][(n+1)p] 处取最大值

E(X)=npE(X)=np

D(X)=k=0nk2(nk)pk(1p)nk=k=1nn(n1k1)pk(1p)nk+k=2nn(n1)(n2k2)pk(1p)nk=np+n(n1)p2D(X)=\sum_{k=0}^nk^2\binom{n}{k}p^k(1-p)^{n-k}\\=\sum_{k=1}^nn\binom{n-1}{k-1}p^k(1-p)^{n-k}+\sum_{k=2}^nn(n-1)\binom{n-2}{k-2}p^k(1-p)^{n-k}\\=np+n(n-1)p^2

D(X)=np(1p)D(X)=np(1-p)

Poisson定理:

limnnpn=λ,kZ+\lim_{n\to \infty}np_n=\lambda, k\in \Z^+ nn 较大,pp 很小,npnp 适中),则

p(k,λ)=limn(nk)pnk(1pn)nk=λkk!eλp(k,\lambda)=\lim_{n\to \infty}\binom{n}{k}p_n^k(1-p_n)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}

Poisson逼近:b(k;n,p){p(k,np)=(np)kk!enppp(k,n(1p))=(n(1p))kk!en(1p)p1b(k;n,p)\approx \begin{cases}p(k,np)=\frac{(np)^k}{k!}e^{-np} &p 很小\\p(k,n(1-p))=\frac{(n(1-p))^k}{k!}e^{-n(1-p)} &p 接近 1\end{cases}

负二项分布(Pascal分布):

f(k;r,p)=(k1r1)pr1(1p)krf(k;r,p)=\binom{k-1}{r-1}p^{r-1}(1-p)^{k-r}

rr 次成功出现在第 kk 次试验的概率

Poisson分布

P(X=k)=p(k,λ)=λkk!eλP(X=k)=p(k,\lambda)=\frac{\lambda^k}{k!}e^{-\lambda}

记作 XP(λ)X\sim \mathscr{P}(\lambda)

E(X)=k=0+kλkk!eλ=eλλk=1+λk1(k1)!=λE(X)=\sum_{k=0}^{+\infty}k\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\lambda\sum_{k=1}^{+\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda

E(X2)=k=0+k2λkk!eλ=eλ(λk=1+λk1(k1)!+λ2k=2+λk2(k2)!)=λ+λ2E(X^2)=\sum_{k=0}^{+\infty}k^2\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}(\lambda\sum_{k=1}^{+\infty}\frac{\lambda^{k-1}}{(k-1)!}+\lambda^2\sum_{k=2}^{+\infty}\frac{\lambda^{k-2}}{(k-2)!})=\lambda+\lambda^2

D(X)=λD(X)=\lambda

X1P(λ1),X2P(λ2)X_1\sim \mathscr{P}(\lambda_1), X_2\sim \mathscr{P}(\lambda_2)

X1+X2P(λ1+λ2)X_1+X_2\sim \mathscr{P}(\lambda_1+\lambda_2)

λ\lambda 是单位时间内随机事件的平均发生率

适用大量实验中稀有事件的发生

几何分布、超几何分布

超几何分布:P(X=k)=(Mk)(NMnk)(Nn)P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}

几何分布:P(X=k)=p(1p)k1P(X=k)=p(1-p)^{k-1}

首次成功出现在在第 kk 次试验中的概率

离散型唯一无记忆性的分布

连续型随机变量

概率密度函数 (PDF) f(x)f(x)

分布函数 (CDF) F(x)=xf(y)dyF(x)=\int_{-\infty}^xf(y)dy

f(x)f(x)实变实值函数,则 xx 为连续型随机变量

概率密度函数不唯一(在零测集上可改变)

均匀分布

f(x)={1baaxb0elsef(x)=\begin{cases}\frac{1}{b-a}&a\le x\le b\\0&\text{else}\end{cases}

F(x)={0x<axabaaxb1x>bF(x)=\begin{cases}0&x<a\\\frac{x-a}{b-a}&a\le x\le b\\1&x>b\end{cases}

记作 XU[a,b]X\sim U[a,b]

E(X)=a+b2E(X)=\frac{a+b}{2}

D(X)=112(ba)2D(X)=\frac{1}{12}(b-a)^2

指数分布

f(x)={λeλxx00x<0f(x)=\begin{cases}\lambda e^{-\lambda x}&x\ge 0\\0&x<0\end{cases}

F(x)={1eλxx00x<0F(x)=\begin{cases}1-e^{-\lambda x}&x\ge 0\\0&\text{x<0}\end{cases}

无记忆性

记作 XE(λ)X\sim \mathscr{E}(\lambda)

E(X)=λ0+xeλxdx=λ(x1λeλx0+0+1λeλxdx)=0+eλxdx=1λE(X)=\lambda \int_0^{+\infty}xe^{-\lambda x}dx=\lambda (x\frac{1}{-\lambda}e^{-\lambda x}|_0^{+\infty}-\int_0^{+\infty}\frac{1}{-\lambda}e^{-\lambda x}dx)=\int_0^{+\infty}e^{-\lambda x}dx=\frac{1}{\lambda}

E(X2)=λ0+x2eλxdx=λ(x21λeλx0+0+2x1λeλxdx)=2λE(X)=2λ2E(X^2)=\lambda\int_0^{+\infty}x^2e^{-\lambda x}dx=\lambda (x^2\frac{1}{-\lambda}e^{-\lambda x}|_0^{+\infty}-\int_0^{+\infty}2x\frac{1}{-\lambda}e^{-\lambda x}dx)=\frac{2}{\lambda}E(X)=\frac{2}{\lambda^2}

D(X)=1λ2D(X)=\frac{1}{\lambda^2}

正态分布(Gauss分布)

f(x)=12πσexp(12σ2(xμ)2)f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)

记作 XN(μ,σ2)X\sim N(\mu, \sigma^2)

Stirling 公式:n!2πn(ne)n,n+n!\sim \sqrt{2\pi n}(\frac{n}{e})^n, n\to +\infty

3σ3\sigma 原则:

P(σXμσ)0.683P(-\sigma\le X-\mu\le \sigma)\approx 0.683

P(2σXμ2σ)0.954P(-2\sigma\le X-\mu\le 2\sigma)\approx 0.954

P(3σXμ3σ)0.997P(-3\sigma\le X-\mu\le 3\sigma)\approx 0.997

因此可基本认为 Xμ[3σ,3σ]X-\mu \in [-3\sigma, 3\sigma]

标准化:F(X)=ϕ(Xμσ)F(X)=\phi(\frac{X-\mu}{\sigma})

ϕ(x)=x12πeu2/2du\phi(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-u^2/2}du

ϕ(x)=12πex2/2\phi'(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}

X1N(μ1,σ12),X2N(μ2,σ22)X_1\sim N(\mu_1,\sigma_1^2),X_2\sim N(\mu_2,\sigma_2^2)X1,X2X_1,X_2 相互独立,则 X1+X2N(μ1+μ2,σ12+σ22)X_1+X_2\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)X1X2\frac{X_1}{X_2} 服从 Cauchy 分布 f(x)=1π(1+x2)f(x)=\frac{1}{\pi (1+x^2)}

标准正态分布:

XN(0,1)X\sim N(0,1)

ϕ(x)=x12πexp(12t2)dt\phi(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}t^2)dt

α\alpha 分位数 zαz_\alphaP(X>zα)=αP(X>z_\alpha)=\alpha

双侧 α\alpha 分位数 cαc_\alphaP(C>cα)=αP(|C|>c_\alpha)=\alpha

X1,X2N(0,1)X_1,X_2\sim N(0,1) 且相互独立,则 X1X2\frac{X_1}{X_2} 服从 Cauchy 分布:

f(x)=1π(1+x2)f(x)=\frac{1}{\pi(1+x^2)}

Γ\Gamma 分布

f(x)=λαΓ(α)xα1eλxI(0,+)(x)f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}I_{(0,+\infty)}(x)

其中 Γ(α)=0+uα1eudu\Gamma(\alpha)=\int_0^{+\infty}u^{\alpha-1}e^{-u}du

Γ(12)=π\Gamma(\frac{1}{2})=\sqrt{\pi}

Γ(n+1)=n!\Gamma(n+1)=n!

记作 XΓ(α,λ)X\sim \Gamma(\alpha, \lambda)

Γ(1,λ)=E(λ)\Gamma(1,\lambda)=\mathscr{E}(\lambda),即 f(x)=λeλxI(0,+)(x)f(x)=\lambda e^{-\lambda x}I_{(0,+\infty)}(x)

Γ(n2,12)=χ2(n)\Gamma(\frac{n}{2},\frac{1}{2})=\chi^2(n) ,即 f(x)=12n2Γ(n2)xn21e12xI(0,+)(x)f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{1}{2}x}I_{(0,+\infty)}(x)

Beta 分布:f(x;α,β)=1B(α,β)xα1(1x)β1f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}

记作 XBe(α,β)X\sim Be(\alpha,\beta)

B(α,β)=Γ(α)Γ(β)Γ(α+β)B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

Maxwell 分布:f(v)=4π(m2πkT)32emv22kTv2f(v)=4\pi (\frac{m}{2\pi kT})^{\frac{3}{2}}e^{-\frac{mv^2}{2kT}}v^2

随机变量函数分布

Y=g(X)Y=g(X)

XX 离散,YY 一定离散

XX 连续,YY 不一定

XN(μ,σ2)X\sim N(\mu, \sigma^2) ,则 Y=aX+bN(aμ+b,a2σ2)Y=aX+b\sim N(a\mu+b,a^2\sigma ^2)

对数正态分布:XN(μ,σ2),Y=eXX\sim N(\mu, \sigma^2), Y=e^X

FY(y)=P(g(X)y)F_Y(y)=P(g(X)\le y)

FY(y)F_Y(y) 几乎处处连续,则 fY(y)={FY(y)FY(y)0FY(y)f_Y(y)=\begin{cases}F'_Y(y)&F_Y'(y)存在\\0&F_Y'(y)不存在\end{cases}

fX(x),g(x)f_X(x), g(x) 几乎处处连续,且 hC(x),+h(g(x))fX(x)dx=αβh(y)p(y)dy\forall h\in C(x), \int_{-\infty}^{+\infty}h(g(x))f_X(x)dx=\int_\alpha^\beta h(y)p(y)dy

fY(y)=p(y),α<y<βf_Y(y)=p(y), \alpha<y<\beta

多维随机变量与概率分布

二维

联合分布函数:

F(x,y)=P(Xx,Yy)F(x,y)=P(X\le x, Y\le y)

边缘分布:

FX(x)=F(x,)F_X(x)=F(x,\infty)

FY(y)=F(,y)F_Y(y)=F(\infty,y)

二维离散型

P(X=i,Y=j)=P(X=i)P(Y=jX=i)P(X=i,Y=j)=P(X=i)P(Y=j|X=i)

联合分布律可以写成表格形式

二维连续型

联合概率密度函数:

f(x,y)=2F(x,y)xyf(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y}

可以在零测集上任意更改

F(x,y)=x=yf(u,v)dudv,(x,y)R2F(x,y)=\int_{-\infty}^x\int_{=\infty}^yf(u,v)dudv, (x,y)\in \R^2

fX(x)=+f(x,v)dvf_X(x)=\int_{-\infty}^{+\infty}f(x,v)dv

F(+,+)=1F(+\infty,+\infty)=1

F(,y)=F(x,)=0F(-\infty,y)=F(x,-\infty)=0

二维正态分布

u=xμ1σ1,v=yμ2σ2u=\frac{x-\mu_1}{\sigma_1},v=\frac{y-\mu_2}{\sigma_2}

f(x,y)=12πσ1σ21ρ2exp(12(1ρ2)(u22ρuv+v2))=12πσ1σ21ρ2exp(12(1ρ2)((xμ1σ1)22ρ(xμ1σ1)(yμ2σ2)+(yμ2σ2)2))f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp{(-\frac{1}{2(1-\rho^2)}(u^2-2\rho uv+v^2))}\\=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp{(-\frac{1}{2(1-\rho^2)}((\frac{x-\mu_1}{\sigma_1})^2-2\rho (\frac{x-\mu_1}{\sigma_1})(\frac{y-\mu_2}{\sigma_2})+(\frac{y-\mu_2}{\sigma_2})^2))}

记作 (X,Y)N(μ1,μ2,σ12,σ22,ρ)(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)

协方差矩阵 \Sigma=\pmatrix{\sigma_1^2&\rho \sigma_1\sigma_2\\\rho\sigma_1\sigma_2&\sigma_2^2}

X,YX,Y 独立     ρ=0\iff \rho=0

kk 维正态分布

N(μ,Σ):f(x)=(2π)k2Σ12e12(xμ)TΣ1(xμ)N(\mu,\Sigma): f(x)=(2\pi)^{-\frac{k}{2}}|\Sigma|^{-\frac{1}{2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}

各分量相互独立等价于两两不相关

XN(μ,Σ)X\sim N(\mu,\Sigma) ,则 CXN(Cμ,CΣCT)CX\sim N(C\mu,C\Sigma C^T)

条件分布

P(X=nY=m)=P(X=n,Y=m)P(Y=m)P(X=n\mid Y=m)=\frac{P(X=n,Y=m)}{P(Y=m)}

连续型:

条件概率密度:fXY(xy)=f(x,y)fY(y)f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}

条件分布:FXY(xy)=xf(u,y)fY(y)duF_{X|Y}(x|y)=\int_{-\infty}^x\frac{f(u,y)}{f_Y(y)}du

x,yx,y 相互独立:F(x,y)=FX(x)FY(y)F(x,y)=F_X(x)F_Y(y)

连续:f(x,y)=fX(x)fY(y)f(x,y)=f_X(x)f_Y(y) 几乎处处成立

二维随机变量函数分布

独立随机变量函数仍相互独立

离散:

取值较少可一一列出

Z=X+YZ=X+Y

P(X+Y=k)=iP(X=i)P(Y=ki)P(X+Y=k)=\sum_iP(X=i)P(Y=k-i)

XP(λ1),YP(λ2)X\sim \mathscr{P}(\lambda_1),Y\sim \mathscr{P}(\lambda_2) ,且 X,YX,Y 相互独立,则 X+YP(λ1+λ2)X+Y\sim \mathscr{P}(\lambda_1+\lambda_2) (再生性),但 XYX-Y 不是 Poisson 分布

XB(n,p),YB(m,p)X\sim B(n,p), Y\sim B(m,p) ,且 X,YX,Y 相互独立,则 X+YB(n+m,p)X+Y\sim B(n+m,p)

i+j=k(ni)(mj)=(n+mk)\sum_{i+j=k}\binom{n}{i}\binom{m}{j}=\binom{n+m}{k}

连续:

Z=g(X,Y)Z=g(X,Y)

FZ(z)=P(g(x,y)z)=g(x,y)zf(x,y)dxdyF_Z(z)=P(g(x,y)\le z)=\iint_{g(x,y)\le z}f(x,y)dxdy

  1. 确定 zz 取值范围
  2. 确定积分区域
  3. 积分

e.g.

{(x,y)0<x<1,0<y<2x},Z=2XY\{(x,y)\mid 0<x<1,0<y<2x\},Z=2X-Y

0Z20\le Z\le 2P(Zz)=1z2102xzdydxP(Z\le z)=1-\int_\frac{z}{2}^1\int_0^{2x-z}dydx

和的分布

Z=X+YZ=X+Y

fZ(z)=x+y=zf(x,y)dxdy=+f(x,zx)dxf_Z(z)=\iint_{x+y=z}f(x,y)dxdy=\int_{-\infty}^{+\infty}f(x,z-x)dx (卷积)

XN(0,1),YN(0,1)X\sim N(0,1), Y\sim N(0,1) ,则 X+YN(0,2)X+Y\sim N(0,2)

fZ(z)=+f(x)f(zx)dx=+12πex2+(zx)22dx=12πez24+e(xz2)2dx=12πez24f_Z(z)=\int_{-\infty}^{+\infty}f(x)f(z-x)dx=\int_{-\infty}^{+\infty}\frac{1}{2\pi}e^{-\frac{x^2+(z-x)^2}{2}}dx=\frac{1}{2\pi}e^{-\frac{z^2}{4}}\int_{-\infty}^{+\infty}e^{-(x-\frac{z}{2})^2}dx=\frac{1}{2\sqrt{\pi}}e^{-\frac{z^2}{4}}

联合分布

u=g1(x,y),v=g2(x,y)u=g_1(x,y),v=g_2(x,y)

J=(x,y)(u,v)J=\frac{\partial(x,y)}{\partial(u,v)}

f(u,v)=f(x,y)Jf(u,v)=f(x,y)|J|

积的分布

U=XYU=XY 为连续型随机变量,概率密度

fu(u)=+1vf(uv,v)dvf_u(u)=\int_{-\infty}^{+\infty}\frac{1}{|v|}f(\frac{u}{v},v)dv

商的分布

U=XYU=\frac{X}{Y} 为连续型随机变量,概率密度

fu(u)=+vf(uv,v)dvf_u(u)=\int_{-\infty}^{+\infty}|v|f(uv,v)dv

两个独立标准正态分布变量的商满足 Cauchy 分布:

f(x)=1π(1+x2)f(x)=\frac{1}{\pi(1+x^2)}

最大值、最小值分布

最大值 FZ(z)=P(i(1in),Xiz)F_Z(z)=P(\forall i(1\le i\le n), X_i\le z)

XiX_i 相互独立,FZ(z)=i=1nFi(z)F_Z(z)=\prod_{i=1}^nF_i(z)

XiX_i i.i.d.,FZ(z)=(FX(z))nF_Z(z)=(F_X(z))^n ,若 XiX_i 为连续型随机变量,fZ(z)=n(FX(z))n1fX(z)f_Z(z)=n(F_X(z))^{n-1}f_X(z)

最小值同理,考虑 1FZ(z)1-F_Z(z)

e.g.

FX(x)=(1eλx)I(0,+)(x)F_X(x)=(1-e^{-\lambda x})I_{(0,+\infty)}(x)

F_\max(x)=(1-e^{-\lambda x})^nI_{(0,+\infty)}(x)

1-F_\min(x)=e^{-n\lambda x}, x>0\implies F_\min(x)=(1-e^{-n\lambda x})I_{(0,+\infty)}(x)

多项分布

若每次试验有 rr 种结果 A1,A2,...,ArA_1,A_2,...,A_rXiX_inn 次重复试验中 AiA_i 出现次数

P(X1=n1,X2=n2,...,Xr=nr)=(nn1,n2,...,nr)p1n1p2n2...prnrP(X_1=n_1,X_2=n_2,...,X_r=n_r)=\binom{n}{n_1,n_2,...,n_r}p_1^{n_1}p_2^{n_2}...p_r^{n_r}

记作 (X1,X2,...,Xr)M(n,p1,p2,...,pr)(X_1,X_2,...,X_r)\sim M(n,p_1,p_2,...,p_r)

随机变量的数字特征

数学期望

XX 分布律 \pmatrix{x_1&x_2&...\\p_1&p_2&...}

E(X)=xkpkE(X)=\sum x_kp_k

xkpk\color{red}\sum|x_k|p_k 存在,则称 E(X)E(X) 存在(绝对收敛),否则不存在

条件收敛没用,因为要可交换

连续型:若 +xf(x)dx\int_{-\infty}^{+\infty}|x|f(x)dx 存在,E(X)=+xf(x)dxE(X)=\int_{-\infty}^{+\infty}xf(x)dx ,否则 E(X)E(X) 不存在

f(x)=1π11+x2f(x)=\frac{1}{\pi}\frac{1}{1+x^2} ,则 +xπ(1+x2)\int_{-\infty}^{+\infty}\frac{|x|}{\pi(1+x^2)} 不绝对收敛,E(X)E(X) 不存在(厚尾)

E(g(X))=g(xk)pkE(g(X))=\sum g(x_k)p_k

性质:

线性性:E(aX+bY+c)=aE(X)+bE(Y)+cE(aX+bY+c)=aE(X)+bE(Y)+c

单调性:若 E(X),E(Y)E(X), E(Y) 存在,则 XY    E(X)E(Y)X\le Y\implies E(X)\le E(Y)

  • 有界性:aX    aE(X)a\le X\implies a\le E(X)

  • 收缩性:E(X)E(X)|E(X)|\le E(|X|)

乘积:若 X,YX,Y 相互独立,则 E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

证明:E(X,Y)=++xyf(x,y)dxdy=(+xfX(x)dx)(+yfY(y)dy)=E(X)E(Y)E(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xyf(x,y)dxdy=(\int_{-\infty}^{+\infty}xf_X(x)dx)(\int_{-\infty}^{+\infty}yf_Y(y)dy)=E(X)E(Y)

Markov 不等式:ϵ>0,P(Xc)E(X)c\forall \epsilon>0, P(|X|\ge c)\le \frac{E(|X|)}{c}

证明:P(Xc)=E(IXc)E(Xc)P(|X|\ge c)= E(I_{|X|\ge c})\le E(\frac{|X|}{c})

E(X)=0E(|X|)=0 ,则 P(X=0)=1P(X=0)=1

证明:P(X>0)k=1+P(X1k)k=1+kE(X)=0P(|X|>0)\le \sum_{k=1}^{+\infty}P(|X|\ge \frac{1}{k})\le \sum_{k=1}^{+\infty}kE(|X|)=0

方差

D(X)=E((XE(X))2)=E(X2)E(X)2D(X)=E((X-E(X))^2)=E(X^2)-E(X)^2

标准差 σ=D(X)\sigma=\sqrt{D(X)}

性质:

D(kX)=k2D(X)D(kX)=k^2D(X)

X1,X2X_1,X_2 相互独立,则 D(X1+X2)=D(X1)+D(X2)D(X_1+X_2)=D(X_1)+D(X_2)

D(X)E((Xc)2)D(X)\le E((X-c)^2)

Chebyshev 不等式:ϵ>0,P(XE(X)ϵ)D(X)ϵ2\forall \epsilon>0, P(|X-E(X)|\ge \epsilon)\le \frac{D(X)}{\epsilon^2} 

证明:由 Markov 不等式,P((XE(X))2c)D(X)cP((X-E(X))^2\ge c)\le \frac{D(X)}{c}

矩:

  • E(Xk)E(X^k)kk 阶原点矩 (k=1k=1 :期望)
  • E((XE(X))k)E((X-E(X))^k)kk 阶中心矩 (k=2k=2 :方差)
  • E((XE(X))k(YE(Y))l)E((X-E(X))^k(Y-E(Y))^l)k+lk+l 阶混合中心矩

若高阶矩存在,低阶矩一定存在

协方差、相关系数

协方差:混合中心矩

Cov(X,Y)=E((XE(X))(YE(Y)))=E(XY)E(X)E(Y)Cov(X, Y)=E((X-E(X))(Y-E(Y)))=E(XY)-E(X)E(Y)

X,YX,Y 相互独立,则 Cov(X,Y)=0Cov(X, Y)=0

性质:

D(X+Y)=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

对称性:Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)

线性性: Cov(aX1+bX2+c,Y)=aCov(X1,Y)+bCov(X2,Y)Cov(aX_1+bX_2+c,Y)=aCov(X_1,Y)+bCov(X_2,Y)

标准化:X=XE(X)D(X)X^*=\frac{X-E(X)}{\sqrt{D(X)}} ,则 E(X)=0,D(X)=1E(X^*)=0,D(X^*)=1

相关系数:

ρXY=Cov(X,Y)=Cov(X,Y)D(X)D(Y)\rho_{XY}=Cov(X^*,Y^*)=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}

ρaX+b,cY+d=sgn(ac)ρXY\rho_{aX+b,cY+d}=sgn(ac) \rho_{XY}

Cauchy-Schwarz 不等式:

E(X2),E(Y2)<+E(X^2), E(Y^2)<+\infty ,则 E(XY)2E(X2)E(Y2)E(XY)^2\le E(X^2)E(Y^2)

等号    t0,P(Y=t0X)=1\iff \exists t_0,P(Y=t_0X)=1

ρXY[1,1]\therefore \rho_{XY}\in [-1,1]

$\rho_{XY}^2=1\iff \exists a,b,P(Y=aX+b)=1 $

独立一定不相关,反之不一定

e.g. X=cosθ,Y=sinθ,θ[0,2π)X=\cos \theta, Y=\sin \theta, \theta\in [0,2\pi)

(X,Y)(μ1,μ2,σ1,σ2,ρ)\color{red}(X,Y)\sim (\mu_1,\mu_2,\sigma_1,\sigma_2,\rho) ,则 Cov(X,Y)=σ1σ1ρCov(X,Y)=\sigma_1\sigma_1\rho ,独立与不相关等价

X,YX,Y 均为正态分布且不相关,不一定独立

e.g. Y=WXY=WX ,其中 W\sim \pmatrix{0&1\\\frac{1}{2}&\frac{1}{2}}

概率极限定理

大数定律

  1. 频率可以近似概率
  2. Xˉ\bar{X} 的稳定性
  • 依概率收敛:{Xn}\{X_n\} 为随机变量序列, ϵ>0,limnP(XnX>ϵ)=0\forall \epsilon>0, \lim_{n\to \infty}P(|X_n-X|>\epsilon)=0 ,记作 XnPXX_n \xrightarrow{P}X

  • 按分布收敛(弱收敛):CDF任一连续点均收敛,记作 XnLXX_n\xrightarrow{L} X

  • 几乎必然收敛(强收敛):P(w:limnXn(w)=X(w))=1P(w:\lim_{n\to \infty}X_n(w)=X(w))=1 ,称 XnX_n 几乎必然收敛于 XX ,记作 Xna.s.XX_n\xrightarrow{a.s.} X

Chebyshev 大数定律

{Xn}\{X_n\} 独立,C,D(Xn)C\exists C, D(X_n)\le C ,则 1nk=1n(XkE(Xk))P0\frac{1}{n}\sum_{k=1}^n(X_k-E(X_k))\xrightarrow{P}0

证明:根据 Chebyshev 不等式

P(1nk=1n(XkE(Xk))>ϵ)D(1nk=1nXk)ϵ2=1n2k=1nD(Xk)ϵ2Cnϵ20P(|\frac{1}{n}\sum_{k=1}^n(X_k-E(X_k))|> \epsilon)\le \frac{D(\frac{1}{n}\sum_{k=1}^nX_k)}{\epsilon^2}=\frac{1}{n^2}\sum_{k=1}^n\frac{D(X_k)}{\epsilon^2}\le \frac{C}{n\epsilon^2}\to 0

Bernoulli 大数定律

nAn_Ann 重 Bernoulli 试验中 AA 发生的次数,每次事件 AA 发生概率 pp ,则 nAnPp\frac{n_A}{n}\xrightarrow{P}p

博雷尔强大数定律:

nAn_Ann 重 Bernoulli 试验中 AA 发生的次数,每次事件 AA 发生概率 pp ,则 nAna.s.p\frac{n_A}{n}\xrightarrow{a.s.}p

Khinchin 大数定律

{Xn}\{X_n\} 独立同分布,E(X)=μE(X)=\mu ,则 1nk=1nXkPμ\frac{1}{n}\sum_{k=1}^nX_k\xrightarrow{P}\mu

科尔莫戈罗夫强大数定律:

{Xn}\{X_n\} 独立同分布,E(X)=μE(X)=\mu ,则 1nk=1nXka.s.μ\frac{1}{n}\sum_{k=1}^nX_k\xrightarrow{a.s.}\mu

一般地,大数定律需要满足 Markov条件:D(1ni=1nXk)0D(\frac{1}{n}\sum_{i=1}^nX_k)\to 0

中心极限定理

莱维-林德伯格中心极限定理

XnX_n 独立同分布E(Xn)=μ,D(Xn)=σ2>0E(X_n)=\mu,D(X_n)=\sigma^2>0 ,则

1nσ(k=1nXknμ)\frac{1}{\sqrt{n}\sigma}(\sum_{k=1}^nX_k-n\mu) 的 CDF 收敛到 ϕ(x)=12πxet22dt\phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt

棣莫弗-拉普拉斯极限定理

nAnpnp(1p)\frac{n_A-np}{\sqrt{np(1-p)}} 的 CDF 收敛到 ϕ(x)\phi(x)

a,ba,b 为整数

一般取 P(anAb)=P(aϵ1nAb+ϵ2)=ϕ(nB+ϵ2npnp(1p))ϕ(nAϵ1npnp(1p))P(a\le n_A\le b)=P(a-\epsilon_1\le n_A\le b+\epsilon_2)=\color{red}\phi(\frac{n_B+\epsilon_2-np}{\sqrt{np(1-p)}})-\phi(\frac{n_A-\epsilon_1-np}{\sqrt{np(1-p)}})

ϵ1=ϵ2=0.5\epsilon_1=\epsilon_2=0.5

数理统计的基本概念

统计量

X1,X2,...,XnX_1,X_2,...,X_n 是来自总体 XX 的样本,g(x1,x2,...,xn)g(x_1,x_2,...,x_n)nn 元连续函数,且不含未知参数,则称 g(x1,x2,...,xn)g(x_1,x_2,...,x_n) 为统计量。

常用统计量:

名称 定义
样本均值 Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i
样本方差 S2=1n1i=1n(XiXˉ)2=1n1(i=1nXi2nXˉ2)S^2=\frac{1}{\color{red}n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar{X}^2)
样本标准差 S=S2S=\sqrt{S^2}
样本 kk 阶矩 Ak=1ni=1nXikA_k=\frac{1}{n}\sum_{i=1}^nX_i^k
样本 kk 阶中心矩 Bk=1ni=1n(XiXˉ)kB_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k

Sn=B2S_n=B_2S2=nn1Sn2S^2=\frac{n}{n-1}S_n^2

E(X)=μ,D(X)=σ2E(X)=\mu,D(X)=\sigma^2

E(Xˉ)=μ,D(Xˉ)=σ2n,E(S2)=σ2E(\bar{X})=\mu,D(\bar{X})=\frac{\sigma^2}{n},E(S^2)=\sigma^2

证明:

E(Xˉ)=1ni=1nE(Xi)=μE(\bar{X})=\frac{1}{n}\sum_{i=1}^nE(X_i)=\mu

D(Xˉ)=1n2i=1nD(Xi)=σ2nD(\bar{X})=\frac{1}{n^2}\sum_{i=1}^nD(X_i)=\frac{\sigma^2}{n}

E(S2)=1n1E(i=1nXi2nXˉ2)=nn1(E(X2)E(Xˉ2))=nn1((D(X)+E(X)2)(D(Xˉ)+E(Xˉ)2))=1n1(n(σ2+μ2)n(σ2n+μ2))=σ2E(S^2)=\frac{1}{n-1}E(\sum_{i=1}^nX_i^2-n\bar{X}^2)=\frac{n}{n-1}(E(X^2)-E(\bar{X}^2))\\=\frac{n}{n-1}((D(X)+E(X)^2)-(D(\bar{X})+E(\bar{X})^2))\\=\frac{1}{n-1}(n(\sigma^2+\mu^2)-n(\frac{\sigma^2}{n}+\mu^2))=\sigma^2

  • 顺序统计量 X(k)(X1,...,Xn)X_{(k)}(X_1,...,X_n) 表示第 kk 小值

fk(x)=n(n1k1)F(x)k1(1F(x))nkf(x)f_k(x)=n\binom{n-1}{k-1}F(x)^{k-1}(1-F(x))^{n-k}f(x)

χ2\chi^2 分布

X1,X2,...,XnX_1, X_2, ..., X_n 相互独立且服从分布 N(0,1)N(0,1)χ2=X12+X22+...+Xn2\chi^2=X_1^2+X_2^2+...+X_n^2

χ2χ2(n)\chi^2\sim \chi^2(n)

f(x)=12n2Γ(n2)xn21ex2I(0,+)(x)f(x)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}I_{(0,+\infty)}(x)

tt 分布

XN(0,1),Yχ2(n)X\sim N(0,1), Y\sim \chi^2(n)X,YX,Y 相互独立,称 T=XY/n\color{red}T=\frac{X}{\sqrt{Y/n}} 服从自由度为 nntt 分布,记作 Tt(n)T\sim t(n)

概率密度函数:h(t)=Γ(n+12)πnΓ(n2)(1+t2n)t+12h(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{\pi n}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{t+1}{2}}

FF 分布

Xχ2(n1),Yχ2(n2),F=X/n1Y/n2X\sim \chi^2(n_1),Y\sim \chi^2(n_2), F=\frac{X/n_1}{Y/n_2} ,记为 FF(n1,n2)F\sim F(n_1,n_2)

概率密度函数:ψ(x)=Γ(n1+n22)(n1n2)n12xn121Γ(n12)Γ(n22)(1+n1n2x)n1+n22I(0,+)(x)\psi(x)=\frac{\Gamma(\frac{n_1+n_2}{2})(\frac{n_1}{n_2})^{\frac{n_1}{2}}x^{\frac{n_1}{2}-1}}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})(1+\frac{n_1}{n_2}x)^{\frac{n_1+n_2}{2}}}I_{(0,+\infty)}(x)

n2+n_2\to +\inftyFPχ2(n1)/n1F\xrightarrow{P}\chi^2(n_1)/n_1

正态总体的抽样分布

正态总体基本定理

X1,X2,...,XnX_1,X_2,...,X_n 为来自正态总体 XN(μ,σ2)X\sim N(\mu,\sigma^2) 的样本,Xˉ=1ni=1nXi,S2=1n1i=1n(XiXˉ)2\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i, S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 ,则

  1. nXˉμσN(0,1)\sqrt{n}\frac{\bar{X}-\mu}{\sigma}\sim N(0,1)
  2. (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)
  3. Xˉ\bar{X}S2S^2 相互独立
  4. nXˉμSt(n1)\color{red}\sqrt{n}\frac{\bar{X}-\mu}{S}\sim t(n-1)

证明:

根据正态分布的性质, XˉN(μ,σ2n)\bar{X}\sim N(\mu, \frac{\sigma^2}{n})

nXˉμσN(0,1)\therefore \sqrt{n}\frac{\bar{X}-\mu}{\sigma}\sim N(0,1)

构造正交阵 AA

A=[1n1n1n...1n11×2120...012×312×323...0...............1(n1)n1(n1)n1(n1)n...n1n]A=\begin{bmatrix}\frac{1}{\sqrt{n}}&\frac{1}{\sqrt{n}}&\frac{1}{\sqrt{n}}&...&\frac{1}{\sqrt{n}}\\\frac{1}{\sqrt{1\times2}}&-\frac{1}{\sqrt{2}}&0&...&0\\\frac{1}{\sqrt{2\times3}}&\frac{1}{\sqrt{2\times3}}&-\frac{\sqrt{2}}{\sqrt{3}}&...&0\\...&...&...&...&...\\\frac{1}{\sqrt{(n-1)n}}&\frac{1}{\sqrt{(n-1)n}}&\frac{1}{\sqrt{(n-1)n}}&...&-\frac{\sqrt{n-1}}{\sqrt{n}}\end{bmatrix}

XN(μ,B)X\sim N(\mu,B)

Y=AXN(Aμ,ABAT)Y=AX\sim N(A\mu,ABA^T)

B=σ2I\because B=\sigma^2I

ABAT=σ2I\therefore ABA^T=\sigma^2 I

Yi\therefore Y_i 相互独立(因为满足多维正态)

根据正态分布的性质, Y1N(nμ,σ2);YiN(0,σ2),i>1Y_1\sim N(\sqrt{n}\mu,\sigma^2); Y_i\sim N(0,\sigma^2), i>1 ,均服从正态分布

Xˉ=Y1n\because \bar{X}=\frac{Y_1}{\sqrt{n}}

i=1nYi2=YTY=XXT=i=1nXi2\sum_{i=1}^n Y_i^2=Y^TY=XX^T=\sum_{i=1}^n X_i^2

S2=1n1i=1nXi2n(n1)Xˉ2=1n1i=2nYi2\therefore S^2=\frac{1}{n-1}\sum_{i=1}^n X_i^2-\frac{n}{(n-1)}\bar{X}^2=\frac{1}{n-1}\sum_{i=2}^nY_i^2

Xˉ\therefore \bar{X}S2S^2 相互独立

(n1)S2σ2χ2(n1)\therefore \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

n1nXˉμσ(n1)S2σ2=nXˉμSt(n1)\therefore \sqrt{n-1}\frac{\sqrt{n}\frac{\bar{X}-\mu}{\sigma}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}}}=\sqrt{n}\frac{\bar{X}-\mu}{S}\sim t(n-1)

XN(μ1,σ2),YN(μ2,σ2)X\sim N(\mu_1,\sigma^2), Y\sim N(\mu_2,\sigma^2) 且相互独立,S1=1m1i=1m(XiXˉ)2,S2=1n1i=1n(YiYˉ)2S_1=\frac{1}{m-1}\sum_{i=1}^m(X_i-\bar{X})^2, S_2=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\bar{Y})^2

T=XˉYˉ(μ1μ2)Sw1m+1nt(m+n2)T=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2)

其中 Sw2=(m1)S12+(n1)S22m+n2S_w^2=\frac{(m-1)S_1^2+(n-1)S_2^2}{m+n-2}

参数估计

通过样本的观察值,估计未知分布的参数

点估计

用某一数值作为近似值

矩估计

若总体 XX 的分布函数为 F(x;θ)F(x;\boldsymbol{\theta})

计算出 E(Xk)=gk(θ)E(X^k)=g_k(\boldsymbol\theta)

E(Xk)E(X^k) 替换为样本矩 1ni=1nXik\frac{1}{n}\sum_{i=1}^nX_i^k

解出 θ=h(X1,X2,...,Xn)\boldsymbol\theta=\boldsymbol{h}(X_1,X_2,...,X_n)

(尽量使用低阶矩)

最大似然估计

似然函数:L(\theta)=L(\theta;x_1,x_2,...,x_n)=\cases{\prod_{i=1}^np(x_i;\theta), 离散型\\\prod_{i=1}^nf(x_i;\theta),连续型}

θ^(x1,x2,...,xn)\exists \hat{\theta}(x_1,x_2,...,x_n)L(θ^)=maxθL(θ)L(\hat{\theta})=\max_{\theta}L(\theta) ,称 θ^(x1,x2,...,xn)\hat{\theta}(x_1,x_2,...,x_n)θ\theta 的最大似然估计值,θ(X1,X2,...,Xn)\theta(X_1,X_2,...,X_n) 为最大似然估计量。

最大似然估计值不一定唯一(e.g. U(θ,θ+1)U(\theta, \theta+1)

g(θ)g(\theta) 是单射,则 θ\theta 的 MLE 也是 g(θ)g(\theta) 的 MLE

优良性准则

相合性

θ^Pθ,θΘ\hat\theta\xrightarrow{P}\theta, \forall \theta\in \Theta ,称 θ^\hat\thetaθ\theta 的相合估计量

(样本均值、样本方差、样本矩都是)

渐进正态性:若 θ^nθσn(θ)LN(0,1)\frac{\hat\theta_n-\theta}{\sigma_n(\theta)}\xrightarrow{L}N(0,1) ,记为 θ^nAN(θ,σn2(θ))\hat\theta_n\sim AN(\theta,\sigma_n^2(\theta))

e.g. Poisson 分布: λ^nAN(λ,λ/n)\hat\lambda_n\sim AN(\lambda,\lambda/n)

无偏性

E(θ^)=θ,θΘE(\hat{\theta})=\theta, \forall \theta\in \Theta ,称 θ^\hat\thetaθ\theta 的无偏估计量

limnθE(θ^)=θ\lim_{n\to \theta}E(\hat{\theta})=\theta 为渐进无偏估计

(样本均值、样本方差、样本矩都是)

g(θ)g(\theta) 是单射, θ\theta 的无偏估计不一定是 g(θ)g(\theta) 的无偏估计,g(θ)g(\theta) 为线性函数时才是

有效性

θ^1,θ^2\hat \theta_1, \hat\theta_2 均为 θ\theta 的无偏估计量,且 D(θ^1)D(θ^2),θΘ\color{red}D(\hat\theta_1)\le D(\hat\theta_2), \forall \theta\in \Theta ,且 θΘ,D(θ^1)<D(θ^2)\exists \theta\in \Theta, D(\hat\theta_1)< D(\hat\theta_2) ,称 θ^1\hat\theta_1θ^2\hat\theta_2 有效

一致最小方差无偏估计(UMVUE):D(θ^)D(\hat\theta) 取到下界

均方误差:MSE(θ^)=E((θ^θ)2)=E(θ^2)2θE(θ^)+θ2MSE(\hat\theta)=E((\hat\theta-\theta)^2)=E(\hat\theta^2)-2\theta E(\hat\theta)+\theta^2

无偏估计 MSE(θ^)=D(θ^)MSE(\hat\theta)=D(\hat\theta)

一致最小均方误差估计

区间估计

在要求的精度范围内指出参数区间

找两个统计量 θ(X1,X2,...,Xn)\underline{\theta}(X_1,X_2,...,X_n)θ(X1,X2,...,Xn)\overline{\theta}(X_1,X_2,...,X_n)

P(θ<θ<θ)=1αP(\underline{\theta}<\theta<\overline{\theta})=1-\alpha

(θ,θ)(\underline{\theta}, \overline{\theta})θ\theta 置信度为 1α1-\alpha 的置信区间

θ\theta 离散,置信区间可能不存在

枢轴量法:

  1. 构造 Z=Z(X1,X2,...,Xn;θ)Z=Z(X_1,X_2,...,X_n;\theta)ZZ 分布已知,不依赖 θ\theta

  2. 选取 a,ba,b 满足 P(a<Z(X1,X2,...,Xn;θ)<b)=1αP(a<Z(X_1,X_2,...,X_n;\theta)<b)=1-\alpha

  3. θ\theta 置信区间,若 P(θ<θ<θ)=1αP(\underline{\theta}<\theta<\overline{\theta})=1-\alpha ,称 (θ,θ)(\underline{\theta},\overline{\theta})1α1-\alpha 的置信区间

单侧置信区间:(θ,+),(,θ)(\underline{\theta},+\infty), (-\infty, \overline{\theta})

正态总体均值和方差的区间估计

置信度 1α1-\alpha

单样本:

XN(μ,σ2)X\sim N(\mu, \sigma^2)

Xˉ=1ni=1nXi,S2=1n1i=1n(XiXˉ)2\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i, S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2

条件 估计变量 枢轴量 置信区间
σ2\sigma^2 已知 μ\mu Xˉμσ/nN(0,1)\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) (Xˉ±σnzα/2)(\bar{X}\pm \frac{\sigma}{\sqrt{n}}z_{\alpha/2})
σ2\sigma^2 未知 μ\mu XˉμS/nt(n1)\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1) (Xˉ±Sntα2(n1))(\bar{X}\pm \frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1))
μ\mu 已知 σ2\sigma^2 i=1n(Xiμσ)2χ2(n)\sum_{i=1}^n (\frac{X_i-\mu}{\sigma})^2\sim \chi^2(n) i=1n(Xiμ)2(1χα/22(n),1χ1α/22(n))\sum_{i=1}^n(X_i-\mu)^2\cdot(\frac{1}{\chi_{\alpha/2}^2(n)},\frac{1}{\chi_{1-\alpha/2}^2(n)})
μ\mu 未知 σ2\sigma^2 (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) (n1)S2(1χα/22(n1),1χ1α/22(n1))(n-1)S^2\cdot(\frac{1}{\chi_{\alpha/2}^2(n-1)},\frac{1}{\chi_{1-\alpha/2}^2(n-1)})

单侧置信区间

单侧置信下限

P(θ>θ)=1αP(\theta>\underline{\theta})=1-\alpha

单侧置信上限

P(θ<θ)=1αP(\theta<\overline{\theta})=1-\alpha

假设检验

基本思想和概念

  1. 建立假设
  2. 选择检验统计量 TT ,确定拒绝域形式(单侧,双侧)
  3. 给定 α\alpha ,通过临界值确定拒绝域
  4. 作出判断

H0H_0 :原假设

H1H_1 :备择假设

第一类错误(弃真):PH0(H0)=αP_{H_0}(拒绝H_0)=\alpha

第二类错误(取伪):PH1(H0)=βP_{H_1}(接受H_0)=\beta

正态总体均值和方差假设检验

单个

x1,x2,...,xnx_1,x_2,...,x_n 为正态总体 xN(μ,σ2)x\sim N(\mu,\sigma^2) 的样本,xˉ=1ni=1nxi,S2=1n1i=1n(xixˉ)2\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i, S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2

μ\mu 的假设检验:μ\mu 未知, μ0\mu_0 为假设

  • σ2\sigma^2 已知:检验统计量 u=xˉμ0σ/nN(0,1)u=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{}n}\sim N(0,1)
  • σ2\sigma^2 未知:检验统计量 T=xˉμ0S/nt(n1)T=\frac{\bar{x}-\mu_0}{S/\sqrt{n}}\sim t(n-1)

σ2\sigma^2 的假设检验:σ2\sigma^2 未知,σ02\sigma_0^2 为假设

  • μ\mu 已知,检验统计量 T=1σ02i=1n(xiμ)2χ2(n)T=\frac{1}{\sigma_0^2}\sum_{i=1}^n(x_i-\mu)^2\sim \chi^2(n)
  • μ\mu 未知,检验统计量 T=1σ02(n1)S2χ2(n1)T=\frac{1}{\sigma_0^2}(n-1)S^2\sim \chi^2(n-1)

两个