概率论与数理统计

Apr 30, 2025 · 19947 字

大学数学

概率论的基本概念

随机事件及其运算

随机试验是指结果不确定、可以在相同条件下重复进行的试验。随机试验具有三个特点：可以在相同条件下重复进行；每次试验的可能结果不止一个；进行试验前无法确定会出现哪个结果。

样本空间（Sample Space） $\Omega$ 是随机试验 $E$ 的所有可能结果的集合。样本空间中的元素称为样本点。

随机事件是样本空间的子集，通常用大写字母 $A, B, C, \cdots$ 表示。如果试验的结果属于事件 $A$ ，则称事件 $A$ 发生；否则称事件 $A$ 不发生。

特殊的随机事件：

必然事件：样本空间 $\Omega$ 本身，在每次试验中必然发生。
不可能事件：空集 $\emptyset$ ，在每次试验中不可能发生。
基本事件：只含有一个样本点的事件。

随机事件的关系与运算：

包含关系：若 $A \subseteq B$ ，则事件 $A$ 发生必导致事件 $B$ 发生。
相等关系：若 $A \subseteq B$ 且 $B \subseteq A$ ，则 $A = B$ 。
并（和）事件： $A \cup B$ 表示事件 $A$ 或事件 $B$ 至少一个发生。
交（积）事件： $A \cap B$ 或 $AB$ 表示事件 $A$ 和事件 $B$ 同时发生。
差事件： $A - B$ 表示事件 $A$ 发生但事件 $B$ 不发生。
互斥（互不相容）事件：若 $A \cap B = \emptyset$ ，则称 $A$ 与 $B$ 互斥，即 $A$ 与 $B$ 不可能同时发生。
对立（互为补）事件： $\overline{A} = \Omega - A$ 表示事件 $A$ 不发生。
完备事件组：若 $A_1, A_2, \cdots, A_n$ 两两互斥且 $A_1 \cup A_2 \cup \cdots \cup A_n = \Omega$ ，则称这 $n$ 个事件构成一个完备事件组。

事件运算的性质：

交换律： $A \cup B = B \cup A$ ， $A \cap B = B \cap A$ 。
结合律： $(A \cup B) \cup C = A \cup (B \cup C)$ ， $(A \cap B) \cap C = A \cap (B \cap C)$ 。
分配律： $A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$ ， $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$ 。
德摩根律： $\overline{A \cup B} = \overline{A} \cap \overline{B}$ ， $\overline{A \cap B} = \overline{A} \cup \overline{B}$ 。

概率的定义及其基本性质

概率的公理化定义：设 $E$ 是一个随机试验， $\Omega$ 是它的样本空间，对于每一个事件 $A \subset \Omega$ ，赋予一个实数 $P(A)$ ，称为事件 $A$ 的概率，如果满足：

非负性： $P(A) \geq 0$ 。
规范性： $P(\Omega) = 1$ 。
可列可加性：若 $A_1, A_2, \cdots$ 是两两互斥的事件，则 $P(A_1 \cup A_2 \cup \cdots) = P(A_1) + P(A_2) + \cdots$ 。

概率的基本性质：

$P(\emptyset) = 0$ 。
有限可加性：若 $A_1, A_2, \cdots, A_n$ 是两两互斥的事件，则 $P(A_1 \cup A_2 \cup \cdots \cup A_n) = P(A_1) + P(A_2) + \cdots + P(A_n)$ 。
$P(\overline{A}) = 1 - P(A)$ 。
若 $A \subseteq B$ ，则 $P(A) \leq P(B)$ ，且 $P(B - A) = P(B) - P(A)$ 。
加法公式： $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ 。
对于任意的 $n$ 个事件 $A_1, A_2, \cdots, A_n$ ，有 $P(A_1 \cup A_2 \cup \cdots \cup A_n) = \sum_{i=1}^n P(A_i) - \sum_{1 \leq i < j \leq n} P(A_i \cap A_j) + \sum_{1 \leq i < j < k \leq n} P(A_i \cap A_j \cap A_k) - \cdots + (-1)^{n-1} P(A_1 \cap A_2 \cap \cdots \cap A_n)$

古典概型与几何概型

古典概型是指具有有限个样本点的等可能概率模型。在古典概型中，样本空间 $\Omega$ 含有有限个元素，每个基本事件的概率相等。

若样本空间 $\Omega$ 中含有 $n$ 个样本点，事件 $A$ 包含 $k$ 个样本点，则 $P(A) = \frac{k}{n} = \frac{事件A包含的基本事件数}{样本空间中的基本事件总数}$

几何概型是指样本空间为某个区域，且样本点落在区域内任何一点的概率只与该点所在区域的几何度量（长度、面积、体积等）有关，而与其位置无关的概率模型。

若随机试验的样本空间对应于区域 $\Omega$ ，事件 $A$ 对应的区域为 $G$ ，则 $P(A) = \frac{m(G)}{m(\Omega)}$ 其中 $m$ 表示区域的几何度量（长度、面积或体积）。

条件概率

条件概率是指在事件 $B$ 已经发生的条件下，事件 $A$ 发生的概率，记为 $P(A|B)$ 。

定义：设 $A, B$ 是两个事件，且 $P(B) > 0$ ，则 $A$ 在 $B$ 已发生条件下的条件概率为 $P(A|B) = \frac{P(A \cap B)}{P(B)}$

乘法公式：设 $A, B$ 是两个事件，则 $P(A \cap B) = P(B) \cdot P(A|B) = P(A) \cdot P(B|A)$

推广到多个事件：设 $A_1, A_2, \cdots, A_n$ 是 $n$ 个事件，则 $P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap A_2 \cap \cdots \cap A_{n-1})$

全概率公式：设 $B_1, B_2, \cdots, B_n$ 是一组完备事件组，且 $P(B_i) > 0 (i = 1, 2, \cdots, n)$ ，则对任意事件 $A$ ，有 $P(A) = \sum_{i=1}^n P(B_i) P(A|B_i)$

贝叶斯公式：设 $B_1, B_2, \cdots, B_n$ 是一组完备事件组，且 $P(B_i) > 0 (i = 1, 2, \cdots, n)$ ，则对任意事件 $A$ （ $P(A) > 0$ ），有 $P(B_i|A) = \frac{P(B_i) P(A|B_i)}{\sum_{j=1}^n P(B_j) P(A|B_j)}$

贝叶斯公式常用于由结果推原因的情景。

独立性与伯努利实验

事件的独立性：如果事件 $A$ 的发生与事件 $B$ 的发生无关，即 $P(A|B) = P(A)$ （当 $P(B) > 0$ ），则称事件 $A$ 与 $B$ 相互独立。等价地，如果 $P(A \cap B) = P(A) \cdot P(B)$ ，则 $A$ 与 $B$ 相互独立。

事件 $A_1, A_2, \cdots, A_n$ 相互独立，是指对于其中任意 $k$ 个事件 $A_{i_1}, A_{i_2}, \cdots, A_{i_k} (2 \leq k \leq n)$ ，都有 $P(A_{i_1} \cap A_{i_2} \cap \cdots \cap A_{i_k}) = P(A_{i_1}) \cdot P(A_{i_2}) \cdots P(A_{i_k})$

伯努利试验是一种只有两种可能结果（成功或失败）的随机试验，且试验是相互独立的，成功的概率在每次试验中保持不变。

若记每次试验成功的概率为 $p (0 < p < 1)$ ，则失败的概率为 $q = 1 - p$ 。若进行 $n$ 次伯努利试验，则恰好成功 $k$ 次的概率为 $P(X = k) = C_n^k p^k q^{n-k}, \quad k = 0, 1, 2, \cdots, n$ 这就是伯努利公式。

随机变量及其分布

随机变量及其分布函数

随机变量是定义在样本空间 $\Omega$ 上的实值函数，通常用大写字母 $X, Y, Z, \cdots$ 表示。它将随机试验的每个可能结果映射为一个实数。

分布函数（或累积分布函数）是描述随机变量取值规律的一种方式。随机变量 $X$ 的分布函数定义为 $F(x) = P(X \leq x), \quad -\infty < x < \infty$

分布函数具有以下性质：

单调不减：若 $x_1 < x_2$ ，则 $F(x_1) \leq F(x_2)$ 。
右连续： $F(x+0) = F(x)$ 。
$F(-\infty) = \lim_{x \to -\infty} F(x) = 0$ ， $F(+\infty) = \lim_{x \to +\infty} F(x) = 1$ 。
对于任意实数 $x_1 < x_2$ ，有 $P(x_1 < X \leq x_2) = F(x_2) - F(x_1)$ 。

离散型随机变量

离散型随机变量是指只能取有限个或可列无限多个值的随机变量。

离散型随机变量 $X$ 的概率质量函数（或分布律）定义为 $p(x_i) = P(X = x_i), \quad i = 1, 2, \cdots$ 其中 $x_1, x_2, \cdots$ 是 $X$ 可能取的值。

离散型随机变量的分布函数可以用概率质量函数表示： $F(x) = \sum_{x_i \leq x} p(x_i)$

常见的离散型随机变量分布：

伯努利分布（0-1 分布）： $P(X = k) = p^k (1-p)^{1-k}, \quad k = 0, 1$
二项分布（Binomial distribution）：记为 $X \sim B(n, p)$ ，其概率质量函数为 $P(X = k) = C_n^k p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \cdots, n$
泊松分布（Poisson distribution）：记为 $X \sim P(\lambda)$ ，其概率质量函数为 $P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \cdots$ 其中 $\lambda > 0$ 为参数。
几何分布：在伯努利试验序列中，首次成功发生时已进行的试验次数 $X$ 服从几何分布，其概率质量函数为 $P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, \cdots$
超几何分布：从含有 $N$ 个物品（其中有 $M$ 个为特定类型）的总体中，不放回地随机抽取 $n$ 个物品，其中特定类型的物品数 $X$ 服从超几何分布，其概率质量函数为 $P(X = k) = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}, \quad \max(0, n+M-N) \leq k \leq \min(n, M)$

连续型随机变量

连续型随机变量是指可以取某个区间内任意值的随机变量。

连续型随机变量 $X$ 的概率密度函数（或密度函数） $f(x)$ 满足：

$f(x) \geq 0$
$\int_{-\infty}^{+\infty} f(x) dx = 1$
对于任意区间 $[a, b]$ ，有 $P(a \leq X \leq b) = \int_a^b f(x) dx$

连续型随机变量的分布函数可以用概率密度函数表示： $F(x) = \int_{-\infty}^x f(t) dt$ 反过来，若分布函数 $F(x)$ 在点 $x$ 处可导，则 $f(x) = F'(x)$ 。

常见的连续型随机变量分布：

均匀分布（Uniform distribution）：记为 $X \sim U(a, b)$ ，其概率密度函数为
$f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases}$
指数分布：记为 $X \sim Exp(\lambda)$ ，其概率密度函数为
$f(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}$
其中 $\lambda > 0$ 为参数。
正态分布（或高斯分布）：记为 $X \sim N(\mu, \sigma^2)$ ，其概率密度函数为 $f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty$ 其中 $\mu$ 为均值， $\sigma^2$ 为方差。当 $\mu = 0, \sigma = 1$ 时，称为标准正态分布，记为 $X \sim N(0, 1)$ 。
伽马分布：记为 $X \sim \Gamma(\alpha, \lambda)$ ，其概率密度函数为
$f(x) = \begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}$
其中 $\alpha > 0, \lambda > 0$ 为参数， $\Gamma(\alpha) = \int_0^{\infty} t^{\alpha-1} e^{-t} dt$ 。

随机变量函数的分布

若 $X$ 是随机变量， $Y = g(X)$ 是 $X$ 的函数，则 $Y$ 也是一个随机变量。

若 $X$ 是离散型随机变量，取值为 $x_1, x_2, \cdots$ ，对应的概率为 $p_1, p_2, \cdots$ ，则 $Y = g(X)$ 的分布律为 $P(Y = y_j) = \sum_{i:g(x_i) = y_j} P(X = x_i)$

若 $X$ 是连续型随机变量，概率密度函数为 $f_X(x)$ ，且函数 $g(x)$ 严格单调，则 $Y = g(X)$ 的概率密度函数为 $f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy} g^{-1}(y) \right|$

其中 $g^{-1}$ 是 $g$ 的反函数。

二维随机变量及其分布

联合分布与边际分布

二维随机变量是指由两个随机变量 $X$ 和 $Y$ 组成的随机向量 $(X, Y)$ 。

二维随机变量 $(X, Y)$ 的联合分布函数定义为 $F(x, y) = P(X \leq x, Y \leq y), \quad -\infty < x, y < \infty$

联合分布函数具有以下性质：

$0 \leq F(x, y) \leq 1$ 。
$F(x, y)$ 关于 $x$ 和 $y$ 都是单调不减的。
$F(-\infty, y) = F(x, -\infty) = 0$ ， $F(+\infty, +\infty) = 1$ 。
$F(x, y)$ 关于 $x$ 和 $y$ 都是右连续的。
对于任意 $x_1 < x_2, y_1 < y_2$ ，有 $P(x_1 < X \leq x_2, y_1 < Y \leq y_2) = F(x_2, y_2) - F(x_2, y_1) - F(x_1, y_2) + F(x_1, y_1)$

由联合分布函数可以得到边际分布函数： $F_X(x) = P(X \leq x) = F(x, +\infty), \quad F_Y(y) = P(Y \leq y) = F(+\infty, y)$

二维离散型随机变量

若二维随机变量 $(X, Y)$ 可能取的值为 $(x_i, y_j)$ ， $i, j = 1, 2, \cdots$ ，则其联合概率质量函数（或联合分布律）定义为 $p_{ij} = P(X = x_i, Y = y_j), \quad i, j = 1, 2, \cdots$

联合概率质量函数满足：

$p_{ij} \geq 0$ 。
$\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} p_{ij} = 1$ 。

边际分布律可以由联合分布律求得： $p_{X}(x_i) = P(X = x_i) = \sum_{j=1}^{\infty} p_{ij}, \quad p_{Y}(y_j) = P(Y = y_j) = \sum_{i=1}^{\infty} p_{ij}$

二维连续型随机变量

若存在非负函数 $f(x, y)$ 使得对于任意的 $x, y$ ，有 $F(x, y) = \int_{-\infty}^x \int_{-\infty}^y f(s, t) dt ds$ 则称 $(X, Y)$ 为二维连续型随机变量， $f(x, y)$ 为其联合概率密度函数。

联合概率密度函数满足：

$f(x, y) \geq 0$ 。
$\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) dx dy = 1$ 。
对于任意区域 $D$ 在 $\mathbb{R}^2$ 中， $P((X, Y) \in D) = \iint_D f(x, y) dx dy$ 。

边际概率密度函数可以通过对联合概率密度函数积分得到： $f_X(x) = \int_{-\infty}^{+\infty} f(x, y) dy, \quad f_Y(y) = \int_{-\infty}^{+\infty} f(x, y) dx$

条件分布

若二维随机变量 $(X, Y)$ 的联合分布为离散型，则条件概率质量函数定义为 $P(X = x_i | Y = y_j) = \frac{P(X = x_i, Y = y_j)}{P(Y = y_j)} = \frac{p_{ij}}{p_Y(y_j)}, \quad p_Y(y_j) > 0$

若二维随机变量 $(X, Y)$ 的联合分布为连续型，则条件概率密度函数定义为 $f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}, \quad f_Y(y) > 0$

相互独立的随机变量

若对于任意的 $x$ 和 $y$ ，有 $F(x, y) = F_X(x) \cdot F_Y(y)$ 则称随机变量 $X$ 和 $Y$ 相互独立。

对于离散型随机变量，相互独立等价于 $p_{ij} = p_X(x_i) \cdot p_Y(y_j), \quad \forall i, j$

对于连续型随机变量，相互独立等价于 $f(x, y) = f_X(x) \cdot f_Y(y), \quad \forall x, y$

二维随机变量函数的分布

设 $(X, Y)$ 是二维随机变量， $Z = g(X, Y)$ 是其函数，则 $Z$ 也是一个随机变量。

若 $(X, Y)$ 是二维连续型随机变量，联合概率密度函数为 $f(x, y)$ ，且 $g(x, y)$ 是适当的函数，则随机变量 $Z = g(X, Y)$ 的分布可以通过积分求得。

若 $Z = X + Y$ ，则 $Z$ 的概率密度函数为 $X$ 和 $Y$ 的概率密度函数的卷积： $f_Z(z) = \int_{-\infty}^{+\infty} f_X(z-y) f_Y(y) dy = \int_{-\infty}^{+\infty} f_X(x) f_Y(z-x) dx$

特别地，若 $X$ 和 $Y$ 相互独立，则 $Z = X + Y$ 的概率密度函数为 $f_Z(z) = (f_X * f_Y)(z) = \int_{-\infty}^{+\infty} f_X(z-y) f_Y(y) dy$

随机变量的数学特征

随机变量的数学期望

离散型随机变量的数学期望定义为 $E(X) = \sum_{i=1}^{\infty} x_i P(X = x_i)$ 其中 $\sum_{i=1}^{\infty} |x_i| P(X = x_i) < \infty$ 。

连续型随机变量的数学期望定义为 $E(X) = \int_{-\infty}^{+\infty} x f(x) dx$ 其中 $\int_{-\infty}^{+\infty} |x| f(x) dx < \infty$ 。

随机变量函数的数学期望：设 $X$ 是随机变量， $g(X)$ 是 $X$ 的函数，则

E(g(X)) = \begin{cases} \sum_{i=1}^{\infty} g(x_i) P(X = x_i), & \text{如果 $X$ 是离散型随机变量} \\ \int_{-\infty}^{+\infty} g(x) f(x) dx, & \text{如果 $X$ 是连续型随机变量} \end{cases}

数学期望的性质：

$E(c) = c$ ，其中 $c$ 是常数。
$E(cX) = cE(X)$ ，其中 $c$ 是常数。
$E(X + Y) = E(X) + E(Y)$ 。
若 $X$ 和 $Y$ 相互独立，则 $E(XY) = E(X) \cdot E(Y)$ 。

方差

随机变量 $X$ 的方差定义为 $Var(X) = E((X - E(X))^2) = E(X^2) - (E(X))^2$

方差的性质：

$Var(c) = 0$ ，其中 $c$ 是常数。
$Var(cX) = c^2 Var(X)$ ，其中 $c$ 是常数。
若 $X$ 和 $Y$ 相互独立，则 $Var(X + Y) = Var(X) + Var(Y)$ 。

标准差定义为方差的平方根： $\sigma(X) = \sqrt{Var(X)}$ 。

若随机变量 $X$ 服从正态分布 $N(\mu, \sigma^2)$ ，则 $E(X) = \mu$ ， $Var(X) = \sigma^2$ 。

切比雪夫不等式：对于任意随机变量 $X$ 及任意正数 $\varepsilon$ ，若 $E(X)$ 和 $Var(X)$ 存在，则 $P(|X - E(X)| \geq \varepsilon) \leq \frac{Var(X)}{\varepsilon^2}$

协方差和相关系数

随机变量 $X$ 和 $Y$ 的协方差定义为 $Cov(X, Y) = E((X - E(X))(Y - E(Y))) = E(XY) - E(X)E(Y)$

协方差的性质：

$Cov(X, X) = Var(X)$ 。
$Cov(X, Y) = Cov(Y, X)$ 。
$Cov(aX, bY) = ab \cdot Cov(X, Y)$ ，其中 $a, b$ 是常数。
$Cov(X+Y, Z) = Cov(X, Z) + Cov(Y, Z)$ 。
$Var(X+Y) = Var(X) + Var(Y) + 2Cov(X, Y)$ 。
若 $X$ 和 $Y$ 相互独立，则 $Cov(X, Y) = 0$ （反之不一定成立）。

随机变量 $X$ 和 $Y$ 的相关系数定义为 $\rho(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)} \sqrt{Var(Y)}}$

相关系数满足 $-1 \leq \rho(X, Y) \leq 1$ 。当且仅当 $X$ 和 $Y$ 之间存在严格线性关系时， $|\rho(X, Y)| = 1$ 。

矩

随机变量 $X$ 的 $k$ 阶原点矩定义为

E(X^k) = \begin{cases} \sum_{i=1}^{\infty} x_i^k P(X = x_i), & \text{如果 $X$ 是离散型随机变量} \\ \int_{-\infty}^{+\infty} x^k f(x) dx, & \text{如果 $X$ 是连续型随机变量} \end{cases}

其中 $k = 1, 2, \cdots$ 。

随机变量 $X$ 的 $k$ 阶中心矩定义为

E((X - E(X))^k) = \begin{cases} \sum_{i=1}^{\infty} (x_i - E(X))^k P(X = x_i), & \text{如果 $X$ 是离散型随机变量} \\ \int_{-\infty}^{+\infty} (x - E(X))^k f(x) dx, & \text{如果 $X$ 是连续型随机变量} \end{cases}

其中 $k = 1, 2, \cdots$ 。

特别地，1 阶原点矩即为数学期望，2 阶中心矩即为方差。

大数定律与中心极限定理

大数定律

大数定律描述当试验次数很大时，随机变量的频率趋于稳定。

辛钦大数定律：设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立、服从同一分布的随机变量序列，且具有数学期望 $E(X_i) = \mu$ ，则对于任意 $\varepsilon > 0$ ，有 $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1$

伯努利大数定律：设 $\mu_n$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在一次试验中发生的概率，则对于任意 $\varepsilon > 0$ ，有 $\lim_{n \to \infty} P\left(\left|\frac{\mu_n}{n} - p\right| < \varepsilon\right) = 1$

切比雪夫大数定律：设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的随机变量序列，且具有相同的期望 $E(X_i) = \mu$ 和有界的方差 $Var(X_i) \leq c$ ，则对于任意 $\varepsilon > 0$ ，有 $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \varepsilon\right) = 1$

中心极限定理

中心极限定理是概率论中最重要的定理之一，它表明大量相互独立的随机变量的均值经适当标准化后趋于正态分布。

独立同分布的中心极限定理（Lindeberg-Lévy 中心极限定理）：设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立、服从同一分布的随机变量序列，且 $E(X_i) = \mu$ ， $Var(X_i) = \sigma^2 > 0$ ，则随机变量 $Z_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}$ 的分布函数满足：对于任意实数 $x$ ， $\lim_{n \to \infty} P(Z_n \leq x) = \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-t^2/2} dt$ 其中 $\Phi(x)$ 是标准正态分布的分布函数。

Lyapunov 中心极限定理：设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的随机变量序列，且 $E(X_i) = \mu_i$ ， $Var(X_i) = \sigma_i^2 > 0$ 。记 $B_n^2 = \sum_{i=1}^n \sigma_i^2$ 。如果对某个 $\delta > 0$ ，有 $\lim_{n \to \infty} \frac{1}{B_n^{2+\delta}} \sum_{i=1}^n E(|X_i - \mu_i|^{2+\delta}) = 0$ 则随机变量 $Z_n = \frac{\sum_{i=1}^n X_i - \sum_{i=1}^n \mu_i}{B_n}$ 的分布函数趋于标准正态分布函数。

棣莫弗-拉普拉斯定理：设随机变量 $\mu_n$ 表示 $n$ 次伯努利试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在一次试验中发生的概率，则对于任意实数 $x$ ， $\lim_{n \to \infty} P\left(\frac{\mu_n - np}{\sqrt{np(1-p)}} \leq x\right) = \Phi(x)$ 其中 $\Phi(x)$ 是标准正态分布的分布函数。

数理统计的基本概念

总体、样本、统计量

总体：研究对象的全体，通常表示为一个随机变量 $X$ 。

总体分布：总体 $X$ 的概率分布。

样本：从总体中抽取的部分个体，用于推断总体的性质。若 $X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的一个样本，则：

$X_1, X_2, \cdots, X_n$ 相互独立。
$X_1, X_2, \cdots, X_n$ 与总体 $X$ 具有相同的分布。

统计量：样本的函数 $T(X_1, X_2, \cdots, X_n)$ ，不含未知参数。

常用的统计量包括：

样本均值： $\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$
样本方差： $S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2$
样本标准差： $S = \sqrt{S^2}$
样本 $k$ 阶原点矩： $A_k = \frac{1}{n} \sum_{i=1}^n X_i^k$
样本 $k$ 阶中心矩： $B_k = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^k$

常用统计量的分布

样本均值的分布：若总体 $X$ 的均值为 $\mu$ ，方差为 $\sigma^2$ ，则样本均值 $\bar{X}$ 的数学期望为 $E(\bar{X}) = \mu$ ，方差为 $Var(\bar{X}) = \frac{\sigma^2}{n}$ 。
$\chi^2$ 分布（卡方分布）：若随机变量 $X_1, X_2, \cdots, X_n$ 相互独立，且均服从标准正态分布 $N(0, 1)$ ，则随机变量 $\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2$ 服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $\chi^2 \sim \chi^2(n)$ 。

$\chi^2$ 分布的概率密度函数为
$f(x) = \begin{cases} \frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2-1} e^{-x/2}, & x > 0 \\ 0, & x \leq 0 \end{cases}$
$\chi^2$ 分布的数学期望为 $E(\chi^2) = n$ ，方差为 $Var(\chi^2) = 2n$ 。
$t$ 分布（学生 $t$ 分布）：若随机变量 $X \sim N(0, 1)$ ， $Y \sim \chi^2(n)$ ，且 $X$ 与 $Y$ 相互独立，则随机变量 $T = \frac{X}{\sqrt{Y/n}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $T \sim t(n)$ 。

$t$ 分布的概率密度函数为 $f(x) = \frac{\Gamma((n+1)/2)}{\sqrt{\pi n} \Gamma(n/2)} \left(1 + \frac{x^2}{n}\right)^{-(n+1)/2}, \quad -\infty < x < \infty$

$t$ 分布的数学期望为 $E(T) = 0$ （当 $n > 1$ 时），方差为 $Var(T) = \frac{n}{n-2}$ （当 $n > 2$ 时）。
$F$ 分布：若随机变量 $X \sim \chi^2(n_1)$ ， $Y \sim \chi^2(n_2)$ ，且 $X$ 与 $Y$ 相互独立，则随机变量 $F = \frac{X/n_1}{Y/n_2}$ 服从自由度为 $(n_1, n_2)$ 的 $F$ 分布，记为 $F \sim F(n_1, n_2)$ 。

$F$ 分布的概率密度函数为
$f(x) = \begin{cases} \frac{\Gamma((n_1+n_2)/2)}{\Gamma(n_1/2) \Gamma(n_2/2)} \left(\frac{n_1}{n_2}\right)^{n_1/2} \frac{x^{n_1/2-1}}{(1 + \frac{n_1}{n_2}x)^{(n_1+n_2)/2}}, & x > 0 \\ 0, & x \leq 0 \end{cases}$
$F$ 分布的数学期望为 $E(F) = \frac{n_2}{n_2-2}$ （当 $n_2 > 2$ 时）。

正态总体的抽样分布

若总体 $X \sim N(\mu, \sigma^2)$ ，则样本均值 $\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$ 。
若总体 $X \sim N(\mu, \sigma^2)$ ，则 $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ ，其中 $S^2$ 是样本方差。
若总体 $X \sim N(\mu, \sigma^2)$ ，则 $\bar{X}$ 与 $S^2$ 相互独立。
若总体 $X \sim N(\mu, \sigma^2)$ ，则 $\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$ 。
若总体 $X \sim N(\mu_1, \sigma_1^2)$ ， $Y \sim N(\mu_2, \sigma_2^2)$ ，且 $X$ 与 $Y$ 相互独立，则 $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)$ ，其中 $S_1^2$ 和 $S_2^2$ 分别是 $X$ 和 $Y$ 的样本方差，样本容量分别为 $n_1$ 和 $n_2$ 。

抽样分布的上 α 分位点

$\alpha$ 分位点是使得分布函数 $F(x) = \alpha$ 的点 $x_\alpha$ ，即 $P(X \leq x_\alpha) = \alpha$ 。

常用的分位点：

标准正态分布的上 $\alpha$ 分位点记为 $z_\alpha$ ，即 $P(Z > z_\alpha) = \alpha$ ，其中 $Z \sim N(0, 1)$ 。
$\chi^2$ 分布的上 $\alpha$ 分位点记为 $\chi^2_\alpha(n)$ ，即 $P(\chi^2 > \chi^2_\alpha(n)) = \alpha$ ，其中 $\chi^2 \sim \chi^2(n)$ 。
$t$ 分布的上 $\alpha$ 分位点记为 $t_\alpha(n)$ ，即 $P(T > t_\alpha(n)) = \alpha$ ，其中 $T \sim t(n)$ 。
$F$ 分布的上 $\alpha$ 分位点记为 $F_\alpha(n_1, n_2)$ ，即 $P(F > F_\alpha(n_1, n_2)) = \alpha$ ，其中 $F \sim F(n_1, n_2)$ 。

点估计

矩估计法

矩估计法是通过使样本矩等于对应的总体矩来估计未知参数的方法。

若总体 $X$ 的 $k$ 个参数为 $\theta_1, \theta_2, \cdots, \theta_k$ ，且总体的前 $k$ 阶原点矩 $\mu_j = E(X^j)$ 可以表示为这些参数的函数，即 $\mu_j = \mu_j(\theta_1, \theta_2, \cdots, \theta_k), j = 1, 2, \cdots, k$ ，则矩估计是通过解方程组 $A_j = \mu_j(\theta_1, \theta_2, \cdots, \theta_k), \quad j = 1, 2, \cdots, k$ 得到的，其中 $A_j = \frac{1}{n} \sum_{i=1}^n X_i^j$ 是样本的 $j$ 阶原点矩。

最大似然估计法

最大似然估计法是通过最大化样本的似然函数来估计未知参数的方法。

似然函数：设总体 $X$ 的概率密度函数（或概率质量函数）为 $f(x;\theta)$ ，其中 $\theta$ 是未知参数， $X_1, X_2, \cdots, X_n$ 是来自该总体的样本，观测值为 $x_1, x_2, \cdots, x_n$ ，则似然函数定义为 $L(\theta) = \prod_{i=1}^n f(x_i;\theta)$

最大似然估计值是使似然函数 $L(\theta)$ 达到最大值的 $\theta$ 值，即 $\hat{\theta} = \underset{\theta}{\arg\max} L(\theta)$

通常，我们通过对 $\ln L(\theta)$ 求导并令其为零来得到最大似然估计值： $\frac{d \ln L(\theta)}{d\theta} = 0$

点估计优良性的评定标准

评价点估计量优良性的常用标准包括：

无偏性：若 $E(\hat{\theta}) = \theta$ ，则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量。
有效性：若 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 都是 $\theta$ 的无偏估计量，且 $Var(\hat{\theta}_1) \leq Var(\hat{\theta}_2)$ ，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效。方差最小的无偏估计量称为最小方差无偏估计量（UMVUE）。
相合性（一致性）：若 $\lim_{n \to \infty} P(|\hat{\theta}_n - \theta| < \varepsilon) = 1$ 对于任意 $\varepsilon > 0$ 成立，则称 $\hat{\theta}_n$ 是 $\theta$ 的相合估计量，其中 $n$ 是样本容量。
充分性：若统计量 $T$ 包含样本中关于参数 $\theta$ 的全部信息，则称 $T$ 是 $\theta$ 的充分统计量。

参数的区间估计与假设检验

区间估计

区间估计是用样本统计量构造一个区间，使总体参数以较高的概率落在此区间内。

若置信水平为 $1-\alpha$ ，则称区间 $[\hat{\theta}_L, \hat{\theta}_U]$ 为参数 $\theta$ 的置信区间，满足 $P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_U) = 1 - \alpha$

常见的置信区间：

正态总体均值 $\mu$ 的置信区间：
- 当 $\sigma^2$ 已知时： $\bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$
- 当 $\sigma^2$ 未知时： $\bar{X} \pm t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}$
正态总体方差 $\sigma^2$ 的置信区间： $\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)} \leq \sigma^2 \leq \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}$
两个正态总体均值差 $\mu_1 - \mu_2$ 的置信区间：
- 当 $\sigma_1^2$ 和 $\sigma_2^2$ 已知时： $(\bar{X}_1 - \bar{X}_2) \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$
- 当 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ 未知时： $(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2}(n_1+n_2-2) \sqrt{S_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}$ 其中 $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$ 是合并方差。
两个正态总体方差比 $\sigma_1^2 / \sigma_2^2$ 的置信区间： $\frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{\alpha/2}(n_1-1, n_2-1)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{1-\alpha/2}(n_1-1, n_2-1)}$

假设检验

假设检验是根据样本数据来判断对总体的某个假设是否成立的方法。

基本步骤：

提出原假设 $H_0$ 和备择假设 $H_1$ 。
选择适当的检验统计量，并确定拒绝域。
计算检验统计量的观测值，并作出决策。

常见的假设检验：

正态总体均值 $\mu$ 的检验：
- 当 $\sigma^2$ 已知时： $z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0, 1)$
- 当 $\sigma^2$ 未知时： $t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)$
正态总体方差 $\sigma^2$ 的检验： $\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)$
两个正态总体均值差 $\mu_1 - \mu_2$ 的检验：
- 当 $\sigma_1^2$ 和 $\sigma_2^2$ 已知时： $z = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$
- 当 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ 未知时： $t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)_0}{\sqrt{S_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \sim t(n_1+n_2-2)$
两个正态总体方差比 $\sigma_1^2 / \sigma_2^2$ 的检验： $F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)$

p 值：在原假设 $H_0$ 成立的条件下，得到不小于观测值的概率。如果 p 值小于显著性水平 $\alpha$ ，则拒绝原假设 $H_0$ 。

第一类错误：原假设 $H_0$ 成立却被拒绝的错误，其概率即为显著性水平 $\alpha$ 。

第二类错误：原假设 $H_0$ 不成立却未被拒绝的错误，其概率记为 $\beta$ 。

检验的功效：当原假设不成立时，正确拒绝原假设的概率，等于 $1-\beta$ 。