附录A：数学与传统 ML 工具箱

定位：本附录是一份精炼的数学速查手册。当你在正文中遇到陌生的数学概念时，可以随时回跳到本附录查阅。每个概念包含直觉解释→形式化定义→关键公式→本书应用回跳四个层次，帮助你快速建立理解。

A.1 线性代数

线性代数是深度学习的骨架——从参数矩阵到注意力机制，从低秩适应到数据降维，几乎每一个核心操作都可以用矩阵语言来表达。本节聚焦于深度学习中最常用的线性代数工具。

A.1.1 特征值与特征向量（Eigenvalues & Eigenvectors）

直觉一个矩阵 $A$ 作用于向量时，大多数向量既会被旋转也会被拉伸。但存在一些特殊方向，矩阵只对它们做拉伸（或压缩），方向不变——这些方向就是特征向量（eigenvector），拉伸倍数就是特征值（eigenvalue）。

形式化定义 [必读] 对于 $n \times n$ 方阵 $A$ ，若存在非零向量 $v$ 和标量 $λ$ 满足：

\begin{matrix} (A.1) & A v = λ v \end{matrix}

则称 $v$ 是 $A$ 关于特征值 $λ$ 的特征向量。

求解方法 由 $(A - λ I) v = 0$ 有非零解的条件，可得特征方程：

\begin{matrix} (A.2) & det (A - λ I) = 0 \end{matrix}

解出所有 $λ$ 后，回代即可求出对应的特征向量。

关键性质

性质	公式
特征值之和 = 迹	$\sum_{i} λ_{i} = tr (A)$
特征值之积 = 行列式	$\prod_{i} λ_{i} = det (A)$
矩阵可逆 ⟺ 无零特征值	$A^{- 1}$ 存在 $⟺ λ_{i} \neq 0, \forall i$
矩阵幂的特征值	$A^{n}$ 的特征值为 $λ_{i}^{n}$

本书应用 特征值分解在神经网络权重初始化中至关重要——如果随机矩阵的最大特征值大于 1，经过多层传播后信号会指数爆炸（梯度爆炸）；小于 1 则会衰减到零（梯度消失）。 → 详见§1.3 优化基础

A.1.2 对角化（Diagonalization）

直觉对角化就是找到一个"特征向量坐标系"，在这个坐标系下矩阵变成了对角矩阵——每个轴独立缩放，没有方向间的耦合。

形式化定义 [必读] 若 $n \times n$ 矩阵 $A$ 有 $n$ 个线性无关的特征向量，令 $W = [v_{1}, v_{2}, \dots, v_{n}]$ ， $Λ = diag (λ_{1}, \dots, λ_{n})$ ，则：

\begin{matrix} (A.3) & A = W Λ W^{- 1} \end{matrix}

对称矩阵的特殊性 实对称矩阵 $A = A^{⊤}$ 一定可以对角化，且特征向量可以取为正交的：

\begin{matrix} (A.4) & A = Q Λ Q^{⊤}, Q^{⊤} Q = I \end{matrix}

这就是谱分解（spectral decomposition），其中 $Q$ 是正交矩阵。

对角化的实用价值 一旦完成对角化，矩阵幂、指数、逆等运算都变得简单：

A^{n} = W Λ^{n} W^{- 1}, A^{- 1} = W Λ^{- 1} W^{- 1}

A.1.3 二次型与正定性（Quadratic Forms & Positive Definiteness）

直觉将一个对称矩阵 $A$ 夹在向量中间形成标量 $x^{⊤} A x$ ，得到的函数形状完全由 $A$ 的特征值决定：全正→碗形（有最小值），全负→倒碗（有最大值），正负混合→马鞍形。

二次型曲面：正定（碗形）、不定（马鞍形）、负定（倒碗形）

形式化定义 [必读] 对称矩阵 $A \in R^{n \times n}$ 的正定性分类：

分类	条件	特征值	几何含义
正定（positive definite）	$x^{⊤} A x > 0, \forall x \neq 0$	$λ_{i} > 0, \forall i$	碗形曲面，有唯一极小值
半正定（positive semi-definite）	$x^{⊤} A x \geq 0, \forall x$	$λ_{i} \geq 0, \forall i$	平底碗
不定（indefinite）	符号不确定	正负均有	马鞍面
负定（negative definite）	$x^{⊤} A x < 0, \forall x \neq 0$	$λ_{i} < 0, \forall i$	倒碗

本书应用 Hessian 矩阵的正定性决定了损失函数的局部形状：正定对应局部最小值，不定对应鞍点。 → 详见§1.3 优化基础

A.1.4 秩与矩阵分解（Rank & Matrix Decomposition）

秩（Rank） 矩阵 $A$ 的秩是其列空间的维数，等价于非零特征值的个数，也等于最大线性无关列向量组的大小。

\begin{matrix} (A.5) & rank (A) = \dim (col (A)) \end{matrix}

低秩的意义 如果一个 $m \times n$ 矩阵的秩 $r ≪ min (m, n)$ ，说明它蕴含大量冗余——可以用更少的参数来表示。这正是 LoRA 的理论基础。 → 详见§13.1 LoRA 原理

常见矩阵分解

分解方法	分解形式	适用条件	典型应用
特征分解	$A = W Λ W^{- 1}$	方阵， $n$ 个线性无关特征向量	理论分析
奇异值分解（SVD）	$A = U Σ V^{⊤}$	任意矩阵	降维、压缩、LoRA
LU 分解	$A = L U$	方阵	线性方程组求解
QR 分解	$A = Q R$	任意矩阵	最小二乘、正交化
Cholesky 分解	$A = L L^{⊤}$	正定矩阵	采样、协方差矩阵

A.1.5 奇异值分解（Singular Value Decomposition, SVD）

直觉特征分解只适用于方阵，而 SVD 是对任意形状矩阵的"全面体检"：它告诉我们矩阵在每个方向上的拉伸程度。

SVD 分解示意：A = U·Σ·V^T

形式化定义 [必读] 对任意 $m \times n$ 矩阵 $A$ ，存在分解：

\begin{matrix} (A.6) & A = U Σ V^{⊤} \end{matrix}

其中：

$U \in R^{m \times m}$ 是正交矩阵（左奇异向量）， $U^{⊤} U = I$
$V \in R^{n \times n}$ 是正交矩阵（右奇异向量）， $V^{⊤} V = I$
$Σ \in R^{m \times n}$ 是对角矩阵，对角元素 $σ_{1} \geq σ_{2} \geq \dots \geq 0$ 为奇异值

与特征分解的关系 $A^{⊤} A$ 的特征值为 $σ_{i}^{2}$ ，特征向量为 $V$ 的列； $A A^{⊤}$ 的特征值也是 $σ_{i}^{2}$ ，特征向量为 $U$ 的列。

截断 SVD 与低秩近似 [必读] 只保留前 $r$ 个最大奇异值：

\begin{matrix} (A.7) & A \approx A_{r} = U_{r} Σ_{r} V_{r}^{⊤} \end{matrix}

Eckart-Young 定理保证这是 Frobenius 范数下的最优秩 $r$ 近似。这一思想直接启发了 LoRA：用两个低秩矩阵 $B \in R^{d \times r}$ 和 $A \in R^{r \times d}$ （ $r ≪ d$ ）来近似权重更新。

本书应用

→ 详见§3.4 MLA 中的低秩投影
→ 详见§13.1 LoRA 原理

A.2 微积分

微积分是优化的语言——梯度告诉我们参数应该往哪个方向调整，链式法则让反向传播成为可能。

A.2.1 偏导数（Partial Derivatives）

直觉对于多变量函数 $f (x_{1}, x_{2}, \dots, x_{n})$ ，偏导数 $\frac{\partial f}{\partial x_{i}}$ 回答的问题是："固定其他所有变量不动，只改变 $x_{i}$ 一点点， $f$ 会变化多少？"

形式化定义 [必读]

\begin{matrix} (A.8) & \frac{\partial f}{\partial x_{i}} = lim_{ϵ \to 0} \frac{f (x_{1}, \dots, x_{i} + ϵ, \dots, x_{n}) - f (x_{1}, \dots, x_{n})}{ϵ} \end{matrix}

多变量的线性近似 当每个变量各自发生微小变化 $ϵ_{i}$ 时：

\begin{matrix} (A.9) & f (x + ϵ) \approx f (x) + \sum_{i} ϵ_{i} \frac{\partial f}{\partial x_{i}} = f (x) + ϵ \cdot \nabla f (x) \end{matrix}

本书应用 反向传播的每一步都在计算偏导数。 → 详见§1.2 反向传播

A.2.2 方向导数与梯度（Directional Derivative & Gradient）

直觉偏导数只沿坐标轴方向考察变化率。方向导数则沿任意方向考察。而梯度就是使方向导数取最大值的那个方向。

方向导数 [必读] 函数 $f$ 在点 $x_{0}$ 沿单位向量 $u$ 的方向导数为：

\begin{matrix} (A.10) & D_{u} f (x_{0}) = \nabla f (x_{0}) \cdot u = ∥ \nabla f (x_{0}) ∥ \cos θ \end{matrix}

其中 $θ$ 是梯度方向与 $u$ 的夹角。

梯度 [必读] 梯度是所有偏导数组成的向量：

\begin{matrix} (A.11) & \nabla f = {[\frac{\partial f}{\partial x_{1}}, \frac{\partial f}{\partial x_{2}}, \dots, \frac{\partial f}{\partial x_{n}}]}^{⊤} \end{matrix}

关键性质：

梯度方向是函数值增长最快的方向
负梯度方向是函数值下降最快的方向
梯度的模长 $∥ \nabla f ∥$ 表示最大变化率
梯度垂直于等值面（等高线）

梯度下降示意：3D 曲面与等高线视图

梯度下降 [必读] 这是深度学习最核心的优化算法：

\begin{matrix} (A.12) & w_{t + 1} = w_{t} - η \nabla L (w_{t}) \end{matrix}

其中 $η$ 是学习率。每一步沿负梯度方向更新参数，使损失函数逐步下降。

本书应用 → 详见§1.3 优化基础

A.2.3 链式法则与反向传播（Chain Rule & Backpropagation）

直觉神经网络是层层嵌套的复合函数。链式法则告诉我们如何把复合函数的导数拆成各层导数的乘积。反向传播就是链式法则的高效实现。

单变量链式法则 [必读] 若 $y = f (g (x))$ ，则：

\begin{matrix} (A.13) & \frac{d y}{d x} = \frac{d y}{d g} \cdot \frac{d g}{d x} = f^{'} (g (x)) \cdot g^{'} (x) \end{matrix}

多变量链式法则 [必读] 若 $f$ 依赖中间变量 $u_{1}, \dots, u_{k}$ ，每个 $u_{j}$ 又依赖 $x$ ，则：

\begin{matrix} (A.14) & \frac{\partial f}{\partial x} = \sum_{j = 1}^{k} \frac{\partial f}{\partial u_{j}} \frac{\partial u_{j}}{\partial x} \end{matrix}

反向传播的核心思想 从输出层开始，逐层向输入方向计算梯度。关键在于避免重复计算——每个中间节点的梯度只需计算一次，然后传递给所有需要它的上游节点。

前向传播 vs 反向传播

阶段	方向	计算内容
前向传播	输入 → 输出	计算每层的激活值和损失
反向传播	输出 → 输入	计算损失对每个参数的梯度

本书应用 → 详见§1.2 反向传播

A.2.4 定积分（Definite Integral）

直觉定积分计算的是曲线下的面积。在概率论中，概率密度函数在某区间上的积分就是落在该区间的概率。

形式化定义 [选读]

\begin{matrix} (A.15) & \int_{a}^{b} f (x) d x = lim_{n \to \infty} \sum_{i = 1}^{n} f (x_{i}^{*}) Δ x \end{matrix}

微积分基本定理 若 $F^{'} (x) = f (x)$ ，则：

\begin{matrix} (A.16) & \int_{a}^{b} f (x) d x = F (b) - F (a) \end{matrix}

在概率论中的应用 连续随机变量 $X$ 落在区间 $[a, b]$ 的概率为：

P (a \leq X \leq b) = \int_{a}^{b} f_{X} (x) d x

概率密度函数的归一化条件： $\int_{- \infty}^{+ \infty} f_{X} (x) d x = 1$ 。

A.3 概率论

概率论为我们提供了处理不确定性的数学框架。从训练数据的采样到模型输出的概率解释，从损失函数的设计到 Scaling Law 的理论分析，概率论无处不在。

A.3.1 条件概率与贝叶斯定理（Conditional Probability & Bayes' Theorem）

条件概率 [必读] 在事件 $B$ 已经发生的条件下，事件 $A$ 发生的概率：

\begin{matrix} (A.17) & P (A ∣ B) = \frac{P (A \cap B)}{P (B)} \end{matrix}

直觉：条件概率的本质是"缩小样本空间"。知道 $B$ 已发生后，我们只需在 $B$ 这个缩小的空间中考察 $A$ 发生的可能性。

乘法公式

\begin{matrix} (A.18) & P (A \cap B) = P (A ∣ B) \cdot P (B) = P (B ∣ A) \cdot P (A) \end{matrix}

全概率公式 [必读] 若事件组 ${B_{1}, B_{2}, \dots, B_{n}}$ 构成样本空间的完备划分（两两互斥且并集为全集），则：

\begin{matrix} (A.19) & P (A) = \sum_{i = 1}^{n} P (B_{i}) \cdot P (A ∣ B_{i}) \end{matrix}

贝叶斯定理 [必读]

\begin{matrix} (A.20) & P (B_{i} ∣ A) = \frac{P (B_{i}) \cdot P (A ∣ B_{i})}{\sum_{j} P (B_{j}) \cdot P (A ∣ B_{j})} = \frac{P (A ∣ B_{i}) \cdot P (B_{i})}{P (A)} \end{matrix}

术语	含义	类比
$P (B_{i})$ — 先验概率	观察数据之前对 $B_{i}$ 的信念	初始假设
$P (A ∣ B_{i})$ — 似然	$B_{i}$ 成立时观察到 $A$ 的可能性	数据对假设的支持度
$P (B_{i} ∣ A)$ — 后验概率	观察到 $A$ 后对 $B_{i}$ 的更新信念	更新后的假设

本书应用 贝叶斯思想贯穿整个机器学习：从变分推断到扩散模型的去噪过程，从语言模型的条件生成到 RLHF 中的奖励建模。

A.3.2 随机变量与分布（Random Variables & Distributions）

随机变量 将随机实验的结果映射到实数的函数。分为离散型（取有限或可数无穷个值）和连续型（取某区间上的任意值）。

离散型随机变量 由概率质量函数（PMF）描述：

\begin{matrix} (A.21) & P (X = x_{i}) = p_{i}, \sum_{i} p_{i} = 1 \end{matrix}

连续型随机变量 由概率密度函数（PDF）描述：

\begin{matrix} (A.22) & P (a \leq X \leq b) = \int_{a}^{b} f (x) d x, \int_{- \infty}^{+ \infty} f (x) d x = 1 \end{matrix}

常见分布速查

常见概率分布：Bernoulli、Binomial、Poisson、Gaussian、Uniform、Exponential

分布	参数	PMF / PDF	均值	方差	应用场景
Bernoulli	$p$	$P (X = 1) = p$	$p$	$p (1 - p)$	二分类
Binomial	$n, p$	$(\binom{n}{k}) p^{k} (1 - p)^{n - k}$	$n p$	$n p (1 - p)$	$n$ 次独立试验
Poisson	$λ$	$\frac{λ^{k} e^{- λ}}{k!}$	$λ$	$λ$	稀有事件计数
Gaussian	$μ, σ^{2}$	$\frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$	$μ$	$σ^{2}$	误差建模、初始化
Uniform	$a, b$	$\frac{1}{b - a}$	$\frac{a + b}{2}$	$\frac{(b - a)^{2}}{12}$	随机采样
Exponential	$λ$	$λ e^{- λ x}$	$\frac{1}{λ}$	$\frac{1}{λ^{2}}$	等待时间
Categorical	$p_{1}, \dots, p_{k}$	$P (X = i) = p_{i}$	—	—	多分类 softmax 输出

A.3.3 期望、方差与协方差（Expectation, Variance & Covariance）

期望（Expectation） [必读] 随机变量的"加权平均"：

\begin{matrix} (A.23) & E [X] = {\begin{cases} \sum_{i} x_{i} \cdot p_{i} & 离散型 \\ \int_{- \infty}^{+ \infty} x \cdot f (x) d x & 连续型 \end{cases} \end{matrix}

期望的线性性（无论是否独立）：

\begin{matrix} (A.24) & E [a X + b Y + c] = a E [X] + b E [Y] + c \end{matrix}

方差（Variance） [必读] 衡量随机变量偏离其期望的程度：

\begin{matrix} (A.25) & Var (X) = E [(X - E [X])^{2}] = E [X^{2}] - (E [X])^{2} \end{matrix}

方差的性质：

$Var (a X + b) = a^{2} Var (X)$
若 $X, Y$ 独立： $Var (X + Y) = Var (X) + Var (Y)$
标准差 $σ = \sqrt{Var (X)}$ ，与原始数据单位相同，更直观

协方差（Covariance） [选读] 衡量两个随机变量的线性相关程度：

\begin{matrix} (A.26) & Cov (X, Y) = E [(X - E [X]) (Y - E [Y])] = E [X Y] - E [X] E [Y] \end{matrix}

相关系数将协方差归一化到 $[- 1, 1]$ ：

\begin{matrix} (A.27) & ρ (X, Y) = \frac{Cov (X, Y)}{\sqrt{Var (X) \cdot Var (Y)}} \end{matrix}

$ρ$ 值	含义
$ρ = 1$	完全正线性相关
$ρ = - 1$	完全负线性相关
$ρ = 0$	线性不相关（不等于独立）

A.3.4 大数定律与中心极限定理（LLN & CLT）

这两个定理是统计学的基石，也是许多深度学习实践的理论保障。

大数定律（Law of Large Numbers） [必读]

设 $X_{1}, X_{2}, \dots, X_{n}$ 为独立同分布的随机变量，期望为 $μ$ ，则样本均值随样本量增大趋近于总体期望：

\begin{matrix} (A.28) & {\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} \overset{n \to \infty}{\to} μ \end{matrix}

深度学习中的意义：

随机梯度下降中，mini-batch 梯度是全量梯度的无偏估计，batch 越大估计越准确
训练集越大，经验风险越接近真实风险

中心极限定理（Central Limit Theorem, CLT） [必读]

无论原始分布是什么形状，只要随机变量独立同分布且有有限的均值 $μ$ 和方差 $σ^{2}$ ，样本均值的分布趋近于正态分布：

\begin{matrix} (A.29) & \frac{{\bar{X}}_{n} - μ}{σ / \sqrt{n}} \overset{d}{\to} N (0, 1) \end{matrix}

中心极限定理可视化：从指数分布到正态分布

深度学习中的意义：

大量独立小因素叠加的结果近似正态分布，这解释了为什么高斯初始化对神经网络有效
Batch Normalization 利用了 mini-batch 统计量近似正态的性质

本书应用

→ 详见§5.3 采样策略
→ 详见§5.5 Scaling Law

A.4 信息论

信息论提供了一套度量"不确定性"的精确语言。深度学习中的交叉熵损失、KL 散度正则化、扩散模型的变分下界，都根植于信息论。

信息论核心概念：二元熵、KL 散度、熵的关系

A.4.1 熵（Entropy）

直觉熵衡量的是随机变量的"不确定性"或"信息量"。越随机（均匀）的分布，熵越高；完全确定的事件，熵为零。

形式化定义 [必读] 离散随机变量 $X$ 服从分布 $P$ 时：

\begin{matrix} (A.30) & H (X) = - \sum_{i} p (x_{i}) \log p (x_{i}) = - E_{x \sim P} [\log p (x)] \end{matrix}

连续情形（微分熵）：

H (X) = - \int f (x) \log f (x) d x

关键性质：

$H (X) \geq 0$ （离散情形）
均匀分布取最大熵： $H (X) \leq \log k$ （ $k$ 类等概率时取等号）
独立随机变量的联合熵等于各自熵之和： $H (X, Y) = H (X) + H (Y)$ （若独立）

二元熵函数 对 Bernoulli( $p$ ) 分布：

H (p) = - p \log_{2} p - (1 - p) \log_{2} (1 - p)

在 $p = 0.5$ 处取最大值 1 bit——抛硬币的不确定性最大。

A.4.2 交叉熵（Cross-Entropy）

直觉如果真实分布是 $P$ ，但我们用分布 $Q$ 来编码数据，交叉熵度量了这种"编码方案"的平均编码长度。 $Q$ 越接近 $P$ ，交叉熵越小。

形式化定义 [必读]

\begin{matrix} (A.31) & H (P, Q) = - E_{x \sim P} [\log q (x)] = - \sum_{i} p (x_{i}) \log q (x_{i}) \end{matrix}

关键关系：

\begin{matrix} (A.32) & H (P, Q) = H (P) + D_{KL} (P ∥ Q) \end{matrix}

由于 $H (P)$ 是常数，最小化交叉熵等价于最小化 KL 散度。

交叉熵作为损失函数 [必读]

在分类任务中，真实标签 $y$ 通常是 one-hot 编码（ $P$ 是确定分布），此时 $H (P) = 0$ ，交叉熵退化为：

\begin{matrix} (A.33) & CE (y, \hat{y}) = - \sum_{j = 1}^{k} y_{j} \log {\hat{y}}_{j} = - \log {\hat{y}}_{c} \end{matrix}

其中 $c$ 是正确类别。这就是我们熟悉的分类交叉熵损失。

本书应用 → 详见§5.1 损失函数

A.4.3 KL 散度（Kullback-Leibler Divergence）

直觉 KL 散度衡量用分布 $Q$ 近似分布 $P$ 时损失了多少信息。它不是距离（不对称），但是度量分布差异的有力工具。

形式化定义 [必读]

\begin{matrix} (A.34) & D_{KL} (P ∥ Q) = E_{x \sim P} [\log \frac{p (x)}{q (x)}] = \sum_{i} p (x_{i}) \log \frac{p (x_{i})}{q (x_{i})} \end{matrix}

高斯分布间的 KL 散度 [选读] 两个单变量高斯分布之间的 KL 散度有解析解：

\begin{matrix} (A.35) & D_{KL} (N (μ_{1}, σ_{1}^{2}) ∥ N (μ_{2}, σ_{2}^{2})) = \log \frac{σ_{2}}{σ_{1}} + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2} \end{matrix}

关键性质：

非负性： $D_{KL} (P ∥ Q) \geq 0$ ，等号当且仅当 $P = Q$
不对称性： $D_{KL} (P ∥ Q) \neq D_{KL} (Q ∥ P)$
当 $q (x) = 0$ 而 $p (x) > 0$ 时， $D_{KL} = \infty$

本书应用

→ 详见§15.6 KL 散度分析（RLHF 中新旧策略的 KL 约束）
→ 详见§23.3 扩散模型中的变分下界

A.4.4 MLE 与交叉熵的等价性

最大似然估计（Maximum Likelihood Estimation, MLE） [必读]

给定观测数据 $X = {x_{1}, \dots, x_{n}}$ ，MLE 寻找使数据出现概率最大的参数 $θ$ ：

\begin{matrix} (A.36) & {\hat{θ}}_{MLE} = \arg max_{θ} \prod_{i = 1}^{n} p (x_{i} ∣ θ) = \arg max_{θ} \sum_{i = 1}^{n} \log p (x_{i} ∣ θ) \end{matrix}

MLE 与交叉熵：似然函数最大化等价于交叉熵最小化

等价性证明 [必读] 最大化对数似然：

max_{θ} \frac{1}{n} \sum_{i = 1}^{n} \log q (x_{i} ∣ θ)

等价于最小化负对数似然，即最小化经验交叉熵：

min_{θ} [- \frac{1}{n} \sum_{i = 1}^{n} \log q (x_{i} ∣ θ)] \approx min_{θ} H (\hat{P}, Q_{θ})

其中 $\hat{P}$ 是数据的经验分布。因此：

\begin{matrix} (A.37) & 最大化对数似然 ⟺ 最小化交叉熵 ⟺ 最小化 KL 散度 \end{matrix}

这一等价关系解释了为什么交叉熵是分类问题中最常用的损失函数——它等价于在做最大似然估计。

A.5 随机过程前置

扩散模型是近年大模型领域的重要进展，其理论根基在随机过程。本节提供必要的前置知识。

A.5.1 马尔可夫链（Markov Chain）

直觉马尔可夫链是一种"无记忆"的随机过程：系统下一步的状态只取决于当前状态，与过去的历史无关。

马尔可夫链示意：天气转移模型

形式化定义 [必读] 一个随机过程 ${X_{t}}$ 是马尔可夫链，当且仅当：

\begin{matrix} (A.38) & P (X_{t + 1} = s ∣ X_{t}, X_{t - 1}, \dots, X_{0}) = P (X_{t + 1} = s ∣ X_{t}) \end{matrix}

转移矩阵 对有限状态空间 ${1, 2, \dots, N}$ ，转移概率可以组织为矩阵：

\begin{matrix} (A.39) & T_{i j} = P (X_{t + 1} = j ∣ X_{t} = i), \sum_{j} T_{i j} = 1 \end{matrix}

$k$ 步转移概率矩阵就是 $T^{k}$ 。

平稳分布 [选读] 若存在概率向量 $π$ 满足 $π^{⊤} T = π^{⊤}$ ，则 $π$ 是平稳分布（stationary distribution）。在适当条件下（不可约、非周期），无论初始状态如何，马尔可夫链最终都会收敛到平稳分布。

本书应用 语言模型的自回归生成本质上是一个马尔可夫过程（Transformer 虽然看整个上下文，但生成过程仍是逐 token 条件概率的乘积）。

A.5.2 布朗运动（Brownian Motion）

直觉布朗运动是连续时间版的随机游走——每一瞬间都受到微小的随机扰动，形成一条连续但处处不可微的随机轨迹。

形式化定义 [选读] 标准布朗运动（Wiener 过程） ${W_{t}}_{t \geq 0}$ 满足：

$W_{0} = 0$
增量独立： $W_{t} - W_{s}$ 与 ${W_{u} : u \leq s}$ 独立（ $t > s$ ）
增量服从正态分布： $W_{t} - W_{s} \sim N (0, t - s)$
样本路径几乎处处连续

A.5.3 SDE/ODE 直觉（Stochastic/Ordinary Differential Equations）

ODE（常微分方程） 描述确定性的演化过程：

\frac{d x}{d t} = f (x, t)

给定初始值 $x (0)$ ，轨迹唯一确定。

SDE（随机微分方程） 在 ODE 的基础上加入随机噪声项：

\begin{matrix} (A.40) & d x = f (x, t) d t + g (x, t) d W_{t} \end{matrix}

其中 $f$ 是漂移项（drift）， $g$ 是扩散项（diffusion）， $d W_{t}$ 是布朗运动的增量。

与扩散模型的联系 [选读]

扩散模型的核心思想可以用 SDE 框架统一描述：

前向过程（加噪）：从数据分布 $x_{0} \sim p_{data}$ 出发，按照一个特定的 SDE 逐步加噪，直到变成纯噪声 $x_{T} \sim N (0, I)$
反向过程（去噪）：学习反向 SDE 的漂移项，从噪声逐步恢复数据

Anderson (1982) 证明了每个前向 SDE 都有一个对应的反向 SDE，其漂移项包含得分函数 $\nabla_{x} \log p_{t} (x)$ ——这正是扩散模型需要学习的对象。

本书应用 → 详见§23.3 扩散模型

A.6 传统机器学习速查

深度学习并非凭空出现，它站在传统机器学习的肩膀上。理解这些经典方法有助于在合适的场景中选择合适的工具。

A.6.1 线性回归（Linear Regression）

模型

\begin{matrix} (A.41) & \hat{y} = w^{⊤} x + b = \sum_{j = 1}^{d} w_{j} x_{j} + b \end{matrix}

损失函数 均方误差（MSE）：

\begin{matrix} (A.42) & L (w, b) = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} \end{matrix}

闭式解（正规方程）：

\hat{w} = (X^{⊤} X)^{- 1} X^{⊤} y

优点	局限
简单、可解释、有闭式解	只能拟合线性关系
训练和预测极快	对异常值敏感

A.6.2 逻辑回归（Logistic Regression）

模型在线性回归基础上加 sigmoid 函数，输出概率：

\begin{matrix} (A.43) & P (Y = 1 ∣ x) = σ (w^{⊤} x + b) = \frac{1}{1 + e^{- (w^{⊤} x + b)}} \end{matrix}

损失函数 二元交叉熵（即负对数似然）：

\begin{matrix} (A.44) & L = - \frac{1}{n} \sum_{i = 1}^{n} [y_{i} \log {\hat{y}}_{i} + (1 - y_{i}) \log (1 - {\hat{y}}_{i})] \end{matrix}

与神经网络的关系 逻辑回归等价于没有隐藏层的单层神经网络——它是深度学习的起点。 → 详见§1.1

A.6.3 决策树与随机森林（Decision Tree & Random Forest）

决策树

概念	说明
核心思想	通过递归二分特征空间来做预测
分裂准则	信息增益（ID3）、信息增益率（C4.5）、基尼不纯度（CART）
优点	可解释性强、无需特征缩放
缺点	容易过拟合、不稳定（对数据微小变化敏感）

基尼不纯度： $G = 1 - \sum_{k = 1}^{K} p_{k}^{2}$ ，其中 $p_{k}$ 是类别 $k$ 的比例。 $G = 0$ 表示完全纯净。

随机森林（Random Forest） 通过装袋法（Bagging）+ 随机特征选择构建多棵决策树，最终投票或平均：

关键设计	作用
Bootstrap 采样	每棵树使用不同的训练子集，增加多样性
随机特征子集	每次分裂只考虑随机选取的 $\sqrt{d}$ 个特征
多数投票/平均	集成降低方差，减少过拟合

A.6.4 聚类与异常检测（Clustering & Anomaly Detection）

K-Means 聚类

算法流程：
1. 随机初始化 K 个中心点 μ₁, ..., μ_K
2. 重复直到收敛：
   a. 分配步骤：将每个样本分配到最近的中心点
   b. 更新步骤：重新计算每个簇的中心点为簇内均值

目标函数： $J = \sum_{k = 1}^{K} \sum_{x_{i} \in C_{k}} ∥ x_{i} - μ_{k} ∥^{2}$

异常检测常用方法

方法	核心思想	适用场景
孤立森林（Isolation Forest）	异常点更容易被随机分割孤立	高维数据
LOF（局部离群因子）	比较样本与邻居的密度差异	密度不均匀
自编码器（Autoencoder）	正常数据重构误差小，异常数据误差大	大规模数据

A.6.5 推荐系统基础（Recommendation Systems）

协同过滤（Collaborative Filtering）

基于用户：找到与目标用户行为相似的用户，推荐他们喜欢的物品
基于物品：找到与用户已喜欢物品相似的物品来推荐

矩阵分解方法 将用户-物品评分矩阵 $R \in R^{m \times n}$ 分解为低秩形式：

\begin{matrix} (A.45) & R \approx U V^{⊤}, U \in R^{m \times r}, V \in R^{n \times r} \end{matrix}

其中 $r ≪ min (m, n)$ 。 $U$ 的每一行是用户的潜在特征向量， $V$ 的每一行是物品的潜在特征向量。预测评分即为两者的内积。

目标函数（含正则化）：

\begin{matrix} (A.46) & min_{U, V} \sum_{(i, j) \in Ω} (R_{i j} - u_{i}^{⊤} v_{j})^{2} + λ (∥ u_{i} ∥^{2} + ∥ v_{j} ∥^{2}) \end{matrix}

其中 $Ω$ 是已知评分的集合。注意这里的低秩分解与 SVD 的思想一脉相承。

A.7 速查表：常用数学公式

矩阵求导速查

函数	导数
$f = a^{⊤} x$	$\nabla_{x} f = a$
$f = x^{⊤} A x$	$\nabla_{x} f = (A + A^{⊤}) x$
$f = \| A x - b \|^{2}$	$\nabla_{x} f = 2 A^{⊤} (A x - b)$
$f = tr (A B)$	$\nabla_{A} f = B^{⊤}$
$f = \log det (A)$	$\nabla_{A} f = A^{- ⊤}$

常用恒等式

softmax: σ (z)_{i} = \frac{e^{z_{i}}}{\sum_{j} e^{z_{j}}}, \frac{\partial σ_{i}}{\partial z_{j}} = σ_{i} (δ_{i j} - σ_{j})

sigmoid: σ (x) = \frac{1}{1 + e^{- x}}, σ^{'} (x) = σ (x) (1 - σ (x))

tanh: \tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}, \tanh^{'} (x) = 1 - \tanh^{2} (x)

概率论常用公式

公式	表达式
贝叶斯定理	$P (A ∣ B) = \frac{P (B ∣ A) P (A)}{P (B)}$
条件独立	$P (A, B ∣ C) = P (A ∣ C) P (B ∣ C)$
期望的线性性	$E [a X + b Y] = a E [X] + b E [Y]$
方差分解	$Var (X) = E [X^{2}] - (E [X])^{2}$
条件期望法则	$E [X] = E [E [X ∣ Y]]$
Jensen 不等式	$f (E [X]) \leq E [f (X)]$ （ $f$ 凸时）

本附录小结

本附录覆盖了大模型全栈学习所需的核心数学工具：

线性代数提供了表达和操纵高维数据的语言，SVD 和低秩近似直接支撑了 LoRA、MLA 等关键技术
微积分通过梯度和链式法则使得模型优化成为可能，反向传播算法是其工程化实现
概率论为处理不确定性提供了严格框架，从采样策略到 Scaling Law 都离不开概率工具
信息论将 MLE、交叉熵、KL 散度统一在一个优美的框架下，解释了为什么交叉熵是最自然的损失函数
随机过程为扩散模型等前沿技术提供了理论基础
传统 ML 方法是深度学习的起点和补充，在许多场景下仍然是最佳选择

建议读者在阅读正文时遇到不熟悉的概念，随时回跳本附录查阅对应小节。数学理解不必一步到位，但每一次回顾都会加深你对核心技术的理解。

附录A：数学与传统 ML 工具箱 ​

A.1 线性代数 ​

A.1.1 特征值与特征向量（Eigenvalues & Eigenvectors） ​

A.1.2 对角化（Diagonalization） ​

A.1.3 二次型与正定性（Quadratic Forms & Positive Definiteness） ​

A.1.4 秩与矩阵分解（Rank & Matrix Decomposition） ​

A.1.5 奇异值分解（Singular Value Decomposition, SVD） ​

A.2 微积分 ​

A.2.1 偏导数（Partial Derivatives） ​

A.2.2 方向导数与梯度（Directional Derivative & Gradient） ​

A.2.3 链式法则与反向传播（Chain Rule & Backpropagation） ​

A.2.4 定积分（Definite Integral） ​

A.3 概率论 ​

A.3.1 条件概率与贝叶斯定理（Conditional Probability & Bayes' Theorem） ​

A.3.2 随机变量与分布（Random Variables & Distributions） ​

A.3.3 期望、方差与协方差（Expectation, Variance & Covariance） ​

A.3.4 大数定律与中心极限定理（LLN & CLT） ​

A.4 信息论 ​

A.4.1 熵（Entropy） ​

A.4.2 交叉熵（Cross-Entropy） ​

A.4.3 KL 散度（Kullback-Leibler Divergence） ​

A.4.4 MLE 与交叉熵的等价性 ​

A.5 随机过程前置 ​

A.5.1 马尔可夫链（Markov Chain） ​

A.5.2 布朗运动（Brownian Motion） ​

A.5.3 SDE/ODE 直觉（Stochastic/Ordinary Differential Equations） ​

A.6 传统机器学习速查 ​

A.6.1 线性回归（Linear Regression） ​

A.6.2 逻辑回归（Logistic Regression） ​

A.6.3 决策树与随机森林（Decision Tree & Random Forest） ​

A.6.4 聚类与异常检测（Clustering & Anomaly Detection） ​

A.6.5 推荐系统基础（Recommendation Systems） ​

A.7 速查表：常用数学公式 ​

矩阵求导速查 ​

常用恒等式 ​

概率论常用公式 ​

本附录小结 ​

附录A：数学与传统 ML 工具箱

A.1 线性代数

A.1.1 特征值与特征向量（Eigenvalues & Eigenvectors）

A.1.2 对角化（Diagonalization）

A.1.3 二次型与正定性（Quadratic Forms & Positive Definiteness）

A.1.4 秩与矩阵分解（Rank & Matrix Decomposition）

A.1.5 奇异值分解（Singular Value Decomposition, SVD）

A.2 微积分

A.2.1 偏导数（Partial Derivatives）

A.2.2 方向导数与梯度（Directional Derivative & Gradient）

A.2.3 链式法则与反向传播（Chain Rule & Backpropagation）

A.2.4 定积分（Definite Integral）

A.3 概率论

A.3.1 条件概率与贝叶斯定理（Conditional Probability & Bayes' Theorem）

A.3.2 随机变量与分布（Random Variables & Distributions）

A.3.3 期望、方差与协方差（Expectation, Variance & Covariance）

A.3.4 大数定律与中心极限定理（LLN & CLT）

A.4 信息论

A.4.1 熵（Entropy）

A.4.2 交叉熵（Cross-Entropy）

A.4.3 KL 散度（Kullback-Leibler Divergence）

A.4.4 MLE 与交叉熵的等价性

A.5 随机过程前置

A.5.1 马尔可夫链（Markov Chain）

A.5.2 布朗运动（Brownian Motion）

A.5.3 SDE/ODE 直觉（Stochastic/Ordinary Differential Equations）

A.6 传统机器学习速查

A.6.1 线性回归（Linear Regression）

A.6.2 逻辑回归（Logistic Regression）

A.6.3 决策树与随机森林（Decision Tree & Random Forest）

A.6.4 聚类与异常检测（Clustering & Anomaly Detection）

A.6.5 推荐系统基础（Recommendation Systems）

A.7 速查表：常用数学公式

矩阵求导速查

常用恒等式

概率论常用公式

本附录小结