Skip to content

附录A:数学与传统 ML 工具箱

定位:本附录是一份精炼的数学速查手册。当你在正文中遇到陌生的数学概念时,可以随时回跳到本附录查阅。每个概念包含直觉解释→形式化定义→关键公式→本书应用回跳四个层次,帮助你快速建立理解。


A.1 线性代数

线性代数是深度学习的骨架——从参数矩阵到注意力机制,从低秩适应到数据降维,几乎每一个核心操作都可以用矩阵语言来表达。本节聚焦于深度学习中最常用的线性代数工具。

A.1.1 特征值与特征向量(Eigenvalues & Eigenvectors)

直觉 一个矩阵 A 作用于向量时,大多数向量既会被旋转也会被拉伸。但存在一些特殊方向,矩阵只对它们做拉伸(或压缩),方向不变——这些方向就是特征向量(eigenvector),拉伸倍数就是特征值(eigenvalue)。

形式化定义 [必读] 对于 n×n 方阵 A,若存在非零向量 v 和标量 λ 满足:

(A.1)Av=λv

则称 vA 关于特征值 λ 的特征向量。

求解方法(AλI)v=0 有非零解的条件,可得特征方程

(A.2)det(AλI)=0

解出所有 λ 后,回代即可求出对应的特征向量。

关键性质

性质公式
特征值之和 = 迹iλi=tr(A)
特征值之积 = 行列式iλi=det(A)
矩阵可逆 ⟺ 无零特征值A1 存在 λi0,i
矩阵幂的特征值An 的特征值为 λin

本书应用 特征值分解在神经网络权重初始化中至关重要——如果随机矩阵的最大特征值大于 1,经过多层传播后信号会指数爆炸(梯度爆炸);小于 1 则会衰减到零(梯度消失)。 → 详见§1.3 优化基础

A.1.2 对角化(Diagonalization)

直觉 对角化就是找到一个"特征向量坐标系",在这个坐标系下矩阵变成了对角矩阵——每个轴独立缩放,没有方向间的耦合。

形式化定义 [必读] 若 n×n 矩阵 An 个线性无关的特征向量,令 W=[v1,v2,,vn]Λ=diag(λ1,,λn),则:

(A.3)A=WΛW1

对称矩阵的特殊性 实对称矩阵 A=A 一定可以对角化,且特征向量可以取为正交的:

(A.4)A=QΛQ,QQ=I

这就是谱分解(spectral decomposition),其中 Q 是正交矩阵。

对角化的实用价值 一旦完成对角化,矩阵幂、指数、逆等运算都变得简单:

An=WΛnW1,A1=WΛ1W1

A.1.3 二次型与正定性(Quadratic Forms & Positive Definiteness)

直觉 将一个对称矩阵 A 夹在向量中间形成标量 xAx,得到的函数形状完全由 A 的特征值决定:全正→碗形(有最小值),全负→倒碗(有最大值),正负混合→马鞍形。

二次型曲面:正定(碗形)、不定(马鞍形)、负定(倒碗形)

形式化定义 [必读] 对称矩阵 ARn×n 的正定性分类:

分类条件特征值几何含义
正定(positive definite)xAx>0,x0λi>0,i碗形曲面,有唯一极小值
半正定(positive semi-definite)xAx0,xλi0,i平底碗
不定(indefinite)符号不确定正负均有马鞍面
负定(negative definite)xAx<0,x0λi<0,i倒碗

本书应用 Hessian 矩阵的正定性决定了损失函数的局部形状:正定对应局部最小值,不定对应鞍点。 → 详见§1.3 优化基础

A.1.4 秩与矩阵分解(Rank & Matrix Decomposition)

秩(Rank) 矩阵 A 的秩是其列空间的维数,等价于非零特征值的个数,也等于最大线性无关列向量组的大小。

(A.5)rank(A)=dim(col(A))

低秩的意义 如果一个 m×n 矩阵的秩 rmin(m,n),说明它蕴含大量冗余——可以用更少的参数来表示。这正是 LoRA 的理论基础。 → 详见§13.1 LoRA 原理

常见矩阵分解

分解方法分解形式适用条件典型应用
特征分解A=WΛW1方阵,n 个线性无关特征向量理论分析
奇异值分解(SVD)A=UΣV任意矩阵降维、压缩、LoRA
LU 分解A=LU方阵线性方程组求解
QR 分解A=QR任意矩阵最小二乘、正交化
Cholesky 分解A=LL正定矩阵采样、协方差矩阵

A.1.5 奇异值分解(Singular Value Decomposition, SVD)

直觉 特征分解只适用于方阵,而 SVD 是对任意形状矩阵的"全面体检":它告诉我们矩阵在每个方向上的拉伸程度。

SVD 分解示意:A = U·Σ·V^T

形式化定义 [必读] 对任意 m×n 矩阵 A,存在分解:

(A.6)A=UΣV

其中:

  • URm×m 是正交矩阵(左奇异向量),UU=I
  • VRn×n 是正交矩阵(右奇异向量),VV=I
  • ΣRm×n 是对角矩阵,对角元素 σ1σ20奇异值

与特征分解的关系 AA 的特征值为 σi2,特征向量为 V 的列;AA 的特征值也是 σi2,特征向量为 U 的列。

截断 SVD 与低秩近似 [必读] 只保留前 r 个最大奇异值:

(A.7)AAr=UrΣrVr

Eckart-Young 定理保证这是 Frobenius 范数下的最优秩 r 近似。这一思想直接启发了 LoRA:用两个低秩矩阵 BRd×rARr×drd)来近似权重更新。

本书应用

  • → 详见§3.4 MLA 中的低秩投影
  • → 详见§13.1 LoRA 原理

A.2 微积分

微积分是优化的语言——梯度告诉我们参数应该往哪个方向调整,链式法则让反向传播成为可能。

A.2.1 偏导数(Partial Derivatives)

直觉 对于多变量函数 f(x1,x2,,xn),偏导数 fxi 回答的问题是:"固定其他所有变量不动,只改变 xi 一点点,f 会变化多少?"

形式化定义 [必读]

(A.8)fxi=limϵ0f(x1,,xi+ϵ,,xn)f(x1,,xn)ϵ

多变量的线性近似 当每个变量各自发生微小变化 ϵi 时:

(A.9)f(x+ϵ)f(x)+iϵifxi=f(x)+ϵf(x)

本书应用 反向传播的每一步都在计算偏导数。 → 详见§1.2 反向传播

A.2.2 方向导数与梯度(Directional Derivative & Gradient)

直觉 偏导数只沿坐标轴方向考察变化率。方向导数则沿任意方向考察。而梯度就是使方向导数取最大值的那个方向。

方向导数 [必读] 函数 f 在点 x0 沿单位向量 u 的方向导数为:

(A.10)Duf(x0)=f(x0)u=f(x0)cosθ

其中 θ 是梯度方向与 u 的夹角。

梯度 [必读] 梯度是所有偏导数组成的向量:

(A.11)f=[fx1,fx2,,fxn]

关键性质

  1. 梯度方向是函数值增长最快的方向
  2. 负梯度方向是函数值下降最快的方向
  3. 梯度的模长 f 表示最大变化率
  4. 梯度垂直于等值面(等高线)

梯度下降示意:3D 曲面与等高线视图

梯度下降 [必读] 这是深度学习最核心的优化算法:

(A.12)wt+1=wtηL(wt)

其中 η 是学习率。每一步沿负梯度方向更新参数,使损失函数逐步下降。

本书应用 → 详见§1.3 优化基础

A.2.3 链式法则与反向传播(Chain Rule & Backpropagation)

直觉 神经网络是层层嵌套的复合函数。链式法则告诉我们如何把复合函数的导数拆成各层导数的乘积。反向传播就是链式法则的高效实现。

单变量链式法则 [必读] 若 y=f(g(x)),则:

(A.13)dydx=dydgdgdx=f(g(x))g(x)

多变量链式法则 [必读] 若 f 依赖中间变量 u1,,uk,每个 uj 又依赖 x,则:

(A.14)fx=j=1kfujujx

反向传播的核心思想 从输出层开始,逐层向输入方向计算梯度。关键在于避免重复计算——每个中间节点的梯度只需计算一次,然后传递给所有需要它的上游节点。

前向传播 vs 反向传播

阶段方向计算内容
前向传播输入 → 输出计算每层的激活值和损失
反向传播输出 → 输入计算损失对每个参数的梯度

本书应用 → 详见§1.2 反向传播

A.2.4 定积分(Definite Integral)

直觉 定积分计算的是曲线下的面积。在概率论中,概率密度函数在某区间上的积分就是落在该区间的概率。

形式化定义 [选读]

(A.15)abf(x)dx=limni=1nf(xi)Δx

微积分基本定理F(x)=f(x),则:

(A.16)abf(x)dx=F(b)F(a)

在概率论中的应用 连续随机变量 X 落在区间 [a,b] 的概率为:

P(aXb)=abfX(x)dx

概率密度函数的归一化条件:+fX(x)dx=1


A.3 概率论

概率论为我们提供了处理不确定性的数学框架。从训练数据的采样到模型输出的概率解释,从损失函数的设计到 Scaling Law 的理论分析,概率论无处不在。

A.3.1 条件概率与贝叶斯定理(Conditional Probability & Bayes' Theorem)

条件概率 [必读] 在事件 B 已经发生的条件下,事件 A 发生的概率:

(A.17)P(AB)=P(AB)P(B)

直觉:条件概率的本质是"缩小样本空间"。知道 B 已发生后,我们只需在 B 这个缩小的空间中考察 A 发生的可能性。

乘法公式

(A.18)P(AB)=P(AB)P(B)=P(BA)P(A)

全概率公式 [必读] 若事件组 {B1,B2,,Bn} 构成样本空间的完备划分(两两互斥且并集为全集),则:

(A.19)P(A)=i=1nP(Bi)P(ABi)

贝叶斯定理 [必读]

(A.20)P(BiA)=P(Bi)P(ABi)jP(Bj)P(ABj)=P(ABi)P(Bi)P(A)
术语含义类比
P(Bi) — 先验概率观察数据之前对 Bi 的信念初始假设
P(ABi) — 似然Bi 成立时观察到 A 的可能性数据对假设的支持度
P(BiA) — 后验概率观察到 A 后对 Bi 的更新信念更新后的假设

本书应用 贝叶斯思想贯穿整个机器学习:从变分推断到扩散模型的去噪过程,从语言模型的条件生成到 RLHF 中的奖励建模。

A.3.2 随机变量与分布(Random Variables & Distributions)

随机变量 将随机实验的结果映射到实数的函数。分为离散型(取有限或可数无穷个值)和连续型(取某区间上的任意值)。

离散型随机变量 由概率质量函数(PMF)描述:

(A.21)P(X=xi)=pi,ipi=1

连续型随机变量 由概率密度函数(PDF)描述:

(A.22)P(aXb)=abf(x)dx,+f(x)dx=1

常见分布速查

常见概率分布:Bernoulli、Binomial、Poisson、Gaussian、Uniform、Exponential

分布参数PMF / PDF均值方差应用场景
BernoullipP(X=1)=ppp(1p)二分类
Binomialn,p(nk)pk(1p)nknpnp(1p)n 次独立试验
Poissonλλkeλk!λλ稀有事件计数
Gaussianμ,σ21σ2πe(xμ)22σ2μσ2误差建模、初始化
Uniforma,b1baa+b2(ba)212随机采样
Exponentialλλeλx1λ1λ2等待时间
Categoricalp1,,pkP(X=i)=pi多分类 softmax 输出

A.3.3 期望、方差与协方差(Expectation, Variance & Covariance)

期望(Expectation) [必读] 随机变量的"加权平均":

(A.23)E[X]={ixipi离散型+xf(x)dx连续型

期望的线性性(无论是否独立):

(A.24)E[aX+bY+c]=aE[X]+bE[Y]+c

方差(Variance) [必读] 衡量随机变量偏离其期望的程度:

(A.25)Var(X)=E[(XE[X])2]=E[X2](E[X])2

方差的性质

  • Var(aX+b)=a2Var(X)
  • X,Y 独立:Var(X+Y)=Var(X)+Var(Y)
  • 标准差 σ=Var(X),与原始数据单位相同,更直观

协方差(Covariance) [选读] 衡量两个随机变量的线性相关程度:

(A.26)Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]

相关系数将协方差归一化到 [1,1]

(A.27)ρ(X,Y)=Cov(X,Y)Var(X)Var(Y)
ρ含义
ρ=1完全正线性相关
ρ=1完全负线性相关
ρ=0线性不相关(不等于独立)

A.3.4 大数定律与中心极限定理(LLN & CLT)

这两个定理是统计学的基石,也是许多深度学习实践的理论保障。

大数定律(Law of Large Numbers) [必读]

X1,X2,,Xn 为独立同分布的随机变量,期望为 μ,则样本均值随样本量增大趋近于总体期望:

(A.28)X¯n=1ni=1nXinμ

深度学习中的意义

  • 随机梯度下降中,mini-batch 梯度是全量梯度的无偏估计,batch 越大估计越准确
  • 训练集越大,经验风险越接近真实风险

中心极限定理(Central Limit Theorem, CLT) [必读]

无论原始分布是什么形状,只要随机变量独立同分布且有有限的均值 μ 和方差 σ2,样本均值的分布趋近于正态分布:

(A.29)X¯nμσ/ndN(0,1)

中心极限定理可视化:从指数分布到正态分布

深度学习中的意义

  • 大量独立小因素叠加的结果近似正态分布,这解释了为什么高斯初始化对神经网络有效
  • Batch Normalization 利用了 mini-batch 统计量近似正态的性质

本书应用

  • → 详见§5.3 采样策略
  • → 详见§5.5 Scaling Law

A.4 信息论

信息论提供了一套度量"不确定性"的精确语言。深度学习中的交叉熵损失、KL 散度正则化、扩散模型的变分下界,都根植于信息论。

信息论核心概念:二元熵、KL 散度、熵的关系

A.4.1 熵(Entropy)

直觉 熵衡量的是随机变量的"不确定性"或"信息量"。越随机(均匀)的分布,熵越高;完全确定的事件,熵为零。

形式化定义 [必读] 离散随机变量 X 服从分布 P 时:

(A.30)H(X)=ip(xi)logp(xi)=ExP[logp(x)]

连续情形(微分熵):

H(X)=f(x)logf(x)dx

关键性质

  • H(X)0(离散情形)
  • 均匀分布取最大熵:H(X)logkk 类等概率时取等号)
  • 独立随机变量的联合熵等于各自熵之和:H(X,Y)=H(X)+H(Y)(若独立)

二元熵函数 对 Bernoulli(p) 分布:

H(p)=plog2p(1p)log2(1p)

p=0.5 处取最大值 1 bit——抛硬币的不确定性最大。

A.4.2 交叉熵(Cross-Entropy)

直觉 如果真实分布是 P,但我们用分布 Q 来编码数据,交叉熵度量了这种"编码方案"的平均编码长度。Q 越接近 P,交叉熵越小。

形式化定义 [必读]

(A.31)H(P,Q)=ExP[logq(x)]=ip(xi)logq(xi)

关键关系

(A.32)H(P,Q)=H(P)+DKL(PQ)

由于 H(P) 是常数,最小化交叉熵等价于最小化 KL 散度。

交叉熵作为损失函数 [必读]

在分类任务中,真实标签 y 通常是 one-hot 编码(P 是确定分布),此时 H(P)=0,交叉熵退化为:

(A.33)CE(y,y^)=j=1kyjlogy^j=logy^c

其中 c 是正确类别。这就是我们熟悉的分类交叉熵损失。

本书应用 → 详见§5.1 损失函数

A.4.3 KL 散度(Kullback-Leibler Divergence)

直觉 KL 散度衡量用分布 Q 近似分布 P 时损失了多少信息。它不是距离(不对称),但是度量分布差异的有力工具。

形式化定义 [必读]

(A.34)DKL(PQ)=ExP[logp(x)q(x)]=ip(xi)logp(xi)q(xi)

高斯分布间的 KL 散度 [选读] 两个单变量高斯分布之间的 KL 散度有解析解:

(A.35)DKL(N(μ1,σ12)N(μ2,σ22))=logσ2σ1+σ12+(μ1μ2)22σ2212

关键性质

  • 非负性DKL(PQ)0,等号当且仅当 P=Q
  • 不对称性DKL(PQ)DKL(QP)
  • q(x)=0p(x)>0 时,DKL=

本书应用

  • → 详见§15.6 KL 散度分析(RLHF 中新旧策略的 KL 约束)
  • → 详见§23.3 扩散模型中的变分下界

A.4.4 MLE 与交叉熵的等价性

最大似然估计(Maximum Likelihood Estimation, MLE) [必读]

给定观测数据 X={x1,,xn},MLE 寻找使数据出现概率最大的参数 θ

(A.36)θ^MLE=argmaxθi=1np(xiθ)=argmaxθi=1nlogp(xiθ)

MLE 与交叉熵:似然函数最大化等价于交叉熵最小化

等价性证明 [必读] 最大化对数似然:

maxθ1ni=1nlogq(xiθ)

等价于最小化负对数似然,即最小化经验交叉熵:

minθ[1ni=1nlogq(xiθ)]minθH(P^,Qθ)

其中 P^ 是数据的经验分布。因此:

(A.37)最大化对数似然最小化交叉熵最小化 KL 散度

这一等价关系解释了为什么交叉熵是分类问题中最常用的损失函数——它等价于在做最大似然估计。


A.5 随机过程前置

扩散模型是近年大模型领域的重要进展,其理论根基在随机过程。本节提供必要的前置知识。

A.5.1 马尔可夫链(Markov Chain)

直觉 马尔可夫链是一种"无记忆"的随机过程:系统下一步的状态只取决于当前状态,与过去的历史无关。

马尔可夫链示意:天气转移模型

形式化定义 [必读] 一个随机过程 {Xt} 是马尔可夫链,当且仅当:

(A.38)P(Xt+1=sXt,Xt1,,X0)=P(Xt+1=sXt)

转移矩阵 对有限状态空间 {1,2,,N},转移概率可以组织为矩阵:

(A.39)Tij=P(Xt+1=jXt=i),jTij=1

k 步转移概率矩阵就是 Tk

平稳分布 [选读] 若存在概率向量 π 满足 πT=π,则 π平稳分布(stationary distribution)。在适当条件下(不可约、非周期),无论初始状态如何,马尔可夫链最终都会收敛到平稳分布。

本书应用 语言模型的自回归生成本质上是一个马尔可夫过程(Transformer 虽然看整个上下文,但生成过程仍是逐 token 条件概率的乘积)。

A.5.2 布朗运动(Brownian Motion)

直觉 布朗运动是连续时间版的随机游走——每一瞬间都受到微小的随机扰动,形成一条连续但处处不可微的随机轨迹。

形式化定义 [选读] 标准布朗运动(Wiener 过程) {Wt}t0 满足:

  1. W0=0
  2. 增量独立:WtWs{Wu:us} 独立(t>s
  3. 增量服从正态分布:WtWsN(0,ts)
  4. 样本路径几乎处处连续

A.5.3 SDE/ODE 直觉(Stochastic/Ordinary Differential Equations)

ODE(常微分方程) 描述确定性的演化过程:

dxdt=f(x,t)

给定初始值 x(0),轨迹唯一确定。

SDE(随机微分方程) 在 ODE 的基础上加入随机噪声项:

(A.40)dx=f(x,t)dt+g(x,t)dWt

其中 f 是漂移项(drift),g 是扩散项(diffusion),dWt 是布朗运动的增量。

与扩散模型的联系 [选读]

扩散模型的核心思想可以用 SDE 框架统一描述:

  • 前向过程(加噪):从数据分布 x0pdata 出发,按照一个特定的 SDE 逐步加噪,直到变成纯噪声 xTN(0,I)
  • 反向过程(去噪):学习反向 SDE 的漂移项,从噪声逐步恢复数据

Anderson (1982) 证明了每个前向 SDE 都有一个对应的反向 SDE,其漂移项包含得分函数 xlogpt(x)——这正是扩散模型需要学习的对象。

本书应用 → 详见§23.3 扩散模型


A.6 传统机器学习速查

深度学习并非凭空出现,它站在传统机器学习的肩膀上。理解这些经典方法有助于在合适的场景中选择合适的工具。

A.6.1 线性回归(Linear Regression)

模型

(A.41)y^=wx+b=j=1dwjxj+b

损失函数 均方误差(MSE):

(A.42)L(w,b)=1ni=1n(yiy^i)2

闭式解(正规方程):

w^=(XX)1Xy
优点局限
简单、可解释、有闭式解只能拟合线性关系
训练和预测极快对异常值敏感

A.6.2 逻辑回归(Logistic Regression)

模型 在线性回归基础上加 sigmoid 函数,输出概率:

(A.43)P(Y=1x)=σ(wx+b)=11+e(wx+b)

损失函数 二元交叉熵(即负对数似然):

(A.44)L=1ni=1n[yilogy^i+(1yi)log(1y^i)]

与神经网络的关系 逻辑回归等价于没有隐藏层的单层神经网络——它是深度学习的起点。 → 详见§1.1

A.6.3 决策树与随机森林(Decision Tree & Random Forest)

决策树

概念说明
核心思想通过递归二分特征空间来做预测
分裂准则信息增益(ID3)、信息增益率(C4.5)、基尼不纯度(CART)
优点可解释性强、无需特征缩放
缺点容易过拟合、不稳定(对数据微小变化敏感)

基尼不纯度G=1k=1Kpk2,其中 pk 是类别 k 的比例。G=0 表示完全纯净。

随机森林(Random Forest) 通过装袋法(Bagging)+ 随机特征选择构建多棵决策树,最终投票或平均:

关键设计作用
Bootstrap 采样每棵树使用不同的训练子集,增加多样性
随机特征子集每次分裂只考虑随机选取的 d 个特征
多数投票/平均集成降低方差,减少过拟合

A.6.4 聚类与异常检测(Clustering & Anomaly Detection)

K-Means 聚类

算法流程:
1. 随机初始化 K 个中心点 μ₁, ..., μ_K
2. 重复直到收敛:
   a. 分配步骤:将每个样本分配到最近的中心点
   b. 更新步骤:重新计算每个簇的中心点为簇内均值

目标函数J=k=1KxiCkxiμk2

异常检测常用方法

方法核心思想适用场景
孤立森林(Isolation Forest)异常点更容易被随机分割孤立高维数据
LOF(局部离群因子)比较样本与邻居的密度差异密度不均匀
自编码器(Autoencoder)正常数据重构误差小,异常数据误差大大规模数据

A.6.5 推荐系统基础(Recommendation Systems)

协同过滤(Collaborative Filtering)

  • 基于用户:找到与目标用户行为相似的用户,推荐他们喜欢的物品
  • 基于物品:找到与用户已喜欢物品相似的物品来推荐

矩阵分解方法 将用户-物品评分矩阵 RRm×n 分解为低秩形式:

(A.45)RUV,URm×r,VRn×r

其中 rmin(m,n)U 的每一行是用户的潜在特征向量,V 的每一行是物品的潜在特征向量。预测评分即为两者的内积。

目标函数(含正则化):

(A.46)minU,V(i,j)Ω(Rijuivj)2+λ(ui2+vj2)

其中 Ω 是已知评分的集合。注意这里的低秩分解与 SVD 的思想一脉相承。


A.7 速查表:常用数学公式

矩阵求导速查

函数导数
f=axxf=a
f=xAxxf=(A+A)x
f=|Axb|2xf=2A(Axb)
f=tr(AB)Af=B
f=logdet(A)Af=A

常用恒等式

softmax: σ(z)i=ezijezj,σizj=σi(δijσj)sigmoid: σ(x)=11+ex,σ(x)=σ(x)(1σ(x))tanh: tanh(x)=exexex+ex,tanh(x)=1tanh2(x)

概率论常用公式

公式表达式
贝叶斯定理P(AB)=P(BA)P(A)P(B)
条件独立P(A,BC)=P(AC)P(BC)
期望的线性性E[aX+bY]=aE[X]+bE[Y]
方差分解Var(X)=E[X2](E[X])2
条件期望法则E[X]=E[E[XY]]
Jensen 不等式f(E[X])E[f(X)]f 凸时)

本附录小结

本附录覆盖了大模型全栈学习所需的核心数学工具:

  1. 线性代数提供了表达和操纵高维数据的语言,SVD 和低秩近似直接支撑了 LoRA、MLA 等关键技术
  2. 微积分通过梯度和链式法则使得模型优化成为可能,反向传播算法是其工程化实现
  3. 概率论为处理不确定性提供了严格框架,从采样策略到 Scaling Law 都离不开概率工具
  4. 信息论将 MLE、交叉熵、KL 散度统一在一个优美的框架下,解释了为什么交叉熵是最自然的损失函数
  5. 随机过程为扩散模型等前沿技术提供了理论基础
  6. 传统 ML 方法是深度学习的起点和补充,在许多场景下仍然是最佳选择

建议读者在阅读正文时遇到不熟悉的概念,随时回跳本附录查阅对应小节。数学理解不必一步到位,但每一次回顾都会加深你对核心技术的理解。