附录G：缩略语与指标速查

定位：本附录是一份面向全书的术语速查表。当你在正文中遇到不熟悉的缩略语或性能指标时，可以随时翻到此处查找定义。第一部分按字母顺序汇总全书核心缩略语，第二部分对最重要的性能指标给出计算公式和工程含义。

G.1 缩略语速查表

下表按字母顺序收录全书出现的关键缩略语。"首现章节"标注该术语首次被详细介绍的位置，供读者回跳查阅完整解释。

A–B

缩略语	全称	中文释义	首现章节
AdamW	Adam with Decoupled Weight Decay	解耦权重衰减的 Adam 优化器	§1.3
AI Infra	AI Infrastructure	AI 基础设施	§11.1
ALiBi	Attention with Linear Biases	线性偏置注意力位置编码	§3.4
AMP	Automatic Mixed Precision	自动混合精度	§1.5
ARC	AI2 Reasoning Challenge	AI2 推理挑战基准	§20.3
AWQ	Activation-aware Weight Quantization	激活感知权重量化	§19.5
BBH	BIG-Bench Hard	BIG-Bench 高难度子集	§20.3
BERT	Bidirectional Encoder Representations from Transformers	双向 Transformer 编码器表示	§3.6
BF16	Brain Floating Point 16	脑浮点 16 位格式	§1.5
BOS	Beginning of Sequence	序列起始符	§4.1
BPE	Byte Pair Encoding	字节对编码	§4.1

C–D

缩略语	全称	中文释义	首现章节
CE	Cross-Entropy	交叉熵（损失函数）	§1.2
CLM	Causal Language Modeling	因果语言建模	§0.2
CoT	Chain of Thought	思维链（推理策略）	§17.2
CP	Context Parallelism	上下文并行	§10.1
CUDA	Compute Unified Device Architecture	统一计算设备架构	§9.1
DDP	Distributed Data Parallel	分布式数据并行	§10.1
DP	Data Parallelism	数据并行	§10.1
DPO	Direct Preference Optimization	直接偏好优化	§16.5

E–F

缩略语	全称	中文释义	首现章节
E2E	End-to-End	端到端	§19.1
ELO	Elo Rating System	Elo 评分系统（源自国际象棋）	§20.1
EOS	End of Sequence	序列结束符	§4.1
EP	Expert Parallelism	专家并行	§10.1
FFN	Feed-Forward Network	前馈网络	§3.2
FLOPs	Floating-point Operations	浮点运算次数（计数值）	§9.5
FLOPS	Floating-point Operations Per Second	每秒浮点运算次数（速率）	§9.5
FP8	8-bit Floating Point	8 位浮点格式	§1.5
FP16	Half-precision Floating Point	半精度浮点（16 位）	§1.5
FP32	Single-precision Floating Point	单精度浮点（32 位）	§1.5
FP64	Double-precision Floating Point	双精度浮点（64 位）	§11.1
FSDP	Fully Sharded Data Parallel	完全分片数据并行	§10.2

G–I

缩略语	全称	中文释义	首现章节
GDDR	Graphics Double Data Rate	图形双倍数据速率显存	§9.2
GELU	Gaussian Error Linear Unit	高斯误差线性单元（激活函数）	§3.2
GEMM	General Matrix Multiply	通用矩阵乘法	§19.1
GEMV	General Matrix-Vector Multiply	通用矩阵-向量乘法	§19.1
GPC	Graphics Processing Cluster	图形处理集群（GPU 内部结构）	§9.1
GPTQ	GPT Quantization	GPT 量化方法	§19.5
GQA	Grouped-Query Attention	分组查询注意力	§3.4
GRPO	Group Relative Policy Optimization	分组相对策略优化	§16.6
GSM8K	Grade School Math 8K	小学数学 8K 题基准	§20.3
HBM	High Bandwidth Memory	高带宽内存	§9.2
HELM	Holistic Evaluation of Language Models	语言模型全面评估框架	§20.3
HPC	High-Performance Computing	高性能计算	§11.1
IB	InfiniBand	InfiniBand 高速互连协议	§11.3
ICL	In-Context Learning	上下文学习	§17.2
INT4	4-bit Integer	4 位整数量化	§19.5
INT8	8-bit Integer	8 位整数量化	§19.5
IsoFLOP	Iso-FLOP (Equal Compute)	等算力线分析方法	§5.5

K–M

缩略语	全称	中文释义	首现章节
KL	Kullback-Leibler (Divergence)	KL 散度	§1.2
KV Cache	Key-Value Cache	键值缓存	§19.1
LLM	Large Language Model	大语言模型	§0.1
LoRA	Low-Rank Adaptation	低秩适应（参数高效微调方法）	§15.2
MAE	Mean Absolute Error	平均绝对误差	§1.2
MATH	Mathematics Aptitude Test of Heuristics	数学推理基准	§20.3
MBPP	Mostly Basic Programming Problems	基础编程问题基准	§20.3
MFU	Model FLOPs Utilization	模型浮点利用率	§9.5
MHA	Multi-Head Attention	多头注意力	§3.2
MLA	Multi-head Latent Attention	多头潜在注意力	§6.6
MLM	Masked Language Modeling	掩码语言建模	§3.6
MLLM	Multimodal Large Language Model	多模态大语言模型	§23.1
MMLU	Massive Multitask Language Understanding	大规模多任务语言理解基准	§20.3
MoE	Mixture of Experts	混合专家模型	§7.7
MQA	Multi-Query Attention	多查询注意力	§3.4
MSE	Mean Squared Error	均方误差	§1.2
muP / μP	Maximal Update Parameterization	最大更新参数化	§5.5

N–P

缩略语	全称	中文释义	首现章节
NCCL	NVIDIA Collective Communications Library	NVIDIA 集体通信库	§10.4
NLP	Natural Language Processing	自然语言处理	§0.1
NVLink	NVIDIA NVLink	NVIDIA 高速 GPU 互连	§11.3
ONNX	Open Neural Network Exchange	开放神经网络交换格式	§19.4
P99	99th Percentile Latency	第 99 百分位尾延迟	§19.3
PCIe	Peripheral Component Interconnect Express	高速外设互连标准	§9.1
PEFT	Parameter-Efficient Fine-Tuning	参数高效微调	§15.1
PP	Pipeline Parallelism	流水线并行	§10.1
PPL	Perplexity	困惑度	§5.1
PPO	Proximal Policy Optimization	近端策略优化	§16.3

Q–R

缩略语	全称	中文释义	首现章节
QLoRA	Quantized Low-Rank Adaptation	量化低秩适应	§15.3
QPS	Queries Per Second	每秒查询数	§11.1
RAG	Retrieval-Augmented Generation	检索增强生成	§22.1
RDMA	Remote Direct Memory Access	远程直接内存访问	§11.3
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习	§16.1
RMSNorm	Root Mean Square Normalization	均方根归一化	§3.2
RoCE	RDMA over Converged Ethernet	基于融合以太网的 RDMA	§11.3
RoPE	Rotary Position Embedding	旋转位置编码	§3.3
RPS	Requests Per Second	每秒请求数	§19.1

S–T

缩略语	全称	中文释义	首现章节
SFT	Supervised Fine-Tuning	有监督微调	§12.1
SGD	Stochastic Gradient Descent	随机梯度下降	§1.3
SiLU	Sigmoid Linear Unit	Sigmoid 线性单元（激活函数）	§3.2
SIMT	Single Instruction, Multiple Threads	单指令多线程（GPU 执行模型）	§9.1
SLO	Service Level Objective	服务水平目标	§19.6
SM	Streaming Multiprocessor	流式多处理器	§9.1
SP	Sequence Parallelism	序列并行	§10.1
SRAM	Static Random-Access Memory	静态随机存取存储器	§9.2
SwiGLU	Swish-Gated Linear Unit	Swish 门控线性单元	§3.2
TFLOPS	Tera FLOPS	万亿次浮点运算每秒	§9.5
TP	Tensor Parallelism	张量并行	§10.1
TPOT	Time Per Output Token	逐 Token 延迟	§19.1
TPS	Tokens Per Second	每秒 Token 数	§19.1
TSV	Through-Silicon Via	硅通孔（HBM 堆叠技术）	§9.2
TTFT	Time to First Token	首 Token 延迟	§19.1

V–Z

缩略语	全称	中文释义	首现章节
ViT	Vision Transformer	视觉 Transformer	§3.7
VLM	Vision-Language Model	视觉-语言模型	§23.1
WSD	Warmup-Stable-Decay	预热-稳定-衰减调度器	§1.3
ZeRO	Zero Redundancy Optimizer	零冗余优化器	§10.2

G.2 集体通信原语速查

分布式训练中频繁出现的集体通信操作，本表汇总其含义和典型使用场景。

操作	英文全称	作用	典型场景
All-Reduce	All-Reduce	所有设备的张量做规约（如求和），结果广播给所有设备	DDP 梯度同步
All-Gather	All-Gather	收集所有设备的张量碎片，拼接为完整张量分发给所有设备	FSDP 前向参数还原
Reduce-Scatter	Reduce-Scatter	规约后将结果分片分发给各设备	FSDP 反向梯度同步
All-to-All	All-to-All	每对设备之间交换不同的数据块	MoE 专家并行 Token 路由
Broadcast	Broadcast	从一个源设备将数据复制到所有设备	模型参数初始化分发

→ 详见 §10.4–§10.5

G.3 关键指标详解

本节对全书中最重要的性能指标给出精确的定义、计算公式和工程含义。

G.3.1 困惑度（Perplexity, PPL）

定义： 语言模型在测试集上的"困惑"程度，衡量模型对下一个 Token 预测的不确定性。PPL 越低，模型对数据分布的拟合越好。

公式：

PPL = \exp (- \frac{1}{N} \sum_{i = 1}^{N} \log P (x_{i} ∣ x_{< i}))

其中 $N$ 为 Token 总数， $P (x_{i} ∣ x_{< i})$ 为模型在给定上文条件下对第 $i$ 个 Token 的预测概率。

工程含义：

PPL 是预训练阶段最核心的优化目标（即交叉熵损失的指数形式）。
一个 PPL = 10 的模型，直觉上相当于"每步平均在 10 个等概率候选中做选择"。
PPL 在不同 Tokenizer 之间不可直接比较——词表越大，单 Token 承载的信息越多，PPL 的基数不同。
Scaling Law 中的损失 $L$ 即为交叉熵损失： $L = \log (PPL)$ 。

→ 详见 §5.1, §5.5

G.3.2 FLOPs 与 FLOPS

FLOPs（Floating-point Operations） 是一个计数值，表示完成某个计算任务所需的浮点运算总次数。例如"训练 GPT-3 大约需要 $3.14 \times 10^{23}$ FLOPs"。

FLOPS（Floating-point Operations Per Second） 是一个速率，表示硬件每秒能执行的浮点运算次数。例如"H100 的 BF16 理论峰值约为 989 TFLOPS"。

常用量级前缀：

前缀	符号	数量级	示例
Tera	T	$10^{12}$	TFLOPS（单卡算力常用单位）
Peta	P	$10^{15}$	PFLOPS（小型集群算力）
Exa	E	$10^{18}$	EFLOPS（大型集群算力）

6PD 法则： 训练一个有 $P$ 个参数的模型，在 $D$ 个 Token 上完成一轮训练，总计算量约为：

{FLOPs}_{train} \approx 6 P D

其中前向传播贡献 $2 P D$ ，反向传播贡献 $4 P D$ 。

→ 详见 §9.5

G.3.3 模型浮点利用率（MFU）

定义： GPU 实际执行的"有用计算"占硬件理论峰值的比例。

公式：

MFU = \frac{实际达到的模型有效 FLOPS}{硬件理论峰值 FLOPS}

其中：

实际 FLOPS = \frac{单步 FLOPs（由模型结构决定）}{单步墙钟时间（实际测量）}

工程含义：

MFU > 50% 即为良好。
同样的硬件，MFU 从 30% 提升到 50%，训练时间缩短约 40%。
常见瓶颈：数据加载 I/O、通信开销、Kernel 启动开销、内存带宽受限。
优化手段：增大 batch size、算子融合（torch.compile）、混合精度、数据加载流水线。

→ 详见 §9.5

G.3.4 算术强度（Arithmetic Intensity）

定义： 一个计算任务中"计算量"与"内存访问量"的比值，用于判断性能瓶颈。

公式：

Arithmetic Intensity = \frac{FLOPs}{Bytes Accessed} (单位：FLOPs/Byte)

典型操作的算术强度：

操作	算术强度	瓶颈类型
逐元素操作（ReLU、Add）	~0.1 FLOPs/Byte	内存受限
向量点积	~0.25 FLOPs/Byte	内存受限
矩阵乘法 $n \times n$	$n / 6$ FLOPs/Byte	当 $n$ 足够大时计算受限

Roofline 模型： 将算术强度与硬件参数结合，可判断任何算子的性能瓶颈：

P = min (π, β \cdot I)

其中 $π$ 为峰值计算性能， $β$ 为峰值内存带宽， $I$ 为算术强度。两条线的交点处的算术强度称为脊点（Ridge Point）： $I^{*} = π / β$ 。

以 A100 为例： $I^{*} = 19.5 TFLOPS / 2 TB/s \approx 10 FLOPs/Byte$ 。

→ 详见 §9.2

G.3.5 推理性能指标

大模型推理的性能指标分为延迟和吞吐两大类：

延迟指标

指标	全称	定义	影响因素
TTFT	Time to First Token	从提交请求到收到第一个输出 Token 的时间	Prompt 长度、Prefill 计算量
TPOT	Time Per Output Token	Decode 阶段连续两个 Token 之间的平均时间间隔	模型大小、KV Cache 读取速度
E2E Latency	End-to-End Latency	从请求发送到接收完整响应的总时间	TTFT + TPOT × 输出长度

公式关系：

TPOT = \frac{总延迟 - TTFT}{输出 Token 数}

E2E Latency = TTFT + TPOT \times N

吞吐指标

指标	全称	定义	公式
TPS	Tokens Per Second	系统每秒处理的 Token 数	${TPS}_{prefill} = S / TTFT$ ， ${TPS}_{decode} = 1 / TPOT$
RPS	Requests Per Second	系统每秒完成的请求数	$RPS \approx {TPS}_{decode} / N$

典型数值参考（A100, Llama 2 13B, Prompt 512 Token）：

指标	典型值
TTFT	200–300 ms
TPOT	30–50 ms
Prefill TPS	~2000 Token/s
Decode TPS	~20–30 Token/s

→ 详见 §19.1

G.3.6 Scaling Law 核心公式

Kaplan 幂律（2020）： 损失与参数量/数据量/计算量各自满足独立的幂律关系：

L (x) = {(\frac{x_{c}}{x})}^{α} + E

其中 $E$ 为不可约误差， $α$ 为缩放指数。

Chinchilla 联合损失公式（2022）：

L (N, D) = E + \frac{A}{N^{α}} + \frac{B}{D^{β}}

最优资源分配对比：

维度	Kaplan (2020)	Chinchilla (2022)
$N_{opt} \propto C^{?}$	$C^{0.74}$	$C^{0.50}$
$D_{opt} \propto C^{?}$	$C^{0.27}$	$C^{0.50}$
Token/Parameter 比	远低于 20:1	约 20:1（Chinchilla Ratio）

计算量基本关系： $C \approx 6 N D$ 。

→ 详见 §5.5

G.3.7 Elo 评分（Chatbot Arena）

定义： 基于配对比较的评分系统，用于人类偏好排名。

预期胜率公式：

E_{A} = \frac{1}{1 + 10^{(R_{B} - R_{A}) / 400}}

评分更新：

R_{A}^{new} = R_{A} + K (S_{A} - E_{A})

其中 $S_{A} \in {0, 0.5, 1}$ （负/平/胜）， $K$ 为更新系数（通常 16–32）。分差 400 分对应约 10:1 的胜率。

→ 详见 §20.1

G.3.8 评估基准常用指标

指标	含义	适用基准
Accuracy	正确率 = 正确数 / 总数	MMLU, ARC, HellaSwag
Pass@k	$k$ 次采样中至少一次通过的概率	HumanEval, MBPP
BLEU	基于 n-gram 精确率的翻译质量指标	机器翻译任务
ROUGE	基于 n-gram 召回率的摘要质量指标	文本摘要任务
F1	精确率与召回率的调和平均	阅读理解、NER
Elo Score	基于配对投票的相对排名分	Chatbot Arena

→ 详见 §20.2–§20.3

G.4 数据精度格式速查

不同浮点格式在全书中频繁出现，下表汇总其位宽、数值范围和典型用途。

格式	总位宽	指数位 / 尾数位	动态范围	典型用途
FP32	32	8 / 23	$\sim 10^{\pm 38}$	优化器状态、梯度累加
FP16	16	5 / 10	$\sim 10^{\pm 5}$	早期混合精度训练
BF16	16	8 / 7	$\sim 10^{\pm 38}$	主流混合精度训练（精度略低但范围大）
FP8 (E4M3)	8	4 / 3	$\sim 10^{\pm 2}$	H100+ 前向计算
FP8 (E5M2)	8	5 / 2	$\sim 10^{\pm 4}$	H100+ 反向计算
INT8	8	—	$[- 128, 127]$	推理量化（权重/激活）
INT4	4	—	$[- 8, 7]$	极致推理量化（仅权重）

→ 详见 §1.5, §19.5

G.5 并行策略缩写速查

缩写	全称	切分维度	通信特征	典型部署位置
DP	Data Parallelism	训练数据	All-Reduce 梯度	任意
DDP	Distributed Data Parallel	训练数据	Ring-AllReduce	任意
FSDP/ZeRO	Fully Sharded DP / Zero Redundancy Optimizer	优化器状态/梯度/参数	All-Gather + Reduce-Scatter	任意
TP	Tensor Parallelism	权重矩阵（宽度）	每层 All-Reduce	节点内（NVLink）
PP	Pipeline Parallelism	模型层（深度）	激活值点对点传递	节点间
SP	Sequence Parallelism	序列长度（逐点操作）	与 TP 配合切换	节点内
CP	Context Parallelism	序列长度（注意力内部）	Ring Attention 等	节点内/间
EP	Expert Parallelism	专家网络	All-to-All Token 路由	节点内/间

→ 详见 §10.1–§10.8

G.6 硬件互连缩写速查

缩写	全称	中文释义	典型带宽	使用层级
NVLink	NVIDIA NVLink	高速 GPU 互连	900 GB/s (H100)	节点内 GPU 间
NVSwitch	NVIDIA NVSwitch	NVLink 交换芯片	全互连	节点内
PCIe	PCI Express	高速外设总线	64 GB/s (Gen5 x16)	GPU-CPU、GPU-NIC
InfiniBand	InfiniBand	高性能网络互连	400 Gbps (NDR)	节点间
RoCE	RDMA over Converged Ethernet	以太网上的 RDMA	400 Gbps	节点间（替代 IB）
RDMA	Remote Direct Memory Access	远程直接内存访问	—	IB / RoCE 底层技术
NCCL	NVIDIA Collective Communications Library	集体通信库	—	软件层

→ 详见 §11.3–§11.5

G.7 本附录使用建议

快速查找：遇到不认识的缩略语时，在 G.1 的分字母表格中按首字母定位，获取全称和首现章节。
深入理解：对于性能指标，跳转至 G.3 获取公式和工程含义，再通过"详见"链接回到正文获取完整上下文。
精度选型：G.4 帮助快速确认不同数据格式的位宽和适用场景。
并行策略选择：G.5 提供了所有并行策略的切分维度和通信特征一览，便于设计混合并行方案时快速对比。

附录G：缩略语与指标速查 ​

G.1 缩略语速查表 ​

A–B ​

C–D ​

E–F ​

G–I ​

K–M ​

N–P ​

Q–R ​

S–T ​

V–Z ​

G.2 集体通信原语速查 ​

G.3 关键指标详解 ​

G.3.1 困惑度（Perplexity, PPL） ​

G.3.2 FLOPs 与 FLOPS ​

G.3.3 模型浮点利用率（MFU） ​

G.3.4 算术强度（Arithmetic Intensity） ​

G.3.5 推理性能指标 ​

延迟指标 ​

吞吐指标 ​

G.3.6 Scaling Law 核心公式 ​

G.3.7 Elo 评分（Chatbot Arena） ​

G.3.8 评估基准常用指标 ​

G.4 数据精度格式速查 ​

G.5 并行策略缩写速查 ​

G.6 硬件互连缩写速查 ​

G.7 本附录使用建议 ​

附录G：缩略语与指标速查

G.1 缩略语速查表

A–B

C–D

E–F

G–I

K–M

N–P

Q–R

S–T

V–Z

G.2 集体通信原语速查

G.3 关键指标详解

G.3.1 困惑度（Perplexity, PPL）

G.3.2 FLOPs 与 FLOPS

G.3.3 模型浮点利用率（MFU）

G.3.4 算术强度（Arithmetic Intensity）

G.3.5 推理性能指标

延迟指标

吞吐指标

G.3.6 Scaling Law 核心公式

G.3.7 Elo 评分（Chatbot Arena）

G.3.8 评估基准常用指标

G.4 数据精度格式速查

G.5 并行策略缩写速查

G.6 硬件互连缩写速查

G.7 本附录使用建议