附录G:缩略语与指标速查
定位:本附录是一份面向全书的术语速查表。当你在正文中遇到不熟悉的缩略语或性能指标时,可以随时翻到此处查找定义。第一部分按字母顺序汇总全书核心缩略语,第二部分对最重要的性能指标给出计算公式和工程含义。
G.1 缩略语速查表
下表按字母顺序收录全书出现的关键缩略语。"首现章节"标注该术语首次被详细介绍的位置,供读者回跳查阅完整解释。
A–B
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| AdamW | Adam with Decoupled Weight Decay | 解耦权重衰减的 Adam 优化器 | §1.3 |
| AI Infra | AI Infrastructure | AI 基础设施 | §11.1 |
| ALiBi | Attention with Linear Biases | 线性偏置注意力位置编码 | §3.4 |
| AMP | Automatic Mixed Precision | 自动混合精度 | §1.5 |
| ARC | AI2 Reasoning Challenge | AI2 推理挑战基准 | §20.3 |
| AWQ | Activation-aware Weight Quantization | 激活感知权重量化 | §19.5 |
| BBH | BIG-Bench Hard | BIG-Bench 高难度子集 | §20.3 |
| BERT | Bidirectional Encoder Representations from Transformers | 双向 Transformer 编码器表示 | §3.6 |
| BF16 | Brain Floating Point 16 | 脑浮点 16 位格式 | §1.5 |
| BOS | Beginning of Sequence | 序列起始符 | §4.1 |
| BPE | Byte Pair Encoding | 字节对编码 | §4.1 |
C–D
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| CE | Cross-Entropy | 交叉熵(损失函数) | §1.2 |
| CLM | Causal Language Modeling | 因果语言建模 | §0.2 |
| CoT | Chain of Thought | 思维链(推理策略) | §17.2 |
| CP | Context Parallelism | 上下文并行 | §10.1 |
| CUDA | Compute Unified Device Architecture | 统一计算设备架构 | §9.1 |
| DDP | Distributed Data Parallel | 分布式数据并行 | §10.1 |
| DP | Data Parallelism | 数据并行 | §10.1 |
| DPO | Direct Preference Optimization | 直接偏好优化 | §16.5 |
E–F
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| E2E | End-to-End | 端到端 | §19.1 |
| ELO | Elo Rating System | Elo 评分系统(源自国际象棋) | §20.1 |
| EOS | End of Sequence | 序列结束符 | §4.1 |
| EP | Expert Parallelism | 专家并行 | §10.1 |
| FFN | Feed-Forward Network | 前馈网络 | §3.2 |
| FLOPs | Floating-point Operations | 浮点运算次数(计数值) | §9.5 |
| FLOPS | Floating-point Operations Per Second | 每秒浮点运算次数(速率) | §9.5 |
| FP8 | 8-bit Floating Point | 8 位浮点格式 | §1.5 |
| FP16 | Half-precision Floating Point | 半精度浮点(16 位) | §1.5 |
| FP32 | Single-precision Floating Point | 单精度浮点(32 位) | §1.5 |
| FP64 | Double-precision Floating Point | 双精度浮点(64 位) | §11.1 |
| FSDP | Fully Sharded Data Parallel | 完全分片数据并行 | §10.2 |
G–I
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| GDDR | Graphics Double Data Rate | 图形双倍数据速率显存 | §9.2 |
| GELU | Gaussian Error Linear Unit | 高斯误差线性单元(激活函数) | §3.2 |
| GEMM | General Matrix Multiply | 通用矩阵乘法 | §19.1 |
| GEMV | General Matrix-Vector Multiply | 通用矩阵-向量乘法 | §19.1 |
| GPC | Graphics Processing Cluster | 图形处理集群(GPU 内部结构) | §9.1 |
| GPTQ | GPT Quantization | GPT 量化方法 | §19.5 |
| GQA | Grouped-Query Attention | 分组查询注意力 | §3.4 |
| GRPO | Group Relative Policy Optimization | 分组相对策略优化 | §16.6 |
| GSM8K | Grade School Math 8K | 小学数学 8K 题基准 | §20.3 |
| HBM | High Bandwidth Memory | 高带宽内存 | §9.2 |
| HELM | Holistic Evaluation of Language Models | 语言模型全面评估框架 | §20.3 |
| HPC | High-Performance Computing | 高性能计算 | §11.1 |
| IB | InfiniBand | InfiniBand 高速互连协议 | §11.3 |
| ICL | In-Context Learning | 上下文学习 | §17.2 |
| INT4 | 4-bit Integer | 4 位整数量化 | §19.5 |
| INT8 | 8-bit Integer | 8 位整数量化 | §19.5 |
| IsoFLOP | Iso-FLOP (Equal Compute) | 等算力线分析方法 | §5.5 |
K–M
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| KL | Kullback-Leibler (Divergence) | KL 散度 | §1.2 |
| KV Cache | Key-Value Cache | 键值缓存 | §19.1 |
| LLM | Large Language Model | 大语言模型 | §0.1 |
| LoRA | Low-Rank Adaptation | 低秩适应(参数高效微调方法) | §15.2 |
| MAE | Mean Absolute Error | 平均绝对误差 | §1.2 |
| MATH | Mathematics Aptitude Test of Heuristics | 数学推理基准 | §20.3 |
| MBPP | Mostly Basic Programming Problems | 基础编程问题基准 | §20.3 |
| MFU | Model FLOPs Utilization | 模型浮点利用率 | §9.5 |
| MHA | Multi-Head Attention | 多头注意力 | §3.2 |
| MLA | Multi-head Latent Attention | 多头潜在注意力 | §6.6 |
| MLM | Masked Language Modeling | 掩码语言建模 | §3.6 |
| MLLM | Multimodal Large Language Model | 多模态大语言模型 | §23.1 |
| MMLU | Massive Multitask Language Understanding | 大规模多任务语言理解基准 | §20.3 |
| MoE | Mixture of Experts | 混合专家模型 | §7.7 |
| MQA | Multi-Query Attention | 多查询注意力 | §3.4 |
| MSE | Mean Squared Error | 均方误差 | §1.2 |
| muP / μP | Maximal Update Parameterization | 最大更新参数化 | §5.5 |
N–P
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| NCCL | NVIDIA Collective Communications Library | NVIDIA 集体通信库 | §10.4 |
| NLP | Natural Language Processing | 自然语言处理 | §0.1 |
| NVLink | NVIDIA NVLink | NVIDIA 高速 GPU 互连 | §11.3 |
| ONNX | Open Neural Network Exchange | 开放神经网络交换格式 | §19.4 |
| P99 | 99th Percentile Latency | 第 99 百分位尾延迟 | §19.3 |
| PCIe | Peripheral Component Interconnect Express | 高速外设互连标准 | §9.1 |
| PEFT | Parameter-Efficient Fine-Tuning | 参数高效微调 | §15.1 |
| PP | Pipeline Parallelism | 流水线并行 | §10.1 |
| PPL | Perplexity | 困惑度 | §5.1 |
| PPO | Proximal Policy Optimization | 近端策略优化 | §16.3 |
Q–R
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| QLoRA | Quantized Low-Rank Adaptation | 量化低秩适应 | §15.3 |
| QPS | Queries Per Second | 每秒查询数 | §11.1 |
| RAG | Retrieval-Augmented Generation | 检索增强生成 | §22.1 |
| RDMA | Remote Direct Memory Access | 远程直接内存访问 | §11.3 |
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习 | §16.1 |
| RMSNorm | Root Mean Square Normalization | 均方根归一化 | §3.2 |
| RoCE | RDMA over Converged Ethernet | 基于融合以太网的 RDMA | §11.3 |
| RoPE | Rotary Position Embedding | 旋转位置编码 | §3.3 |
| RPS | Requests Per Second | 每秒请求数 | §19.1 |
S–T
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| SFT | Supervised Fine-Tuning | 有监督微调 | §12.1 |
| SGD | Stochastic Gradient Descent | 随机梯度下降 | §1.3 |
| SiLU | Sigmoid Linear Unit | Sigmoid 线性单元(激活函数) | §3.2 |
| SIMT | Single Instruction, Multiple Threads | 单指令多线程(GPU 执行模型) | §9.1 |
| SLO | Service Level Objective | 服务水平目标 | §19.6 |
| SM | Streaming Multiprocessor | 流式多处理器 | §9.1 |
| SP | Sequence Parallelism | 序列并行 | §10.1 |
| SRAM | Static Random-Access Memory | 静态随机存取存储器 | §9.2 |
| SwiGLU | Swish-Gated Linear Unit | Swish 门控线性单元 | §3.2 |
| TFLOPS | Tera FLOPS | 万亿次浮点运算每秒 | §9.5 |
| TP | Tensor Parallelism | 张量并行 | §10.1 |
| TPOT | Time Per Output Token | 逐 Token 延迟 | §19.1 |
| TPS | Tokens Per Second | 每秒 Token 数 | §19.1 |
| TSV | Through-Silicon Via | 硅通孔(HBM 堆叠技术) | §9.2 |
| TTFT | Time to First Token | 首 Token 延迟 | §19.1 |
V–Z
| 缩略语 | 全称 | 中文释义 | 首现章节 |
|---|---|---|---|
| ViT | Vision Transformer | 视觉 Transformer | §3.7 |
| VLM | Vision-Language Model | 视觉-语言模型 | §23.1 |
| WSD | Warmup-Stable-Decay | 预热-稳定-衰减调度器 | §1.3 |
| ZeRO | Zero Redundancy Optimizer | 零冗余优化器 | §10.2 |
G.2 集体通信原语速查
分布式训练中频繁出现的集体通信操作,本表汇总其含义和典型使用场景。
| 操作 | 英文全称 | 作用 | 典型场景 |
|---|---|---|---|
| All-Reduce | All-Reduce | 所有设备的张量做规约(如求和),结果广播给所有设备 | DDP 梯度同步 |
| All-Gather | All-Gather | 收集所有设备的张量碎片,拼接为完整张量分发给所有设备 | FSDP 前向参数还原 |
| Reduce-Scatter | Reduce-Scatter | 规约后将结果分片分发给各设备 | FSDP 反向梯度同步 |
| All-to-All | All-to-All | 每对设备之间交换不同的数据块 | MoE 专家并行 Token 路由 |
| Broadcast | Broadcast | 从一个源设备将数据复制到所有设备 | 模型参数初始化分发 |
→ 详见 §10.4–§10.5
G.3 关键指标详解
本节对全书中最重要的性能指标给出精确的定义、计算公式和工程含义。
G.3.1 困惑度(Perplexity, PPL)
定义: 语言模型在测试集上的"困惑"程度,衡量模型对下一个 Token 预测的不确定性。PPL 越低,模型对数据分布的拟合越好。
公式:
其中
工程含义:
- PPL 是预训练阶段最核心的优化目标(即交叉熵损失的指数形式)。
- 一个 PPL = 10 的模型,直觉上相当于"每步平均在 10 个等概率候选中做选择"。
- PPL 在不同 Tokenizer 之间不可直接比较——词表越大,单 Token 承载的信息越多,PPL 的基数不同。
- Scaling Law 中的损失
即为交叉熵损失: 。
→ 详见 §5.1, §5.5
G.3.2 FLOPs 与 FLOPS
FLOPs(Floating-point Operations) 是一个计数值,表示完成某个计算任务所需的浮点运算总次数。例如"训练 GPT-3 大约需要
FLOPS(Floating-point Operations Per Second) 是一个速率,表示硬件每秒能执行的浮点运算次数。例如"H100 的 BF16 理论峰值约为 989 TFLOPS"。
常用量级前缀:
| 前缀 | 符号 | 数量级 | 示例 |
|---|---|---|---|
| Tera | T | TFLOPS(单卡算力常用单位) | |
| Peta | P | PFLOPS(小型集群算力) | |
| Exa | E | EFLOPS(大型集群算力) |
6PD 法则: 训练一个有
其中前向传播贡献
→ 详见 §9.5
G.3.3 模型浮点利用率(MFU)
定义: GPU 实际执行的"有用计算"占硬件理论峰值的比例。
公式:
其中:
工程含义:
- MFU > 50% 即为良好。
- 同样的硬件,MFU 从 30% 提升到 50%,训练时间缩短约 40%。
- 常见瓶颈:数据加载 I/O、通信开销、Kernel 启动开销、内存带宽受限。
- 优化手段:增大 batch size、算子融合(
torch.compile)、混合精度、数据加载流水线。
→ 详见 §9.5
G.3.4 算术强度(Arithmetic Intensity)
定义: 一个计算任务中"计算量"与"内存访问量"的比值,用于判断性能瓶颈。
公式:
典型操作的算术强度:
| 操作 | 算术强度 | 瓶颈类型 |
|---|---|---|
| 逐元素操作(ReLU、Add) | ~0.1 FLOPs/Byte | 内存受限 |
| 向量点积 | ~0.25 FLOPs/Byte | 内存受限 |
| 矩阵乘法 | 当 |
Roofline 模型: 将算术强度与硬件参数结合,可判断任何算子的性能瓶颈:
其中
以 A100 为例:
→ 详见 §9.2
G.3.5 推理性能指标
大模型推理的性能指标分为延迟和吞吐两大类:
延迟指标
| 指标 | 全称 | 定义 | 影响因素 |
|---|---|---|---|
| TTFT | Time to First Token | 从提交请求到收到第一个输出 Token 的时间 | Prompt 长度、Prefill 计算量 |
| TPOT | Time Per Output Token | Decode 阶段连续两个 Token 之间的平均时间间隔 | 模型大小、KV Cache 读取速度 |
| E2E Latency | End-to-End Latency | 从请求发送到接收完整响应的总时间 | TTFT + TPOT × 输出长度 |
公式关系:
吞吐指标
| 指标 | 全称 | 定义 | 公式 |
|---|---|---|---|
| TPS | Tokens Per Second | 系统每秒处理的 Token 数 | |
| RPS | Requests Per Second | 系统每秒完成的请求数 |
典型数值参考(A100, Llama 2 13B, Prompt 512 Token):
| 指标 | 典型值 |
|---|---|
| TTFT | 200–300 ms |
| TPOT | 30–50 ms |
| Prefill TPS | ~2000 Token/s |
| Decode TPS | ~20–30 Token/s |
→ 详见 §19.1
G.3.6 Scaling Law 核心公式
Kaplan 幂律(2020): 损失与参数量/数据量/计算量各自满足独立的幂律关系:
其中
Chinchilla 联合损失公式(2022):
最优资源分配对比:
| 维度 | Kaplan (2020) | Chinchilla (2022) |
|---|---|---|
| Token/Parameter 比 | 远低于 20:1 | 约 20:1(Chinchilla Ratio) |
计算量基本关系:
→ 详见 §5.5
G.3.7 Elo 评分(Chatbot Arena)
定义: 基于配对比较的评分系统,用于人类偏好排名。
预期胜率公式:
评分更新:
其中
→ 详见 §20.1
G.3.8 评估基准常用指标
| 指标 | 含义 | 适用基准 |
|---|---|---|
| Accuracy | 正确率 = 正确数 / 总数 | MMLU, ARC, HellaSwag |
| Pass@k | HumanEval, MBPP | |
| BLEU | 基于 n-gram 精确率的翻译质量指标 | 机器翻译任务 |
| ROUGE | 基于 n-gram 召回率的摘要质量指标 | 文本摘要任务 |
| F1 | 精确率与召回率的调和平均 | 阅读理解、NER |
| Elo Score | 基于配对投票的相对排名分 | Chatbot Arena |
→ 详见 §20.2–§20.3
G.4 数据精度格式速查
不同浮点格式在全书中频繁出现,下表汇总其位宽、数值范围和典型用途。
| 格式 | 总位宽 | 指数位 / 尾数位 | 动态范围 | 典型用途 |
|---|---|---|---|---|
| FP32 | 32 | 8 / 23 | 优化器状态、梯度累加 | |
| FP16 | 16 | 5 / 10 | 早期混合精度训练 | |
| BF16 | 16 | 8 / 7 | 主流混合精度训练(精度略低但范围大) | |
| FP8 (E4M3) | 8 | 4 / 3 | H100+ 前向计算 | |
| FP8 (E5M2) | 8 | 5 / 2 | H100+ 反向计算 | |
| INT8 | 8 | — | 推理量化(权重/激活) | |
| INT4 | 4 | — | 极致推理量化(仅权重) |
→ 详见 §1.5, §19.5
G.5 并行策略缩写速查
| 缩写 | 全称 | 切分维度 | 通信特征 | 典型部署位置 |
|---|---|---|---|---|
| DP | Data Parallelism | 训练数据 | All-Reduce 梯度 | 任意 |
| DDP | Distributed Data Parallel | 训练数据 | Ring-AllReduce | 任意 |
| FSDP/ZeRO | Fully Sharded DP / Zero Redundancy Optimizer | 优化器状态/梯度/参数 | All-Gather + Reduce-Scatter | 任意 |
| TP | Tensor Parallelism | 权重矩阵(宽度) | 每层 All-Reduce | 节点内(NVLink) |
| PP | Pipeline Parallelism | 模型层(深度) | 激活值点对点传递 | 节点间 |
| SP | Sequence Parallelism | 序列长度(逐点操作) | 与 TP 配合切换 | 节点内 |
| CP | Context Parallelism | 序列长度(注意力内部) | Ring Attention 等 | 节点内/间 |
| EP | Expert Parallelism | 专家网络 | All-to-All Token 路由 | 节点内/间 |
→ 详见 §10.1–§10.8
G.6 硬件互连缩写速查
| 缩写 | 全称 | 中文释义 | 典型带宽 | 使用层级 |
|---|---|---|---|---|
| NVLink | NVIDIA NVLink | 高速 GPU 互连 | 900 GB/s (H100) | 节点内 GPU 间 |
| NVSwitch | NVIDIA NVSwitch | NVLink 交换芯片 | 全互连 | 节点内 |
| PCIe | PCI Express | 高速外设总线 | 64 GB/s (Gen5 x16) | GPU-CPU、GPU-NIC |
| InfiniBand | InfiniBand | 高性能网络互连 | 400 Gbps (NDR) | 节点间 |
| RoCE | RDMA over Converged Ethernet | 以太网上的 RDMA | 400 Gbps | 节点间(替代 IB) |
| RDMA | Remote Direct Memory Access | 远程直接内存访问 | — | IB / RoCE 底层技术 |
| NCCL | NVIDIA Collective Communications Library | 集体通信库 | — | 软件层 |
→ 详见 §11.3–§11.5
G.7 本附录使用建议
- 快速查找:遇到不认识的缩略语时,在 G.1 的分字母表格中按首字母定位,获取全称和首现章节。
- 深入理解:对于性能指标,跳转至 G.3 获取公式和工程含义,再通过"详见"链接回到正文获取完整上下文。
- 精度选型:G.4 帮助快速确认不同数据格式的位宽和适用场景。
- 并行策略选择:G.5 提供了所有并行策略的切分维度和通信特征一览,便于设计混合并行方案时快速对比。