Skip to content

附录G:缩略语与指标速查

定位:本附录是一份面向全书的术语速查表。当你在正文中遇到不熟悉的缩略语或性能指标时,可以随时翻到此处查找定义。第一部分按字母顺序汇总全书核心缩略语,第二部分对最重要的性能指标给出计算公式和工程含义。


G.1 缩略语速查表

下表按字母顺序收录全书出现的关键缩略语。"首现章节"标注该术语首次被详细介绍的位置,供读者回跳查阅完整解释。

A–B

缩略语全称中文释义首现章节
AdamWAdam with Decoupled Weight Decay解耦权重衰减的 Adam 优化器§1.3
AI InfraAI InfrastructureAI 基础设施§11.1
ALiBiAttention with Linear Biases线性偏置注意力位置编码§3.4
AMPAutomatic Mixed Precision自动混合精度§1.5
ARCAI2 Reasoning ChallengeAI2 推理挑战基准§20.3
AWQActivation-aware Weight Quantization激活感知权重量化§19.5
BBHBIG-Bench HardBIG-Bench 高难度子集§20.3
BERTBidirectional Encoder Representations from Transformers双向 Transformer 编码器表示§3.6
BF16Brain Floating Point 16脑浮点 16 位格式§1.5
BOSBeginning of Sequence序列起始符§4.1
BPEByte Pair Encoding字节对编码§4.1

C–D

缩略语全称中文释义首现章节
CECross-Entropy交叉熵(损失函数)§1.2
CLMCausal Language Modeling因果语言建模§0.2
CoTChain of Thought思维链(推理策略)§17.2
CPContext Parallelism上下文并行§10.1
CUDACompute Unified Device Architecture统一计算设备架构§9.1
DDPDistributed Data Parallel分布式数据并行§10.1
DPData Parallelism数据并行§10.1
DPODirect Preference Optimization直接偏好优化§16.5

E–F

缩略语全称中文释义首现章节
E2EEnd-to-End端到端§19.1
ELOElo Rating SystemElo 评分系统(源自国际象棋)§20.1
EOSEnd of Sequence序列结束符§4.1
EPExpert Parallelism专家并行§10.1
FFNFeed-Forward Network前馈网络§3.2
FLOPsFloating-point Operations浮点运算次数(计数值)§9.5
FLOPSFloating-point Operations Per Second每秒浮点运算次数(速率)§9.5
FP88-bit Floating Point8 位浮点格式§1.5
FP16Half-precision Floating Point半精度浮点(16 位)§1.5
FP32Single-precision Floating Point单精度浮点(32 位)§1.5
FP64Double-precision Floating Point双精度浮点(64 位)§11.1
FSDPFully Sharded Data Parallel完全分片数据并行§10.2

G–I

缩略语全称中文释义首现章节
GDDRGraphics Double Data Rate图形双倍数据速率显存§9.2
GELUGaussian Error Linear Unit高斯误差线性单元(激活函数)§3.2
GEMMGeneral Matrix Multiply通用矩阵乘法§19.1
GEMVGeneral Matrix-Vector Multiply通用矩阵-向量乘法§19.1
GPCGraphics Processing Cluster图形处理集群(GPU 内部结构)§9.1
GPTQGPT QuantizationGPT 量化方法§19.5
GQAGrouped-Query Attention分组查询注意力§3.4
GRPOGroup Relative Policy Optimization分组相对策略优化§16.6
GSM8KGrade School Math 8K小学数学 8K 题基准§20.3
HBMHigh Bandwidth Memory高带宽内存§9.2
HELMHolistic Evaluation of Language Models语言模型全面评估框架§20.3
HPCHigh-Performance Computing高性能计算§11.1
IBInfiniBandInfiniBand 高速互连协议§11.3
ICLIn-Context Learning上下文学习§17.2
INT44-bit Integer4 位整数量化§19.5
INT88-bit Integer8 位整数量化§19.5
IsoFLOPIso-FLOP (Equal Compute)等算力线分析方法§5.5

K–M

缩略语全称中文释义首现章节
KLKullback-Leibler (Divergence)KL 散度§1.2
KV CacheKey-Value Cache键值缓存§19.1
LLMLarge Language Model大语言模型§0.1
LoRALow-Rank Adaptation低秩适应(参数高效微调方法)§15.2
MAEMean Absolute Error平均绝对误差§1.2
MATHMathematics Aptitude Test of Heuristics数学推理基准§20.3
MBPPMostly Basic Programming Problems基础编程问题基准§20.3
MFUModel FLOPs Utilization模型浮点利用率§9.5
MHAMulti-Head Attention多头注意力§3.2
MLAMulti-head Latent Attention多头潜在注意力§6.6
MLMMasked Language Modeling掩码语言建模§3.6
MLLMMultimodal Large Language Model多模态大语言模型§23.1
MMLUMassive Multitask Language Understanding大规模多任务语言理解基准§20.3
MoEMixture of Experts混合专家模型§7.7
MQAMulti-Query Attention多查询注意力§3.4
MSEMean Squared Error均方误差§1.2
muP / μPMaximal Update Parameterization最大更新参数化§5.5

N–P

缩略语全称中文释义首现章节
NCCLNVIDIA Collective Communications LibraryNVIDIA 集体通信库§10.4
NLPNatural Language Processing自然语言处理§0.1
NVLinkNVIDIA NVLinkNVIDIA 高速 GPU 互连§11.3
ONNXOpen Neural Network Exchange开放神经网络交换格式§19.4
P9999th Percentile Latency第 99 百分位尾延迟§19.3
PCIePeripheral Component Interconnect Express高速外设互连标准§9.1
PEFTParameter-Efficient Fine-Tuning参数高效微调§15.1
PPPipeline Parallelism流水线并行§10.1
PPLPerplexity困惑度§5.1
PPOProximal Policy Optimization近端策略优化§16.3

Q–R

缩略语全称中文释义首现章节
QLoRAQuantized Low-Rank Adaptation量化低秩适应§15.3
QPSQueries Per Second每秒查询数§11.1
RAGRetrieval-Augmented Generation检索增强生成§22.1
RDMARemote Direct Memory Access远程直接内存访问§11.3
RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习§16.1
RMSNormRoot Mean Square Normalization均方根归一化§3.2
RoCERDMA over Converged Ethernet基于融合以太网的 RDMA§11.3
RoPERotary Position Embedding旋转位置编码§3.3
RPSRequests Per Second每秒请求数§19.1

S–T

缩略语全称中文释义首现章节
SFTSupervised Fine-Tuning有监督微调§12.1
SGDStochastic Gradient Descent随机梯度下降§1.3
SiLUSigmoid Linear UnitSigmoid 线性单元(激活函数)§3.2
SIMTSingle Instruction, Multiple Threads单指令多线程(GPU 执行模型)§9.1
SLOService Level Objective服务水平目标§19.6
SMStreaming Multiprocessor流式多处理器§9.1
SPSequence Parallelism序列并行§10.1
SRAMStatic Random-Access Memory静态随机存取存储器§9.2
SwiGLUSwish-Gated Linear UnitSwish 门控线性单元§3.2
TFLOPSTera FLOPS万亿次浮点运算每秒§9.5
TPTensor Parallelism张量并行§10.1
TPOTTime Per Output Token逐 Token 延迟§19.1
TPSTokens Per Second每秒 Token 数§19.1
TSVThrough-Silicon Via硅通孔(HBM 堆叠技术)§9.2
TTFTTime to First Token首 Token 延迟§19.1

V–Z

缩略语全称中文释义首现章节
ViTVision Transformer视觉 Transformer§3.7
VLMVision-Language Model视觉-语言模型§23.1
WSDWarmup-Stable-Decay预热-稳定-衰减调度器§1.3
ZeROZero Redundancy Optimizer零冗余优化器§10.2

G.2 集体通信原语速查

分布式训练中频繁出现的集体通信操作,本表汇总其含义和典型使用场景。

操作英文全称作用典型场景
All-ReduceAll-Reduce所有设备的张量做规约(如求和),结果广播给所有设备DDP 梯度同步
All-GatherAll-Gather收集所有设备的张量碎片,拼接为完整张量分发给所有设备FSDP 前向参数还原
Reduce-ScatterReduce-Scatter规约后将结果分片分发给各设备FSDP 反向梯度同步
All-to-AllAll-to-All每对设备之间交换不同的数据块MoE 专家并行 Token 路由
BroadcastBroadcast从一个源设备将数据复制到所有设备模型参数初始化分发

→ 详见 §10.4–§10.5


G.3 关键指标详解

本节对全书中最重要的性能指标给出精确的定义、计算公式和工程含义。


G.3.1 困惑度(Perplexity, PPL)

定义: 语言模型在测试集上的"困惑"程度,衡量模型对下一个 Token 预测的不确定性。PPL 越低,模型对数据分布的拟合越好。

公式:

PPL=exp(1Ni=1NlogP(xix<i))

其中 N 为 Token 总数,P(xix<i) 为模型在给定上文条件下对第 i 个 Token 的预测概率。

工程含义:

  • PPL 是预训练阶段最核心的优化目标(即交叉熵损失的指数形式)。
  • 一个 PPL = 10 的模型,直觉上相当于"每步平均在 10 个等概率候选中做选择"。
  • PPL 在不同 Tokenizer 之间不可直接比较——词表越大,单 Token 承载的信息越多,PPL 的基数不同。
  • Scaling Law 中的损失 L 即为交叉熵损失:L=log(PPL)

→ 详见 §5.1, §5.5


G.3.2 FLOPs 与 FLOPS

FLOPs(Floating-point Operations) 是一个计数值,表示完成某个计算任务所需的浮点运算总次数。例如"训练 GPT-3 大约需要 3.14×1023 FLOPs"。

FLOPS(Floating-point Operations Per Second) 是一个速率,表示硬件每秒能执行的浮点运算次数。例如"H100 的 BF16 理论峰值约为 989 TFLOPS"。

常用量级前缀:

前缀符号数量级示例
TeraT1012TFLOPS(单卡算力常用单位)
PetaP1015PFLOPS(小型集群算力)
ExaE1018EFLOPS(大型集群算力)

6PD 法则: 训练一个有 P 个参数的模型,在 D 个 Token 上完成一轮训练,总计算量约为:

FLOPstrain6PD

其中前向传播贡献 2PD,反向传播贡献 4PD

→ 详见 §9.5


G.3.3 模型浮点利用率(MFU)

定义: GPU 实际执行的"有用计算"占硬件理论峰值的比例。

公式:

MFU=实际达到的模型有效 FLOPS硬件理论峰值 FLOPS

其中:

实际 FLOPS=单步 FLOPs(由模型结构决定)单步墙钟时间(实际测量)

工程含义:

  • MFU > 50% 即为良好。
  • 同样的硬件,MFU 从 30% 提升到 50%,训练时间缩短约 40%。
  • 常见瓶颈:数据加载 I/O、通信开销、Kernel 启动开销、内存带宽受限。
  • 优化手段:增大 batch size、算子融合(torch.compile)、混合精度、数据加载流水线。

→ 详见 §9.5


G.3.4 算术强度(Arithmetic Intensity)

定义: 一个计算任务中"计算量"与"内存访问量"的比值,用于判断性能瓶颈。

公式:

Arithmetic Intensity=FLOPsBytes Accessed(单位:FLOPs/Byte)

典型操作的算术强度:

操作算术强度瓶颈类型
逐元素操作(ReLU、Add)~0.1 FLOPs/Byte内存受限
向量点积~0.25 FLOPs/Byte内存受限
矩阵乘法 n×nn/6 FLOPs/Byten 足够大时计算受限

Roofline 模型: 将算术强度与硬件参数结合,可判断任何算子的性能瓶颈:

P=min(π, βI)

其中 π 为峰值计算性能,β 为峰值内存带宽,I 为算术强度。两条线的交点处的算术强度称为脊点(Ridge Point):I=π/β

以 A100 为例:I=19.5 TFLOPS/2 TB/s10 FLOPs/Byte

→ 详见 §9.2


G.3.5 推理性能指标

大模型推理的性能指标分为延迟和吞吐两大类:

延迟指标

指标全称定义影响因素
TTFTTime to First Token从提交请求到收到第一个输出 Token 的时间Prompt 长度、Prefill 计算量
TPOTTime Per Output TokenDecode 阶段连续两个 Token 之间的平均时间间隔模型大小、KV Cache 读取速度
E2E LatencyEnd-to-End Latency从请求发送到接收完整响应的总时间TTFT + TPOT × 输出长度

公式关系:

TPOT=总延迟TTFT输出 Token 数E2E Latency=TTFT+TPOT×N

吞吐指标

指标全称定义公式
TPSTokens Per Second系统每秒处理的 Token 数TPSprefill=S/TTFTTPSdecode=1/TPOT
RPSRequests Per Second系统每秒完成的请求数RPSTPSdecode/N

典型数值参考(A100, Llama 2 13B, Prompt 512 Token):

指标典型值
TTFT200–300 ms
TPOT30–50 ms
Prefill TPS~2000 Token/s
Decode TPS~20–30 Token/s

→ 详见 §19.1


G.3.6 Scaling Law 核心公式

Kaplan 幂律(2020): 损失与参数量/数据量/计算量各自满足独立的幂律关系:

L(x)=(xcx)α+E

其中 E 为不可约误差,α 为缩放指数。

Chinchilla 联合损失公式(2022):

L(N,D)=E+ANα+BDβ

最优资源分配对比:

维度Kaplan (2020)Chinchilla (2022)
NoptC?C0.74C0.50
DoptC?C0.27C0.50
Token/Parameter 比远低于 20:1约 20:1(Chinchilla Ratio)

计算量基本关系: C6ND

→ 详见 §5.5


G.3.7 Elo 评分(Chatbot Arena)

定义: 基于配对比较的评分系统,用于人类偏好排名。

预期胜率公式:

EA=11+10(RBRA)/400

评分更新:

RAnew=RA+K(SAEA)

其中 SA{0,0.5,1}(负/平/胜),K 为更新系数(通常 16–32)。分差 400 分对应约 10:1 的胜率。

→ 详见 §20.1


G.3.8 评估基准常用指标

指标含义适用基准
Accuracy正确率 = 正确数 / 总数MMLU, ARC, HellaSwag
Pass@kk 次采样中至少一次通过的概率HumanEval, MBPP
BLEU基于 n-gram 精确率的翻译质量指标机器翻译任务
ROUGE基于 n-gram 召回率的摘要质量指标文本摘要任务
F1精确率与召回率的调和平均阅读理解、NER
Elo Score基于配对投票的相对排名分Chatbot Arena

→ 详见 §20.2–§20.3


G.4 数据精度格式速查

不同浮点格式在全书中频繁出现,下表汇总其位宽、数值范围和典型用途。

格式总位宽指数位 / 尾数位动态范围典型用途
FP32328 / 2310±38优化器状态、梯度累加
FP16165 / 1010±5早期混合精度训练
BF16168 / 710±38主流混合精度训练(精度略低但范围大)
FP8 (E4M3)84 / 310±2H100+ 前向计算
FP8 (E5M2)85 / 210±4H100+ 反向计算
INT88[128,127]推理量化(权重/激活)
INT44[8,7]极致推理量化(仅权重)

→ 详见 §1.5, §19.5


G.5 并行策略缩写速查

缩写全称切分维度通信特征典型部署位置
DPData Parallelism训练数据All-Reduce 梯度任意
DDPDistributed Data Parallel训练数据Ring-AllReduce任意
FSDP/ZeROFully Sharded DP / Zero Redundancy Optimizer优化器状态/梯度/参数All-Gather + Reduce-Scatter任意
TPTensor Parallelism权重矩阵(宽度)每层 All-Reduce节点内(NVLink)
PPPipeline Parallelism模型层(深度)激活值点对点传递节点间
SPSequence Parallelism序列长度(逐点操作)与 TP 配合切换节点内
CPContext Parallelism序列长度(注意力内部)Ring Attention 等节点内/间
EPExpert Parallelism专家网络All-to-All Token 路由节点内/间

→ 详见 §10.1–§10.8


G.6 硬件互连缩写速查

缩写全称中文释义典型带宽使用层级
NVLinkNVIDIA NVLink高速 GPU 互连900 GB/s (H100)节点内 GPU 间
NVSwitchNVIDIA NVSwitchNVLink 交换芯片全互连节点内
PCIePCI Express高速外设总线64 GB/s (Gen5 x16)GPU-CPU、GPU-NIC
InfiniBandInfiniBand高性能网络互连400 Gbps (NDR)节点间
RoCERDMA over Converged Ethernet以太网上的 RDMA400 Gbps节点间(替代 IB)
RDMARemote Direct Memory Access远程直接内存访问IB / RoCE 底层技术
NCCLNVIDIA Collective Communications Library集体通信库软件层

→ 详见 §11.3–§11.5


G.7 本附录使用建议

  1. 快速查找:遇到不认识的缩略语时,在 G.1 的分字母表格中按首字母定位,获取全称和首现章节。
  2. 深入理解:对于性能指标,跳转至 G.3 获取公式和工程含义,再通过"详见"链接回到正文获取完整上下文。
  3. 精度选型:G.4 帮助快速确认不同数据格式的位宽和适用场景。
  4. 并行策略选择:G.5 提供了所有并行策略的切分维度和通信特征一览,便于设计混合并行方案时快速对比。