附录F：经典论文索引

定位：本附录按主题分类列出全书引用和深入讨论的核心论文，每篇给出标题、作者、年份、arXiv ID（如有）、一句话摘要，以及在本书中涉及的章节。帮助读者按兴趣找到原文进行深入阅读。
组织方式：论文按主题而非年份组织，共分为 11 个类别。每个类别内部大致按时间顺序排列，方便读者追溯技术演进脉络。每篇论文末尾的 → §X.Y 标注指向本书讨论该工作的具体章节，可直接回跳查阅。
论文格式：标题 (作者, 年份) [arXiv:XXXX.XXXXX] — 一句话摘要。→ §章.节

F.1 Transformer 与注意力机制

这一类论文定义了现代深度学习的基础架构——Transformer，以及围绕注意力机制的一系列关键改进。从原始的 Encoder-Decoder Transformer 到 GPT 系列的 Decoder-Only 范式，从标准多头注意力到各种压缩与稀疏化变体，这些工作共同构成了大语言模型的架构基石。

Attention Is All You Need (Vaswani et al., 2017) [arXiv:1706.03762] — 提出 Transformer 架构，以多头自注意力完全替代 RNN/CNN，奠定了现代大模型的架构基础。→ §2.3, §2.4, §3.1, §3.2

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2018) [arXiv:1810.04805] — 提出双向预训练范式（MLM + NSP），开创了 Encoder-Only 预训练-微调流程。→ §3.6

Improving Language Understanding by Generative Pre-Training (Radford et al., 2018) — GPT-1，首次将自回归预训练 + 判别式微调范式应用于 NLP，证明了单向 Transformer 的通用性。→ §0.3

Language Models are Unsupervised Multitask Learners (Radford et al., 2019) — GPT-2，证明了大规模语言模型可以在零样本条件下完成多种 NLP 任务。→ §0.3

Language Models are Few-Shot Learners (Brown et al., 2020) [arXiv:2005.14165] — GPT-3（175B 参数），首次系统展示了大模型的 In-context Learning 和 Few-shot 能力。→ §0.1, §0.3, §5.5

Llama: Open and Efficient Foundation Language Models (Touvron et al., 2023) [arXiv:2302.13971] — Meta 开源基座模型，使用 Pre-Norm RMSNorm + SwiGLU + RoPE 的现代架构范式。→ §7.1

Llama 2: Open Foundation and Fine-Tuned Chat Models (Touvron et al., 2023) [arXiv:2307.09288] — 引入 GQA（70B 版本）、RLHF 对齐，首个大规模开源商用 LLM。→ §7.1

The Llama 3 Herd of Models (Meta AI, 2024) [arXiv:2407.21783] — 全系列 GQA、128K 词表、15T token 训练，扩展至多模态。→ §7.1

RoFormer: Enhanced Transformer with Rotary Position Embedding (Su et al., 2021) [arXiv:2104.09864] — 提出旋转位置编码（RoPE），通过复数旋转矩阵将相对位置信息自然编码到注意力分数中。→ §3.3

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (Dai et al., 2019) [arXiv:1901.02860] — 引入片段级递推和相对位置编码，使 Transformer 能建模超长上下文依赖。→ §8.3

Longformer: The Long-Document Transformer (Beltagy et al., 2020) [arXiv:2004.05150] — 结合局部滑动窗口注意力与任务相关全局注意力，将注意力复杂度降至线性。→ §8.3

Fast Transformer Decoding: One Write-Head is All You Need (Shazeer, 2019) [arXiv:1911.02150] — 提出多查询注意力（MQA），所有头共享单组 KV，大幅降低推理访存瓶颈。→ §3.4, §6.2

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (Ainslie et al., 2023) [arXiv:2305.13245] — 提出分组查询注意力（GQA），在 MHA 和 MQA 之间取得质量-速度折中。→ §3.4, §6.2

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (Dao et al., 2022) [arXiv:2205.14135] — IO 感知的分块注意力算法，避免 $O (n^{2})$ 显存占用，训练速度提升 2-4 倍。→ §9.4

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning (Dao, 2023) [arXiv:2307.08691] — 优化并行策略与工作分区，进一步提升 FlashAttention 的吞吐量。→ §9.4

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision (Shah et al., 2024) [arXiv:2407.08691] — 利用异步执行和 FP8 低精度进一步提升 H100 上的注意力计算速度。→ §9.4

Gemma 2: Improving Open Language Models at a Practical Size (Google DeepMind, 2024) — 引入 1:1 SWA:Full 混合注意力策略和 logit soft-capping，在中等规模实现高效推理。→ §7.3

Qwen Technical Report (Bai et al., 2023) [arXiv:2309.16609] — 阿里通义千问系列基座模型，验证了 GQA + SwiGLU + RoPE 的标准现代架构。→ §7.2

Qwen2.5 Technical Report (Qwen Team, 2024) [arXiv:2412.15115] — Qwen2.5 系列模型，在 18T token 上训练，覆盖 0.5B-72B 参数规模。→ §7.2

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Dosovitskiy et al., 2020) [arXiv:2010.11929] — Vision Transformer (ViT)，将图像切分为 patch 序列输入 Transformer，证明纯注意力架构在视觉领域同样有效。→ §3.7, §23.1

YaRN: Efficient Context Window Extension of Large Language Models (Peng et al., 2023) [arXiv:2309.00071] — 在 NTK-aware 基础上加入注意力缩放，实现高质量上下文长度扩展。→ §3.3, §8.3

Mistral 7B (Jiang et al., 2023) [arXiv:2310.06825] — 使用 GQA + 滑动窗口注意力的高效 7B 模型，在多项基准上超越 Llama 2 13B。→ §6.4, §7.1

F.2 Scaling Law 与训练方法论

Scaling Law 是大模型研发的"导航图"，它将模型性能与资源投入之间的关系量化为可预测的数学规律。这一类论文帮助研究者在实际训练之前就做出合理的资源分配决策。

Scaling Laws for Neural Language Models (Kaplan et al., 2020) [arXiv:2001.08361] — 首次系统揭示 Transformer 语言模型性能与参数量、数据量、计算量之间的幂律关系，提出优先扩大模型的建议。→ §5.5

Training Compute-Optimal Large Language Models (Hoffmann et al., 2022) [arXiv:2203.15556] — 即 Chinchilla 论文，修正 Kaplan 结论，证明参数量与数据量应等比缩放（约 20 tokens/param）。→ §5.5

Scaling Data-Constrained Language Models (Muennighoff et al., 2023) [arXiv:2305.16264] — 研究数据受限场景下的 Scaling Law，分析数据重复使用对训练效率的影响。→ §5.5

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer (Yang et al., 2022) [arXiv:2203.03466] — 提出 muP（最大更新参数化），使小模型的超参数可以零成本迁移到大模型。→ §5.5

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (Hu et al., 2024) [arXiv:2404.06395] — 使用 muP 和 WSD 调度器在 2B 规模模型上验证 Scaling Law 的实用性。→ §5.5, §5.6

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster (Dey et al., 2023) [arXiv:2304.03208] — 全面采用 muP 训练一系列计算最优模型，验证超参数迁移的有效性。→ §5.5

An Empirical Analysis of Compute-Optimal Large Language Model Training (Sardana & Frankle, 2023) [arXiv:2404.10102] — 在更广泛的实验条件下重新验证 Chinchilla Scaling Law，提出修正建议。→ §5.5

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2019) [arXiv:1910.10683] — T5，将所有 NLP 任务统一为 Text-to-Text 格式，系统比较了预训练策略、架构和数据规模的影响。→ §0.3, §3.1

PaLM: Scaling Language Modeling with Pathways (Chowdhery et al., 2022) [arXiv:2204.02311] — 540B 参数密集模型，使用 Pathways 系统在 6144 TPU 上训练，展示了大规模高效训练的工程实践。→ §5.5, §10.1

F.3 MoE（混合专家）系列

MoE 是实现"更多参数但不增加推理计算量"的核心架构范式。从 1991 年的原始概念到 DeepSeek-V3 的 671B 模型，MoE 经历了三十余年的演进。本书 §8.1 以时间线方式详细梳理了全部演进脉络，以下论文对应该时间线上的关键节点。

Adaptive Mixtures of Local Experts (Jacobs et al., 1991) — MoE 的原始论文，提出门控网络+多个局部专家网络的组合框架，奠定"门控路由+专家并行"的基本范式。→ §8.1

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (Shazeer et al., 2017) [arXiv:1701.06538] — 将 MoE 引入深度学习/Transformer，证明稀疏激活可将参数扩展至千亿级别，首次提出 Top-k 门控和噪声注入策略。→ §8.1

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (Lepikhin et al., 2020) [arXiv:2006.16668] — 将 MoE 扩展到 6000 亿参数，引入专家并行和容量因子机制，首次实现大规模分布式 MoE 训练。→ §8.1

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (Fedus et al., 2022) [arXiv:2101.03961] — 将每 token 路由简化为 Top-1，提出辅助负载均衡损失 $L_{a u x}$ ，成功训练 1.6T 参数模型。→ §8.1

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (Du et al., 2022) [arXiv:2112.06905] — 1.2T 参数 MoE 模型，在多项基准超越 GPT-3，训练能耗仅为 GPT-3 的 1/3。→ §8.1

ST-MoE: Designing Stable and Transferable Sparse Expert Models (Zoph et al., 2022) [arXiv:2202.08906] — 系统研究 MoE 训练稳定性，提出 Router z-loss 正则化技术。→ §8.1

Mixtral of Experts (Jiang et al., 2024) [arXiv:2401.04088] — 8 个 7B 专家，每次激活 2 个（47B 总参数 / 13B 活跃），在 32K 上下文中超越 Llama 2 70B。→ §8.1

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models (Dai et al., 2024) [arXiv:2401.06066] — 提出共享专家+细粒度专家的双重创新范式，在 16B 规模下超越同级 Mixtral。→ §8.1, §8.4

V-MoE: Scaling Vision with Sparse Mixture of Experts (Riquelme et al., 2021) [arXiv:2106.05974] — 将 MoE 引入 Vision Transformer，证明 MoE 在视觉领域同样有效。→ §8.1

Soft-MoE: From Sparse to Soft Mixtures of Experts (Puigcerver et al., 2023) [arXiv:2308.00951] — 将离散 Top-k 路由替换为连续的软分配，消除负载不均衡问题。→ §8.1

Qwen1.5-MoE: A Small Language Model with 2.7B Activated Parameters (Qwen Team, 2024) — 60 个路由专家 + 4 个共享专家，每次激活 4 个，验证了共享专家范式在中等规模的有效性。→ §8.1

Ultra-Sparse Memory Network (He et al., 2024) — 探索极端稀疏度的 MoE 设计，每 token 仅激活极少量参数，研究稀疏化的效率极限。→ §8.1

Hash Layers For Large Sparse Models (Roller et al., 2021) [arXiv:2106.04426] — 使用哈希函数替代可学习路由器进行专家选择，是无门控 MoE 路由的代表性工作。→ §8.1

BASE Layers: Simplifying Training of Large, Sparse Models (Lewis et al., 2021) [arXiv:2103.16716] — 使用线性分配算法替代 Top-k 路由，从优化理论角度重新设计负载均衡。→ §8.1

A Review of Sparse Expert Models in Deep Learning (Fedus et al., 2022) [arXiv:2209.01667] — MoE 领域的综合综述，系统梳理稀疏专家模型的设计空间与挑战。→ §8.1

Llama 4: Maverick and Scout (Meta AI, 2025) — Llama 4 系列引入 MoE 架构（128 路由专家 + 1 共享专家，Top-1 路由），标志着开源模型全面拥抱 MoE。→ §8.1

F.4 创新架构（SSM / 线性注意力 / 循环模型）

这一类论文试图从底层数学原理出发突破 Transformer 的 $O (n^{2})$ 复杂度限制，追求"训练并行、推理 $O (1)$ "的理想目标。

Efficiently Modeling Long Sequences with Structured State Spaces (S4) (Gu et al., 2021) [arXiv:2111.00396] — 将状态空间模型（SSM）成功应用于深度学习，通过 HiPPO 初始化和对角结构约束解决长程依赖建模问题。→ §8.2

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Gu & Dao, 2023) [arXiv:2312.00752] — 将 SSM 参数变为输入的函数（选择性 SSM），配合硬件感知并行扫描算法，3B 模型匹配同规模 Transformer。→ §8.2

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality (Dao & Gu, 2024) [arXiv:2405.21060] — Mamba-2，揭示 SSM 与线性注意力的对偶关系（SSD），引入分块并行训练策略。→ §8.2

RWKV: Reinventing RNNs for the Transformer Era (Peng et al., 2023) [arXiv:2305.13048] — RWKV-4，线性注意力变体的 RNN，14B 规模匹配同级 Transformer，训练可并行、推理 $O (1)$ 。→ §8.2

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence (Peng et al., 2024) [arXiv:2404.05892] — RWKV-5/6，将向量级状态扩展为矩阵级，引入动态数据相关衰减。→ §8.2

RWKV-7 "Goose" with Expressive Dynamic State Evolution (Peng et al., 2025) [arXiv:2503.14456] — 引入广义 Delta 规则，状态转移特征值可超出 $[0, 1]$ ，2.9B 模型达到 3B SoTA。→ §8.2

Retentive Network: A Successor to Transformer for Large Language Models (Sun et al., 2023) [arXiv:2307.08621] — 提出保留机制（Retention），支持并行/递推/分块递推三种计算范式，解码速度达 Transformer 8.4 倍。→ §8.2

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention (Katharopoulos et al., 2020) [arXiv:2006.16236] — 首次明确线性注意力与 RNN 的等价关系，将注意力复杂度从 $O (n^{2})$ 降至 $O (n)$ 。→ §8.2

Gated Delta Networks: Improving Mamba2 with Delta Rule (Yang et al., 2024) [arXiv:2412.06464] — 融合门控衰减与 Delta 规则的"先删后写"更新，超越 Mamba-2 和 DeltaNet；已被 Qwen3.5 采用。→ §6.6, §8.2

Gated Linear Attention Transformers with Hardware-Efficient Training (Yang et al., 2023) [arXiv:2312.06635] — GLA（Gated Linear Attention），数据相关对角衰减的线性注意力，与 RWKV-6 数学等价。→ §8.2

HiPPO: Recurrent Memory with Optimal Polynomial Projections (Gu et al., 2020) [arXiv:2008.07669] — 提出 HiPPO 框架，为 SSM 的状态矩阵 $A$ 提供最优初始化方案，是 S4 和 Mamba 的理论基石。→ §8.2

An Attention Free Transformer (Zhai et al., 2021) [arXiv:2105.14103] — AFT，使用逐元素操作替代点积注意力，探索无注意力 Transformer 的可行性。→ §8.2

Jamba: A Hybrid Transformer-Mamba Language Model (Lieber et al., 2024) [arXiv:2403.19887] — 混合架构，交替使用 Transformer 注意力层和 Mamba SSM 层，兼顾长上下文处理与表达能力。→ §8.2

The Illusion of State in State-Space Models (Merrill et al., 2024) [arXiv:2404.08819] — 从形式语言理论角度分析 SSM 的表达能力边界，证明线性时不变 SSM 无法识别某些正则语言。→ §8.2

F.5 DeepSeek 系列

DeepSeek 系列是中国 AI 公司在大模型架构创新上的代表性工作，从 MLA 到 Loss-Free 负载均衡再到纯 RL 推理训练，多项设计具有行业影响力。

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (DeepSeek-AI, 2024) [arXiv:2405.04434] — 236B/21B 参数，首次引入 MLA（多头潜在注意力，KV Cache 压缩 57 倍）和设备感知路由，训练成本节省 42.5%。→ §6.3, §8.4

DeepSeek-V3 Technical Report (DeepSeek-AI, 2024) [arXiv:2412.19437] — 671B/37B 参数 MoE 模型，引入 Sigmoid 路由（替代 Softmax）、Loss-Free 负载均衡、Multi-Token Prediction 训练目标，仅 2.788M H800 GPU 小时完成训练。→ §8.1, §8.4, §10.4

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-AI, 2025) [arXiv:2501.12948] — R1-Zero 无 SFT 冷启动纯 RL 训练方案，推理能力自发涌现，性能匹配 OpenAI o1-1217。→ §17.0, §18.1, §18.5

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention (Yuan et al., 2025) [arXiv:2502.11089] — DeepSeek NSA，动态层次化稀疏注意力，粗粒度压缩+细粒度选择，端到端可训练。→ §8.3

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation (Wu et al., 2024) [arXiv:2410.13848] — 解耦视觉编码路径，单一 Transformer 统一多模态理解与生成。→ §23.1

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling (Chen et al., 2025) [arXiv:2501.17811] — Janus 的增强版，优化训练策略并扩展至更大模型规模。→ §23.1

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation (Ma et al., 2024) [arXiv:2411.07975] — 将自回归语言模型与修正流（Rectified Flow）集成于单一架构中，统一图像理解与生成。→ §23.1, §23.3

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence (DeepSeek-AI, 2024) [arXiv:2406.11931] — 基于 DeepSeek-V2 架构的代码专用模型，236B/21B 参数，在代码生成和数学推理上超越 GPT-4 Turbo。→ §8.4

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (Shao et al., 2024) [arXiv:2402.03300] — 提出 GRPO（Group Relative Policy Optimization）算法，7B 模型数学推理接近 GPT-4。→ §16.3, §18.2

F.6 对齐与偏好优化

这一类论文定义了"如何让大模型按人类意图行事"的技术路线，从最早的 RLHF 到无需奖励模型的 DPO，再到群相对策略优化 GRPO，形成了一个从复杂到简洁、从在线到离线的算法光谱。

Training Language Models to Follow Instructions with Human Feedback (Ouyang et al., 2022) [arXiv:2203.02155] — InstructGPT 论文，提出 SFT → RM → PPO 的三阶段 RLHF 流程，奠定了后训练对齐的标准范式。→ §15.2

Proximal Policy Optimization Algorithms (Schulman et al., 2017) [arXiv:1707.06347] — 提出 PPO，通过裁剪策略比率实现稳定的策略梯度更新，成为 RLHF 的核心优化器。→ §16.2

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023) [arXiv:2305.18290] — 提出 DPO，将奖励建模与策略优化合为一步，无需显式奖励模型即可直接从偏好对优化策略。→ §16.1

DAPO: An Open-Source LLM Reinforcement Learning System (Yu et al., 2025) [arXiv:2503.14476] — 提出非对称裁剪、动态采样、token 级长度归一化三项工程优化，缓解熵崩溃问题。→ §15.7, §16.5

KTO: Model Alignment as Prospect Theoretic Optimization (Ethayarajh et al., 2024) [arXiv:2402.01306] — 基于 Kahneman-Tversky 前景理论的对齐方法，仅需二进制反馈而非偏好对。→ §16.5

ORPO: Monolithic Preference Optimization without Reference Model (Hong et al., 2024) [arXiv:2403.07691] — 使用赔率比偏好优化，完全去除参考模型。→ §16.5

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (Snell et al., 2024) [arXiv:2408.03314] — 系统分析推理时间计算缩放的最优策略，提出过程奖励模型引导的搜索方法。→ §17.6

Let's Verify Step by Step (Lightman et al., 2023) [arXiv:2305.20050] — 提出过程奖励模型（PRM），通过逐步验证推理过程显著提升数学推理准确率。→ §15.4

Trust Region Policy Optimization (Schulman et al., 2015) [arXiv:1502.05477] — 提出 TRPO，通过约束策略更新步长保证单调改进，是 PPO 的理论前身。→ §15.1, §16.2

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (Lee et al., 2023) [arXiv:2309.00267] — 用 AI 生成的偏好反馈替代人类标注，显著降低 RLHF 的数据成本。→ §15.3

Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022) [arXiv:2212.08073] — Anthropic 提出宪法 AI 方法，让模型自我批评并修正有害输出，减少对人类红队的依赖。→ §15.3

Generalized Knowledge Distillation for Auto-regressive Language Models (Agarwal et al., 2024) [arXiv:2306.13649] — GKD，解决自回归蒸馏中训练-推理的分布不匹配问题。→ §14.4

SPO: Sequential Monte Carlo Policy Optimisation (Wu et al., 2024) [arXiv:2405.21474] — 单流策略优化，使用自适应 baseline，不需要偏好对或参考模型。→ §16.5

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks (Yue et al., 2025) [arXiv:2504.05118] — Value-based Augmented PPO，细粒度信用分配在 AIME 2024 上达到 60.4 分。→ §16.5

GRPO with Replay Buffer: Improving Sample Efficiency — GRPO 的离线扩展，引入经验回放缓冲区提升样本利用率。→ §16.4

F.7 推理与推理时间缩放

这一类论文关注如何通过推理阶段的计算投入提升模型输出质量，以及如何让语言模型学会"思考"。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022) [arXiv:2201.11903] — 首次系统展示思维链（CoT）提示如何激发大模型的逐步推理能力。→ §17.2

Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022) [arXiv:2203.11171] — 提出自一致性方法，通过多次采样 + 多数投票提升 CoT 推理的可靠性。→ §17.4

Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023) [arXiv:2305.10601] — 将推理过程从链式扩展为树形搜索，引入回溯和分支评估机制。→ §17.2

STaR: Bootstrapping Reasoning With Reasoning (Zelikman et al., 2022) [arXiv:2203.14465] — 提出自举推理训练（Self-Taught Reasoner），模型通过自我生成推理链并过滤正确答案来迭代提升推理能力。→ §18.1

ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022) [arXiv:2210.03629] — 提出推理-动作交替框架，让 LLM 在推理中调用外部工具，成为 Agent 架构的基础范式。→ §21.1

Voyager: An Open-Ended Embodied Agent with Large Language Models (Wang et al., 2023) [arXiv:2305.16291] — 首个由 LLM 驱动的 Minecraft 开放世界自主探索 Agent，展示了技能库自动生长能力。→ §21.3

Toolformer: Language Models Can Teach Themselves to Use Tools (Schick et al., 2023) [arXiv:2302.04761] — 让语言模型自我学习何时以及如何调用外部 API（计算器、搜索等），无需人工标注工具调用数据。→ §21.1

Generative Agents: Interactive Simulacra of Human Behavior (Park et al., 2023) [arXiv:2304.03442] — 使用 LLM 构建具有记忆、反思和规划能力的虚拟 Agent 社区。→ §21.3, §21.7

OpenAI o1 System Card (OpenAI, 2024) — OpenAI o1 推理模型技术报告，系统展示了通过推理时间缩放实现复杂推理的范式。→ §17.0, §17.6

Kimi k1.5: Scaling Reinforcement Learning with LLMs (Moonshot AI, 2025) [arXiv:2501.12599] — 使用长思维链 RL 训练和 MoBA 注意力机制，在数学和代码推理上达到前沿水平。→ §18.1

Best-of-N Sampling — 一种通用的推理时间缩放方法：对同一问题采样 N 个候选回答，使用奖励模型选出最优，以推理计算换取输出质量。→ §17.5

Self-Refine: Iterative Refinement with Self-Feedback (Madaan et al., 2023) [arXiv:2303.17651] — 让 LLM 对自身输出进行迭代反馈与改进，无需外部反馈即可提升生成质量。→ §17.5

F.8 多模态

这一类论文涵盖视觉-语言对齐、图像生成（扩散模型/流模型）、视频生成等多模态方向的核心工作。

Learning Transferable Visual Models From Natural Language Supervision (Radford et al., 2021) [arXiv:2103.00020] — CLIP，通过对比学习将图像和文本映射到统一嵌入空间，奠定了视觉-语言多模态的基础。→ §23.1

Visual Instruction Tuning (Liu et al., 2023) [arXiv:2304.08485] — LLaVA，将视觉编码器与 LLM 结合，通过指令微调实现视觉问答与推理。→ §23.1

Denoising Diffusion Probabilistic Models (Ho et al., 2020) [arXiv:2006.11239] — DDPM，提出前向加噪+逆向去噪的扩散模型框架，开启了高质量图像生成的新时代。→ §23.3

High-Resolution Image Synthesis with Latent Diffusion Models (Rombach et al., 2021) [arXiv:2112.10752] — Stable Diffusion / Latent Diffusion Model，将扩散过程移至 VAE 的潜空间，大幅降低计算成本。→ §23.3

Denoising Diffusion Implicit Models (Song et al., 2020) [arXiv:2010.02502] — DDIM，将扩散过程从随机 SDE 转为确定性 ODE，实现加速采样。→ §23.3

Scalable Diffusion Models with Transformers (Peebles & Xie, 2023) [arXiv:2212.09748] — DiT（Diffusion Transformer），用 Transformer 替代 U-Net 作为扩散模型骨干，开启架构升级方向。→ §23.3

Flow Matching for Generative Modeling (Lipman et al., 2022) [arXiv:2210.02747] — 流匹配方法，提供更简洁的生成建模框架，直接学习概率路径上的向量场。→ §23.3

Video Generation Models as World Simulators (Brooks et al., 2024) — OpenAI Sora 技术报告，使用 Diffusion Transformer 在时空 patch 上进行视频生成，展示了"世界模拟器"的可能性。→ §23.4

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Li et al., 2023) [arXiv:2301.12597] — 通过 Q-Former 桥接冻结的视觉编码器和 LLM，高效实现视觉-语言对齐。→ §23.1

Classifier-Free Diffusion Guidance (Ho & Salimans, 2022) [arXiv:2207.12598] — 提出无分类器引导（CFG），通过联合训练条件/无条件模型在采样时控制生成方向，成为扩散模型的标准技术。→ §23.3

Score-Based Generative Modeling through Stochastic Differential Equations (Song et al., 2020) [arXiv:2011.13456] — 将扩散过程统一为 SDE 框架，连接了得分匹配与扩散模型，提供了理论基础。→ §23.3

Consistency Models (Song et al., 2023) [arXiv:2303.01469] — 一致性模型，直接学习概率流 ODE 的映射，实现单步或少步高质量生成。→ §23.3

COSMOS: World Foundation Model (NVIDIA, 2025) — 物理 AI 世界模型，用于自动驾驶和机器人场景的视频生成与物理仿真。→ §24.5

Emu: Generative Pretraining in Multimodality (Sun et al., 2023) [arXiv:2307.05222] — 将 LLM 输出作为扩散模型的条件，实现多模态理解与图像生成的统一框架。→ §23.1

U-Net: Convolutional Networks for Biomedical Image Segmentation (Ronneberger et al., 2015) [arXiv:1505.04597] — U-Net 架构，通过跳跃连接实现编码器-解码器结构，后被扩散模型广泛采用作为去噪骨干。→ §23.3

F.9 基础设施与分布式训练

这一类论文涵盖大模型训练和推理的系统层面优化，包括并行策略、内存管理、通信优化和推理引擎设计。

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism (Shoeybi et al., 2019) [arXiv:1909.08053] — 提出高效的张量并行（行列切分）和流水线并行方案，奠定大规模模型训练的工程基础。→ §10.3, §10.4

GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism (Huang et al., 2018) [arXiv:1811.06965] — 提出微批次流水线并行策略，通过在 pipeline 中拆分微批次降低流水线气泡。→ §10.4

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (Rajbhandari et al., 2019) [arXiv:1910.02054] — DeepSpeed ZeRO，通过将优化器状态/梯度/参数分片到多设备，在数据并行基础上大幅降低显存占用。→ §10.6

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM (Narayanan et al., 2021) [arXiv:2104.04473] — Megatron 3D 并行（TP+PP+DP）的完整工程方案，在千卡集群上达到高 MFU。→ §10.3, §10.4, §10.5

Efficient Memory Management for Large Language Model Serving with PagedAttention (Kwon et al., 2023) [arXiv:2309.06180] — vLLM 的核心论文，提出 PagedAttention 将 KV Cache 虚拟化管理，显著提升推理吞吐量。→ §19.2, §19.6

LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) [arXiv:2106.09685] — 提出低秩适应方法，冻结原始权重仅训练低秩增量矩阵，成为参数高效微调的标准方案。→ §13.1, §13.2

QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al., 2023) [arXiv:2305.14314] — 将 4-bit 量化与 LoRA 结合，使在单卡上微调大模型成为可能。→ §13.3

Reducing Activation Recomputation in Large Transformer Models (Korthikanti et al., 2023) [arXiv:2205.05198] — 系统分析 Megatron 中序列并行与选择性激活值重计算的联合优化策略。→ §10.5, §10.8

Fast Inference from Transformers via Speculative Decoding (Leviathan et al., 2023) [arXiv:2211.17192] — 投机采样，小模型生成草稿+大模型并行验证，实现无损加速推理。→ §19.4

Accelerating Large Language Model Decoding with Speculative Sampling (Chen et al., 2023) [arXiv:2302.01318] — 投机采样的另一独立提出，给出了接受率与加速比的数学分析。→ §19.4

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel (Zhao et al., 2023) [arXiv:2304.11277] — PyTorch 原生全分片数据并行实现，与 DeepSpeed ZeRO-3 功能对等但深度集成于 PyTorch 生态。→ §10.6

Sequence Parallelism: Long Sequence Training from System Perspective (Li et al., 2023) [arXiv:2105.13120] — 系统性提出序列并行方案，将长序列切分到多设备训练，与张量并行正交互补。→ §10.5

Zero Bubble Pipeline Parallelism (Qi et al., 2023) [arXiv:2401.10241] — 零气泡流水线并行，通过重新编排前向和反向计算消除流水线空闲时间。→ §10.4

Ring Attention with Blockwise Transformers for Near-Infinite Context (Liu et al., 2023) [arXiv:2310.01889] — 环形注意力，将注意力计算分布在多设备的环形通信拓扑上，支持近无限上下文长度。→ §8.3, §10.5

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (Frantar et al., 2022) [arXiv:2210.17323] — 基于最优脑量化的后训练量化方法，将大模型压缩至 3-4 bit 且精度损失极小。→ §19.5

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (Lin et al., 2023) [arXiv:2306.00978] — 基于激活值分布感知的权重量化，通过保护重要权重通道实现高质量 INT4 量化。→ §19.5

SGLang: Efficient Execution of Structured Language Model Programs (Zheng et al., 2024) [arXiv:2312.07104] — 高效推理引擎，支持 RadixAttention 前缀缓存和结构化生成约束。→ §19.6

DoRA: Weight-Decomposed Low-Rank Adaptation (Liu et al., 2024) [arXiv:2402.09353] — 将权重分解为方向和大小两个分量，在方向分量上做 LoRA，性能接近全参数微调。→ §13.3

torch.compile: PyTorch 2.0 Compiler (Ansel et al., 2024) — PyTorch 图捕获与编译器优化，通过 TorchDynamo + TorchInductor 实现训练/推理的自动加速。→ §7.8, §19.6, §26.1

Scaling Distributed Machine Learning with the Parameter Server (Li et al., 2014) [arXiv:1411.10351] — 参数服务器架构，是分布式训练的经典范式之一，后被 AllReduce 范式在 LLM 训练中取代。→ §10.1

Mixed Precision Training (Micikevicius et al., 2017) [arXiv:1710.03740] — 提出 FP16 + FP32 混合精度训练方案，通过损失缩放（Loss Scaling）保证数值稳定性，在几乎不损失精度的前提下将训练速度提升近 2 倍。→ §1.5, §10.8

F.10 数据工程与评估

这一类论文涵盖预训练数据处理、评估基准、对齐评估等关键环节。

The Pile: An 800GB Dataset of Diverse Text for Language Modeling (Gao et al., 2020) [arXiv:2101.00027] — 大规模多源预训练数据集，包含学术论文、书籍、网页等 22 个子集。→ §4.4

Deduplicating Training Data Makes Language Models Better (Lee et al., 2021) [arXiv:2107.06499] — 系统研究训练数据去重对模型性能的影响，证明去重可显著提升泛化能力。→ §4.4

Measuring Massive Multitask Language Understanding (Hendrycks et al., 2020) [arXiv:2009.03300] — MMLU 基准，覆盖 57 个学科的多任务语言理解测试，成为 LLM 评估的标准基准之一。→ §20.3

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (Zheng et al., 2023) [arXiv:2306.05685] — 提出 MT-Bench 和 Chatbot Arena，系统建立 LLM 作为评判者的评测框架。→ §20.2, §20.4

BPE: Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2015) [arXiv:1508.07909] — 提出字节对编码（BPE）分词算法，通过迭代合并频率最高的字符对构建子词词表，成为 LLM 分词的标准方案。→ §4.1

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing (Kudo & Richardson, 2018) [arXiv:1808.06226] — 语言无关的分词工具，将空格视为普通字符处理，支持 BPE 和 Unigram 两种算法。→ §4.1

Distilling the Knowledge in a Neural Network (Hinton et al., 2015) [arXiv:1503.02531] — 知识蒸馏的奠基性工作，通过温度缩放的软标签将大模型知识迁移到小模型。→ §14.1, §14.2

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020) [arXiv:2005.11401] — RAG 原始论文，将参数化记忆与非参数化检索结合，让语言模型能够利用外部知识库。→ §22.1

MATH: Measuring Mathematical Problem Solving With the MATH Dataset (Hendrycks et al., 2021) [arXiv:2103.03874] — MATH 数据集，包含 12,500 道竞赛数学题，是推理模型评测的核心基准之一。→ §20.3, §26.2

AlpacaEval: An Automatic Evaluator for Instruction-following Language Models (Li et al., 2023) — 基于 LLM 自动评估的指令遵循基准，使用胜率作为核心指标。→ §20.3

Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research (Soldaini et al., 2024) [arXiv:2402.00159] — Allen AI 开源 3T token 预训练语料库，配套详细的数据处理管线文档。→ §4.4

FineWeb: 15T Tokens of the Finest Data the Web Has to Offer (Penedo et al., 2024) — HuggingFace 发布的高质量网页语料，详细记录了从 CommonCrawl 清洗到质量过滤的完整管线。→ §4.4

Self-Instruct: Aligning Language Models with Self-Generated Instructions (Wang et al., 2022) [arXiv:2212.10560] — 让 LLM 自动生成指令-输出对用于自身微调，大幅降低指令数据的人工标注成本。→ §12.3

Textbooks Are All You Need (Gunasekar et al., 2023) [arXiv:2306.11644] — Phi-1 系列论文，证明在高质量"教科书级"数据上训练的小模型可以匹配数十倍参数量的大模型。→ §4.4, §5.6

F.11 经典基础论文

以下论文虽非大模型领域直接产出，但其中的核心概念（如 ResNet 的残差学习、Adam 优化器、Dropout 正则化等）是理解大模型不可或缺的基础。

Deep Residual Learning for Image Recognition (He et al., 2015) [arXiv:1512.03385] — ResNet，提出残差连接（Skip Connection），解决深层网络退化问题，成为现代深度学习的标准组件。→ §1.2, §3.2

Adam: A Method for Stochastic Optimization (Kingma & Ba, 2014) [arXiv:1412.6980] — 提出 Adam 优化器，结合一阶矩和二阶矩的自适应学习率方法，是大模型训练的默认优化器。→ §1.3

Decoupled Weight Decay Regularization (Loshchilov & Hutter, 2017) [arXiv:1711.05101] — 提出 AdamW，将权重衰减从梯度中解耦，修正了 Adam 中 L2 正则化被自适应学习率削弱的问题。→ §1.3

Dropout: A Simple Way to Prevent Neural Networks from Overfitting (Srivastava et al., 2014) — 提出 Dropout 正则化方法，训练时随机丢弃神经元，是防止过拟合的经典手段。→ §1.4

Layer Normalization (Ba et al., 2016) [arXiv:1607.06450] — 提出层归一化，沿特征维度归一化，替代依赖批次的 BatchNorm，成为 Transformer 的标准组件。→ §3.2

Root Mean Square Layer Normalization (Zhang & Sennrich, 2019) [arXiv:1910.07467] — 提出 RMSNorm，去掉均值中心化只保留缩放，计算更高效且效果相当。→ §3.2

GLU Variants Improve Transformer (Shazeer, 2020) [arXiv:2002.05202] — 提出 SwiGLU 等门控线性单元变体，在 Transformer FFN 中显著优于 ReLU/GELU。→ §3.2

Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al., 2014) [arXiv:1409.0473] — 提出加性注意力机制，让 Seq2Seq 模型在解码时动态聚焦输入序列的不同位置，是现代注意力机制的起源。→ §2.3

Sequence to Sequence Learning with Neural Networks (Sutskever et al., 2014) [arXiv:1409.3215] — 提出基于 LSTM 的 Encoder-Decoder 框架，开创了 Seq2Seq 范式。→ §2.2

Long Short-Term Memory (Hochreiter & Schmidhuber, 1997) — LSTM，通过门控机制解决 RNN 的梯度消失问题，是 Transformer 之前序列建模的主力架构。→ §2.1

Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al., 2013) [arXiv:1310.4546] — Word2Vec（Skip-gram + 负采样），奠定了分布式词嵌入的基础。→ §3.6

GloVe: Global Vectors for Word Representation (Pennington et al., 2014) — 结合全局共现统计和局部上下文窗口的词嵌入方法，补充了 Word2Vec 的局限性。→ §3.6

Gaussian Error Linear Units (GELUs) (Hendrycks & Gimpel, 2016) [arXiv:1606.08415] — 提出 GELU 激活函数，在 BERT 和 GPT 系列中广泛使用。→ §1.2, §3.2

Understanding the Difficulty of Training Deep Feedforward Neural Networks (Glorot & Bengio, 2010) — Xavier 初始化，通过分析前向和反向传播中方差的变化推导权重初始化方案。→ §1.4

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification (He et al., 2015) [arXiv:1502.01852] — He 初始化（Kaiming 初始化），专为 ReLU 激活函数设计的权重初始化策略。→ §1.4

ImageNet Classification with Deep Convolutional Neural Networks (Krizhevsky et al., 2012) — AlexNet，深度学习在计算机视觉领域的里程碑，开启了 GPU 训练大型神经网络的时代。→ §1.2

本附录使用指南

按兴趣检索：根据 F.1-F.11 的主题分类直接定位感兴趣的方向。
章节回跳：每篇论文末尾标注的 → §X.Y 指向本书中讨论该论文内容的具体章节。
原文获取：有 arXiv ID 的论文可通过 https://arxiv.org/abs/XXXX.XXXXX 直接获取全文。
按时间排序：如需了解某一领域的发展脉络，建议结合论文年份和本书正文中的演进史叙述进行阅读。

注意：本附录收录的论文以本书正文中实际引用和深入讨论的工作为主，并非该领域的完整文献综述。更广泛的参考文献请查阅各章节正文中的引用。

附录F：经典论文索引 ​

F.1 Transformer 与注意力机制 ​

F.2 Scaling Law 与训练方法论 ​

F.3 MoE（混合专家）系列 ​

F.4 创新架构（SSM / 线性注意力 / 循环模型） ​

F.5 DeepSeek 系列 ​

F.6 对齐与偏好优化 ​

F.7 推理与推理时间缩放 ​

F.8 多模态 ​

F.9 基础设施与分布式训练 ​

F.10 数据工程与评估 ​

F.11 经典基础论文 ​

本附录使用指南 ​