Modern GenAI 学习笔记
基于 modern_genai_bilibili commit
c8b2cdd53462b9db23ee0fc8c0e7d7ab2698cb15
全书结构总览
| 篇 | 章节 | 主题 |
|---|---|---|
| 第一篇:数学与编程基础 | 第 1-3 章 | 概率统计、线性代数、微积分与采样 |
| 第二篇:大语言模型 | 第 4-7 章 | Transformer、注意力、训练、多模态、可解释性 |
| 第三篇:深度强化学习与 LLM 对齐 | 第 8-13 章 | RL 基础、PG→PPO、奖励模型、对齐、RLVR、蒸馏 |
| 第四篇:训练基础设施与工程 | 第 14-16 章 | 分布式训练、推理引擎、verl/TRL 框架 |
| 第五篇:现代 Agent | 第 17-20 章 | Prompt 工程、RAG、Agent 框架、高级 Agent |
| 附录 | A-B | 开发工具链、杂项资源 |
第一篇:数学与编程基础
- 第 1 章:概率统计与贝叶斯推断 — 随机变量、MLE、贝叶斯推断、指数族分布、马尔可夫链
- 第 2 章:线性代数与矩阵分析 — 特征分解、SVD、LoRA、谱范数、张量
- 第 3 章:微积分、变分推断与采样方法 — Score Function、KL 散度、VAE、Autograd、Neural ODE
第二篇:大语言模型
- 第 4 章:Transformer 架构全景 — QKV 注意力、GQA/MLA、线性注意力、Prefill-Decode
- 第 5 章:位置编码、Tokenizer 与 MoE — RoPE、YaRN、Tokenizer、MoE、优化器
- 第 6 章:模型训练与前沿架构 — LLaMA 2、Qwen3、DeepSeek-R1、Kimi K2
- 第 7 章:多模态与可解释性 — CV 基础、ViT/CLIP、Stable Diffusion、VLM、Steering Vectors
第三篇:深度强化学习与 LLM 对齐
- 第 8 章:强化学习基础 — MDP、Bellman 方程、MC vs TD、On/Off-policy
- 第 9 章:从 Policy Gradient 到 PPO — REINFORCE、DQN、Actor-Critic、PPO-Clip
- 第 10 章:奖励模型与偏好学习 — Bradley-Terry、DPO、Reward Shaping
- 第 11 章:LLM 对齐方法论 — SFT vs RL、RLAIF、Constitutional AI、RFT
- 第 12 章:推理增强与 RLVR — CoT、RLVR、KL 散度、Entropy、DeepSeek-Math
- 第 13 章:知识蒸馏 — 知识蒸馏基础、在线蒸馏、GKD
第四篇:训练基础设施与工程
- 第 14 章:分布式训练 — 3D 并行、DDP、FSDP、Packing、Ray/Slurm
- 第 15 章:推理引擎与部署 — Flash Attention、vLLM、SGLang、量化推理
- 第 16 章:verl 与 TRL 训练框架 — verl 架构、GRPO/GSPO、Agent Loop、TRL
第五篇:现代 Agent
- 第 17 章:Prompt 工程与 LLM API — Prompt 设计、Gemini/OpenAI API、DSPy
- 第 18 章:RAG 与知识增强 — RAG Pipeline、知识图谱、GraphRAG、Memory
- 第 19 章:Agent 框架与工作流 — ReAct、LangGraph、MCP、Context Engineering
- 第 20 章:高级 Agent 话题 — Multi-Agent、MCTS、DreamCoder、具身智能
附录
- 附录 A:开发工具链 — Docker、GPU 硬件、Git、Python 并发、设计模式
- 附录 B:杂项与资源 — 模型索引、数据科学可视化、Vibe Coding
阅读建议
入门路径:第 1-3 章(数学基础)→ 第 4-5 章(Transformer)→ 第 8-9 章(RL 基础)→ 第 17 章(Prompt 工程)
LLM 对齐路径:第 8-9 章 → 第 10-11 章(奖励模型与对齐)→ 第 12 章(RLVR)→ 第 16 章(verl 实践)
Agent 开发路径:第 17 章(Prompt/API)→ 第 18 章(RAG)→ 第 19 章(Agent 框架)→ 第 20 章(高级话题)
工程部署路径:第 14 章(分布式训练)→ 第 15 章(推理引擎)→ 第 16 章(verl/TRL)→ 附录 A(工具链)