Modern GenAI 学习笔记

基于 modern_genai_bilibili commit c8b2cdd53462b9db23ee0fc8c0e7d7ab2698cb15

全书结构总览

篇	章节	主题
第一篇：数学与编程基础	第 1-3 章	概率统计、线性代数、微积分与采样
第二篇：大语言模型	第 4-7 章	Transformer、注意力、训练、多模态、可解释性
第三篇：深度强化学习与 LLM 对齐	第 8-13 章	RL 基础、PG→PPO、奖励模型、对齐、RLVR、蒸馏
第四篇：训练基础设施与工程	第 14-16 章	分布式训练、推理引擎、verl/TRL 框架
第五篇：现代 Agent	第 17-20 章	Prompt 工程、RAG、Agent 框架、高级 Agent
附录	A-B	开发工具链、杂项资源

第一篇：数学与编程基础

第 1 章：概率统计与贝叶斯推断 — 随机变量、MLE、贝叶斯推断、指数族分布、马尔可夫链
第 2 章：线性代数与矩阵分析 — 特征分解、SVD、LoRA、谱范数、张量
第 3 章：微积分、变分推断与采样方法 — Score Function、KL 散度、VAE、Autograd、Neural ODE

第二篇：大语言模型

第 4 章：Transformer 架构全景 — QKV 注意力、GQA/MLA、线性注意力、Prefill-Decode
第 5 章：位置编码、Tokenizer 与 MoE — RoPE、YaRN、Tokenizer、MoE、优化器
第 6 章：模型训练与前沿架构 — LLaMA 2、Qwen3、DeepSeek-R1、Kimi K2
第 7 章：多模态与可解释性 — CV 基础、ViT/CLIP、Stable Diffusion、VLM、Steering Vectors

第三篇：深度强化学习与 LLM 对齐

第 8 章：强化学习基础 — MDP、Bellman 方程、MC vs TD、On/Off-policy
第 9 章：从 Policy Gradient 到 PPO — REINFORCE、DQN、Actor-Critic、PPO-Clip
第 10 章：奖励模型与偏好学习 — Bradley-Terry、DPO、Reward Shaping
第 11 章：LLM 对齐方法论 — SFT vs RL、RLAIF、Constitutional AI、RFT
第 12 章：推理增强与 RLVR — CoT、RLVR、KL 散度、Entropy、DeepSeek-Math
第 13 章：知识蒸馏 — 知识蒸馏基础、在线蒸馏、GKD

第四篇：训练基础设施与工程

第 14 章：分布式训练 — 3D 并行、DDP、FSDP、Packing、Ray/Slurm
第 15 章：推理引擎与部署 — Flash Attention、vLLM、SGLang、量化推理
第 16 章：verl 与 TRL 训练框架 — verl 架构、GRPO/GSPO、Agent Loop、TRL

第五篇：现代 Agent

第 17 章：Prompt 工程与 LLM API — Prompt 设计、Gemini/OpenAI API、DSPy
第 18 章：RAG 与知识增强 — RAG Pipeline、知识图谱、GraphRAG、Memory
第 19 章：Agent 框架与工作流 — ReAct、LangGraph、MCP、Context Engineering
第 20 章：高级 Agent 话题 — Multi-Agent、MCTS、DreamCoder、具身智能

附录

附录 A：开发工具链 — Docker、GPU 硬件、Git、Python 并发、设计模式
附录 B：杂项与资源 — 模型索引、数据科学可视化、Vibe Coding

阅读建议

入门路径：第 1-3 章（数学基础）→ 第 4-5 章（Transformer）→ 第 8-9 章（RL 基础）→ 第 17 章（Prompt 工程）

LLM 对齐路径：第 8-9 章 → 第 10-11 章（奖励模型与对齐）→ 第 12 章（RLVR）→ 第 16 章（verl 实践）

Agent 开发路径：第 17 章（Prompt/API）→ 第 18 章（RAG）→ 第 19 章（Agent 框架）→ 第 20 章（高级话题）

工程部署路径：第 14 章（分布式训练）→ 第 15 章（推理引擎）→ 第 16 章（verl/TRL）→ 附录 A（工具链）