附录 D：研究笔记原始索引

本附录按主题分类索引全书参考的研究笔记。每个条目包含笔记标题、内容摘要及对应的本书章节，供读者按需检索原始素材。

总览

主题	笔记数	核心内容	主要对应章节
Agentic RL	3	环境建模、ROLL 实践、三大不变量	Ch.24
Context Engineering	6	Prompt Caching、五大策略、Manus 六原则	Ch.8
Deep Research	6	Survey、框架演化、奖励设计、Benchmark	Ch.23
Memory	5	Survey、Plan Caching、EverMemOS	Ch.22
RAG	4	痛点、KG+RAG、Agentic RAG	Ch.9
Tools	3	结构化输出、数据回流、MCP as Code API	Ch.3, Ch.20
trick	5	Harness Engineering、实战经验、Manus 访谈	Ch.1, Ch.25, Ch.29

说明：笔记数仅统计包含实质内容的文件，不含仅作目录导航用途的索引页。部分笔记下设子文件（如要点提炼），与主文件合并计为一条。

D.1 Agentic RL（3 篇）

本主题聚焦于 Agent 场景下的强化学习训练范式，从理论框架到工程落地。

#	笔记标题	内容摘要	对应章节
1	Agentic RL 训练：它不是单一 RL 算法，而是一整套环境建模、学习信号、异步数据流、策略优化和基础设施的协同系统	提出 Agentic RL 的三大不变量（探索空间不坍缩、学习信号不退化、分布偏移可控）和八大系统支柱（环境建模、探索多样性、算力分配、策略优化、异步调度、奖励设计、记忆层级、基础设施）。核心论点：Agentic RL 的竞争不在算法公式，而在协同闭环。	Ch.24.1–24.2
2	ROLL 团队分享：Agentic RL 训练中的实践经验	阿里 ROLL 团队的工程实战报告。覆盖 Roll-Managed / CLI-Native 双模式环境管理、异步训练管线、数据筛选（LLM-as-Judge 校验、Ground-truth & No-op 验证、环境增广）、训练稳定性（Mask & Filter、Positive-only RL、Chunked MDP / IPA 算法）。还包括行为观察：Claude-3.5 在行动前做并行信息采集；常见失败模式是无限循环和超时。	Ch.24.3–24.4
3	ROLL 团队分享：要点提炼	上述报告的结构化要点整理，按环境（异步管线、防作弊、双模式）、数据（伪阳性、入库铁律、环境增强）、算法（Mask & Filter、保守起步、Chunked MDP）、洞察（并行函数调用、常见死法、POMDP 展望）四个维度组织。	Ch.24.3

D.2 Context Engineering（6 篇）

本主题覆盖上下文工程的理论框架、缓存架构和生产实践。

#	笔记标题	内容摘要	对应章节
1	基于 Prompt Caching 的上下文工程	论证 KV-cache 是 Agent 系统架构的核心物理约束。提出五条通用法则（前缀绝对稳定、只追加不修改、工具定义解耦、动态信息后置、压缩 Cache-safe），分析四类 Cache 破坏机制（动态时间戳、工具定义变动、模型切换、非确定性序列化），给出四层 Prompt 布局架构。	Ch.8.2
2	Context Engineering for AI Agents	系统阐述从 Prompt Engineering 到 Context Engineering 的范式转变。定义 Context Rot（上下文衰退）现象及其底层原因（注意力稀释、训练分布偏差、截断致命性），提出五大策略：Offload & Retrieval（文件系统作为外部记忆）、Context Reduction（Compaction 优先于 Summarization）、Context Isolation（Subagent 双模式）、Hierarchical Action Space（三级动作空间）、Context Caching。	Ch.8.1, Ch.8.3
3	构建 Manus 的经验教训	Manus 团队总结的六条 Context Engineering 操作原则：围绕 KV-cache 设计、用 Masking 代替移除管理工具、文件系统作为无上限外部上下文、通过 Recitation 操控注意力（todo.md）、保留错误记录、打破 Few-shot 模式化陷阱。	Ch.6.2, Ch.8.6
4	CE101	上下文工程实践指南分享（PDF 资料），涵盖 CE 基础概念与操作要点。	Ch.8
5	RAG 和 CE 是什么关系？我们真的需要 RAG 吗？	探讨 RAG 与 Context Engineering 的关系定位。核心观点：RAG 是 CE 的子集，CE 还包括 Caching、Compression、Isolation 等更广泛的上下文管理手段。	Ch.9.3
6	Agentic CE	收集 Agentic Context Engineering 相关论文与开源项目（OpenCE、Acontext），探索将 CE 系统化为可复用框架的方向。	Ch.8

D.3 Deep Research（6 篇）

本主题覆盖 Deep Research 系统的综述、框架演化、具体方法和评测基准。

#	笔记标题	内容摘要	对应章节
1	Deep Research: A Systematic Survey	首个 DR 系统全面综述。提出三阶段演进路线图（Agentic Search → Integrated Research → Full-stack AI Scientist），归纳四大核心组件（Query Planning、Information Acquisition、Memory Management、Answer Generation），总结工作流提示 / SFT / Agent RL 三类优化范式。	Ch.23.2
2	Deep Research：框架、训练与数据构建的演化	从三条主线梳理 DR 技术路线：Agent 框架（ReAct → ReSum → Multi-agent MMOA-RAG / C-3PO / WebResearcher），奖励设计（仅结果 → 分阶段 → 多角色 → 双层信用分配 GiGPO），数据构建（QA → CRAWLQA → E2HQA → WebSailor-V2 → WebResearcher）。	Ch.23.3
3	REDSearcher：面向长程搜索智能体的可扩展低成本训练框架	小红书 / 哈工大团队提出的 DR 训练框架。核心创新：双约束任务合成（图拓扑 + 证据分散度）、主动工具增强查询、低成本 Mid-Training（两阶段）、功能等价模拟环境。论文报告称 30B-A3B 模型在 BrowseComp / GAIA 等基准上取得了接近或超越同期闭源系统的结果（自报数据，未经独立复现验证）。	Ch.23.4
4	Benchmark（Deep Research）	汇总 DR 评测基准：Deep Research Bench（89 个多步骤任务 + RetroSearch 环境）、DeepResearch Bench（100 个真实用户任务）、ReportBench（基于学术综述的评测）。分析主要失败模式：遗忘上下文、重复工具调用、幻觉。	Ch.23.5
5	DeepResearch 概览	整理 DR 系统的通用架构模式：Orchestrator → Subagents → Synthesizer → Citation Agent，以及 Memory / Plan Persistence 机制。引用 Anthropic 和 ByteByteGo 的架构分析。	Ch.23.1
6	Method 索引	Deep Research 方法论索引页，组织 REDSearcher 等具体方法的导航。	Ch.23

D.4 Memory（5 篇）

本主题覆盖 Agent Memory 系统的理论分类、缓存方法和评测基准。

#	笔记标题	内容摘要	对应章节
1	Memory in the Age of AI Agents: A Survey	Agent Memory 领域综合综述。通过"形式（Forms）、功能（Functions）、动态（Dynamics）"统一视角审视记忆系统。形式化记忆生命周期（Formation → Evolution → Retrieval），将记忆组织分为 Token-level（扁平 / 平面 / 层级）、Patch-level、Parameter-level 三类。系统比较 Agent Memory 与 LLM Memory、RAG、Context Engineering 的关系边界。	Ch.22.1, Ch.22.3
2	Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents	NeurIPS 2025 论文笔记。提出缓存可复用"规划模板"而非具体问答对的框架：轻量模型提取关键词 → 缓存匹配 → 小模型适配模板 / 大模型生成新模板。在 FinanceBench 和 TabMWP 上维持 96.67% 准确率，成本降低 46.62%。	Ch.22.2
3	EverMemOS	自组织记忆操作系统（EverMemOS）论文笔记，探索面向长程推理的结构化记忆组织方案。	Ch.22.4
4	AMemGym（Benchmark）	Agent Memory 评测基准笔记。AMemGym 提供长对话场景下的交互式记忆评测任务，测试 Agent 在长时间跨度中的记忆保持与检索能力。	Ch.22.5
5	OpenViking（Repo）	字节跳动 Volcengine 开源的 Agent Memory 实现参考项目。	Ch.22.6

D.5 RAG（4 篇）

本主题覆盖 RAG 的真实痛点、知识图谱融合和 Agentic RAG 深度推理。

注：RAG 目录下另有 2 篇笔记（"大创"、"？多模态RAG"）为项目构思 / 资料链接，内容较轻，未计入本索引。

#	笔记标题	内容摘要	对应章节
1	RAG 痛点	列举 RAG 系统的真实工程痛点：chunk 切分信息丢失、噪声检索、混合检索（BM25 + embedding）、reranking、多文档融合、query rewriting、答案接地、评测方法论。指出"模型太强会掩盖 RAG 的问题"这一常见误区。	Ch.9.1
2	知识图谱 + RAG	设计基于 KG + RAG 的算法知识问答系统：端到端实体关系抽取、多路检索（向量 → 解题 / KG → 知识）、Agentic RAG + 短期记忆、实体别名消歧（Neo4j）、Multi-agent 子问题分解。参考实现：LightRAG、WeKnora、Smolagents。	Ch.9.2
3	知识图谱与 RAG 协同的算法知识问答系统	基于 OI Wiki 和竞赛数据集构建知识图谱的实践笔记。涉及 AutoSchemaKG 自动关系提取、GraphRAG 对比、LangChain 框架集成、mem0 / Agentic RAG 选型。	Ch.9.2
4	Agentic RAG with Deep Reasoning	综述笔记。梳理 RAG-Reasoning 系统的三阶段演进：推理增强型 RAG（Reasoning → RAG，优化检索 / 集成 / 生成）、RAG 增强型推理（RAG → Reasoning，知识补全）、协同 RAG-Reasoning（RAG ⇔ Reasoning，迭代双向交互）。涵盖链式 / 树式 / 图式推理工作流。	Ch.9.1

D.6 Tools（3 篇）

本主题覆盖工具系统的结构化输出、评估指标和 MCP 优化方案。

#	笔记标题	内容摘要	对应章节
1	结构化输出（Structured Output）	解析 Guided Decoding 的原理：将输出约束转化为 FSM，通过 logit masking 强制合规。介绍 vLLM 四种解码模式（choice / regex / json / grammar）、xgrammar 后端，以及云端 API 方案（logit_bias、tool calling）。	Ch.3.3
2	数据回流	讨论 Agent 系统的评估指标体系（Success Rate、LLM Sensitivity、Prompt Sensitivity、Hallucination、Scalability、Autonomy）和 Evaluator 系统设计。核心观点：LLM-as-a-Judge 本身也是 Agent，Agent 的每次 action-sequence 都是 RL 训练信号。	Ch.20.4
3	将 MCP 服务器视为代码 API	Anthropic 工程博客方案笔记。核心思路：Agent 通过写代码（而非直接调用）与 MCP Server 交互，生成文件树按需加载工具定义。效果：token 消耗从 150K 降至 2K（节省 98.7%），同时实现数据筛选在执行层、循环条件逻辑、中间结果隐私保护。	Ch.3.4

D.7 trick（5 篇）

本主题汇集 Agent 开发的实战经验、设计哲学和行业洞察。

#	笔记标题	内容摘要	对应章节
1	Harness Engineering	综合整理 Harness Engineering 概念。定义三代 AI 工程范式演进（Prompt Engineering → Context Engineering → Harness Engineering），阐述五个核心实践：结构化知识 + 渐进披露、机械架构约束 + 自定义 Linter、机器可读可观测性、自验证循环、垃圾回收。引用 OpenAI / Anthropic / LangChain / MartinFowler 等多方源材料。	Ch.1.3, Ch.7.4, Ch.21.3, Ch.25.1, Ch.29.3
2	两周烧掉数百 M Token，我的 Agent Coding 经验之谈	深度使用 Claude Code / Codex / OpenCode 的实战复盘。提出五大药方：Context Engineering（Subagent 隔离上下文）、Self Review & Reflection（多轮自审）、并行执行 + 投票（冗余对抗幻觉）、先探索再规划（Explore First）、Hard Workflow（必要时的强制状态机）。核心权衡：工具 / workflow 只能释放已有能力，不能增加新能力。	Ch.29.2
3	做 Agent 的实战经验与避坑指南	以"带实习生"为核心隐喻的八大实践：先设计思考过程再编码、工具设计是灵魂（粒度 / 描述 / 错误返回）、Prompt 是 SOP 不是角色扮演、结构化状态管理、评估体系（20–30 个 Case）、框架选择、关键 Tips（步数限制 15–20、完整日志、Human-in-the-loop）、未解决问题。	Ch.29.1
4	姚顺雨（Shunyu Yao）访谈	姚顺雨关于 Agent 研究的三个洞察：Reasoning 赋能泛化（语言和推理让模型利用先验知识适应新环境）、交互方式决定商业机会（重构人机协作流程而非在基础模型上硬碰硬）、非共识研究带来超额回报。区分 AI 研究上半场（方法 / 架构）与下半场（任务 / 应用）。	Ch.29.5
5	张小珺采访 Manus 联合创始人季逸超	Manus 产品哲学深度访谈。核心观点：做通用 Agent 而非垂直 Agent、相信模型会不断进化、不做工具做"人"。设计选择：智能主导（非规则主导）、降级策略（MCP → API 文档 → 浏览器模拟）。金句："做对一千件小事，比做对三件大事更重要"，与 The Bitter Lesson 一脉相承。	Ch.1.4, Ch.25.3–25.4

主题 → 章节交叉索引

下表从章节视角反向索引，标注每章引用了哪些研究笔记主题。

章节	章节标题	引用笔记主题
Ch.1	Agent 的本质	trick（Harness Engineering、Manus 访谈）
Ch.3	工具注册与分发	Tools（结构化输出、MCP as Code API）
Ch.6	TodoWrite	Context Engineering（Manus 六原则）
Ch.7	Skill Loading	trick（Harness Engineering）
Ch.8	Context Engineering	Context Engineering（全部 6 篇）
Ch.9	RAG 与知识工程	RAG（全部 4 篇）、Context Engineering（RAG vs CE）
Ch.20	权限治理	Tools（数据回流）
Ch.21	生产部署与可观测性	trick（Harness Engineering）
Ch.22	Agent Memory 系统	Memory（全部 5 篇）
Ch.23	Deep Research 系统	Deep Research（全部 6 篇）
Ch.24	Agentic RL	Agentic RL（全部 3 篇）
Ch.25	长期 Agent 的基础设施挑战	trick（Harness Engineering、Manus 访谈）
Ch.29	实战经验与避坑指南	trick（经验之谈、避坑指南、姚顺雨访谈）

附录 D：研究笔记原始索引 ​

总览 ​

D.1 Agentic RL（3 篇） ​

D.2 Context Engineering（6 篇） ​

D.3 Deep Research（6 篇） ​

D.4 Memory（5 篇） ​

D.5 RAG（4 篇） ​

D.6 Tools（3 篇） ​

D.7 trick（5 篇） ​

主题 → 章节交叉索引 ​