Skip to content

附录 D:研究笔记原始索引

本附录按主题分类索引全书参考的研究笔记。每个条目包含笔记标题、内容摘要及对应的本书章节,供读者按需检索原始素材。


总览

主题笔记数核心内容主要对应章节
Agentic RL3环境建模、ROLL 实践、三大不变量Ch.24
Context Engineering6Prompt Caching、五大策略、Manus 六原则Ch.8
Deep Research6Survey、框架演化、奖励设计、BenchmarkCh.23
Memory5Survey、Plan Caching、EverMemOSCh.22
RAG4痛点、KG+RAG、Agentic RAGCh.9
Tools3结构化输出、数据回流、MCP as Code APICh.3, Ch.20
trick5Harness Engineering、实战经验、Manus 访谈Ch.1, Ch.25, Ch.29

说明:笔记数仅统计包含实质内容的文件,不含仅作目录导航用途的索引页。部分笔记下设子文件(如要点提炼),与主文件合并计为一条。


D.1 Agentic RL(3 篇)

本主题聚焦于 Agent 场景下的强化学习训练范式,从理论框架到工程落地。

#笔记标题内容摘要对应章节
1Agentic RL 训练:它不是单一 RL 算法,而是一整套环境建模、学习信号、异步数据流、策略优化和基础设施的协同系统提出 Agentic RL 的三大不变量(探索空间不坍缩、学习信号不退化、分布偏移可控)和八大系统支柱(环境建模、探索多样性、算力分配、策略优化、异步调度、奖励设计、记忆层级、基础设施)。核心论点:Agentic RL 的竞争不在算法公式,而在协同闭环。Ch.24.1–24.2
2ROLL 团队分享:Agentic RL 训练中的实践经验阿里 ROLL 团队的工程实战报告。覆盖 Roll-Managed / CLI-Native 双模式环境管理、异步训练管线、数据筛选(LLM-as-Judge 校验、Ground-truth & No-op 验证、环境增广)、训练稳定性(Mask & Filter、Positive-only RL、Chunked MDP / IPA 算法)。还包括行为观察:Claude-3.5 在行动前做并行信息采集;常见失败模式是无限循环和超时。Ch.24.3–24.4
3ROLL 团队分享:要点提炼上述报告的结构化要点整理,按环境(异步管线、防作弊、双模式)、数据(伪阳性、入库铁律、环境增强)、算法(Mask & Filter、保守起步、Chunked MDP)、洞察(并行函数调用、常见死法、POMDP 展望)四个维度组织。Ch.24.3

D.2 Context Engineering(6 篇)

本主题覆盖上下文工程的理论框架、缓存架构和生产实践。

#笔记标题内容摘要对应章节
1基于 Prompt Caching 的上下文工程论证 KV-cache 是 Agent 系统架构的核心物理约束。提出五条通用法则(前缀绝对稳定、只追加不修改、工具定义解耦、动态信息后置、压缩 Cache-safe),分析四类 Cache 破坏机制(动态时间戳、工具定义变动、模型切换、非确定性序列化),给出四层 Prompt 布局架构。Ch.8.2
2Context Engineering for AI Agents系统阐述从 Prompt Engineering 到 Context Engineering 的范式转变。定义 Context Rot(上下文衰退)现象及其底层原因(注意力稀释、训练分布偏差、截断致命性),提出五大策略:Offload & Retrieval(文件系统作为外部记忆)、Context Reduction(Compaction 优先于 Summarization)、Context Isolation(Subagent 双模式)、Hierarchical Action Space(三级动作空间)、Context Caching。Ch.8.1, Ch.8.3
3构建 Manus 的经验教训Manus 团队总结的六条 Context Engineering 操作原则:围绕 KV-cache 设计、用 Masking 代替移除管理工具、文件系统作为无上限外部上下文、通过 Recitation 操控注意力(todo.md)、保留错误记录、打破 Few-shot 模式化陷阱。Ch.6.2, Ch.8.6
4CE101上下文工程实践指南分享(PDF 资料),涵盖 CE 基础概念与操作要点。Ch.8
5RAG 和 CE 是什么关系?我们真的需要 RAG 吗?探讨 RAG 与 Context Engineering 的关系定位。核心观点:RAG 是 CE 的子集,CE 还包括 Caching、Compression、Isolation 等更广泛的上下文管理手段。Ch.9.3
6Agentic CE收集 Agentic Context Engineering 相关论文与开源项目(OpenCE、Acontext),探索将 CE 系统化为可复用框架的方向。Ch.8

D.3 Deep Research(6 篇)

本主题覆盖 Deep Research 系统的综述、框架演化、具体方法和评测基准。

#笔记标题内容摘要对应章节
1Deep Research: A Systematic Survey首个 DR 系统全面综述。提出三阶段演进路线图(Agentic Search → Integrated Research → Full-stack AI Scientist),归纳四大核心组件(Query Planning、Information Acquisition、Memory Management、Answer Generation),总结工作流提示 / SFT / Agent RL 三类优化范式。Ch.23.2
2Deep Research:框架、训练与数据构建的演化从三条主线梳理 DR 技术路线:Agent 框架(ReAct → ReSum → Multi-agent MMOA-RAG / C-3PO / WebResearcher),奖励设计(仅结果 → 分阶段 → 多角色 → 双层信用分配 GiGPO),数据构建(QA → CRAWLQA → E2HQA → WebSailor-V2 → WebResearcher)。Ch.23.3
3REDSearcher:面向长程搜索智能体的可扩展低成本训练框架小红书 / 哈工大团队提出的 DR 训练框架。核心创新:双约束任务合成(图拓扑 + 证据分散度)、主动工具增强查询、低成本 Mid-Training(两阶段)、功能等价模拟环境。论文报告称 30B-A3B 模型在 BrowseComp / GAIA 等基准上取得了接近或超越同期闭源系统的结果(自报数据,未经独立复现验证)。Ch.23.4
4Benchmark(Deep Research)汇总 DR 评测基准:Deep Research Bench(89 个多步骤任务 + RetroSearch 环境)、DeepResearch Bench(100 个真实用户任务)、ReportBench(基于学术综述的评测)。分析主要失败模式:遗忘上下文、重复工具调用、幻觉。Ch.23.5
5DeepResearch 概览整理 DR 系统的通用架构模式:Orchestrator → Subagents → Synthesizer → Citation Agent,以及 Memory / Plan Persistence 机制。引用 Anthropic 和 ByteByteGo 的架构分析。Ch.23.1
6Method 索引Deep Research 方法论索引页,组织 REDSearcher 等具体方法的导航。Ch.23

D.4 Memory(5 篇)

本主题覆盖 Agent Memory 系统的理论分类、缓存方法和评测基准。

#笔记标题内容摘要对应章节
1Memory in the Age of AI Agents: A SurveyAgent Memory 领域综合综述。通过"形式(Forms)、功能(Functions)、动态(Dynamics)"统一视角审视记忆系统。形式化记忆生命周期(Formation → Evolution → Retrieval),将记忆组织分为 Token-level(扁平 / 平面 / 层级)、Patch-level、Parameter-level 三类。系统比较 Agent Memory 与 LLM Memory、RAG、Context Engineering 的关系边界。Ch.22.1, Ch.22.3
2Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM AgentsNeurIPS 2025 论文笔记。提出缓存可复用"规划模板"而非具体问答对的框架:轻量模型提取关键词 → 缓存匹配 → 小模型适配模板 / 大模型生成新模板。在 FinanceBench 和 TabMWP 上维持 96.67% 准确率,成本降低 46.62%。Ch.22.2
3EverMemOS自组织记忆操作系统(EverMemOS)论文笔记,探索面向长程推理的结构化记忆组织方案。Ch.22.4
4AMemGym(Benchmark)Agent Memory 评测基准笔记。AMemGym 提供长对话场景下的交互式记忆评测任务,测试 Agent 在长时间跨度中的记忆保持与检索能力。Ch.22.5
5OpenViking(Repo)字节跳动 Volcengine 开源的 Agent Memory 实现参考项目。Ch.22.6

D.5 RAG(4 篇)

本主题覆盖 RAG 的真实痛点、知识图谱融合和 Agentic RAG 深度推理。

:RAG 目录下另有 2 篇笔记("大创"、"?多模态RAG")为项目构思 / 资料链接,内容较轻,未计入本索引。

#笔记标题内容摘要对应章节
1RAG 痛点列举 RAG 系统的真实工程痛点:chunk 切分信息丢失、噪声检索、混合检索(BM25 + embedding)、reranking、多文档融合、query rewriting、答案接地、评测方法论。指出"模型太强会掩盖 RAG 的问题"这一常见误区。Ch.9.1
2知识图谱 + RAG设计基于 KG + RAG 的算法知识问答系统:端到端实体关系抽取、多路检索(向量 → 解题 / KG → 知识)、Agentic RAG + 短期记忆、实体别名消歧(Neo4j)、Multi-agent 子问题分解。参考实现:LightRAG、WeKnora、Smolagents。Ch.9.2
3知识图谱与 RAG 协同的算法知识问答系统基于 OI Wiki 和竞赛数据集构建知识图谱的实践笔记。涉及 AutoSchemaKG 自动关系提取、GraphRAG 对比、LangChain 框架集成、mem0 / Agentic RAG 选型。Ch.9.2
4Agentic RAG with Deep Reasoning综述笔记。梳理 RAG-Reasoning 系统的三阶段演进:推理增强型 RAG(Reasoning → RAG,优化检索 / 集成 / 生成)、RAG 增强型推理(RAG → Reasoning,知识补全)、协同 RAG-Reasoning(RAG ⇔ Reasoning,迭代双向交互)。涵盖链式 / 树式 / 图式推理工作流。Ch.9.1

D.6 Tools(3 篇)

本主题覆盖工具系统的结构化输出、评估指标和 MCP 优化方案。

#笔记标题内容摘要对应章节
1结构化输出(Structured Output)解析 Guided Decoding 的原理:将输出约束转化为 FSM,通过 logit masking 强制合规。介绍 vLLM 四种解码模式(choice / regex / json / grammar)、xgrammar 后端,以及云端 API 方案(logit_bias、tool calling)。Ch.3.3
2数据回流讨论 Agent 系统的评估指标体系(Success Rate、LLM Sensitivity、Prompt Sensitivity、Hallucination、Scalability、Autonomy)和 Evaluator 系统设计。核心观点:LLM-as-a-Judge 本身也是 Agent,Agent 的每次 action-sequence 都是 RL 训练信号。Ch.20.4
3将 MCP 服务器视为代码 APIAnthropic 工程博客方案笔记。核心思路:Agent 通过写代码(而非直接调用)与 MCP Server 交互,生成文件树按需加载工具定义。效果:token 消耗从 150K 降至 2K(节省 98.7%),同时实现数据筛选在执行层、循环条件逻辑、中间结果隐私保护。Ch.3.4

D.7 trick(5 篇)

本主题汇集 Agent 开发的实战经验、设计哲学和行业洞察。

#笔记标题内容摘要对应章节
1Harness Engineering综合整理 Harness Engineering 概念。定义三代 AI 工程范式演进(Prompt Engineering → Context Engineering → Harness Engineering),阐述五个核心实践:结构化知识 + 渐进披露、机械架构约束 + 自定义 Linter、机器可读可观测性、自验证循环、垃圾回收。引用 OpenAI / Anthropic / LangChain / MartinFowler 等多方源材料。Ch.1.3, Ch.7.4, Ch.21.3, Ch.25.1, Ch.29.3
2两周烧掉数百 M Token,我的 Agent Coding 经验之谈深度使用 Claude Code / Codex / OpenCode 的实战复盘。提出五大药方:Context Engineering(Subagent 隔离上下文)、Self Review & Reflection(多轮自审)、并行执行 + 投票(冗余对抗幻觉)、先探索再规划(Explore First)、Hard Workflow(必要时的强制状态机)。核心权衡:工具 / workflow 只能释放已有能力,不能增加新能力。Ch.29.2
3做 Agent 的实战经验与避坑指南以"带实习生"为核心隐喻的八大实践:先设计思考过程再编码、工具设计是灵魂(粒度 / 描述 / 错误返回)、Prompt 是 SOP 不是角色扮演、结构化状态管理、评估体系(20–30 个 Case)、框架选择、关键 Tips(步数限制 15–20、完整日志、Human-in-the-loop)、未解决问题。Ch.29.1
4姚顺雨(Shunyu Yao)访谈姚顺雨关于 Agent 研究的三个洞察:Reasoning 赋能泛化(语言和推理让模型利用先验知识适应新环境)、交互方式决定商业机会(重构人机协作流程而非在基础模型上硬碰硬)、非共识研究带来超额回报。区分 AI 研究上半场(方法 / 架构)与下半场(任务 / 应用)。Ch.29.5
5张小珺采访 Manus 联合创始人季逸超Manus 产品哲学深度访谈。核心观点:做通用 Agent 而非垂直 Agent、相信模型会不断进化、不做工具做"人"。设计选择:智能主导(非规则主导)、降级策略(MCP → API 文档 → 浏览器模拟)。金句:"做对一千件小事,比做对三件大事更重要",与 The Bitter Lesson 一脉相承。Ch.1.4, Ch.25.3–25.4

主题 → 章节交叉索引

下表从章节视角反向索引,标注每章引用了哪些研究笔记主题。

章节章节标题引用笔记主题
Ch.1Agent 的本质trick(Harness Engineering、Manus 访谈)
Ch.3工具注册与分发Tools(结构化输出、MCP as Code API)
Ch.6TodoWriteContext Engineering(Manus 六原则)
Ch.7Skill Loadingtrick(Harness Engineering)
Ch.8Context EngineeringContext Engineering(全部 6 篇)
Ch.9RAG 与知识工程RAG(全部 4 篇)、Context Engineering(RAG vs CE)
Ch.20权限治理Tools(数据回流)
Ch.21生产部署与可观测性trick(Harness Engineering)
Ch.22Agent Memory 系统Memory(全部 5 篇)
Ch.23Deep Research 系统Deep Research(全部 6 篇)
Ch.24Agentic RLAgentic RL(全部 3 篇)
Ch.25长期 Agent 的基础设施挑战trick(Harness Engineering、Manus 访谈)
Ch.29实战经验与避坑指南trick(经验之谈、避坑指南、姚顺雨访谈)