Skip to content

第10章 学习、适应与推理增强

本章来源:综合自 Agentic Design Patterns 第9章(学习与适应:SICA、AlphaEvolve、OpenEvolve)、第17章(推理技术:CoT、ToT、GoT、RLVR、ReAct)、Hello-Agents 第11章(Agentic RL:从 LLM 训练到强化学习智能体)

核心问题 -- 本章要解答什么

前面三章讨论的设计模式(流程控制、工具使用、运行时管理)都有一个共同前提:智能体的能力边界是由开发者在构建时设定的。prompt 写好了,工具注册了,流程编排了——智能体就在这个框架内工作。它可以应对预设范围内的各种情况,但无法突破自身的能力天花板。

本章讨论两个打破这一限制的方向:

学习与适应:智能体能否通过经验改进自身?不是被动地执行指令,而是从成功和失败中学习,修改自己的策略甚至代码,在迭代中变得越来越强。

推理增强:智能体能否在推理过程中投入更多计算资源来获得更好的结果?不是快速给出第一反应,而是像人类面对难题时那样——深思熟虑、分步推导、尝试多条路径、回溯修正。

这两个方向共同指向一个目标:让智能体从"执行预设程序"进化为"自主改进的智能系统"。

设计空间 -- 可选方案与取舍

10.1 学习与适应的方法论谱系

智能体的学习与适应涵盖一个广阔的方法论谱系:

学习方式核心机制典型场景适用智能体类型
强化学习试错 + 奖励信号游戏、机器人控制需要策略优化的智能体
监督学习标注数据 + 损失函数分类、预测有明确标签的任务
少样本/零样本学习LLM 上下文学习快速适应新任务通用 LLM 智能体
在线学习持续数据流 + 实时更新实时推荐、欺诈检测流数据处理智能体
基于记忆的学习经验回放 + 相似匹配个性化助手有长期记忆的智能体
自我修改修改自身代码/策略编码智能体具备代码执行能力的智能体

对于基于 LLM 的智能体系统,最具变革性的方向是自我修改强化学习——前者让智能体直接改进自己的实现,后者通过奖励信号优化决策策略。

10.2 推理技术的设计空间

LLM 的推理能力可以通过多种技术增强,它们在计算成本和效果之间形成不同的权衡:

技术核心思想结构计算开销
Chain-of-Thought (CoT)逐步推导线性链
Tree-of-Thought (ToT)多路径探索 + 回溯树形分支
Graph-of-Debates (GoD)多智能体辩论图网络
ReAct推理与行动交替循环
RLVR可验证奖励训练推理链训练时优化训练高,推理中
PALMs生成代码辅助推理混合符号低-中

一个关键原则贯穿所有这些技术:在推理时分配更多计算资源,可以换来更好的结果。这被称为推理扩展定律(Inference Scaling Law)。

架构解析 -- 深入分析主流架构

10.3 自我改进编码智能体(SICA)

SICA(Self-Improving Coding Agent)由 Maxime Robeyns、Laurence Aitchison 和 Martin Szummer 提出,展示了一个核心能力:智能体修改自身源代码以提升性能

SICA 自我改进循环

10.3.1 迭代自我改进循环

SICA 的自我改进遵循以下循环:

  1. 版本选择:审查历史版本档案及其基准测试表现,选择性能最高的版本作为当前基础
  2. 分析与修改:分析档案中的历史表现数据,识别改进机会,直接修改自身代码库
  3. 测试与记录:在基准测试上评估修改后的版本,将结果记入档案
  4. 迭代:重复上述循环

性能评分基于加权公式,综合考虑成功率、执行时间和计算成本。这确保了改进方向不仅追求正确性,还兼顾效率。

10.3.2 SICA 的演化轨迹

SICA 在实际运行中展现了从粗粒度操作向精细操作演进的自我改进能力——从基本的文件覆盖发展到基于 AST 解析的精确编辑,从全局搜索发展到混合符号定位。这一进化过程的详细分析参见第 28 章 28.3 节。

SICA 性能变化

10.3.3 架构设计要点

SICA 的架构包含几个关键组件:

子智能体体系:主智能体可以调用编码智能体、问题解决智能体和推理智能体等子智能体。这种设计用于分解复杂任务和管理上下文长度。

异步监督者:一个独立运行的 LLM 并发监控 SICA 的行为,识别循环、停滞或低效模式。它接收 SICA 的调用图和事件日志,必要时可以介入终止执行。这是目标监控模式(第9章)在自我改进场景中的直接应用。

结构化上下文管理:SICA 在上下文窗口中维护结构化信息——系统提示词(目标和工具文档)、核心提示词(问题和文件内容)、助手消息(逐步推理和工具调用记录)。这种结构化组织是高效自我改进的前提。

安全隔离:SICA 运行在 Docker 容器中,与主机文件系统隔离。这对于能够执行 shell 命令并修改自身代码的智能体是必要的安全保障。

10.4 AlphaEvolve 与 OpenEvolve

10.4.1 AlphaEvolve:算法发现的进化框架

AlphaEvolve 是 Google 开发的 AI 智能体,通过 LLM 与进化算法的结合来发现和优化算法。其核心架构包含 LLM 集合(Flash 广度探索 + Pro 深度优化)、自动评估系统和进化算法框架。

AlphaEvolve 的成果涵盖基础研究(如发现新的矩阵乘法算法)和工程应用(如数据中心调度优化、GPU 内核加速),详细成果列表参见第 28 章 28.4 节。

10.4.2 OpenEvolve:开放的进化编码智能体

OpenEvolve 是一个开源实现,将进化优化思想应用于代码改进。其架构由控制器编排四个核心组件:

OpenEvolve 架构

  • 程序采样器:从种群中选择有潜力的程序进行变异
  • 程序数据库:维护所有历史版本及其性能数据
  • 评估器池:分布式评估变异后的程序
  • LLM 集合:驱动代码生成和变异

OpenEvolve 相比 AlphaEvolve 的关键差异在于:能够进化完整代码文件(而非单一函数)、支持多编程语言、兼容任意 OpenAI 兼容 API、支持多目标优化。

10.5 推理技术深度解析

10.5.1 思维链(Chain-of-Thought)

CoT 是最基础也最广泛使用的推理增强技术。其核心思想是引导 LLM 在给出最终答案之前,显式生成中间推理步骤。

CoT 推理

CoT 的两种实现方式:

  • 少样本 CoT:在 prompt 中提供包含推理步骤的示例,模型模仿示例的推理模式
  • 零样本 CoT:简单添加"Let's think step by step",激活模型内在的逐步推理能力

CoT [Wei et al., 2022] 有效的根本原因是它将困难的单步问题转化为多个简单步骤的序列。每一步的认知负荷降低,模型犯错的概率也相应降低。对于智能体系统,CoT 的另一个重要价值是可审计性——中间步骤使决策过程透明,便于调试和验证。

10.5.2 思维树(Tree-of-Thought)

ToT [Yao et al., 2023] 在 CoT 的基础上引入了分支和回溯。在24点游戏上,ToT 的成功率达到74%,而标准 CoT 仅为4%,展现了搜索机制对组合问题的巨大优势。当面对一个问题时,智能体不是沿单一路径推理,而是:

ToT 推理

  1. 在每个决策点生成多个候选中间步骤
  2. 评估每个候选步骤的前景
  3. 选择最有前途的路径继续,或回溯到之前的分支点

ToT 特别适合需要战略规划和全局搜索的任务——如创意写作中的情节设计、数学证明中的策略选择。代价是计算量显著增加(每个分支点都需要多次 LLM 调用)。

10.5.3 辩论图(Graph-of-Debates)

GoD 将推理从单一智能体的独白扩展为多智能体的协作辩论。论点不是按线性链排列,而是形成图结构——节点代表论点,边代表"支持"或"反驳"关系。

GoD 推理

结论不在序列末尾产生,而是通过识别图中最稳健和最受支持的论点簇来达成。"得到良好支持"的判定标准包括:已确立的事实、通过搜索验证的证据、以及多个模型在辩论中达成的共识。

GoD 的一个变体是微软提出的辩论链(Chain of Debates, CoD),多个不同模型像"AI 委员会"一样协作——提出想法、互相质疑、交换反驳——通过集体智慧减少偏见并提高最终答案的可靠性。

10.5.4 ReAct:推理与行动的交替

ReAct 将 CoT 推理与工具使用结合为统一范式。智能体在"思考-行动-观察"的循环中工作:

  1. Thought(思考):分析当前状态,规划下一步行动
  2. Action(行动):执行工具调用或函数调用
  3. Observation(观察):接收执行结果
  4. 基于观察结果更新思考,重复循环

ReAct 相比纯 CoT 的关键优势是动态适应性——智能体不是在开始时一次性规划所有步骤,而是根据每次行动的实际结果动态调整策略。这使得 ReAct 特别适合需要与外部环境持续交互的任务。

10.5.5 程序辅助语言模型(PALMs)

PALMs 将 LLM 的语言理解能力与确定性编程环境的精确计算能力结合。当面对需要精确计算的问题时,LLM 不是直接"算"答案,而是生成代码来计算,然后将代码执行结果转换为自然语言回答。

这种混合策略利用了各自的优势:LLM 擅长理解问题和生成解题思路,代码执行器擅长精确计算和逻辑操作。对于数学、数据分析等精确计算密集的任务,PALMs 显著提高了结果的可靠性。

10.6 Agentic RL:从训练到部署

LLM 训练全景图

10.6.1 LLM 训练的全景

理解 Agentic RL 需要先理解 LLM 训练的完整流程:

预训练阶段:在 TB 级文本数据上进行下一个词预测,学习语言规律和世界知识。目标函数:

Lpretrain=t=1TlogP(xt|x1,...,xt1;θ)

后训练阶段包含三步:

  1. 监督微调(SFT):在(prompt, completion)对上训练,让模型学会遵循指令和对话格式
  2. 奖励建模(RM):训练独立模型预测人类偏好,用偏好对比数据学习评估回答质量
  3. 强化学习微调:用 PPO 或 DPO 等算法优化模型,使其生成更高质量的回答

PPO 通过裁剪机制在"改进策略"和"保持稳定"之间取得平衡——创建一个"信任区域",防止策略更新偏离太远导致性能崩溃。

DPO 跳过了奖励模型,直接在人类偏好数据上优化语言模型策略——"增加被偏好响应的生成概率,降低不被偏好响应的概率"。相比 PPO 的两步流程(先训练奖励模型,再用奖励模型优化),DPO 更简单且更稳定。

10.6.2 PBRFT vs Agentic RL

传统的后训练(PBRFT: Preference-Based Reinforcement Fine-Tuning)与 Agentic RL 的根本区别在于决策的时间跨度和复杂度:

PBRFT vs Agentic RL

维度PBRFTAgentic RL
状态仅用户提示,单步历史观察 + 上下文,多步演化
行动仅文本生成文本生成 + 工具调用 + 环境操作
奖励单步终端奖励多步累积奖励(稀疏/密集/混合)
目标最大化单步回答质量最大化任务完成度
思维"如何生成更好的回答""如何完成复杂任务"

10.6.3 Agentic RL 的六大核心能力

Agentic RL 核心能力

推理(Reasoning):通过强化学习让智能体学习有效的推理策略——发现训练数据中不存在的推理路径,学会何时深思熟虑、何时快速回答。

工具使用(Tool Use):行动空间扩展为文本生成和工具调用的混合。强化学习让智能体学会何时需要工具、选择哪个工具、如何组合多个工具。

记忆(Memory):学会记忆管理策略——决定哪些信息值得记住、何时更新记忆、何时删除过时信息。类似人类的工作记忆管理。

规划(Planning):通过试错发现有效的行动序列,学会权衡短期和长期收益。能够执行看似"绕路"的中间步骤以达成最终目标。

自我改进(Self-Improvement):回顾自身输出、识别错误、分析失败原因、调整策略。在无人工干预的情况下持续改进。

感知(Perception):理解多模态信息——不仅能处理文本,还能理解和操作视觉世界。

10.6.4 GRPO:实用的训练算法

Agentic RL 架构

GRPO(Group Relative Policy Optimization)是在实践中广泛使用的 Agentic RL 训练算法。与 PPO 需要训练独立的价值网络不同,GRPO 通过组内对比来估计奖励基线:

对于每个问题,生成多个候选回答,根据正确性获得奖励,然后在组内计算相对优势——奖励高于组平均的回答被强化,低于组平均的被抑制。这种设计避免了价值网络的训练开销,同时保持了有效的策略优化。

10.6.5 Agent 专用微调方法

通用 LLM 在智能体任务上的表现往往不及预期——它们擅长对话和文本生成,但在工具调用序列、多步推理和环境交互方面缺乏专门优化。近年来,一系列工作探索了 Agent 专用的微调策略:

Agent-FLAN [Chen et al., 2024, arXiv:2403.12881] 系统研究了如何设计 Agent 训练数据。核心发现是:训练数据的设计比数据规模更重要。Agent-FLAN 提出了三个关键原则:(1)将能力分解为独立子技能分别训练,而非端到端学习完整轨迹;(2)引入负样本(错误的工具调用、不当的推理步骤)教会模型识别和避免常见错误;(3)在通用能力和 Agent 能力之间保持平衡,避免"灾难性遗忘"。在 Llama2-7B 上的实验显示,Agent-FLAN 的微调方案将 held-out Agent 任务的成功率提升了 30% 以上。

AgentTuning [Zeng et al., 2023, arXiv:2310.12823] 采用多任务指令微调策略,在多个 Agent 任务上同时训练模型。其核心思想是:Agent 能力不是单一技能,而是工具使用、推理、规划等多种能力的组合。通过在 AgentInstruct 数据集上进行混合训练,AgentTuning 在不损失通用能力的前提下,显著提升了模型在 unseen Agent 任务上的泛化能力。

FireAct [Chen et al., 2023, arXiv:2310.05915] 探索了轨迹微调——直接在成功的 Agent 执行轨迹上微调模型。FireAct 的关键贡献是证明了:使用 GPT-4 生成的高质量 ReAct 轨迹来微调较小模型(如 Llama-2-13B),可以让小模型获得接近大模型的 Agent 能力。这为 Agent 能力的"蒸馏"提供了实用路径。

核心洞察:Agent 微调领域的一个共识正在形成——训练数据质量 > 数据规模 > 模型大小。精心设计的少量高质量轨迹数据,往往比大量低质量数据产生更好的 Agent 能力。这与通用 LLM 训练中"数据规模至上"的范式形成了有趣的对比。

10.6.6 Agentic 数据制作的三路径范式

上述工作可以抽象为三条互补的数据制作路径:

路径目标方法典型规模代表工作
大规模合成预训练数据学"能动性"——让模型具备基本的 Agent 行为模式LLM 自动生成大量 Agent 交互轨迹数十万条ToolLLM, Gorilla
环境化合成微调数据学"动得对"——在特定环境中准确执行在沙箱环境中运行 Agent 收集成功轨迹数千至数万条AgentTuning, Agent-FLAN
人工精标长轨迹数据学"动得稳"——处理复杂长链条任务人工标注完整的多步操作轨迹数十至数百条LIMI(78 条长轨迹,~6.5M tokens)

三条路径不是替代关系,而是递进互补——先用大规模合成数据建立基础能力,再用环境化数据精细调整,最后用少量精标数据突破复杂任务瓶颈。LIMI(2025)的实验表明,仅用 78 条高密度策略示范轨迹,即可使复杂规划任务的成功率平均提升 +43%;CER(Contextual Experience Replay, 2025)在 WebArena 等环境中通过经验回放机制,成功率较 GPT-4o 基线提升约 +51%。这些结果再次印证了"少而精 > 多而泛"的数据哲学。

10.7 可验证奖励强化学习(RLVR)

标准 CoT 提示词是一种相对静态的推理方法——它生成单一的、预定的思路。RLVR 通过强化学习训练产生新一代"推理模型",这些模型的特点是:

  • 在回答前投入可变量的"思考时间",根据问题难度动态调整
  • 生成长达数千 token 的动态思维链,支持自我纠正和回溯
  • 在有可验证正确答案的任务(数学、编程)上通过试错学习推理策略

RLVR 模型不仅产生答案,还生成展示规划、监控和评估等高级技能的"推理轨迹"。这种能力使得推理模型成为构建自主智能体的理想基座。

10.8 Agent 蒸馏与小模型部署

大模型 Agent(如基于 GPT-4 或 Claude 的系统)虽然能力强大,但其高昂的推理成本和延迟使得大规模部署面临挑战。Agent 蒸馏是将大模型的 Agent 能力迁移到小模型的关键技术路径。

蒸馏策略的谱系

  • 轨迹蒸馏:用大模型生成高质量的 Agent 执行轨迹(包括推理过程、工具调用和结果解析),然后在这些轨迹上微调小模型。FireAct 和 Agent-FLAN 都属于这一范畴
  • 能力分层蒸馏:将完整的 Agent 能力分解为子技能(工具选择、参数生成、结果解析),分别蒸馏到不同的小模型或同一模型的不同 LoRA 适配器
  • 在线蒸馏:在部署过程中持续收集大模型的成功轨迹,定期更新小模型——形成"大模型探索、小模型利用"的闭环

能力-成本 trade-off:实践经验表明,7B-13B 参数的微调模型在结构化 Agent 任务(固定工具集、明确目标)上可达到 GPT-4 约 70-80% 的性能,而推理成本仅为其 1/10 至 1/50。但在需要复杂推理、开放式探索或处理罕见场景的任务上,小模型的性能下降更为显著。合理的部署策略是模型级联:小模型处理常规任务,复杂任务自动路由到大模型。

10.9 Token 经济学

智能体系统的运行成本主要由 Token 消耗决定。不同架构模式的 Token 消耗差异显著,理解这些差异对于系统设计和成本控制至关重要。

不同架构的典型 Token 消耗

架构模式单任务典型消耗主要成本来源适用预算级别
单次 CoT 调用~1K-2K tokens推理链长度极低
ReAct(3-5轮)~5K-10K tokens工具调用+观察结果
Plan-and-Solve~8K-15K tokens规划+逐步执行
Reflection 循环~10K-20K tokens多轮生成+评估
多 Agent 协作~20K-50K tokensAgent 间通信+各自推理
自我进化迭代~50K-200K tokens多轮修改+完整测试极高

成本优化策略

  • 模型级联:简单子任务用小模型(如 GPT-4o-mini、Gemini Flash),仅将复杂推理路由到大模型,可降低 60-80% 成本
  • Prompt 缓存:主流 API 提供商(Anthropic、OpenAI、Google)均支持 prompt 缓存,对于系统提示和工具定义等重复内容可节省约 90% 的输入 Token 费用
  • 批处理:将多个独立的 Agent 任务合并为批处理请求,利用 API 的批处理折扣(通常为 50% off)
  • 上下文修剪:定期清理工具返回的冗余信息,使用摘要替代原始输出,控制上下文增长

主流 API 定价参考(2025年初)

模型输入价格 ($/1M tokens)输出价格 ($/1M tokens)上下文窗口
GPT-4o2.5010.00128K
GPT-4o-mini0.150.60128K
Claude Sonnet 43.0015.00200K
Claude Haiku 3.50.804.00200K
Gemini 2.0 Flash0.100.401M
Gemini 2.5 Pro1.25-2.5010.001M

:价格随时间变化,以官方文档为准。缓存命中价格通常为输入价格的 10%。

关键实现决策 -- 工程实践中的关键选择点

10.10 推理技术的选择

场景推荐技术理由
一般性多步推理CoT成本低、效果稳定、最广泛适用
需要搜索最优解ToT多路径探索,但计算成本较高
需要减少偏见GoD/CoD多视角辩论,但需要多次 LLM 调用
需要与外部交互ReAct推理与行动统一,动态适应
精确计算密集PALMs利用代码执行器的确定性
训练专用推理模型RLVR一次训练,持续受益

实践中,这些技术常常组合使用:ReAct 的每个"思考"步骤内部使用 CoT,PALMs 可以嵌入 ReAct 的"行动"步骤。

10.11 自我改进系统的安全设计

自我修改的智能体带来独特的安全挑战——它可以改变自身行为,这既是能力也是风险。关键防护措施:

  • 沙箱隔离:所有代码执行在 Docker 容器中进行,与主机隔离
  • 异步监督:独立的监督 LLM 持续监控行为,检测循环、停滞或异常
  • 版本控制:完整的历史版本档案,随时可回滚到已知良好版本
  • 性能门控:修改后必须通过基准测试,性能下降的版本不会被采纳

10.12 奖励函数设计原则

奖励函数是强化学习训练的核心决策点,直接决定智能体学到什么行为:

好的奖励函数特征

  • 成功标准清晰可量化(如数学答案的正确性)
  • 提供可用的梯度信号(不全是 0/1 的稀疏奖励)
  • 方差适中,训练稳定
  • 支持多目标组合(如正确性 + 简洁性 + 步骤质量)

常见陷阱

  • 奖励欺骗:智能体找到"作弊"方式获取高奖励而非真正完成任务
  • 只有终端奖励:中间步骤无反馈,学习效率低
  • 目标冲突:多个奖励信号互相矛盾

实践中有效的策略是组合多种奖励:准确率奖励(正确答案得分)+ 长度惩罚(抑制过长的无意义输出)+ 步骤奖励(鼓励清晰的推理步骤)。

10.13 MASS:多智能体系统的自动化设计

MASS(Multi-Agent System Search)提出了一个超越手工设计的方法论:自动搜索最优的多智能体系统配置。它通过三阶段优化解决这个问题:

  1. 块级提示词优化:独立优化每个智能体角色的提示词
  2. 工作流拓扑优化:搜索最有效的智能体交互拓扑(使用影响加权采样)
  3. 工作流级提示词优化:在确定最优拓扑后,对整个系统的提示词进行联合优化

实验表明,MASS 优化后的系统显著优于手工设计方案。关键发现是:有效的多智能体系统设计需要同时优化个体能力(提示词)和协作结构(拓扑)。

前沿动态 -- 学术界/工业界最新进展

10.14 推理扩展定律

推理扩展定律(Inference Scaling Law)表明,模型性能随推理时计算资源的增加而可预测地提升。这一发现推动了"Deep Research"类产品的出现——用户给 AI 一个复杂查询和"时间预算"(通常几分钟),AI 自主执行多轮搜索、分析和综合,返回远超单次查询深度的结构化报告。

这代表了搜索范式的根本转变:从"即时返回链接"到"授权 AI 代理完成深度研究"。

10.15 自主算法发现

AlphaEvolve 和 OpenEvolve 展示了 AI 智能体自主发现和优化算法的可能性。这种"智能体作为研究者"的范式有潜力加速科学发现过程——不再局限于优化已知算法的超参数,而是探索全新的算法结构和解题策略。

学习与适应模式

10.16 LLM 智能体的自我改进瓶颈

SICA 的实践揭示了当前自我改进系统的核心挑战:让 LLM 在每次改进迭代中提出真正新颖、可行且有价值的修改仍然困难。模型倾向于在安全的、渐进式的改进中徘徊,较少产生突破性的创新。如何在自我改进循环中注入更多的创造性探索,是开放的研究问题。

本章小结

学习、适应与推理增强共同指向智能体能力的动态扩展。学习与适应使智能体能够从经验中改进——SICA 通过修改自身代码持续提升编程能力,AlphaEvolve 通过进化框架发现新算法。推理增强使智能体在面对复杂问题时能够调动更多计算资源——CoT 提供逐步推导,ToT 支持多路径探索,ReAct 统一了推理与行动,RLVR 训练出能动态分配思考时间的推理模型。

Agentic RL 代表了 LLM 从"对话助手"向"自主智能体"演化的训练范式转变。它不再优化单步回答质量,而是优化多步任务的完成度,通过累积奖励信号训练智能体的推理、工具使用、规划和自我改进等核心能力。

工程实践中的关键决策包括:推理技术的场景匹配(CoT 作为通用默认,ReAct 用于需要工具交互的任务)、自我改进系统的安全设计(沙箱隔离、异步监督、性能门控)、以及奖励函数的精细设计(组合多目标、避免奖励欺骗)。

⚠️ 已知局限:自我改进系统面临"自我认知盲区"问题——LLM倾向于做渐进式、安全的修改,而非突破性的创新。SICA的实践表明,经过多轮迭代后性能改进会趋于平台期,模型难以跳出局部最优。在推理增强方面,ToT和GoD的计算开销极高(单个问题可能需要数十次LLM调用),使其在延迟敏感的场景中不实用。RLVR训练的推理模型在分布外问题上可能产生过度自信的错误推理链,表面看似严谨实则结论错误。

这些技术正在将智能体从"预设能力的执行者"转变为"能力持续扩展的自主系统"。