Skip to content

第 10 章:奖励模型与偏好学习

本章概览

奖励建模(Reward Modeling)与偏好学习(Preference Learning)是连接"人类意图"与"模型行为"的关键桥梁。本章从概率统计建模的基石——Bradley-Terry 模型出发,逐层推导奖励模型的训练目标,揭示 Loss 与梯度背后的学习动力学;接着通过严格的数学推导,展示 DPO 如何消去显式奖励模型、将强化学习转化为监督学习问题;随后讨论 DPO 在工程实践中的局限性与应用模式、Reward Shaping 的理论保证与工程实例、RaR 如何将奖励建模推广到非可验证领域、奖励标准化的常见误区与正确做法;最后覆盖偏好数据的构建方法和前沿研究话题。


10.1 Bradley-Terry 模型与奖励建模

从 Bradley-Terry 模型到 MLE 损失函数,奖励模型训练的三层建模框架与梯度动力学。

10.1.1 三层建模框架

奖励模型的训练可以理解为三层嵌套结构——从底层的工具到顶层的指导原则:

θ结果=argmaxθ(xw,xl)Dlogσ(fθ(xw)fθ(xl)Deep Learning)BT 模型逻辑MLE(最大似然估计)

三层各自承担不同职责:

层级名称职责
底层(工具层)深度学习参数化函数 rθ,将文本映射为标量分数。它是一个黑盒函数,负责"把文本变成数字"
中层(逻辑层)Bradley-Terry 模型赋予"数字差值"可解释的概率含义。它定义了两个数字的差值代表什么:偏好概率 11+exp(Δr)。没有这一层,深度学习输出的数字就没有可解释的意义
顶层(指导层)MLE(最大似然估计)定义 Loss Function,驱动参数学习。通过梯度的计算进一步求解,理解 Learning Dynamics

核心洞察:概率统计建模(BT)定义 Loss 的语义,深度学习提供万能逼近器(Universal Approximator)来实现。理解 Loss 看"高度",理解 Learning Dynamics 看"坡度"(梯度)。

10.1.2 Bradley-Terry 模型

BT 模型的原始设定来自竞技体育的排名问题。如果选手 A 的隐藏实力(奖励分数)为 rA,选手 B 为 rB,那么 A 击败 B 的概率定义为:

P(AB)=erAerA+erB=σ(rArB)

映射到语言模型场景:给定输入 prompt x,"偏好回复" yw 优于"拒绝回复" yl 的概率:

P(ywylx)=σ(rθ(x,yw)rθ(x,yl))

直觉:Reward Model 本质上就是一个用神经网络去拟合的 Bradley-Terry 模型。或者说,它是 BT 模型的参数化载体(Parameterized Instance)。

10.1.3 从概率到损失函数

为了训练神经网络(找到最佳参数 θ),我们需要最大化模型预测符合人类选择的概率。这就是 MLE(最大似然估计)

第一步:写出似然函数

Maximize (x,yw,yl)DP(ywylx)

第二步:取对数

Maximize logP(ywylx)=logσ(rθ(x,yw)rθ(x,yl))

第三步:取负号,得到可最小化的 Loss

L(θ)=1(K2)E(x,yw,yl)D[logσ(rθ(x,yw)rθ(x,yl))]

10.1.4 Loss 与梯度的深度洞察

Δr=rθ(x,yw)rθ(x,yl),Loss 函数 log(σ(Δr)) 在不同区间呈现出截然不同的行为:

Δr 范围Loss 行为含义
Δr0Δr(线性惩罚)模型明显分错,线性地狠狠惩罚
Δr=0ln20.693无法区分好坏,50/50
Δr00(收益递减)模型已分清,但曲线越来越平缓(梯度消失)

Bradley-Terry Loss 曲线:左侧线性惩罚区,右侧收益递减区

关键观察:一旦 rw 已经比 rl 高出 4-5 分,Sigmoid 概率接近 0.99,再拉大分差对 Loss 的贡献微乎其微。模型不需要无限大的分差,只要"足够分清"就会停止激进更新。

梯度分析

Lθ=(σ(Δr)1)权重项 [1,0](θr(x,yw)θr(x,yl))方向项

权重项 (σ(Δr)1) 揭示了一种优雅的自适应学习机制:

  • 错题(模型分错的,Δr=2):权重 0.88,大幅修正
  • 难题(分不开的,Δr=0):权重 =0.5,适度学习
  • 送分题(已经分清的,Δr=+6):权重 0.003,几乎不更新

Loss 与梯度对比:上图 Loss 曲线,下图梯度幅度

结论:Reward Model 训练是一个优雅的"自适应 Hard Negative Mining"过程——梯度(Learning Signal)自动将学习精力集中在最难区分的样本上,已经分清楚的"送分题"几乎不消耗计算资源。

10.1.5 非传递性偏好(Intransitive Preferences)

当偏好数据出现循环 A>B>C>A 时(类似"石头-剪刀-布"),BT 模型无法在单一维度上"理解"这种循环。它只能通过**拉平分数(Flattening)**来达成妥协。

为什么"强行分出胜负"不可行? 假设模型尝试设 sA=10,sB=0,sC=10

L=logσ(sAsB)0, 开心+logσ(sBsC)0, 开心+logσ(sCsA)20, 爆炸

在 Log Loss 中,"非常确信地预测错"带来的惩罚趋向无穷。为了满足前两个关系而把第三个概率压到接近 0,总 Loss 反而极大。

"承认无知"的策略:模型选择 sA=sB=sC=0,所有对战概率均为 0.5,总 Loss 2.07,这是对循环偏好的最优妥协。

实验验证(均匀循环偏好):

python
# 初始分数: A=1.0, B=2.0, C=3.0
# 数据: A>B, B>C, C>A 各 1 次(完美循环)
# 训练 500 步后:
# 最终分数: A=2.0000, B=2.0000, C=2.0000
# P(A > B) = 0.5000

三者从不同初始值出发,最终完全收敛到相同分数——BT 模型的"投降"。

不均匀循环偏好下的"软多数投票"(Soft Majority Voting):

当偏好出现频次不均(A>B 出现 100 次,B>C 出现 50 次,C>A 出现 20 次),模型不再简单拉平,而是按多数投票的方向给出合理排名:

python
# 训练 500 步后:
# 最终分数: A=3.21, B=1.69, C=1.11
# P(A > B) = 0.82

启示:MLE 在循环偏好中的行为本质上是一种带概率权重的多数投票。语言模型中常见类似循环:长文本 > 短文本 > 幽默文本 > 长文本。标准 BT 的 RM 会"磨平"这些差异,失去对特定风格的精细捕捉——这是单一标量奖励的固有局限。


10.2 DPO:从 RLHF 到直接偏好优化

DPO 如何通过数学等价变换消去显式奖励模型,将 RLHF 转化为监督学习问题。

10.2.1 RLHF 的优化目标

标准 RLHF 的核心是 KL-constrained Reward Maximization

maxπExD,yπ(|x)[r(x,y)]βDKL(π(|x)πref(|x))

KL 约束有双重作用:

  1. 分布安全:防止模型偏离奖励模型能准确评估的数据分布。RM 是在 SFT 模型的输出上训练的,一旦生成模型跑偏产生 Out-of-Distribution 文本,RM 打出的分数就不可信了(可能乱给高分)
  2. 多样性保持:避免 Mode Collapse——收敛到单一的高奖励答案

RLHF 与 DPO 流程对比

背景:DPO 的第一作者 Rafailov 是 Sergey Levine 的学生,Levine 也是 Maximum Entropy RL 的推手。KL 正则与 MaxEnt RL 的熵正则在精神上一脉相承。

10.2.2 最优策略的解析解

上述 KL 约束优化目标存在解析解(Closed-form Solution):

π(y|x)=1Z(x)πref(y|x)er(x,y)β

其中 Z(x)=yπref(y|x)er(x,y)/β 是归一化常数(Partition Function),确保概率之和为 1。

直觉解读:最优策略 = 参考策略按奖励做指数加权后重新归一化。奖励高的地方概率放大,奖励低的地方概率压缩。

10.2.3 隐式奖励——从 ππθ

上一节的解析解告诉我们,最优策略 π 和奖励 r 之间存在一一对应关系。反解出奖励:

r(x,y)=βlogπ(y|x)πref(y|x)+βlogZ(x)

DPO 的关键洞察在于:既然最优策略与奖励一一对应,我们可以用当前正在训练的策略 πθ 来定义一个隐式奖励(Implicit Reward)

r^θ(x,y)=βlogπθ(y|x)πref(y|x)

πθ 收敛到最优策略 π 时,r^θ 就恢复为真实奖励(模掉常数 βlogZ(x))。这一步将"学习显式奖励函数 r"替换为"学习策略 πθ"——奖励被隐式地编码在策略与参考模型的 Log Ratio 中。

10.2.4 奖励差的消去——Z(x) 抵消

现在计算两个回复的奖励差

r(x,yw)r(x,yl)=(βlogπ(yw|x)πref(yw|x)+βlogZ(x))(βlogπ(yl|x)πref(yl|x)+βlogZ(x))=βlogπ(yw|x)πref(yw|x)βlogπ(yl|x)πref(yl|x)

数学的"magic 时刻":归一化常数 Z(x) 因做差被完全抵消!显式的奖励函数 r(x,y) 也消失了!剩下的只有策略模型与参考模型的 Log Ratio。

10.2.5 DPO Loss 的推导

将上述奖励差代入 Bradley-Terry 偏好概率 P(ywyl|x)=σ(rwrl)

P(ywyl|x)=σ(βlogπ(yw|x)πref(yw|x)βlogπ(yl|x)πref(yl|x))

通过 MLE 最大化偏好概率,取负号得到 DPO Loss

LDPO(πθ;πref)=E(x,yw,yl)D[logσ(βlogπθ(yw|x)πref(yw|x)βlogπθ(yl|x)πref(yl|x))]

本质:DPO 把 RLHF 降维成了一个二分类监督学习问题。它就是逻辑回归(Logistic Regression)或二元交叉熵(Binary Cross Entropy):

  • 定义"分差":u=βlogπ(yw)πref(yw)βlogπ(yl)πref(yl)
  • 预测概率:P(win)=σ(u)
  • 真实标签:数据集中 yw 确实赢了(标签为 1)
  • 目标:maxθσ(u)

10.2.6 RLHF 与 DPO 的对比

对比维度RLHF(PPO 路线)DPO
训练流程先训 RM,再 RL 优化策略端到端直接训练
是否需要独立 RM否(隐式包含在 Log Ratio 中)
是否需要在线采样是(PPO 阶段需要 rollout)否(用静态偏好数据集)
工程复杂度高(三阶段流水线)低(一阶段训练)
风险RM 过拟合、奖励 Hacking也可能 Reward Hacking(Log Ratio 漏洞)

10.3 DPO 补充:数学细节与变体

DPO 的隐式奖励推导、IPO 变体,以及 DPO 在工程实践中的局限性分析。

10.3.1 DPO 在训练流程中的位置

DPO 通常置于 SFT(监督微调)之后,可选地在 RLVR/PPO 之前:

Pretraining → SFT → DPO → RLVR/PPO(可选)

其核心作用:

  • 决策细化(Refinement):SFT 阶段建立基本能力,DPO 进一步校准偏好方向
  • 目标对齐(Alignment):使模型决策与任务目标更加一致
  • 概率调整:提高生成"优选轨迹"(Preferred Trajectory)的概率,降低"非优选轨迹"的概率,巩固正确的推理模式

代表工作:MiroThinker(arXiv:2601.04888)将 DPO 用于 Research Agent 的决策细化——SFT 学基本行为,DPO 比较成功/失败的 Agent 轨迹来微调决策策略。

10.3.2 DPO 的三大局限性

局限一:评估能力 生成能力

DPO 的训练过程仅教会模型如何"打分"——判断哪个回复更好。但这并不直接训练"生成能力"。

就像研读棋谱能学会评估招法的好坏,但不能保证在实际对弈中走出好棋。如果"学会评估就能生成好内容"的假设不成立,DPO 的训练就失去了意义。这一假设的有效性同样影响 SPIN 和 Self-Reward 等方法的理论根基。

局限二:Loss Margin 优先于生成质量

DPO 的优化目标完全依赖于奖励模型的评分机制,只关心好坏回复之间的分差是否增大,不关心生成文本是否流畅或具有吸引力:

  • 好回复和坏回复的对数概率可能同时下降,只是好回复下降得少一些
  • 梯度信号集中在"拉开差距",而非"生成高质量内容"
  • 训练中常出现一个尴尬现象:双方 Loss 同时增加,需要额外的超参调整或约束来稳定

局限三:Reward Hacking 风险

DPO 的 Loss 只要 πθ(yw)πref(yw) 足够大就会降低。模型可以通过让 πref 认为概率极低的地方强行提权来"刷分"——这本质上是在利用 KL 散度定义中 Log Ratio 的漏洞,制造巨大的似然比而非真正提升回答质量。

10.3.3 Reward Model 的准确性边界

DPO 的推导隐含一个关键假设:奖励模型(无论是显式的还是隐式的)在当前策略分布下是准确的。这正是 KL 约束的物理意义所在:

"The added constraint prevents the model from deviating too far from the distribution on which the reward model is accurate, as well as maintaining the generation diversity and preventing mode-collapse to single high-reward answers." —— DPO 论文

准确区(Trust Region):RM 通常在 SFT 模型的输出上训练。当语言模型生成的句子在语法、逻辑、长度和风格上与 SFT 输出相似时,RM 处于"舒适区",打分准确。

危险区(OOD):当模型为了"刷分"而过度优化,生成了偏离人类自然语言习惯、或利用了 RM 神经网络漏洞的文本时,RM 就会变得极不准确——可能对低质量文本乱给高分。

Goodhart's Law:When a measure becomes a target, it ceases to be a good measure. 一旦 RM 被当作优化目标,它就不再是好的衡量标准。


10.4 Reward Shaping 技术

Reward Shaping 的理论保证(势函数不变性)及其在 token 级奖励分配中的工程实例。

10.4.1 为什么需要 Reward Shaping?

在实际 RL 训练中,奖励信号常常是稀疏的——例如数学题只在最终答案正确时给 +1,中间推理步骤没有任何反馈。这导致智能体在漫长的探索中缺乏学习信号。

Reward Shaping 在环境奖励之上叠加辅助奖励信号,为智能体提供中间引导,加速学习过程。

10.4.2 势能形式的理论保证

为保证 Shaping 后的最优策略与原始最优策略一致(即辅助奖励不会"带偏"学习方向),辅助奖励必须满足**势能函数(Potential-based Shaping)**形式:

F(s,a,s)=γΦ(s)Φ(s)

其中 Φ:SR 是定义在状态空间上的任意势能函数。这一理论结果保证了:添加势能形式的 Shaping 奖励不会改变最优策略,只会加速收敛。

10.4.3 工程实例

案例一:Cursor Tab 的奖励设计

Cursor 的代码补全(Tab 功能)使用 RL 来优化建议时机,其奖励设计权衡了"建议被接受"(正向价值)与"打扰用户"(负向代价):

事件奖励值设计意图
用户接受(Accept)建议+0.75鼓励有用的建议
用户拒绝(Reject)建议0.25惩罚打扰,但力度小于接受的正奖励
不显示建议(No Show)0中性基线

不对称的奖励幅度(+0.75 vs. -0.25)是典型的多目标 Reward Shaping:希望模型在不确定时宁可不显示,但一旦显示就要有把握被接受。

案例二:verl 中的 GSM8K Tool Call Shaping

在多轮工具调用场景中,verl 框架对中间步骤施加 Shaping 奖励:

python
# verl/examples/sglang_multiturn/gsm8k_toolcall_shaping/
# 工具调用结果正确:+1.0(完全正确)
# 工具调用格式正确但结果错:+0.2(鼓励格式学习)
# 格式错误:0.0(不惩罚,但也不鼓励)

这种分层 Shaping 让模型先学会"正确调用工具"(格式),再学会"调用对的工具"(结果),降低了学习难度。

10.4.4 RLHF 中的 KL 惩罚即 Reward Shaping

RLHF 的 KL 正则项本质上就是对奖励函数的一种 Shaping:

r~(x,y)=r(x,y)βlogπθ(y|x)πref(y|x)

它把"偏离参考模型的程度"编码为负奖励——偏离越大,惩罚越重。这同时实现了:

  • 防止 OOD:模型不敢跑到 RM 评估不准确的区域
  • 保持多样性:偏离参考模型太远的单一策略会被惩罚

从 Reward Shaping 的视角看,KL 惩罚定义了一个以 πref 为中心的"势能场",策略越偏离这个中心,"势能"越高(惩罚越大)。


10.5 RaR(Reward-aware Reasoning)

RaR 将奖励建模从可验证任务推广到非可验证领域,通过推理过程评估回答质量。

10.5.1 动机:超越可验证领域

RLVR(Reinforcement Learning with Verifiable Rewards)在数学和代码领域取得了巨大成功,因为这些领域有天然的正确/错误信号——答案是 42 就是 42,代码能通过测试就是通过了。

但在医学诊断、科学推理、开放式写作等真实世界任务中,答案往往没有单一的"真理"。评价一个回答的好坏,依赖于多个维度的细微判断(Nuanced, Multi-criteria Judgments)。

RaR(Rubrics as Rewards)的核心思路:将"好答案的标准"解构为一系列可解释的、细粒度的检查清单(Checklist)

10.5.2 RaR 的形式化定义

对于输入 prompt x,模型生成回答 y^πθ(|x)。RaR 为每个 x 关联一组评分细则 {(wj,cj)}j=1k

  • wjR:第 j 条标准的权重
  • cj:(x,y^){0,1}:二元正确性函数,判断是否满足该标准

显式聚合(Explicit Aggregation):直接计算加权满足率,标准化到 [0,1]

r(x,y^)=j=1kwjcj(x,y^)j=1kwj

隐式聚合(Implicit Aggregation):将所有 Rubric criteria 作为上下文输入给 LLM Judge,由模型直接打分:

rimplicit(x,y^)=fϕ(x,y^,{dj}j=1k)

10.5.3 RaR vs. Standard LLM-as-Judge

维度Standard LLM-as-JudgeRaR
标准来源通用 System Prompt("请打分 1-10,标准是准确性、有用性...")每个 Prompt 生成专属 Rubrics(如"是否计算了碳酸氢盐量?")
输出结构黑盒标量分数,不可解释结构化多维检查项,每条可追溯
Reward Hacking 风险高(容易被长度、语气等肤浅特征欺骗)低(必须逐条满足具体标准)
对 Judge 能力的要求高(弱模型直接打分很随机)低(7B 模型 + Rubrics GPT-4 级评审)
本质主观推理任务近似于数学题的伪客观验证任务

论文标题的深意:"Beyond Verifiable Domains"——在没有标准答案的领域,人造出标准。RaR 将一个主观推理任务转化为了伪可验证任务。

10.5.4 Rubrics 生成的 Prompt 设计

Rubrics 的质量直接决定 RaR 的效果。论文提出的生成 Prompt 遵循四项原则:

  1. Grounded in Expert Guidance:Rubric 条目需有专业依据
  2. Comprehensive Coverage:覆盖回答质量的所有关键维度
  3. Criterion Importance:为每条标准赋予合理权重
  4. Self-Contained Evaluation:每条标准独立可判,不依赖外部信息

10.5.5 Weak-to-Strong 的实现

RaR 的核心发现:Weak Judge + Rubrics Strong Judge

角色模型选择
Rubrics 生成(一次性)GPT-4o(强模型)
Policy Model(待训练的策略模型)Qwen2.5-7B-Instruct / LLaMA-3.1-8B
Judge / Reward Model(打分)同等或更小规模模型(Qwen2.5-7B/3B)+ Rubrics

一旦有了清晰的 Rubrics 作为"脚手架",即使是 7B 的小模型也能做出接近 GPT-4 级别的准确评审。这使得用小模型监督大模型训练(Weak-to-Strong Generalization)成为可能,大幅降低了奖励建模的成本。


10.6 奖励标准化的讨论

奖励标准化的常见误区与正确做法:batch-level 与 group-level 归一化的差异。

10.6.1 问题的提出

一个常见的工程问题:如果奖励模型的输出分数范围从 50+50,需要做归一化吗?比如映射到 [0,1]

手动归一化的两个陷阱

  1. Sigmoid 归一化 σ(r):当 RM 输出绝对值很大(如 +5050)时,Sigmoid 的导数趋近于 0,导致梯度消失,大量学习信号丢失
  2. Min-Max 归一化 (rmin)/(maxmin):必须在 batch 内或全局统计 min/max,引入分布偏移与训练不稳定性

10.6.2 GRPO 的内置归一化

GRPO(Group Relative Policy Optimization)算法的设计初衷就是解决奖励尺度问题。它不需要外部归一化,因为其优势函数自带"相对化"处理。

对于同一个 Prompt q,采样 G 个输出 {o1,o2,...,oG},RM 打分为 {r1,r2,...,rG}。GRPO 计算的优势(Advantage):

A^i=riμgroupσgroup+ϵ

正确的做法

  • 不要(rmin)/(maxmin)
  • 不要σ(r)(除非 RM 训练时最后一层就是 Sigmoid,但通常直接用 logits 更好)
  • 直接使用 RM 的原始 Logits/分数
  • 依靠 GRPO 组内标准化自动适应分数范围

Why it works:标准化后的优势是"相对值"——不管原始奖励是 [50,50] 还是 [0,1],组内高低关系和梯度方向保持不变。减均值消除了绝对尺度的影响,除方差将梯度幅度归一到合理范围。

10.6.3 Dr. GRPO 的边界情况处理

标准 GRPO 在两种极端情况下会出问题:

全错的难题组

python
R_hard = torch.tensor([0.0, 0.2, 0.2, 0.0, 0.0, 0.1, 0.0, 0.0])
# std = 0.0857,极小
# 标准化后优势绝对值被放大到 10+,梯度信号严重失真

全对的易题组

python
R_easy = torch.tensor([1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0])
# std = 0,除以 0!

Dr. GRPO 的解决方案:检测到 std 过低(或全对/全错)的 batch 时,跳过梯度更新,避免虚假梯度信号。这是一种简单但有效的"安全阀"——宁可不学,也不被错误的梯度信号误导。


10.7 数据构建与偏序数据

偏好数据的构建方法论:从人工标注到 AI 反馈,数据质量对齐效果的决定性影响。

10.7.1 数据策展:配方与配比

后训练数据的构建不仅是"从哪来"的问题,更是一个配方(Recipe)与配比问题——不同来源的数据以何种比例混合,直接决定了模型的能力边界。

数据来源

来源说明优点缺点
已有开源数据集Anthropic HH、OpenAI TL;DR 等成本低,可快速启动分布可能与目标任务不匹配
人类标注专业标注员对比评价回复好坏质量高,贴合真实偏好昂贵、慢、主观差异大
合成数据采样 Agent 轨迹,RM 打分排序可规模化,成本可控质量依赖 RM 本身的质量(循环依赖)
参考范文回溯人类执行任务,LLM 反推思维链数据自然真实,蒸馏人类隐性知识工程复杂,需要高质量 LLM

配比视角:实际训练中,SFT 与 RL 后训练的核心区别不在于数据来源,而在于数据格式混合策略。SFT 需要"标准答案"(response),RL 只需要"评判标准"(reward model),这使得 RL 后训练可以利用更多无标注数据。但无论哪种方式,数据配比都需要平衡三个维度:

  • 能力覆盖:数学、代码、通识、安全等不同领域的比例
  • 难度梯度:简单题用于稳定训练,难题用于拓展能力边界
  • 新旧平衡:任务特定数据与通用能力保持数据的比例(防止灾难性遗忘)

参考范文回溯的案例:SIMA 2 中,人类在游戏中交互产生具体动作,Gemini Pro 根据输入和人类的输出"脑补"推理过程(Reasoning Trace),从而构造出带思维链的训练数据。这种方法将人类的隐性操作知识转化为可训练的显式推理链,是"配方"设计中高质量数据的典型来源。

10.7.2 偏序数据(Partial Order Data)

偏好数据本质上是偏序关系(Partial Order):

ywylx

与全序数据(可以对所有回复排出一个完整序列)不同,偏序数据允许"无法比较"(Incomparable)的情况存在——两个回复可能各有优劣、无法判定谁更好。这更贴近真实的人类偏好结构。

Bradley-Terry 模型正是将离散的偏序关系转换为连续奖励值的数学工具:从一堆"A 比 B 好"的偏序对中,推断出每个回复的隐含分数。

DPO 直接在偏序数据上训练,以 {(x,yw,yl)} 三元组作为训练样本,避免了将偏序关系先转化为奖励分数的中间步骤。

10.7.3 不同后训练方式的数据格式

后训练方式数据格式说明
SFT(x,y)Prompt + 期望的 Response
RLHF / PPO(x,rϕ)Prompt + 训练好的 Reward Model
DPO(x,yw,yl)Prompt + 偏好回复 + 拒绝回复
RLVR / GRPO(x,rverifiable)Prompt + 可验证奖励(如数学判题器)

10.7.4 数据质量与 Reward Hacking

When a measure becomes a target, it ceases to be a good measure. —— Goodhart's Law

一旦奖励模型被当作优化目标,模型会寻找 RM 的盲点来"刷分",而非真正提升质量。

常见的 Reward Hacking 形式

  • 长度偏好:RM 倾向给更长的回复打高分,模型学会废话连篇
  • 格式偏好:RM 偏好特定格式(如 Markdown 列表),模型机械套用
  • 关键词偏好:特定词汇(如"当然"、"很高兴为您服务")得分更高

缓解方法

  1. KL 正则:限制偏离参考模型的程度,防止过度优化
  2. 多维奖励:使用多个 RM 或多维评估标准,避免单一 RM 的盲点被利用
  3. 可验证奖励(RLVR):在可能的领域,使用无法被 Hack 的形式化验证替代 RM
  4. 混合训练策略:在 RL 训练数据中混入通用能力保持数据,防止灾难性遗忘

10.8 前沿研究话题

奖励模型与偏好学习领域的前沿研究方向与开放问题。

10.8.1 Value Implicit Pre-training(VIP)

VIP 范式提出了一种从人类演示中无监督学习奖励信号的方法:人类完成任务的视频本身就是一条价值递增的轨迹

人类在视频中执行任务的过程,本质上是从低价值状态向高价值状态优化的过程。VIP 通过学习这种时间上的平滑性,在没有任何显式奖励标签的情况下构建出指导动作的势能场。

对于视频序列中的帧 otot+kk>0),训练目标:

ϕ(ot)ϕ(og)2>ϕ(ot+k)ϕ(og)2

即距离目标状态 og 更近的帧,其嵌入与目标嵌入更接近。

意义:从人类演示视频中无监督地提取奖励信号,极大扩展了可训练任务的范围,无需人工设计每个任务的奖励函数。

10.8.2 带 Value Head 的奖励模型架构

现代奖励模型的典型架构设计:

  • 基于预训练 LLM(如 Llama-3-8B、Nemotron-340B-Base)
  • 移除原语言建模头(Unembedding Layer)
  • 添加一个随机初始化的线性 Value Head,将最后一个 Token 的隐状态映射为标量
python
class RewardModel(nn.Module):
    def __init__(self, base_model):
        super().__init__()
        self.base = base_model  # 预训练 LLM
        self.value_head = nn.Linear(base_model.config.hidden_size, 1)

    def forward(self, input_ids, attention_mask):
        hidden = self.base(input_ids, attention_mask).last_hidden_state
        # 取最后一个 Token 的表征作为整个序列的"摘要"
        # ⚠️ 右侧 padding 风险:如果 tokenizer 使用右侧 padding,
        # hidden[:, -1, :] 取到的是 [PAD] token 的表征而非真实末尾 token。
        # 正确做法:用 attention_mask 找到每条序列的最后一个非 padding 位置,
        # 例如 last_idx = attention_mask.sum(dim=1) - 1
        reward = self.value_head(hidden[:, -1, :]).squeeze(-1)
        return reward

这种架构的设计思路:最大程度保留基座模型的语义理解能力(只修改最后的 head),同时通过微调学习人类偏好的评分逻辑。基座模型负责"理解",Value Head 负责"打分"。

10.8.3 DPO 在 Agentic 场景中的应用

代表工作 MiroThinker 展示了 DPO 在 Research Agent 决策细化中的三阶段应用模式:

阶段 1(SFT):学习基本 Agent 行为(工具使用、推理格式)
阶段 2(DPO):比较成功/失败的 Agent 轨迹,细化决策策略
阶段 3(RLVR):基于可验证的任务完成度进一步强化

DPO 阶段的核心机制:通过最大化"正样本"(成功轨迹)与"负样本"(失败轨迹)之间的似然差来优化策略,使模型学会在关键决策点选择更优的行动路径。

10.8.4 SIMA 2 的混合数据策略

为防止灾难性遗忘(Catastrophic Forgetting),SIMA 2 在 RL 微调时采用混合训练策略:

  • 任务特定数据:新任务的 RL 轨迹,驱动能力提升
  • 通用能力保持数据:原始 SFT / 预训练数据,维持已有能力

这种"训新保旧"的策略在实践中被广泛采用,核心思想是:RL 后训练不应以牺牲通用能力为代价。

10.8.5 开放研究问题

  1. 奖励泛化(Reward Generalization):RM 如何在训练分布之外保持准确性?能否构建对 OOD 输入鲁棒的奖励模型?
  2. 细粒度偏好建模:如何在单一奖励信号中区分"更准确"vs."更礼貌"vs."更有创意"等不同维度?
  3. 多模态奖励:图像、视频、音频任务中的偏好建模,如何处理跨模态的偏好对比?
  4. 奖励校准(Reward Calibration):RM 输出的分数是否有绝对意义?不同 RM 的分数能否直接比较?
  5. Process Reward Model(PRM):对推理过程的每一步打分,而非仅对最终答案打分——这是 OpenAI PRM800K 和 DeepSeek-R1 所关注的核心方向

本章小结

主题核心要点
Bradley-Terry 模型三层建模(DL + BT + MLE);偏好概率 σ(Δr);梯度 = 自适应 Hard Negative Mining;循环偏好下的 Flattening 与 Soft Majority Voting
DPO 推导KL 约束最优策略的解析解 隐式奖励 r^θ=βlog(πθ/πref) 反解奖励 Z(x) 消去 降维为二分类监督学习
DPO 局限评估 生成;Loss Margin 优先于质量;Log Ratio 的 Reward Hacking 漏洞
Reward Shaping势能形式保证最优策略不变;KL 惩罚是 Shaping 的特殊形式;Cursor Tab 与 verl 工程实例
RaRRubrics 将主观评估转化为伪客观验证;Weak Judge + Rubrics Strong Judge
奖励标准化GRPO 组内标准化替代手动归一化;Dr. GRPO 跳过全对/全错 batch
偏序数据三元组 (x,yw,yl);BT 是偏序 标量的桥梁;SFT vs. RL 数据格式差异
前沿方向VIP(无标签奖励学习);Value Head 架构;PRM(过程奖励);Agentic DPO;混合训练策略

延伸阅读