Skip to content

8.2 创新架构

前一节介绍了 Transformer 架构内部的各种效率优化——从 GQA 压缩 KV 缓存,到滑动窗口注意力降低计算量。但这些方法的共同局限在于:它们仍然在 Softmax 注意力的框架内做文章,无法从根本上突破 O(n2) 的复杂度下限。本节将视角拓展到 Transformer 之外,系统梳理一系列试图从底层数学原理出发重新设计序列建模机制的创新架构。

这些架构的共同目标是:训练时保持高效并行性,推理时实现常数内存和常数时间复杂度——即所谓"不可能三角"的同时达成。我们将从最基础的状态空间模型(SSM)理论出发,依次展开 Mamba 系列、RWKV 系列、RetNet 和线性注意力的技术脉络,最后以一张统一对比表收束全局。

8.2.1 状态空间模型(SSM):从连续系统到离散递推

状态空间模型是所有后续创新架构的数学基石。理解 SSM 的连续-离散对偶性,是理解 Mamba、RWKV 等模型设计动机的前提。

核心思想。 SSM 将序列建模问题抽象为一个线性动力系统:输入信号 x(t) 通过一个隐状态 h(t) 映射到输出 y(t)。这个框架直接继承自控制理论中的状态空间表示(state-space representation)。

连续 SSM 与离散 SSM 的对应关系

图 8-5:状态空间模型的连续形式与离散形式。上方为连续时间 SSM,通过微分方程 h(t)=Ah(t)+Bx(t) 描述状态演化;下方为离散化后的递推形式 hk=A¯hk1+B¯xk,适合在数字计算机上逐步处理离散序列。

[选读] 连续到离散的完整推导。 连续时间 SSM 由四个参数 (Δ,A,B,C) 定义,其中 ARN×N 是状态转移矩阵,BRN×1 是输入矩阵,CR1×N 是输出矩阵,Δ 是离散化步长。连续方程为:

h˙(t)=Ah(t)+Bx(t),y(t)=Ch(t)

为了在数字计算机上处理离散序列,需要将连续系统离散化。最常用的方法是零阶保持(Zero-Order Hold, ZOH),其假设输入信号在每个离散步长 Δ 内保持恒定。由此得到离散参数:

A¯=exp(ΔA),B¯=(ΔA)1(exp(ΔA)I)ΔB

ΔA 的范数较小时,B¯ 可近似为 ΔB。离散化后的系统成为一个标准的线性递推:

ht=A¯ht1+B¯xt,yt=Cht

三种等价计算形式。 离散 SSM 具有三种等价的计算形式,这一性质是后续所有架构设计的基础:

  1. 递推形式(Recurrent):逐步更新 ht=A¯ht1+B¯xt,适合自回归推理——每步 O(1) 时间和内存。
  2. 卷积形式(Convolutional):将递推展开,输出 y 可表示为输入 x 与核 K¯=(CB¯,CA¯B¯,,CA¯kB¯,) 的卷积,适合并行训练。
  3. 并行扫描形式(Parallel Scan):利用前缀和算法在 GPU 上高效并行计算递推,时间复杂度 O(nlogn)

S4(Structured State Space for Sequence modeling)是将 SSM 成功应用于深度学习的里程碑工作。它通过对 A 矩阵施加 HiPPO 初始化和对角结构约束,解决了长程依赖建模问题,并在长序列基准(Long Range Arena)上显著超越 Transformer。

LTI 的局限性。 S4 及其变体均属于线性时不变(Linear Time-Invariant, LTI)系统——参数 (Δ,A,B,C) 在所有时间步保持固定。这意味着模型无法根据输入内容动态调整信息的保留或遗忘策略。对于语言等信息密度高度不均匀的离散数据,LTI 是一个根本性瓶颈。突破这一限制,正是 Mamba 的核心贡献。

8.2.2 Mamba 系列:选择性状态空间与状态空间对偶

Mamba:选择性 SSM。 Mamba 的核心洞察是:让 SSM 参数成为输入的函数,从而将 LTI 系统升级为时变(time-varying)系统。具体而言,Mamba 将 ΔBC 三个参数从固定值改为输入 xt 的线性投影:

Mamba 的选择性 SSM 机制

图 8-6:Mamba 的选择性状态空间模型架构。输入 xt 通过 Selection Mechanism(蓝色)动态生成 BtCtΔt 三个参数,使得状态转移矩阵 A 的离散化结果随输入变化。右下角的 GPU 存储层次图示意了 Mamba 的硬件感知设计——将扩展状态保留在 SRAM 中以避免 HBM 读写瓶颈。

Δt=softplus(WΔxt),Bt=WBxt,Ct=WCxt

这一修改的语义直觉是:Δt 控制"记忆的持续时间"——小的 Δt 使 A¯tI,信息被长期保留;大的 Δt 使 A¯t0,历史信息被快速遗忘。BtCt 则控制"写入什么"和"读出什么"。

选择性带来的代价是:参数不再是时不变的,卷积形式不再适用。Mamba 通过一个精心设计的硬件感知并行扫描算法(hardware-aware parallel scan)解决了这一问题——该算法在递推模式下执行计算,但通过控制 GPU 不同层级存储之间的数据搬运(避免将扩展状态 D×N 写入 HBM),实现了比卷积模式更高的训练效率。

架构简化。 Mamba 同时对网络拓扑做了激进的简化:去掉了独立的 MLP 块,将 SSM 层与门控线性投影融合为单一的"Mamba Block"——输入经过线性投影扩展维度后,一路经因果卷积和 SSM 处理,另一路作为门控信号,最终逐元素相乘后投影回原始维度。这种设计使整个架构成为一个同质化的堆叠,而非 Transformer 中注意力层与 FFN 层的交替。

Mamba-2:状态空间对偶。 Mamba-2 揭示了 SSM 与线性注意力之间的深层联系——状态空间对偶(State Space Duality, SSD)。其核心递推为:

St=αtSt1+vtkt,ot=Stqt

其中 αt(0,1) 是数据相关的标量衰减项。将递推展开可得到并行形式:

ot=i=1tγtγivi(kiqt),γj=i=1jαi

等价地写成矩阵形式:O=(QKΓ)V,其中 Γij=γi/γj(当 ij)。这与带衰减掩码的线性注意力在形式上完全一致。这一对偶性意味着:SSM 和线性注意力本质上是同一个数学对象的两种计算视角——递推视角适合推理,并行视角适合训练。

Mamba-2 还将 αt 从标量推广为标量乘以单位矩阵(即所有状态维度共享同一个衰减率),并引入了基于块分解的高效训练算法:将序列划分为固定大小的块(chunk),块内使用并行注意力形式计算,块间通过递推传递状态。这一分块并行(chunkwise parallel)策略成为后续几乎所有线性注意力变体的标准训练范式。

Gated Delta Networks(GDN)。 GDN 将两种互补的记忆管理机制——门控衰减与 Delta 规则——融合为一个统一的更新规则。其核心递推为:

St=αtSt1(Iβtktkt)+βtvtkt

其中 αt 是全局衰减门,βt 是逐键的写入强度。与 Mamba-2 的简单衰减 St=αtSt1+vtkt 相比,GDN 增加了一个"先删后写"的 Delta 更新:St1(Iβtktkt) 先从状态中擦除当前键 kt 对应的旧值,然后再写入新的键值对 vtkt

两种机制的互补性在于:门控衰减 αt 擅长"快速清空"整个状态(设 αt0 即可),适合上下文切换场景;Delta 规则擅长"精确替换"特定键值对(设 αt=1,退化为纯 Delta 更新),适合长程检索场景。单独使用任何一种机制都有明显短板——纯衰减无法选择性更新,纯 Delta 无法快速清除。GDN 在语言建模、常识推理、上下文检索、长度外推等多项基准上一致超越 Mamba-2 和 DeltaNet。

Qwen3.5 模型已经将 Gated DeltaNet 作为线性注意力层的核心组件投入量产,标志着这一机制从研究论文正式进入工业级部署。

8.2.3 RWKV 系列:从 RNN 复兴到广义 Delta 规则

RWKV(Receptance Weighted Key Value)是一条独立于 Mamba 的技术路线,由彭博(Bo Peng)发起并开源于 Linux 基金会。RWKV 的设计哲学与 Mamba 殊途同归:训练时像 Transformer 一样并行,推理时像 RNN 一样高效——但其技术路径从线性注意力的变形出发,而非从连续状态空间模型。经过七代迭代,RWKV 的状态演化规则从简单的标量衰减逐步升级为广义 Delta 规则,表达能力持续逼近甚至超越同规模 Transformer。

RWKV-4(Dove):元素级衰减与通道方向注意力。 RWKV 的命名源自其四个核心组件:Receptance(R,接受度门控)、Weight(W,位置权重衰减)、Key(K)和 Value(V)。RWKV-4 的时间混合(time-mixing)模块核心递推为:

st=ewst1+ektvt

其中 w 是固定的位置衰减向量(可学习但不随输入变化),ktvt 由输入生成。输出通过 ot=σ(rt)st 计算,其中 rt 是接受度门控信号。

RWKV-4 的关键特征是:(1)衰减 w静态的——对所有输入共享同一组衰减率;(2)状态是向量级的——每个通道独立维护一个标量状态,表达能力受限;(3)所有运算均为元素级(element-wise),没有矩阵乘法,计算极其高效但状态容量有限。RWKV-4 已扩展到 14B 参数,是当时最大的纯 RNN 语言模型,在多项 NLP 基准上与同规模 Transformer 持平。

特性推理时间复杂度推理空间复杂度训练时间复杂度训练并行性
TransformerO(n)O(n)O(n2)可并行
Linear TransformerO(1)O(1)O(n)可并行
RWKV / Mamba / RetNetO(1)O(1)O(n)可并行

表 8-4:RWKV 与 Transformer 的复杂度对比。n 为序列长度。RWKV 在推理阶段无需 KV 缓存,时间和空间均为常数。

RWKV-5(Eagle):矩阵级状态。 RWKV-5 的核心升级是将向量级状态扩展为矩阵级状态(matrix-valued states),递推变为:

St=St1diag(w)+vtkt

其中 StRdv×dk 是矩阵状态,diag(w) 是固定的对角衰减矩阵。矩阵状态意味着每个头维护一个 dv×dk 的关联记忆,远大于 RWKV-4 的向量状态,显著提升了信息存储容量。同时引入了多头机制——每个头拥有独立的 Q、K、V 投影和独立的衰减参数,进一步增强表达能力。

RWKV-6(Finch):数据相关的动态衰减。 RWKV-6 的关键突破是将固定衰减升级为数据相关的动态衰减

St=St1diag(wt)+vtkt

其中 wt 不再是静态参数,而是输入 xt 的函数。这一修改与 Mamba 将 Δ 变为输入相关的思路完全一致——模型可以根据当前 token 动态决定历史信息的衰减速率。此外,RWKV-6 还引入了数据相关的 token-shift 机制(通过 LoRA 参数化的线性插值),使当前 token 与前一个 token 的混合比例也能随内容自适应调整。

从 RWKV-5 到 RWKV-6 的演进,在更广泛的架构谱系中也与 GLA(Gated Linear Attention)完全对齐——两者的状态递推公式 St=St1diag(wt)+vtkt 在数学上等价。

RWKV-7(Goose):广义 Delta 规则。 RWKV-7 是截至目前最先进的 RWKV 版本,其核心递推引入了广义 Delta 规则:

St=St1(diag(wt)κt(atkt))+vtkt

与 RWKV-6 的 St=St1diag(wt)+vtkt 相比,新增了一个状态擦除项 κt(atkt)。这里 at 是向量级的上下文学习率(in-context learning rate),κt 是解耦的擦除键。这一设计使状态更新从"加性累积 + 全局衰减"升级为"选择性擦除 + 选择性写入 + 通道级门控"——与 Gated DeltaNet 的设计思想高度一致,但在参数化方式上有所不同。

RWKV-7 的几项关键创新:

  1. 向量级门控。 状态转移矩阵的特征值可以超出 [0,1] 区间(即广义特征值,Generalized Eigenvalue),赋予了模型隐式的位置编码能力——不同通道可以产生振荡性的记忆模式,而非单调衰减。
  2. 解耦的擦除键与写入键。 在标准 Delta 规则中,擦除和写入使用同一个键 kt;RWKV-7 将两者解耦为独立的 κtkt,增加了记忆操作的灵活性。
  3. 超越 TC0 的表达能力。 理论证明表明,RWKV-7 仅用常数层即可识别所有正则语言,这超越了标准 Transformer 在广泛接受的复杂性猜想(TC0NC1)下的能力上限。

实验结果显示,2.9B 参数的 RWKV-7 在多语言任务上达到了 3B 规模的新 SoTA,在英语下游任务上匹配当前 3B 最佳水平——尽管其训练 token 数远少于同级别的 Llama-3.2-3B 和 Qwen2.5-3B。

8.2.4 RetNet:递推式注意力与三种计算范式

RetNet(Retentive Network)由微软研究院提出,其核心贡献是设计了一种保留机制(Retention),同时支持并行、递推和分块递推三种计算范式——直接对应训练、推理和长序列处理三个场景。

从递推推导并行形式。 RetNet 的出发点是一个标准的线性递推:

sn=Asn1+Knvn,on=Qnsn

A 对角化为 A=Λ(γeiθ)Λ1,其中 γR 是衰减系数,θRd 是旋转角度。将 Λ 吸收到 WQWK 中后,输出可展开为:

on=m=1nγnm(Qneinθ)(Kmeimθ)vm

其中 表示共轭转置。这一形式清晰地展现了三个关键设计:(1)γnm 提供指数衰减的位置编码——距离越远的 token 贡献越小;(2)einθeimθ 实际上是 xPos 相对位置编码——与 RoPE 同族;(3)整个表达式可写为 Retention(X)=(QKD)V,其中 Dnm=γnm(当 nm),这是一个带因果衰减掩码的注意力矩阵。

三种计算范式。

  • 并行形式(训练用)Retention(X)=(QKD)V,与 Softmax 注意力形式相似,可充分利用 GPU 矩阵乘法加速,但将 Softmax 替换为确定性的指数衰减掩码 D
  • 递推形式(推理用)Sn=γSn1+KnVnon=QnSn。推理时只需维护一个 d×d 的状态矩阵 S,内存和计算均为 O(1)——无需 KV 缓存,解码延迟与序列长度无关。
  • 分块递推形式(长序列训练用):将序列划分为大小为 B 的块,块内用并行形式计算,块间用递推传递状态。兼顾了训练速度和内存效率。

多尺度保留(Multi-Scale Retention)。 RetNet 为不同的注意力头分配不同的衰减系数 γ——小 γ 的头关注近距离信息,大 γ 的头保留远距离记忆。这种多尺度设计与 Transformer 中不同头自发学到不同注意力模式的现象异曲同工,但 RetNet 通过显式设计而非隐式学习来实现。此外,RetNet 在保留层输出上增加了一个 Swish 门控,引入非线性增强表达能力。

RetNet 在 7B 规模的实验中,解码速度是 Transformer 的 8.4 倍,内存节省 70%。然而,RetNet 的衰减系数 γ固定标量,在所有时间步保持不变,无法像 Mamba-2 或 RWKV-6 那样根据输入动态调整。这一局限性使其在需要精细记忆管理的任务(如上下文检索)上表现逊于后续的动态衰减模型。

8.2.5 线性注意力:理论基础与核心变体

线性注意力是上述所有创新架构的最底层数学抽象。理解其核心技巧——利用矩阵乘法结合律改变计算顺序——是理解整个领域的钥匙。

从 Softmax 注意力到核化注意力。 标准 Softmax 注意力的第 i 个输出为:

Vi=j=1nexp(QiKj/d)Vjj=1nexp(QiKj/d)

exp(QiKj/d) 替换为一般的核函数 sim(Qi,Kj)=ϕ(Qi)ϕ(Kj),其中 ϕ() 是特征映射,则注意力公式变为:

Vi=ϕ(Qi)j=1nϕ(Kj)Vjϕ(Qi)j=1nϕ(Kj)

关键的复杂度跃迁发生在这一步:原始公式必须先计算 n×n 的注意力矩阵 QKO(n2)),然后乘以 V;核化后可以先计算 ϕ(K)V(得到 d×d 矩阵,O(nd2)),然后用 ϕ(Q) 左乘。由于通常 dn,复杂度从 O(n2d) 降为 O(nd2)——当 d 为常数时即为 O(n)

因果线性注意力与 RNN 等价。 对于自回归场景,需要施加因果约束:第 i 个输出只依赖前 i 个位置。此时 j=1n 变为 j=1i,可以定义递推状态:

Si=Si1+ϕ(Ki)Vi,oi=ϕ(Qi)Si

这正是一个隐状态为矩阵 SiRd×d 的 RNN。这一等价性由 Katharopoulos 等人(2020)在"Transformers are RNNs"一文中首次明确提出——线性注意力的递推形式可以在推理时以 O(1) 时间和空间处理每个新 token,而训练时仍可并行化。

核函数的选择。 特征映射 ϕ() 的选择至关重要,它必须保证非负性(ϕ(Qi)ϕ(Kj)0),否则注意力权重可能为负,违反概率语义。常见选择包括:

  • ϕ(x)=elu(x)+1(原始线性注意力论文的选择)
  • ϕ(x)=1+x(Random Feature Attention 的简化)
  • 直接去掉 ϕ,在 QK 上施加 L2 归一化或 RMSNorm,确保内积有界

性能差距与弥补策略。 朴素的线性注意力在语言建模上显著弱于 Softmax 注意力。根本原因是:状态矩阵 SRd×d 能存储的正交键值对数量受限于 d——当序列长度远超 d 时,"记忆碰撞"(memory collision)不可避免,精确检索能力下降。

后续研究沿三条路线弥补这一差距:

  1. 引入衰减项。 St=γSt1+vtkt(RetNet、Mamba-2)。衰减使模型主动遗忘旧信息,缓解记忆饱和,但代价是远程信息被指数级衰减。
  2. 引入 Delta 规则。 St=St1(Iβtktkt)+βtvtkt(DeltaNet)。通过"先删后写"实现精确替换,提升检索能力,但缺乏快速清空记忆的机制。
  3. 融合两者。 St=αtSt1(Iβtktkt)+βtvtkt(Gated DeltaNet、RWKV-7)。兼具全局衰减和选择性更新,是当前性能最强的线性注意力变体。

8.2.6 统一对比与设计谱系

下表将本节讨论的所有架构置于同一坐标系下对比:

架构状态演化公式衰减类型动态依赖状态规模广义特征值
RWKV-4st=ewst1+ektvt静态标量向量
RetNetSt=γSt1+vtkt静态标量矩阵
RWKV-5St=St1diag(w)+vtkt静态向量矩阵
MambaSt=St1exp(ΔtA)+(Δtvt)kt动态矩阵
RWKV-6 / GLASt=St1diag(wt)+vtkt动态向量矩阵
Mamba-2St=αtSt1+vtkt动态标量矩阵
DeltaNetSt=St1(Iβtktkt)+βtvtktDelta 规则矩阵
Gated DeltaNetSt=αtSt1(Iβtktkt)+βtvtkt门控 + Delta矩阵
RWKV-7St=St1(diag(wt)κt(atkt))+vtkt广义 Delta矩阵

表 8-5:创新架构的状态演化规则统一对比。"动态依赖"指衰减项是否随输入变化;"广义特征值"指状态转移矩阵的特征值是否可超出 [0,1]。从上到下,表达能力递增,训练复杂度也相应增加。

从这张表中可以提炼出三条清晰的演进主线:

主线一:从静态到动态。 RWKV-4/5 和 RetNet 使用固定衰减,Mamba 和 RWKV-6 将衰减变为输入的函数——这是性能提升最显著的单一改进。动态衰减使模型获得了"选择性注意力"——面对信息密度不均的文本时,可以在重要 token 处减缓衰减、在冗余 token 处加速遗忘。

主线二:从标量到矩阵。 RWKV-4 的向量状态到 RWKV-5 的矩阵状态,Mamba-2 的标量衰减到 GLA 的对角矩阵衰减——状态规模和衰减结构的精细度持续提升。更大的状态意味着更多的记忆容量,更精细的衰减意味着更灵活的遗忘策略。

主线三:从加性更新到 Delta 更新。 前期模型仅做"加性写入"(StSt1+vtkt),后期模型引入"先删后写"的 Delta 规则。这一变化的深层意义是:加性更新只能累积新信息,无法纠正旧信息;Delta 规则允许精确替换特定键值对,赋予模型类似于"编辑记忆"的能力——这对于长序列中的上下文检索任务至关重要。

8.2.7 总结

本节从状态空间模型的数学基础出发,系统梳理了 Transformer 之外的创新序列建模架构。几个核心结论值得铭记:

  1. SSM 是数学基石,不是架构本身。 连续 SSM 的离散化产生了线性递推,线性递推与线性注意力通过状态空间对偶(SSD)联系在一起。Mamba、RWKV、RetNet 看似路径不同,但在统一的数学框架下可以写成同一族状态递推公式的不同参数化——它们之间的差异主要在于"衰减结构"和"更新规则"这两个维度上的设计选择。

  2. "不可能三角"已被打破。 RetNet 首先提出、Mamba 和 RWKV 进一步验证了一个关键事实:训练并行性、推理效率和模型质量可以同时达成。这三族架构均实现了 O(n) 训练、O(1) 推理,并在语言建模基准上逼近或匹配同规模 Transformer。

  3. 纯替代尚未成功,混合是务实路径。 尽管理论上这些架构可以完全替代 Transformer,但工业实践中更常见的是混合策略——如 Qwen3.5 用 Gated DeltaNet 处理 75% 的层、用 Softmax 注意力处理 25% 的层。其原因在于:线性注意力在"精确远程匹配"这一能力上仍有本质短板(状态矩阵的秩限制),少量全局注意力层可以以极低的代价弥补这一缺陷。

  4. 推理效率优势随序列增长而放大。 这些架构的核心价值不在短序列——对于 2K-4K 长度的文本,Softmax 注意力配合 FlashAttention 已经足够高效。真正的优势场景是超长序列(64K+)和端侧部署:前者因为 KV 缓存的线性增长使 Transformer 的内存消耗不可承受,后者因为内存和算力预算极为有限。RWKV-7 在 GPU 上的推理能耗比同规模 Transformer 低约 30%,在未来存内计算芯片上有望进一步扩大这一优势。

创新架构的竞赛远未结束。从 RWKV-7 的广义 Delta 规则到 Titans 的双状态记忆系统,状态递推的表达能力仍在快速提升。但竞赛的终极评判标准不是理论复杂度,而是在同等训练计算预算下的下游任务质量——在这个维度上,Transformer 凭借其海量的工程优化积累和成熟的 scaling law 理解,仍然是需要追赶的标杆。