ICMLMay, 2024

变压器是 SSM:通过结构化状态空间对偶实现的广义模型和高效算法

TL;DRTransformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duality(SSD)框架,我们设计了一种新的架构(Mamba-2),其核心层是 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时继续与 Transformers 在语言建模方面竞争。