从变压器到状态空间模型：将二次知识提炼为亚二次模型

Aug, 2024

从变压器到状态空间模型：将二次知识提炼为亚二次模型

Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models

Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu

TL;DR本文针对现有变压器模型在推理时的二次时间复杂度问题，提出了一种新的提炼方法。该方法通过将变压器与状态空间模型视作不同的混合矩阵应用，在多层次上逐步提炼变压器架构，最终实现了基于Phi-1.5架构的Mamba-2变体的惊人性能表现。此研究表明，状态空间模型可以有效利用变压器训练过程中投入的计算资源，开启了新型模型构建的可能性。

Abstract

Transformer architectures have become a dominant paradigm for domains like language modeling but suffer in many inference settings due to their quadratic-time self-attention. Recently proposed subquadratic architectures, such as Mamba, have shown promise, but have been pretrained with substantially less computational resources than the strongest Transformer

发现论文，激发创造

在长上下文大语言模型中推进Transformer架构的综合调查

该研究论文主要针对基于Transformer的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

Mamba：具有选择性状态空间的线性时间序列建模

基于Transformer架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比Transformers快5倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers，与其两倍大小的模型性能相当。

Dec, 2023

MoE-Mamba：高效的混合专家选择性状态空间模型

将混合专家模型应用于状态空间模型可显著提高其性能，MoE-Mamba模型在2.2倍的训练步骤下达到与Mamba相同的性能，同时保持了Mamba模型对Transformer的推理性能优势。

Jan, 2024

BlackMamba: 状态空间模型的专家混合

利用Mamba SSM和MoE相结合的新型架构BlackMamba，在模型训练和推理FLOPs方面表现优秀，实现了SSM的线性复杂度生成和MoE快速高效推理的结合。

Feb, 2024

变压器是SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers与state-space models（包括Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是Mamba的选择性SSM的改进，速度提高了2-8倍，同时继续与Transformers在语言建模方面竞争。

May, 2024

蟒蛇状态空间模型可成为强大的下游学习模型

研究论文通过对Mamba状态空间模型进行多种实验和评估，证明了其在混合精度和参数高效微调方面的能力，同时还分析了其在上下文学习方面的性能与Transformer大型语言模型的差异，并提出了基于动力学系统理论的验证方法。

May, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs可以达到或超越Transformer的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型，数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于Transformers。相反，我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer（平均增加2.65个点），并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。

Jun, 2024

通过分组FIR滤波和注意力泄漏机制增强的结构化状态空间模型

本研究解决了结构化状态空间模型（SSMs）在训练过程中由于递归矩阵乘法引入的敏感性问题。提出的分组FIR增强SSM（GFSSM）通过将A乘法分解为多个组，并优化位置编码，显著提高了模型的稳定性和性能，具有重要的应用潜力。此方法在提升SSMs的表现的同时，也弥补了其与Transformer之间的差距。

Aug, 2024

在骆驼中的眼镜蛇：蒸馏和加速混合模型

本研究针对现有大型Transformer模型在部署过程中的挑战，提出了一种将其蒸馏为线性RNN的方法，利用注意力层的线性投影权重。该混合模型在对话基准测试中的性能与原始Transformer相当，同时实现了更高的推理速度，对计算资源的要求也较低。

Aug, 2024

MatMamba：一种套娃状态空间模型

本研究针对现有状态空间模型在长上下文长度上的效率不足，提出了MatMamba模型，它结合了套娃式的学习与Mamba2模型，通过修改块结构实现嵌套维度的联合训练与自适应推理。研究结果表明，MatMamba在多个参数规模的训练中表现优越，可以有效提升大规模模型的推理效率，适用于弹性部署。

Oct, 2024