B'MOJO: 基于永动和衰减记忆的基础模型的混合态空间实现

Jul, 2024

B'MOJO: 基于永动和衰减记忆的基础模型的混合态空间实现

B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory

Luca Zancato, Arjun Seshadri, Yonatan Dukler, Aditya Golatkar, Yantao Shen...

TL;DR我们介绍了一种支持传统推理的体系结构家族，它允许内存增长到一个有限但先验未知的界限，同时有效利用有限的资源进行推理。

Abstract

We describe a family of architectures to support transductive inference by allowing memory to grow to a finite but a-priori unknown bound while making efficient use of finite resources for inference. Current architectures use such resources to represent data either eidetically over a f

发现论文，激发创造

面向高效和可解释的自回归转换器的动态上下文剪枝

本文提出一种采用动态修剪机制的Autoregressive Transformers方法，可以在保持模型表现力不变的同时，减少生成过程中上下文信息的存储和计算负担，有效地解决了推理成本过高的问题。实验证明，该方法可以高效地修剪80%的上下文信息，同时大幅提升推理吞吐量和节约存储空间。

May, 2023

具有逐层非线性的状态空间模型是具有指数衰减记忆力的通用逼近器

通过在时间方向上添加逐层非线性激活函数，我们证明堆叠状态空间模型能够近似任意连续序列关系，并增强模型学习复杂序列模式的能力，同时理论和实证结果表明状态空间模型并不能根本解决指数衰减记忆问题。

Sep, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在DRAM之外，以满足超过DRAM容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的“窗口化”与利用闪存的顺序数据访问能力来增加数据块大小的“行列捆绑”。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU和GPU分别实现4-5倍和20-25倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的LLMs推理铺平了道路。

Dec, 2023

重复之我见: 变压器优于状态空间模型的复制

在这篇论文中，我们研究了使用不依赖于序列长度的固定大小的潜在状态的模型（我们将其称为“广义状态空间模型”（GSSMs））与transformer模型在需要从输入上下文中进行复制的任务上的性能差异。我们从对简单的字符串复制任务的理论分析开始，并证明了一个二层transformer可以复制指数长度的字符串，而GSSMs因为固定大小的潜在状态而受到限制。在实证研究中，我们发现transformers在需要复制上下文的合成任务上效果优于GSSMs，无论是在效率还是在泛化方面。最后，我们评估了预训练的大型语言模型，并发现transformer模型在复制和检索上下文信息的任务上远远胜过状态空间模型。综合这些结果表明，在实际任务中，transformers与GSSMs之间存在着根本的差距。

Feb, 2024

用于推理高效LLMs的串联变压器

使用Tandem transformers架构，通过将小型自回归模型与以块模式操作的大型模型结合，以提高预测准确性并加快推理速度。在预训练数据集上，Tandem模型显示出对下一个标记预测准确性的3.3％改进，相比于性能相当的PaLM2-Otter模型，速度提升了1.16倍，同时在维持相同下游任务准确性的前提下，通过将Tandem模型引入到推测解码框架中，以实现大幅加速（比使用单独的PaLM2-Gecko模型快约1.14倍）。

Feb, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs可以达到或超越Transformer的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型，数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于Transformers。相反，我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer（平均增加2.65个点），并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。

Jun, 2024

Transformer和循环体系结构在表示能力上的区别

通过实验和理论分析比较了Transformer和RNN在不同任务上的表征能力、模型大小以及性能差异。

Jun, 2024

记忆³：带显式记忆的语言建模

利用显式记忆将大型语言模型（LLMs）的训练和推理成本降低，实现更小的参数大小、训练成本和推理成本，从而传递意义的计算。

Jul, 2024

赫尔墨斯：面向边缘设备的大型模型内存高效管道推理

本研究解决了大型转换器模型在边缘设备上部署时内存消耗过大的问题。通过提出PIPELOAD这一创新的内存高效管道执行机制，论文实现了动态内存管理和并行模型加载，从而极大提升推理速度与降低内存消耗。实验结果表明，赫尔墨斯框架在多种模型中表现优异，有效提升了推理效率，具有显著的实际应用潜力。

Sep, 2024

赫尔墨斯：面向边缘设备的大型模型内存高效流水线推理

本研究解决了边缘设备上大型模型推理的内存挑战，提出了PIPELOAD这一新颖的内存高效流水线执行机制。通过动态内存管理和并行模型加载，Hermes框架在推理速度上提升至4.24倍，同时内存消耗降低86.7%。

Sep, 2024