Jamba-1.5：大规模混合Transformer-Mamba模型

Aug, 2024

Jamba-1.5：大规模混合Transformer-Mamba模型

Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich...

TL;DR本研究提出了Jamba-1.5，解决了当前语言模型在处理长上下文时的低效率和高内存消耗问题。通过引入一种新颖的混合Transformer-Mamba架构，该模型在长上下文下依然保持高效的处理能力与优良的质量。研究发现，Jamba-1.5在多个基准测试中的表现优异，具有广泛的应用潜力。

Abstract

We present Jamba-1.5, new instruction-tuned Large Language Models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as T

发现论文，激发创造

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的transformer模型的简便、高效的内部层模型并行方法，并且通过在WikiText103，LAMBADA和RACE数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

BlackMamba: 状态空间模型的专家混合

利用Mamba SSM和MoE相结合的新型架构BlackMamba，在模型训练和推理FLOPs方面表现优秀，实现了SSM的线性复杂度生成和MoE快速高效推理的结合。

Feb, 2024

Jamba：混合Transformer-Mamba语言模型

基于混合Transformer-Mamba和专家混合(MoE)架构，Jamba是一个强大的基础大型语言模型，具有资源和目标特定的配置，能够在单个80GB GPU上提供高吞吐量和小内存占用，同时在标准语言模型基准测试和长文本上展示出最先进的表现。

Mar, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs可以达到或超越Transformer的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型，数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明，纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于Transformers。相反，我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer（平均增加2.65个点），并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。

Jun, 2024

GEB-1.3B：开放轻量级大型语言模型

最近发展的大型语言模型（LLMs）（如ChatGPT、Claude和Llama）展示了惊人的能力，甚至在多项任务中超越了人类水平。然而，这些模型对资源的需求在训练和推断方面都需要大量的计算能力，限制了它们应用于高性能服务器。鉴于在CPU上高效运行LLMs的需求日益增长，我们介绍了GEB-1.3B，一个在中文和英文语言中训练了5500亿标记的轻量级LLM。我们采用了一些新的训练技术，包括ROPE、Group-Query-Attention和FlashAttention-2，以加速训练同时保持模型的性能。此外，我们使用了1000万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B在MMLU、C-Eval和CMMLU等常规基准测试中表现出色，优于MindLLM-1.3B和TinyLLaMA-1.1B等对比模型。值得注意的是，GEB-1.3B的FP32版本在CPU上具有可嘉的推断时间，正在进行先进的量化技术来进一步提高速度。GEB-1.3B作为一个开源模型的发布对于轻量级LLMs的发展具有重要意义，有望促进该领域的进一步研究和创新。

Jun, 2024

Mamba-PTQ: 循环大语言模型中的异常通道

本研究论文主要探讨了在资源有限的环境中部署大规模语言模型时，压缩序列输入、对循环层进行后训练量化，并解决激活异常问题的关键领域。

Jul, 2024

PackMamba：高效处理Mamba训练中的可变长度序列

本研究针对传统Transformer模型在处理长序列时面临的计算负担与内存问题，提出了PackMamba，高效处理可变长度序列。通过分析Mamba中瓶颈操作符的表现，我们对并行操作符进行了修改，从而显著提高了处理速度，实验结果显示在NVIDIA A100 GPU上，处理1.4B和2.8B模型的速度分别提高了3.06倍和2.62倍。

Aug, 2024

在骆驼中的眼镜蛇：蒸馏和加速混合模型

本研究针对现有大型Transformer模型在部署过程中的挑战，提出了一种将其蒸馏为线性RNN的方法，利用注意力层的线性投影权重。该混合模型在对话基准测试中的性能与原始Transformer相当，同时实现了更高的推理速度，对计算资源的要求也较低。

Aug, 2024

LLaMA3-70B的独特性与每通道量化：一项实证研究

本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活（W8A8）后训练量化时，独特的准确度下降行为这一问题。我们提出了一种混合策略，通过对少于3%的层应用精细的W8A8量化，显著提升LLaMA3-70B模型在推理任务中的表现，准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。

Aug, 2024

曼巴能否始终享受“免费午餐”？

本文探讨了曼巴在序列建模中的表现，分析其在处理COPY操作时的局限性。研究发现，曼巴在序列长度线性增加时表现优异，但在固定大小时可能面临瓶颈，然而在解决某些动态规划问题时，其总成本与标准高效Transformer类似，展现出其在特定条件下的优势。

Oct, 2024