Jamba-1.5:大规模混合Transformer-Mamba模型
本文提出了一种用于训练亿级参数的transformer模型的简便、高效的内部层模型并行方法,并且通过在WikiText103,LAMBADA和RACE数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
Sep, 2019
利用Mamba SSM和MoE相结合的新型架构BlackMamba,在模型训练和推理FLOPs方面表现优秀,实现了SSM的线性复杂度生成和MoE快速高效推理的结合。
Feb, 2024
基于混合Transformer-Mamba和专家混合(MoE)架构,Jamba是一个强大的基础大型语言模型,具有资源和目标特定的配置,能够在单个80GB GPU上提供高吞吐量和小内存占用,同时在标准语言模型基准测试和长文本上展示出最先进的表现。
Mar, 2024
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs可以达到或超越Transformer的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型,数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明,纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于Transformers。相反,我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer(平均增加2.65个点),并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。
Jun, 2024
最近发展的大型语言模型(LLMs)(如ChatGPT、Claude和Llama)展示了惊人的能力,甚至在多项任务中超越了人类水平。然而,这些模型对资源的需求在训练和推断方面都需要大量的计算能力,限制了它们应用于高性能服务器。鉴于在CPU上高效运行LLMs的需求日益增长,我们介绍了GEB-1.3B,一个在中文和英文语言中训练了5500亿标记的轻量级LLM。我们采用了一些新的训练技术,包括ROPE、Group-Query-Attention和FlashAttention-2,以加速训练同时保持模型的性能。此外,我们使用了1000万条指示数据样本对模型进行了微调以提高对齐度。GEB-1.3B在MMLU、C-Eval和CMMLU等常规基准测试中表现出色,优于MindLLM-1.3B和TinyLLaMA-1.1B等对比模型。值得注意的是,GEB-1.3B的FP32版本在CPU上具有可嘉的推断时间,正在进行先进的量化技术来进一步提高速度。GEB-1.3B作为一个开源模型的发布对于轻量级LLMs的发展具有重要意义,有望促进该领域的进一步研究和创新。
Jun, 2024
本研究针对传统Transformer模型在处理长序列时面临的计算负担与内存问题,提出了PackMamba,高效处理可变长度序列。通过分析Mamba中瓶颈操作符的表现,我们对并行操作符进行了修改,从而显著提高了处理速度,实验结果显示在NVIDIA A100 GPU上,处理1.4B和2.8B模型的速度分别提高了3.06倍和2.62倍。
Aug, 2024
本研究针对现有大型Transformer模型在部署过程中的挑战,提出了一种将其蒸馏为线性RNN的方法,利用注意力层的线性投影权重。该混合模型在对话基准测试中的性能与原始Transformer相当,同时实现了更高的推理速度,对计算资源的要求也较低。
Aug, 2024
本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活(W8A8)后训练量化时,独特的准确度下降行为这一问题。我们提出了一种混合策略,通过对少于3%的层应用精细的W8A8量化,显著提升LLaMA3-70B模型在推理任务中的表现,准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。
Aug, 2024
本文探讨了曼巴在序列建模中的表现,分析其在处理COPY操作时的局限性。研究发现,曼巴在序列长度线性增加时表现优异,但在固定大小时可能面临瓶颈,然而在解决某些动态规划问题时,其总成本与标准高效Transformer类似,展现出其在特定条件下的优势。
Oct, 2024