Mar, 2024

Jamba:混合 Transformer-Mamba 语言模型

TL;DR基于混合 Transformer-Mamba 和专家混合 (MoE) 架构,Jamba 是一个强大的基础大型语言模型,具有资源和目标特定的配置,能够在单个 80GB GPU 上提供高吞吐量和小内存占用,同时在标准语言模型基准测试和长文本上展示出最先进的表现。