Aug, 2024

Jamba-1.5:大规模混合Transformer-Mamba模型

TL;DR本研究提出了Jamba-1.5,解决了当前语言模型在处理长上下文时的低效率和高内存消耗问题。通过引入一种新颖的混合Transformer-Mamba架构,该模型在长上下文下依然保持高效的处理能力与优良的质量。研究发现,Jamba-1.5在多个基准测试中的表现优异,具有广泛的应用潜力。