Oct, 2024

MatMamba:一种套娃状态空间模型

TL;DR本研究针对现有状态空间模型在长上下文长度上的效率不足,提出了MatMamba模型,它结合了套娃式的学习与Mamba2模型,通过修改块结构实现嵌套维度的联合训练与自适应推理。研究结果表明,MatMamba在多个参数规模的训练中表现优越,可以有效提升大规模模型的推理效率,适用于弹性部署。