Jan, 2024

MoE-Mamba:高效的混合专家选择性状态空间模型

TL;DR将混合专家模型应用于状态空间模型可显著提高其性能,MoE-Mamba 模型在 2.2 倍的训练步骤下达到与 Mamba 相同的性能,同时保持了 Mamba 模型对 Transformer 的推理性能优势。