May, 2024

Zamba: 一个紧凑的 70 亿参数 SSM 混合模型

TL;DRZamba 是一个独特的 7B SSM-transformer 混合模型,通过使用 Mamba 骨干和单个共享的注意力模块,以最小的参数成本实现与领先的开放式模型相媲美的性能,同时具有更快的推理速度和更低的内存需求,且在预训练中使用两个阶段:分别基于现有的网络数据集和高质量的指导和合成数据集。