Jun, 2024

Samba:高效无限上下文语言建模的简单混合状态空间模型

TL;DRSamba 是一种简单的混合架构,使用 Mamba(一种选择性状态空间模型)与滑动窗口注意力机制(SWA)相结合,以有效地建模具有无限上下文长度的序列,并实现了完美的内存回忆。