Oct, 2024

猎鹰曼巴:首个竞争性的无注意力7B语言模型

TL;DR本研究解决了大型语言模型在无注意力架构下的性能不足问题。通过提出全新的曼巴架构并训练Falcon Mamba 7B模型,研究显示该模型在多个基准测试中超越了现有的知名Transformer模型,展现出更快的推理速度和更低的内存需求。该成果有潜力推动无注意力模型的应用与发展。