Mar, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

TL;DR通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。