Sep, 2024

震撼视觉语言模型:比较变压器和结构状态空间模型

TL;DR本研究解决了视觉语言模型中变压器的有效性问题,提出用Mamba这一新型结构状态空间模型替代。研究发现,虽然Mamba在图像摘要任务上表现良好,但在视觉定位和上下文信息检索方面,变压器仍具有显著优势。这一发现对未来的视觉语言模型设计有重要影响。