震撼视觉语言模型:比较变压器和结构状态空间模型
使用混合模型能够增强在语言模型中的上下文学习能力,这项研究对几种模型进行了比较,发现混合模型可以在某些任务中克服各个模型独立处理时的局限性。
Feb, 2024
通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。
Feb, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了Vision Mamba (ViM)模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
通过基于状态空间模型的VL-Mamba多模态大语言模型和2D视觉选择扫描机制以及不同视觉编码器和预训练Mamba语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了VL-Mamba在各种多模态基准测试中具有竞争力的性能。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源MLLMs在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
通过分析多次扫描策略在多尺度视觉任务中的成功原因,本研究介绍了Multi-Scale Vision Mamba(MSVMamba)模型,采用多尺度二维扫描技术并整合了卷积前馈网络(ConvFFN),在有限参数下保留了State Space Models(SSMs)在视觉任务中的卓越性能。
May, 2024
选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外,最近的研究显示,SSMs可以达到或超越Transformer的语言建模能力,使其成为一种有吸引力的替代选择。然而,迄今为止的研究只在相同数据的受控环境中进行了小规模实验,比较了SSMs和Transformers。为了了解这些体系结构在更大规模上的优缺点,我们在相同数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型,数据集涵盖了多达3.5T个标记。我们还将这些模型与由43%的Mamba-2、7%的注意力和50%的MLP层(Mamba-2-Hybrid)组成的混合体系结构进行了比较。通过使用多种任务,我们回答了Mamba模型是否能在较大的训练预算下与Transformers相匹配的问题。我们的结果表明,纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长期推理的任务上,它们落后于Transformers。相反,我们发现8B的Mamba-2-Hybrid在我们评估的所有12个标准任务上超过了8B Transformer(平均增加2.65个点),并且在生成推理标记时预计速度最多快8倍。为了验证长期上下文能力,我们进行了其他实验,评估了支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在23个额外的长期上下文任务中,混合模型在平均水平上继续紧密匹配或超越了Transformer。为了进一步的研究,我们将检查点以及用于训练我们的模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。
Jun, 2024
本研究针对传统Transformer架构计算复杂性高的问题,提出了一种高效的多模态语言模型ML-Mamba,该模型基于最新的Mamba-2,具有快速处理长序列的能力。实验结果表明,ML-Mamba在多模态任务中具有竞争力的性能,其推理速度更快,且在减少参数数量的同时,表现出色。
Jul, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024