CLIP-Mamba：OOD 和 Hessian 评估的 CLIP 预训练 Mamba 模型

Apr, 2024

CLIP-Mamba：OOD 和 Hessian 评估的 CLIP 预训练 Mamba 模型

CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation

Weiquan Huang, Yifei Shen, Yifan Yang

TL;DR通过对比度语言图像预训练技术，本技术报告首次引入了训练可传输 Mamba 模型的方法。在 26 个零样本分类数据集和 16 个超出分布范围的数据集上，我们训练了不同规模的 Mamba 模型，并对其进行了全面评估。结果表明，具有 6700 万参数的 Mamba 模型在零样本分类任务中与具有 3.07 亿参数的 Vision Transformer 模型相媲美，突显了 Mamba 模型的参数效率。在超出分布范围的泛化测试中，基于 Mamba 的模型在图像对比度差异或经过高通滤波时表现出色。然而，Hessian 分析表明，与 ViT 模型相比，Mamba 模型的景观更加尖锐和非凸，使其更具挑战性。源代码可从此 URL 获得。

Abstract

state space models and mamba-based models have been increasingly applied across various domains, achieving state-of-the-art performance. This technical report introduces the first attempt to train a transferable

state space models mamba-based models contrastive language-image pretraining zero-shot classification tasks ood generalization

发现论文，激发创造

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

Q-Mamba: 对图像质量评估首次探索视觉臂蛇

本文通过重新审视和调整 Mamba 模型，提出了 Q-Mamba，用于三个关键的图像质量评估任务，即任务特定型、通用型和可迁移型图像质量评估。同时，我们提出了 StylePrompt 调整范式，以提高 Q-Mamba 的可迁移性和感知转移能力，从而实现更好的图像质量评估效果。

Jun, 2024

蟒蛇是否能进行上下文学习？

这项研究提供了实证证据，证明了一种新提出的选择性结构化状态空间模型 Mamba 具有类似于 transformers 的上下文学习（ICL）能力。我们在涉及简单函数逼近和更复杂的自然语言处理问题的任务上评估了 Mamba。我们的结果表明，在两类任务中，Mamba 与 transformer 模型在 ICL 方面的性能相当。进一步的分析表明，像 transformer 一样，Mamba 似乎通过逐步优化其内部表示来解决 ICL 问题。总体而言，我们的研究表明，对于涉及更长输入序列的 ICL 任务，Mamba 可以作为 transformers 的高效替代品。

Feb, 2024

关于 [V]-Mamba 的低样本迁移能力

本文研究了大规模神经网络在少样本迁移学习中的能力，通过对 [V]-Mamba 模型与 ViTs 模型在不同少样本数据预算和高效迁移方法下的性能比较，发现 [V]-Mamba 在线性探测（LP）迁移方案下表现优于或等同于 ViTs，而在视觉提示（VP）迁移方法下表现较弱或类似于 ViTs，同时 [V]-Mamba 模型的规模与迁移方案之间存在弱正相关性。这项初步分析为进一步研究 [V]-Mamba 变体和 ViTs 之间的差异，以及它们的能力提供了基础。

Mar, 2024

蟒蛇状态空间模型可成为强大的下游学习模型

研究论文通过对 Mamba 状态空间模型进行多种实验和评估，证明了其在混合精度和参数高效微调方面的能力，同时还分析了其在上下文学习方面的性能与 Transformer 大型语言模型的差异，并提出了基于动力学系统理论的验证方法。

May, 2024

视觉曼巴：具有双向状态空间模型的高效视觉表示学习

本文提出了一种新的通用计算机视觉基础模型 Vim，该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示，并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能，同时具有显著提高的计算和内存效率。

Jan, 2024

ZigMa: 蜿蜒进化扩散模型

应用 Mamba 的 State-Space 模型，通过引入一种名为 Zigzag Mamba 的方法来解决视觉数据生成中的缺陷，提升了速度和内存利用率，并将其与 Stochastic Interpolant 框架相结合以研究模型在大分辨率视觉数据集上的可扩展性。

Mar, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

基于蟒蛇的语言模型的实证研究

选择性状态空间模型（SSMs）如 Mamba 克服了 Transformer 的一些缺点，例如与序列长度呈二次增长的计算复杂度和从键值缓存中获取大量的推理时间内存需求。此外，最近的研究显示，SSMs 可以达到或超越 Transformer 的语言建模能力，使其成为一种有吸引力的替代选择。然而，迄今为止的研究只在相同数据的受控环境中进行了小规模实验，比较了 SSMs 和 Transformers。为了了解这些体系结构在更大规模上的优缺点，我们在相同数据集上直接比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型，数据集涵盖了多达 3.5T 个标记。我们还将这些模型与由 43% 的 Mamba-2、7% 的注意力和 50% 的 MLP 层（Mamba-2-Hybrid）组成的混合体系结构进行了比较。通过使用多种任务，我们回答了 Mamba 模型是否能在较大的训练预算下与 Transformers 相匹配的问题。我们的结果表明，纯 SSMs 在许多任务上达到或超越了 Transformers，但在需要强大的复制或上下文学习能力（例如，5-shot MMLU、电话簿）或长期推理的任务上，它们落后于 Transformers。相反，我们发现 8B 的 Mamba-2-Hybrid 在我们评估的所有 12 个标准任务上超过了 8B Transformer（平均增加 2.65 个点），并且在生成推理标记时预计速度最多快 8 倍。为了验证长期上下文能力，我们进行了其他实验，评估了支持 16K、32K 和 128K 序列的 Mamba-2-Hybrid 和 Transformer 的变体。在 23 个额外的长期上下文任务中，混合模型在平均水平上继续紧密匹配或超越了 Transformer。为了进一步的研究，我们将检查点以及用于训练我们的模型的代码作为 NVIDIA 的 Megatron-LM 项目的一部分发布。

Jun, 2024