用 Mamba 在视觉中进行自回归预训练
在这篇综述性文章中,我们回顾了 Mamba 模型的起源和核心见解,并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
Mamba 适用于具有长序列和自回归特性的任务,但不适用于图像分类;Mamba 在目标检测和分割任务中表现不如注意力模型,但显示出在长序列视觉任务中的潜力。
May, 2024
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
Vision Mamba 的特征图中存在与低信息背景区域中出现的高范数令牌对应的众多伪像,此问题通过向 Vision Mamba 引入寄存器令牌解决,改进后的 Mamba-R 架构在性能和扩展性方面具有更强的表现。
May, 2024
本文通过重新审视和调整 Mamba 模型,提出了 Q-Mamba,用于三个关键的图像质量评估任务,即任务特定型、通用型和可迁移型图像质量评估。同时,我们提出了 StylePrompt 调整范式,以提高 Q-Mamba 的可迁移性和感知转移能力,从而实现更好的图像质量评估效果。
Jun, 2024
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。
Jan, 2024
通过对自我注意力和 Mamba 之间的差异进行理论分析,我们提出了 VideoMambaPro(VMP),通过向 VideoMamba 骨干结构添加掩码反向计算和元素残差连接来解决 Mamba 的两个限制,从而实现了卓越的视频动作识别性能,超过了 transformer 模型并获得了显著的优势。
Jun, 2024
通过引入 Residual State Space Block 作为核心组件,该研究提出了一种名为 MambaIR 的简单而强大的基准模型,利用卷积和通道注意力增强了 vanilla Mamba 的能力,从而利用局部补丁的重复特性和通道交互产生特定于恢复的特征表示。广泛的实验证明了我们方法的优越性,例如,MambaIR 在类似计算成本但具有全局感受野的情况下,比基于 Transformer 的基准模型 SwinIR 提高了 0.36dB。
Feb, 2024
本文提出了基于 Vision Mamba (VMamba) 的框架,用于对混凝土、沥青和砖石表面进行高准确度、广义化和较低计算复杂度的裂缝分割,相较于基于 CNN 的模型,使用 VMamba 的编码器 - 解码器网络能获得高达 2.8% 的更高的 mDS 且与基于 Transformer 的模型表现相当,在处理高分辨率图像输入时,VMamba-based 编码器 - 解码器网络能够降低高达 90.6% 的浮点操作。
Jun, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了 Vision Mamba (ViM) 模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024