SHMamba: 面向音视频问答的结构化双曲线状态空间模型

Jun, 2024

SHMamba: 面向音视频问答的结构化双曲线状态空间模型

SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering

Zhe Yang, Wenrui Li, Guanghui Cheng

TL;DR提出了 SHMamba：结构化双曲状态空间模型，利用双曲几何和状态空间模型的优势，表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块，增强分层结构的理解和跨模态信息的动态交流。广泛实验证明，SHMamba 在参数和计算成本上优于以前的方法，参数减少 78.12％，平均性能提高 2.53％。实验证明我们的方法在当前主要方法中具有优势，并更适合实际应用场景。

Abstract

The audio-visual question answering (AVQA) task holds significant potential for applications. Compared to traditional unimodal approaches, the multi-modal input of AVQA makes feature extraction and fusion processes more challenging. Euclidean space is difficult to effectively represent

audio-visual question answering multi-modal input hyperbolic geometry state space model adaptive curvature

发现论文，激发创造

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024

音频曼巴：用于音频标记的预训练音频状态空间模型

通过提出自注意力自由的方法，音频马巴（Audio Mamba）利用状态空间模型来捕捉长音频频谱的依赖关系，实现了参数的高效性，并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。

May, 2024

SSAMBA：自监督音频表示学习与 Mamba 状态空间模型

使用自监督方法的 SSAMBA 模型，结合双向 Mamba 的优势，在音频表示学习任务中实现更高的性能和更高的效率。

May, 2024

音频蟒蛇：用于自监督音频表示的选择性状态空间

提出了一种名为 Audio Mamba 的选择性状态空间模型，通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明，预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线，表现出更好的数据集大小、序列长度和模型大小的对比性能。

Jun, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

S$^2$Mamba：一种面向高光谱遥感图像分类的空间 - 光谱状态空间模型

通过创新性地提出 S^2Mamba，即一种适用于高光谱图像分类的空间 - 光谱状态空间模型，以发掘空间 - 光谱上下文特征，实现更高效准确的土地覆盖分析。

Apr, 2024

Vision Mamba: 一项综合调查与分类

Mamba 是一种新型的人工智能架构，基于最新的状态空间模型，具有强大的效率和长距离依赖建模能力，被广泛应用于深度学习中的自然语言处理和视觉领域。本综述研究了 Mamba 在视觉任务和数据类型上的应用，探讨了其前身、最新进展以及对各领域的深远影响。

May, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

MambaAD：用于多类无监督异常检测的状态空间模型研究

应用 Mamba 到多类无监督异常检测，提出了包含预训练编码器和 Mamba 解码器的 MambaAD，通过在多个尺度上引入局部增强状态空间模块 (LSS)，该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果，证实了其有效性。

Apr, 2024