音频曼巴：用于音频表示学习的双向状态空间模型

Jun, 2024

音频曼巴：用于音频表示学习的双向状态空间模型

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

TL;DR通过引入纯SSM（state space models）模型的音频分类模型AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估AuM的表现，结果表明它在性能上与已建立的AST模型相当或更好。

Abstract

transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram tran

发现论文，激发创造

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对AST模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是AST的自监督学习框架的首次探索。

Oct, 2021

CMKD:基于CNN/Transformer交替模型知识蒸馏的音频分类

本文研究了卷积神经网络和自注意力机制模型之间的交互作用，通过知识蒸馏将它们作为师生模型相互训练，在FSD50K、AudioSet和ESC-50等数据集上取得了新的最好成绩。

Mar, 2022

MAST：多尺度音频频谱变换器

本文提出了一个多尺度音频谱图变换器（MAST），用于音频分类和自监督学习，在LAPE基准测试上，相较于Audio Spectrogram Transformer（AST）和SSAST，MAST和SS‐MAST具有更高的性能，并已将所有代码公开在GitHub上。

Nov, 2022

多尺度音频光谱变换器用于有效的音频分类

这篇研究提出了一种名为多尺度音频谱变换器（MAST）的方法，它采用分层表示学习来提高音频分类的效率，相较于AST，MAST在没有外部训练数据的情况下，在Kinetics-Sounds，Epic-Kitchens-100和VGGSound数据集上的准确度提高了22.2％、4.4％和4.7％，同时比AST更加高效。

Mar, 2023

Asca：少量音频数据揭示更多洞见

基于 CoAtNet 的 ASCA 结合了 Transformer-convolution 混合架构、新颖的网络设计和注意力技术，结合数据增强和正则化策略，在 BirdCLEF2023 和 AudioSet(Balanced) 测试中分别获得了 81.2% 和 35.1% 的准确率，明显优于竞争方法。

Sep, 2023

多模态注意力融合用于提升语音识别和音频事件分类

使用自我监督目标进行大型基础模型的训练，然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合（MAM）方法，通过零-shot范式，实现了从高资源模态（文本和图像）的注意力矩阵到资源受限领域（语音和音频）的知识转移。MAM可将自动语音识别（ASR）模型的相对字错误率（WER）降低多达6.70％，将音频事件分类（AEC）模型的相对分类错误率降低10.63％。在一些数据/计算资源可用的情况下，我们提出了可学习的MAM方法，用于合并注意力矩阵，进一步将ASR的WER降低2.90％，AEC降低18.42％，相对于微调方法。

Dec, 2023

SSAMBA：自监督音频表示学习与Mamba状态空间模型

使用自监督方法的SSAMBA模型，结合双向Mamba的优势，在音频表示学习任务中实现更高的性能和更高的效率。

May, 2024

音频曼巴：用于音频标记的预训练音频状态空间模型

通过提出自注意力自由的方法，音频马巴（Audio Mamba）利用状态空间模型来捕捉长音频频谱的依赖关系，实现了参数的高效性，并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。

May, 2024

音频蟒蛇：用于自监督音频表示的选择性状态空间

提出了一种名为Audio Mamba的选择性状态空间模型，通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明，预训练于AudioSet数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图Transformer (SSAST)基线，表现出更好的数据集大小、序列长度和模型大小的对比性能。

Jun, 2024