音频曼巴:用于音频表示学习的双向状态空间模型
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。
Apr, 2021
本文提出了一种使用未标注数据进行自监督预训练的方法,使用联合判别式和生成式掩蔽频谱补丁建模对AST模型进行预训练,从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架,也是AST的自监督学习框架的首次探索。
Oct, 2021
本文研究了卷积神经网络和自注意力机制模型之间的交互作用,通过知识蒸馏将它们作为师生模型相互训练,在FSD50K、AudioSet和ESC-50等数据集上取得了新的最好成绩。
Mar, 2022
本文提出了一个多尺度音频谱图变换器(MAST),用于音频分类和自监督学习,在LAPE基准测试上,相较于Audio Spectrogram Transformer(AST)和SSAST,MAST和SS‐MAST具有更高的性能,并已将所有代码公开在GitHub上。
Nov, 2022
这篇研究提出了一种名为多尺度音频谱变换器(MAST)的方法,它采用分层表示学习来提高音频分类的效率,相较于AST,MAST在没有外部训练数据的情况下,在Kinetics-Sounds,Epic-Kitchens-100和VGGSound数据集上的准确度提高了22.2%、4.4%和4.7%,同时比AST更加高效。
Mar, 2023
基于 CoAtNet 的 ASCA 结合了 Transformer-convolution 混合架构、新颖的网络设计和注意力技术,结合数据增强和正则化策略,在 BirdCLEF2023 和 AudioSet(Balanced) 测试中分别获得了 81.2% 和 35.1% 的准确率,明显优于竞争方法。
Sep, 2023
使用自我监督目标进行大型基础模型的训练,然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合(MAM)方法,通过零-shot范式,实现了从高资源模态(文本和图像)的注意力矩阵到资源受限领域(语音和音频)的知识转移。MAM可将自动语音识别(ASR)模型的相对字错误率(WER)降低多达6.70%,将音频事件分类(AEC)模型的相对分类错误率降低10.63%。在一些数据/计算资源可用的情况下,我们提出了可学习的MAM方法,用于合并注意力矩阵,进一步将ASR的WER降低2.90%,AEC降低18.42%,相对于微调方法。
Dec, 2023
通过提出自注意力自由的方法,音频马巴(Audio Mamba)利用状态空间模型来捕捉长音频频谱的依赖关系,实现了参数的高效性,并且在两个音频标记数据集上取得了与状态机最新技术相媲美的结果。
May, 2024
提出了一种名为Audio Mamba的选择性状态空间模型,通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明,预训练于AudioSet数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图Transformer (SSAST)基线,表现出更好的数据集大小、序列长度和模型大小的对比性能。
Jun, 2024