Jun, 2024

音频蟒蛇:用于自监督音频表示的选择性状态空间

TL;DR提出了一种名为 Audio Mamba 的选择性状态空间模型,通过自我监督学习从随机遮罩的频谱图补丁中学习通用的音频表示。实证结果表明,预训练于 AudioSet 数据集的该模型在十个不同的音频识别任务中持续优于可比较的自我监督音频谱图 Transformer (SSAST) 基线,表现出更好的数据集大小、序列长度和模型大小的对比性能。