SSAST: 自监督音频频谱变换器

AAAIOct, 2021

SSAST: Self-Supervised Audio Spectrogram Transformer

Yuan Gong, Cheng-I Jeff Lai, Yu-An Chung, James Glass

TL;DR本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Abstract

Recently, neural networks based purely on self-attention, such as the Vision Transformer (ViT), have been shown to outperform deep learning models constructed with convolutional neural networks (CNNs) on various vision tasks, thus extending the success of Transformers, which were originally developed for language processing, to the vision domain. A recent st

self-supervised learning audio classification spectrogram transformer pretraining masked spectrogram patch modeling

发现论文，激发创造

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

MAST：多尺度音频频谱变换器

本文提出了一个多尺度音频谱图变换器（MAST），用于音频分类和自监督学习，在 LAPE 基准测试上，相较于 Audio Spectrogram Transformer（AST）和 SSAST，MAST 和 SS‐MAST 具有更高的性能，并已将所有代码公开在 GitHub 上。

Nov, 2022

MAE-AST: 带有遮蔽编码音频频谱变换器

本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言，我们将来自原模型中使用的高掩模比率（75%）的问题进行改进，并将 Masked Autoencoders are Scalable Vision Learners（MAE）的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略，在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中，我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估，并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。

Mar, 2022

自监督音频师生 Transformer 用于剪辑和帧任务

本文提出了 ATST-Clip 和 ATST-Frame 两种自监督学习方法，分别负责学习音频剪辑级别和帧级别表示，并且利用知识蒸馏进一步提高了性能。其中，ATST-Frame 在音频帧事件检测任务上取得了最先进的表现。

Jun, 2023

ATST: 带有教师 - 学生 Transformer 的音频表示学习

本文提出了一个新的基于 Transformer 编码器的自监督学习模型 ——ATST，该模型可解决分段级别的音频自监督学习问题。在新的正对配对策略的支持下，ATST 模型在多项下游任务中实现了最新的最佳表现。

Apr, 2022

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024

多尺度音频光谱变换器用于有效的音频分类

这篇研究提出了一种名为多尺度音频谱变换器（MAST）的方法，它采用分层表示学习来提高音频分类的效率，相较于 AST，MAST 在没有外部训练数据的情况下，在 Kinetics-Sounds，Epic-Kitchens-100 和 VGGSound 数据集上的准确度提高了 22.2％、4.4％和 4.7％，同时比 AST 更加高效。

Mar, 2023

理解自监督音频 Transformer 的自注意力

本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略，包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力，以及注意力精炼技术以提高模型性能。

Jun, 2020

EAT：高效音频 Transformer 的自监督预训练

提出了高效音频 Transformer（EAT）模型，通过自监督训练范式和新颖的话语 - 帧目标（UFO）增强声音事件建模能力，探究了掩模策略在音频自监督学习中的关键性作用，并在多种音频相关任务中实现了最先进的性能，并且相比现有的音频自监督学习模型，预训练速度提升了约 15 倍。

Jan, 2024

光谱图是补丁的序列

本文介绍了一个名为 Patchifier 的自监督模型，利用 NLP 和 CV 领域的自监督学习方法，将音乐的频谱图作为一系列图块，并对其特征进行捕捉。使用仅包含 16k 个音乐片段的 MTAT 数据集进行预训练。该模型应用于多个下游任务，并取得了令人满意的结果。同时，该工作证明了将音频视为一系列图块片段是有意义的。

Oct, 2022