MAE-AST: 带有遮蔽编码音频频谱变换器

Mar, 2022

MAE-AST: 带有遮蔽编码音频频谱变换器

MAE-AST: Masked Autoencoding Audio Spectrogram Transformer

Alan Baade, Puyuan Peng, David Harwath

TL;DR本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言，我们将来自原模型中使用的高掩模比率（75%）的问题进行改进，并将 Masked Autoencoders are Scalable Vision Learners（MAE）的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略，在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中，我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估，并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。

Abstract

In this paper, we propose a simple yet powerful improvement over the recent self-supervised audio spectrogram transformer (SSAST) model for speech and audio classification. Specifically, we leverage the insight t

self-supervised audio spectrogram transformer speech classification audio classification masked autoencoders are scalable vision learners pretraining

发现论文，激发创造

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

使用遮蔽自编码器建模的遮蔽光谱图用于学习通用音频表示

本文提出了一种新的通过自编码集成原始音频数据的方法：Masked Spectrogram Modeling（MSM），并使用 Masked Autoencoders（MAE）进行自监督学习，这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。

Apr, 2022

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

MAST：多尺度音频频谱变换器

本文提出了一个多尺度音频谱图变换器（MAST），用于音频分类和自监督学习，在 LAPE 基准测试上，相较于 Audio Spectrogram Transformer（AST）和 SSAST，MAST 和 SS‐MAST 具有更高的性能，并已将所有代码公开在 GitHub 上。

Nov, 2022

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

MTSMAE: 基于掩码的自编码器用于多元时间序列预测

该论文提出了一种新的基于 Masked Autoencoders (MAE) 的自监督预训练方法称为 MTSMAE，利用补丁嵌入的方法处理多元时间序列，实验证明，该方法的性能显著优于目前最好的方法。

Oct, 2022

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022