uaMix-MAE：基于无监督音频混合的高效预训练音频 Transformer 调优

Mar, 2024

uaMix-MAE：基于无监督音频混合的高效预训练音频 Transformer 调优

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures

Afrina Tabassum, Dung Tran, Trung Dang, Ismini Lourentzou, Kazuhito Koishida

TL;DR提出了一种有效的 ID 调节策略 uaMix-MAE，通过对预训练的 MAEs 进行对比调节，以实现对特定任务的语义有效适应，并且通过操纵输入和虚拟标签空间中的音频样本来优化模型，实验结果表明在低 / 少样本设置中，所提出的模型在有限的无标签数据下相比不同的基准模型（如 AudioSet-20K）取得了 4-6% 的准确率提升。

Abstract

masked autoencoders (MAEs) learn rich low-level representations from unlabeled data but require substantial labeled data to effectively adapt to downstream tasks. Conversely, instance discrimination (ID) emphasiz

masked autoencoders instance discrimination uamix-mae unsupervised audio mixtures low/few-shot settings

发现论文，激发创造

对比调节：帮助遗忘掩码自编码器

本研究提出了一种名为 MAE-CT 的序列方法，旨在将最近邻对比学习应用于经过预训练的 MAE 中，以将丰富的特征组成对象语义簇，而无需使用任何标签，并应用于使用大型 Vision Transformer 模型。MAE-CT 在线性探测、k-NN 和少样本分类准确度以及无监督聚类准确度方面与以往的自监督方法相匹配或胜过了以 ImageNet 为训练数据的深度学习方法。

Apr, 2023

混合自编码器用于自监督视觉表征学习

本文研究了 Masked Autoencoder 的数据扩增问题，提出了基于同源识别的 Mix Autoencoder 方法，通过自监督预训练可以提升下游视觉任务表现，在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。

Mar, 2023

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

MixMAE: 混合和掩蔽自编码器用于高效的分层视觉 Transformer 预训练

本文提出了一种名为 MixMAE 的方法，可以有效地预先训练不同的分层视觉转换器，并取代掩蔽图像建模（MIM）方法，仍然可以对受损图像进行建模，而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明，使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。

May, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

EnCodecMAE: 利用神经编解码器进行通用音频表示学习

本研究探讨了使用神经音频编解码器 EnCodec 生成发音、音乐和环境声音的离散目标，以学习基于遮蔽自动编码器的通用音频模型 EncodecMAE，并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。

Sep, 2023

MAE-AST: 带有遮蔽编码音频频谱变换器

本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言，我们将来自原模型中使用的高掩模比率（75%）的问题进行改进，并将 Masked Autoencoders are Scalable Vision Learners（MAE）的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略，在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中，我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估，并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。

Mar, 2022

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024

基于混合簇条件专家的任务定制化遮蔽自编码器

提出了一种新的基于混合的聚类条件专家（MoCE）的 MAE 预训练范式，为不同的下游任务提供定制化的预训练模型，通过使用聚类条件门将每个专家仅与语义相关的图像进行训练，从而克服了 MAE 可扩展性中的负迁移问题。

Feb, 2024