使用遮蔽自编码器建模的遮蔽光谱图用于学习通用音频表示

Apr, 2022

使用遮蔽自编码器建模的遮蔽光谱图用于学习通用音频表示

Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

TL;DR本文提出了一种新的通过自编码集成原始音频数据的方法：Masked Spectrogram Modeling（MSM），并使用 Masked Autoencoders（MAE）进行自监督学习，这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。

Abstract

Recent general-purpose audio representations show state-of-the-art performance on various audio tasks. These representations are pre-trained by self-supervised learning methods that create training signals from t

audio representations self-supervised learning masked spectrogram modeling masked autoencoders hear 2021 neurips challenge

发现论文，激发创造

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

MAE-AST: 带有遮蔽编码音频频谱变换器

本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言，我们将来自原模型中使用的高掩模比率（75%）的问题进行改进，并将 Masked Autoencoders are Scalable Vision Learners（MAE）的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略，在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中，我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估，并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。

Mar, 2022

医学监督下的自编码器：为医学图像分类制定更好的遮盖策略和高效的微调计划

本文提出了一种 Medical Supervised Masked Autoencoder (MSMAE) 模型来解决传统 Masked Autoencoder (MAE) 模型在医学图像分类和分割中存在的问题，通过监督训练精确地遮蔽医学图像以及在微调阶段通过注意力机制指导遮蔽医学图像，显著提高了 MSMAE 模型的计算效率和医学诊断质量。

May, 2023

SS-MAE：用于多源遥感图像分类的空间 - 频谱屏蔽自编码器

提出了一种空间 - 光谱掩码自编码器 (SS-MAE) 用于高光谱成像和激光雷达 / 合成孔径雷达数据的联合分类，实现了空间和光谱表示的充分利用，并通过在训练阶段添加两个轻量级卷积神经网络来补充局部特征，成功在三个公开数据集上验证了 SS-MAE 相对于其他先进基线方法的优越性。

Nov, 2023

遮盖自编码器作为时空学习器

研究了 Masked Autoencoders 在视频方面的应用，支持在没有时空归纳偏差的情况下，使用随机遮挡进行自编码器学习，观察到高比例遮挡可提高速度和表现，可以成为无监督学习的方法。

May, 2022

掩码自编码器在视觉和其他领域的自监督学习中的调查

本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述，着重于介绍其在视觉模式识别领域中的应用，包括历史发展、最新进展以及对各种应用的影响。

Jul, 2022

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022