Jul, 2022

听觉遮盖自编码器

TL;DR本文研究了基于图像的 Masked Autoencoder(MAE)的简单扩展,用于从音频频谱图进行自监督表示学习,并提出了 Audio-MAE 模型,该模型利用 Transformer 编码器 - 解码器设计,使用高掩蔽率编码音频频谱图,通过仅馈送非遮蔽记号通过编码器层,解码器则重新组织和解码编码器产生的上下文,以重构输入谱图。在六个音频和语音分类任务中,Audio-MAE 都表现出最先进的性能,超过了使用外部监督预训练的其他最新模型.