Nov, 2023

A-JEPA:联合嵌入预测架构能够聆听

TL;DR本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法,通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构(A-JEPA),这是一种简单的自监督学习方法,通过上下文编码器对可见音频频谱图块进行编码,并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上,A-JEPA 在结构上采用了 Vision Transformers,我们发现它具有极强的可扩展性,并创造了新的最先进性能,超过了使用外部监督预训练的其他最新模型。