Oct, 2023

扩散模型作为遮蔽音频 - 视频学习器

TL;DR学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示,最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL,通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构,并通过训练效率方法的结合降低了 32%的浮点预训练操作数量 (FLOPS) 和 18%的预训练时间,与 MAViL 相比,在下游音频分类任务上没有损害模型的性能。