Sep, 2024

从视觉到听觉及其他:一种统一的音视频表征与生成模型

TL;DR本研究解决了音视频表征学习与生成建模之间的断裂,通过提出Vision to Audio and Beyond(VAB)框架,能够在潜在空间中实现音视频的表征学习和生成。VAB的关键在于利用预训练的音频分词器和图像编码器进行数据处理,并通过上下文学习实现高质量音频生成,显示出其在音视频检索和分类任务中的优越表现。