May, 2024

鉴别器引导的合作扩散用于联合音频和视频生成

TL;DR通过利用预训练的单模态音频和视频生成模型,我们旨在构建一个计算成本最小化的音频 - 视频生成模型。为了实现这一目标,我们提出了一种新方法,通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明,我们的方法改进了单模态的准确度和多模态的对齐,同时具有相对较少的参数。