May, 2024

一种适用于音视频生成的多功能扩散变压器

TL;DR通过使用新的训练方法和变量扩散时间步长,我们提出了一种基于转换器的音视频潜在扩散模型,可在任务不可知的情况下进行训练,并在推理过程中实现各种音视频生成任务,克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。