May, 2024

自回归生成的多概念视频定制的文本引导

TL;DR我们提出了一种多概念定制预训练文本到视频模型的方法,通过自动回归的方式生成多个定制概念的视频,并使用videoCLIP、DINO分数以及人工评估进行定量评估。