Aug, 2023

StoryBench:用于连续故事可视化的多面向指标

TL;DR从文本提示中生成视频故事是一项复杂的任务,需要高质量的视觉效果,视频需要根据文本提示的顺序进行逼真的呈现,而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足,我们在三个现有数据集上收集全面的人工注释,并引入了 StoryBench:一个新的、具有挑战性的多任务基准,可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务:动作执行,即从条件视频开始生成下一个动作;故事延续,即从条件视频开始执行一系列动作;以及故事生成,即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线,并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后,我们为人工评估视频故事建立了指南,并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。