失落的旋律：从叙事视角的文本到视频生成的实证观察

CVPRMay, 2024

失落的旋律：从叙事视角的文本到视频生成的实证观察

The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective

Andrew Shin, Yusuke Mori, Kunitake Kaneko

TL;DR本文从故事讲述的角度对文本到视频生成进行了研究，指出了当前文本到视频生成方案的局限性，并提出了一个用于视频故事方面的评估框架，并讨论了未来的发展方向。

Abstract

text-to-video generation task has witnessed a notable progress, with the generated outcomes reflecting the text prompts with high fidelity and impressive visual qualities. However, current text-to-video generation

text-to-video generation storytelling limitations evaluation framework future directions

发现论文，激发创造

StoryBench：用于连续故事可视化的多面向指标

从文本提示中生成视频故事是一项复杂的任务，需要高质量的视觉效果，视频需要根据文本提示的顺序进行逼真的呈现，而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足，我们在三个现有数据集上收集全面的人工注释，并引入了 StoryBench：一个新的、具有挑战性的多任务基准，可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务：动作执行，即从条件视频开始生成下一个动作；故事延续，即从条件视频开始执行一系列动作；以及故事生成，即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线，并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后，我们为人工评估视频故事建立了指南，并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。

Aug, 2023

利用检索辅助视频生成技术的动画故事讲述

提出了一种使用现有短视频合成视觉讲述视频的技术，该技术基于查询文本描述运动结构，在结构引导和外观指导下生成基于情节的视频，并通过概念个性化方法保证视频的视觉一致性。

Jul, 2023

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

文本到视频生成模型的评估：动态视角

我们在本研究中提出了一种名为 DEVIL 的有效评估协议，它以动态维度评估文本到视频 (T2V) 生成模型，通过建立一个新的基准和动态分数，我们使用三个度量标准：动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性，并展示其潜力推进 T2V 生成模型。

Jul, 2024

一段视频价值 4096 个令牌：通过零 - shot 方法口头描述视频以理解其含义

通过将视频转化为自然语言描述，本文提出一种方法来解决缺少训练集的多媒体理解问题，并且在视频理解任务中发挥了显著的优势，同时还公开了第一个数据集，用于计算社会科学中的说服策略识别。

May, 2023

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023