StoryBench：用于连续故事可视化的多面向指标

Aug, 2023

StoryBench：用于连续故事可视化的多面向指标

StoryBench: A Multifaceted Benchmark for Continuous Story Visualization

Emanuele Bugliarello, Hernan Moraldo, Ruben Villegas, Mohammad Babaeizadeh, Mohammad Taghi Saffar...

TL;DR从文本提示中生成视频故事是一项复杂的任务，需要高质量的视觉效果，视频需要根据文本提示的顺序进行逼真的呈现，而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足，我们在三个现有数据集上收集全面的人工注释，并引入了 StoryBench：一个新的、具有挑战性的多任务基准，可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务：动作执行，即从条件视频开始生成下一个动作；故事延续，即从条件视频开始执行一系列动作；以及故事生成，即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线，并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后，我们为人工评估视频故事建立了指南，并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。

Abstract

Generating video stories from text prompts is a complex task. In addition to having high visual quality, videos need to realistically adhere to a sequence of text prompts whilst being consistent throughout the fr

video generation text prompts benchmark multi-task automatic metrics

发现论文，激发创造

VBench: 视频生成模型综合基准套件

通过 VBench 系统，我们提供了一个全面的视频生成评估基准，将视频生成质量分解为特定的、分层的、分离的维度，并为每个维度提供了定制的提示和评估方法；我们还提供了人类喜好注释的数据集，验证了我们基准与人类知觉的一致性；在各个评估维度和各种内容类型上，我们研究了当前模型在视频生成能力上的差异，并探究了视频和图像生成模型之间的差距。

Nov, 2023

TC-Bench：文本到视频和图片到视频生成中的时间复合性基准测试

视频生成模型的时间组合性评估需要考虑新概念的出现和它们之间的转换，提出了一个基准测试集 TC-Bench，用于评估生成视频的过渡完成度和组件转换的完整性，结果表明现有的视频生成模型在解释组合性转换描述和综合不同时间步骤中的各种组件方面存在着巨大的改进空间。

Jun, 2024

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

Shot2Story20K：多割视频全面理解的新基准测试

通过一个多镜头视频理解基准（Shot2Story20K）的详细镜头级标题和全面视频摘要，提供了一种更好的视频语义理解方法，包括可视化信号和人类叙述的标题，摘要，检索以及摘要生成，这将显著提升现有视频理解任务的性能，并促进了视频理解中对详细摘要的未开发研究领域。

Dec, 2023

Movie101v2: 改进的电影叙事基准测试

通过创建与视频对齐的情节描述来辅助视觉障碍观众，自动电影叙述与标准视频字幕不同，它需要描述关键的视觉细节，同时推断跨多个电影镜头发展的情节，因此存在独特和持续的挑战。为了推进自动电影叙述系统的发展，我们首先重新审视现有数据集的限制，并开发了一个大规模的双语电影叙述数据集 Movie101v2。其次，考虑到实现可应用的电影叙述的基本困难，我们将长期目标分为三个渐进阶段，并临时聚焦于特定片段内的理解。我们还引入了一种新的叙述评估来与我们的阶段性任务目标对齐。第三，利用我们的新数据集，我们对几种主要的大规模视觉语言模型进行了基准测试，包括 GPT-4V，并对当前模型在电影叙述生成方面面临的挑战进行了深入研究。我们的研究结果表明，实现可应用的电影叙述生成是一个引人入胜的目标，需要深入研究。

Apr, 2024

失落的旋律：从叙事视角的文本到视频生成的实证观察

本文从故事讲述的角度对文本到视频生成进行了研究，指出了当前文本到视频生成方案的局限性，并提出了一个用于视频故事方面的评估框架，并讨论了未来的发展方向。

May, 2024

T$^3$Bench: 文本到 3D 生成的当前进展基准测试

当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型，能够生成高质量的 3D 场景。本文介绍了 T^3Bench，第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异，并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。

Oct, 2023

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

AIGCBench：AI 生成的图像到视频内容的综合评估

人工智能生成内容（AIGC）领域迅速发展，本研究介绍了 AIGCBench，一个全面且可扩展的基准测试，旨在评估各种视频生成任务，主要集中在图像到视频（I2V）生成上。

Jan, 2024

SS-Bench：社交故事生成和评估基准

针对孤独症谱系障碍（ASD）儿童在理解社交情境和参与日常生活中的困难，本研究提出了一种基于大规模语言模型（LLMs）的自动化方法 ——SS-Bench，用于生成和评估社交故事，通过构建基准测试，并验证其对于儿童社交能力的改善效果，旨在为自闭症社群提供帮助，并促进未来特定群体的研究。

Jun, 2024