FETV：开放领域文本视频生成的细粒度评估基准

Nov, 2023

FETV：开放领域文本视频生成的细粒度评估基准

FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation

Yuanxin Liu, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li...

TL;DR我们提出了 FETV，一个用于细粒度评估文本到视频生成的基准，它基于三个正交方面对提示进行分类，并且是与时间相关的，通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估，发现现有的自动评估指标与人工评估的相关性较差，并提出了两个新的自动评估指标与人工评估相关性更高。

Abstract

Recently, open-domain text-to-video (T2V) generation models have made remarkable progress. However, the promising results are mainly shown by the qualitative cases of generated videos, while the quantitative evaluation of T2V models still faces two critical problems. Firstly, existing studies lack →

open-domain text-to-video generation fine-grained evaluation benchmark automatic evaluation metrics fetv

发现论文，激发创造

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

文本到视频质量评估的主观对齐数据集和度量

利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征，并利用大型语言模型的能力给出预测评分，该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型，能够给出主观对齐的预测评价。

Mar, 2024

文本到视频生成模型的评估：动态视角

我们在本研究中提出了一种名为 DEVIL 的有效评估协议，它以动态维度评估文本到视频 (T2V) 生成模型，通过建立一个新的基准和动态分数，我们使用三个度量标准：动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性，并展示其潜力推进 T2V 生成模型。

Jul, 2024

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性

该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议，包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块，实验证明该协议不仅确保了高质量的注释，还可以将评估成本降低近 50%。

Jun, 2024

构建准确的视频生成模型：一项新的度量标准和挑战

近年来，深度生成模型在图像合成方面取得了可观的进展，但在视频领域的学习则更为困难，需要模型同时捕获场景的时间动态和对象的视觉呈现。该研究提出了用于评价视频生成模型的新评价度量 - Fréchet Video Distance，并提供了基于 StarCraft 2 的新的视频生成模型挑战基准进行了大规模的人体研究和初始基准结果。

Dec, 2018

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过 100,000 个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和 TIFA160 上更好地与人类评分相关联。

Apr, 2024