衡量文本 - 视频模型输出的质量：指标和数据集

Sep, 2023

衡量文本 - 视频模型输出的质量：指标和数据集

Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset

Iya Chivileva, Philip Lynch, Tomas E. Ward, Alan F. Smeaton

TL;DR我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Abstract

Evaluating the quality of videos generated from text-to-video (T2V) models is important if they are to produce plausible outputs that convince a viewer of their authenticity. We examine some of the metrics used in this area and highlight their limitations. The paper presents a dataset of more than 1,000 generated videos from 5 very recent T2V models on which

text-to-video models video quality evaluation quality metrics human assessment t2v videos

发现论文，激发创造

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

文本到视频质量评估的主观对齐数据集和度量

利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征，并利用大型语言模型的能力给出预测评分，该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型，能够给出主观对齐的预测评价。

Mar, 2024

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性

该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议，包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块，实验证明该协议不仅确保了高质量的注释，还可以将评估成本降低近 50%。

Jun, 2024

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

FETV：开放领域文本视频生成的细粒度评估基准

我们提出了 FETV，一个用于细粒度评估文本到视频生成的基准，它基于三个正交方面对提示进行分类，并且是与时间相关的，通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估，发现现有的自动评估指标与人工评估的相关性较差，并提出了两个新的自动评估指标与人工评估相关性更高。

Nov, 2023

文本到视频生成模型的评估：动态视角

我们在本研究中提出了一种名为 DEVIL 的有效评估协议，它以动态维度评估文本到视频 (T2V) 生成模型，通过建立一个新的基准和动态分数，我们使用三个度量标准：动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性，并展示其潜力推进 T2V 生成模型。

Jul, 2024

使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级

我们通过对自动评价度量和人类模板进行广泛研究，介绍了一种综合的基于技能的基准，收集了超过 100,000 个注释，并引入了一种新的基于问答的自动评价度量，以在各种人类模板和 TIFA160 上更好地与人类评分相关联。

Apr, 2024

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

用 FIRE 对抗火灾：评估文本到视频检索基准的有效性

通过修正误标的负样本，我们评测了三种模型在两个标准测试集上的表现，发现在最佳模型上，修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和，同时我们推荐以样本抽样方式缓解标注数据成本，对未来的 text-to-video retrieval 基准测试提出了建议。

Oct, 2022

文本生成动作的最佳自动评估指标是什么？

人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关，并提出了新的度量标准，这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价，发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而，用于评估模型平均性能的常用度量标准（例如 R-Precision）和较少使用的坐标误差表现出了较强的相关性。此外，与其他替代方法相比，不推荐使用一些最近开发的度量标准，因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准，该度量标准在样本级别上与人类判断高度相关，并且在模型级别上具有近乎完美的相关性。我们的结果表明，这种新度量标准比当前所有替代方案都有广泛的优势。

Sep, 2023