走向更好的文本到视频生成度量

Jan, 2024

Towards A Better Metric for Text-to-Video Generation

Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge...

TL;DR本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Abstract

generative models have demonstrated remarkable capability in synthesizing high-quality text, images, and videos. For video generation, contemporary →

generative models video generation evaluation metrics text-to-video models t2vscore

发现论文，激发创造

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023

文本到视频质量评估的主观对齐数据集和度量

利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征，并利用大型语言模型的能力给出预测评分，该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型，能够给出主观对齐的预测评价。

Mar, 2024

FETV：开放领域文本视频生成的细粒度评估基准

我们提出了 FETV，一个用于细粒度评估文本到视频生成的基准，它基于三个正交方面对提示进行分类，并且是与时间相关的，通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估，发现现有的自动评估指标与人工评估的相关性较差，并提出了两个新的自动评估指标与人工评估相关性更高。

Nov, 2023

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

构建准确的视频生成模型：一项新的度量标准和挑战

近年来，深度生成模型在图像合成方面取得了可观的进展，但在视频领域的学习则更为困难，需要模型同时捕获场景的时间动态和对象的视觉呈现。该研究提出了用于评价视频生成模型的新评价度量 - Fréchet Video Distance，并提供了基于 StarCraft 2 的新的视频生成模型挑战基准进行了大规模的人体研究和初始基准结果。

Dec, 2018

重新思考文本到视频模型的人工评估协议：提升可靠性、可复现性和实用性

该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议，包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块，实验证明该协议不仅确保了高质量的注释，还可以将评估成本降低近 50%。

Jun, 2024

文本无关视频生成的扩展方法

通过使用无文本视频进行训练，研究表明，扩大训练集规模并重新引入部分文本标签，可以使基于扩散的文本到视频生成的性能得到提升和改进。

Dec, 2023

评估文本到视觉生成与图像到文本生成

通过引入 VQAScore 和 GenAI-Bench，本研究在评估生成式人工智能方面取得了重要进展，并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。

Apr, 2024

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

TAVGBench：文本转音频 - 视频生成性能基准测试

提出了一个用于生成文字描述音频视频的基准测试集（TAVGBench），包含超过 1.7 百万个剪辑，总时长达到 11.8 千小时。通过自动注释流程，确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数（AVHScore），用于定量衡量生成音频和视频之间的对齐程度。此外，还提出了名为 TAVDiffusion 的 TAVG 基线模型，使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估，展示了我们所提出模型在传统指标和我们提出的指标下的有效性。

Apr, 2024