FETV:开放领域文本视频生成的细粒度评估基准
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
我们评估了常用质量度量,比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是,在评估 T2V 模型输出时,自然性和语义匹配是重要因素,但没有一种单一度量可以捕捉这些微妙之处。
Sep, 2023
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征,并利用大型语言模型的能力给出预测评分,该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型,能够给出主观对齐的预测评价。
Mar, 2024
我们在本研究中提出了一种名为 DEVIL 的有效评估协议,它以动态维度评估文本到视频 (T2V) 生成模型,通过建立一个新的基准和动态分数,我们使用三个度量标准:动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性,并展示其潜力推进 T2V 生成模型。
Jul, 2024
最近,视频生成引起了广泛关注并取得了显着成果。针对视频的特点,多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型,通过直接利用预训练的基于扩散的文本到视频转换模型进行生成,而无需额外的微调。为了生成连续的视频片段,不同提示生成的视觉一致性是必要的,具有多样的变化,如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演,用于在不同提示的视频之间重新初始化噪声潜变量,以保持视觉一致性并防止重复运动或内容。此外,我们提出了结构导向采样,以在单个视频剪辑的帧之间保持全局外观,其中我们通过对前一帧进行迭代潜变量更新。此外,我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例:[此链接](https://this_URL)
Dec, 2023
该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议,包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块,实验证明该协议不仅确保了高质量的注释,还可以将评估成本降低近 50%。
Jun, 2024
近年来,深度生成模型在图像合成方面取得了可观的进展,但在视频领域的学习则更为困难,需要模型同时捕获场景的时间动态和对象的视觉呈现。该研究提出了用于评价视频生成模型的新评价度量 - Fréchet Video Distance,并提供了基于 StarCraft 2 的新的视频生成模型挑战基准进行了大规模的人体研究和初始基准结果。
Dec, 2018
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过 100,000 个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和 TIFA160 上更好地与人类评分相关联。
Apr, 2024