衡量文本 - 视频模型输出的质量:指标和数据集
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征,并利用大型语言模型的能力给出预测评分,该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型,能够给出主观对齐的预测评价。
Mar, 2024
该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议,包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块,实验证明该协议不仅确保了高质量的注释,还可以将评估成本降低近 50%。
Jun, 2024
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
我们提出了 FETV,一个用于细粒度评估文本到视频生成的基准,它基于三个正交方面对提示进行分类,并且是与时间相关的,通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估,发现现有的自动评估指标与人工评估的相关性较差,并提出了两个新的自动评估指标与人工评估相关性更高。
Nov, 2023
我们在本研究中提出了一种名为 DEVIL 的有效评估协议,它以动态维度评估文本到视频 (T2V) 生成模型,通过建立一个新的基准和动态分数,我们使用三个度量标准:动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性,并展示其潜力推进 T2V 生成模型。
Jul, 2024
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过 100,000 个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和 TIFA160 上更好地与人类评分相关联。
Apr, 2024
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
通过修正误标的负样本,我们评测了三种模型在两个标准测试集上的表现,发现在最佳模型上,修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和,同时我们推荐以样本抽样方式缓解标注数据成本,对未来的 text-to-video retrieval 基准测试提出了建议。
Oct, 2022
人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关,并提出了新的度量标准,这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价,发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而,用于评估模型平均性能的常用度量标准(例如 R-Precision)和较少使用的坐标误差表现出了较强的相关性。此外,与其他替代方法相比,不推荐使用一些最近开发的度量标准,因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准,该度量标准在样本级别上与人类判断高度相关,并且在模型级别上具有近乎完美的相关性。我们的结果表明,这种新度量标准比当前所有替代方案都有广泛的优势。
Sep, 2023