走向更好的文本到视频生成度量
我们评估了常用质量度量,比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是,在评估 T2V 模型输出时,自然性和语义匹配是重要因素,但没有一种单一度量可以捕捉这些微妙之处。
Sep, 2023
利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征,并利用大型语言模型的能力给出预测评分,该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型,能够给出主观对齐的预测评价。
Mar, 2024
我们提出了 FETV,一个用于细粒度评估文本到视频生成的基准,它基于三个正交方面对提示进行分类,并且是与时间相关的,通过该基准我们对四个代表性的 T2V 模型进行了全面的手动评估,发现现有的自动评估指标与人工评估的相关性较差,并提出了两个新的自动评估指标与人工评估相关性更高。
Nov, 2023
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
近年来,深度生成模型在图像合成方面取得了可观的进展,但在视频领域的学习则更为困难,需要模型同时捕获场景的时间动态和对象的视觉呈现。该研究提出了用于评价视频生成模型的新评价度量 - Fréchet Video Distance,并提供了基于 StarCraft 2 的新的视频生成模型挑战基准进行了大规模的人体研究和初始基准结果。
Dec, 2018
该研究介绍了一种用于评估文本到视频模型的全面标准化协议 ——T2VHE 协议,包括明确定义的度量标准、细致的标注员培训和有效的动态评估模块,实验证明该协议不仅确保了高质量的注释,还可以将评估成本降低近 50%。
Jun, 2024
通过引入 VQAScore 和 GenAI-Bench,本研究在评估生成式人工智能方面取得了重要进展,并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。
Apr, 2024
近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提取和理解时间细微差异,并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合,进一步增强集成性,以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估,T2AV 在视觉对齐和时间一致性上设立了新的标准。
Mar, 2024
提出了一个用于生成文字描述音频视频的基准测试集(TAVGBench),包含超过 1.7 百万个剪辑,总时长达到 11.8 千小时。通过自动注释流程,确保每个音频视频都具有音频和视频内容的详细描述。引入了 Audio-Visual Harmoni 分数(AVHScore),用于定量衡量生成音频和视频之间的对齐程度。此外,还提出了名为 TAVDiffusion 的 TAVG 基线模型,使用双流潜在扩散模型提供深入研究该领域的基础起点。通过在 TAVGBench 上进行广泛实验和评估,展示了我们所提出模型在传统指标和我们提出的指标下的有效性。
Apr, 2024