ChronoMagic-Bench:用于文本转时间流影片生成的变形评估基准
提出了 MagicTime,这是一个从时间间隔视频学习真实世界物理知识并实现变形生成的模型。设计了 MagicAdapter 方案来解耦空间和时间训练,引入了 Dynamic Frames Extraction 策略来适应变形时间间隔视频,并引入了 Magic Text-Encoder 来改善对变形视频提示的理解。通过实验证明了 MagicTime 在生成高质量和动态变形视频方面的优越性和有效性,表明时间间隔视频生成是构建物理世界变形模拟器的有希望的路径。
Apr, 2024
视频生成模型的时间组合性评估需要考虑新概念的出现和它们之间的转换,提出了一个基准测试集 TC-Bench,用于评估生成视频的过渡完成度和组件转换的完整性,结果表明现有的视频生成模型在解释组合性转换描述和综合不同时间步骤中的各种组件方面存在着巨大的改进空间。
Jun, 2024
MagicVideo-V2 通过将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到端到端视频生成流程中,可以生成具有出色保真度和平滑度的美观、高分辨率视频,在大规模用户评估中表现出比 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型更优秀的性能。
Jan, 2024
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023
从文本提示中生成视频故事是一项复杂的任务,需要高质量的视觉效果,视频需要根据文本提示的顺序进行逼真的呈现,而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足,我们在三个现有数据集上收集全面的人工注释,并引入了 StoryBench:一个新的、具有挑战性的多任务基准,可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务:动作执行,即从条件视频开始生成下一个动作;故事延续,即从条件视频开始执行一系列动作;以及故事生成,即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线,并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后,我们为人工评估视频故事建立了指南,并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。
Aug, 2023
该研究提出了 TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外,我们构建了一个调整指令的数据集,包括 6 个任务和总共 12.5 万个实例,以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了 TimeChat 强大的零样本时态定位和推理能力。例如,在 YouCook2 上,它在 F1 评分上提升了 9.2,在 CIDEr 上提升了 2.8,在 QVHighlights 上的 HIT@1 提升了 5.8,在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。
Dec, 2023
理解时间是人类认知的关键方面,在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench,一个广泛的分层时间推理基准,涵盖了广泛的时间推理现象,我们提出可以全面评估大型语言模型的时间推理能力,对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验,如 GPT-4,LLaMA2 和 Mistral,我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距,突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准,促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。
Nov, 2023
MagicEdit 是一种非常简单但非常有效的解决文本指导下的视频编辑任务的方法,通过在训练过程中明确分离内容、结构和动作信号的学习,可以实现高保真度和时间连贯性的视频到视频的转换。这与大多数现有方法试图在单个框架内同时建模外观和时间表示相矛盾,我们认为这会导致每帧质量下降。尽管简单,但我们展示了 MagicEdit 支持各种下游视频编辑任务,包括视频风格化、局部编辑、视频混合和视频外涂。
Aug, 2023
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024