Jan, 2024

通过多模态大型语言模型实现以语言为驱动的视频修复

TL;DR我们介绍了一种新的任务 - 语言驱动的视频修复,它使用自然语言指令来指导修复过程。我们提出了 Remove Objects from Videos by Instructions (ROVI) 数据集,其中包含 5,650 个视频和 9,091 个修复结果,以支持该任务的训练和评估。我们还提出了一种新的基于扩散的语言驱动视频修复框架,这是该任务的第一个端到端基线,有效地整合了多模态大规模语言模型,以理解和执行复杂的基于语言的修复请求。我们详细的结果展示了该数据集的多样性和该模型在各种语言指导下的修复场景中的有效性。我们将公开发布数据集、代码和模型。