Feb, 2024

交互式视频:以用户为中心的可控视频生成与多模态协同指导

TL;DR我们介绍了 InteractiveVideo,这是一个以用户为中心的视频生成框架,通过动态交互允许用户通过各种直观的机制在整个生成过程中指导生成模型,例如文本,图片提示,绘画,拖放等。我们提出了一种协同多模态指导机制,旨在将用户的多模态指令无缝集成到生成模型中,从而促进用户输入和生成过程之间的合作和响应交互,使生成结果能够通过精确而有效的用户指令进行迭代和细粒度的改进。通过 InteractiveVideo,用户可以详细定制视频的关键方面,如绘制参考图像、编辑语义和调整视频动作,直到满足其需求。此外还提供代码、模型和演示的链接。