Jun, 2024

AID:适应图像到视频扩散模型用于指导视频预测

TL;DR基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显优于现有技术,证明了其在不同领域的有效性。