CVPRDec, 2021

可控的图像描述生成视频技术

TL;DR提出了一种名为 TI2V 的新的视频生成任务,即从静态图像和文本描述生成视频。介绍了一种名为 MAGE 的视频生成器,其中包含一种创新的运动锚(MA)结构,以存储外观 - 运动对齐表示,通过三维轴向变压器与给定图像交互,支持可控性和多样性。两个新的视频 - 文本匹配数据集验证了 MAGE 的有效性并展示了 TI2V 的潜力。