ICMLJun, 2020

使用行动图进行组合式视频合成

TL;DR本文首次提出 Action Graph 结构来实现多协调及可能同时进行的时间动作相关视频的生成方式,通过 AG2Vid 模型实现了运动和外观特征的分离,并引入了调度机制以协助视频生成,经过对 CATER 和 Something-Something V2 数据集的训练和评估,证明与基线相比,所生成的视频具有更好的视觉质量和语义一致性。同时,该模型还展现了零样本能力,在生成已学习动作的新组合等方面表现出良好的效果。