Jun, 2024

学习动作先验的视频生成

TL;DR在考虑了相机运动或动作作为观察图像状态的一部分,并将图像和动作建模在多模态学习框架内的基础上,我们提出了三个模型:VG-LeAP 使用变分推断学习图像 - 动作潜在先验并将图像 - 动作对作为单一潜在随机过程生成的扩展状态;Causal-LeAP 建立了动作与观察到的图像帧之间的因果关系,学习基于观察到的图像状态的动作先验;RAFI 将增强的图像 - 动作状态概念与扩散生成过程中的流匹配相结合,证明了这种动作条件下的图像生成概念可以扩展到其他基于扩散的模型。通过对我们的新视频动作数据集 RoAM 进行详细的实证研究,我们强调了多模态训练在部分可观察视频生成问题中的重要性。