VD3D：针对3D相机控制的大规模视频扩散变换

Jul, 2024

VD3D：针对3D相机控制的大规模视频扩散变换

VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian...

TL;DR现代文本到视频合成模型展示了从文本描述中生成复杂视频的一致、逼真的能力。然而，大多数现有模型在相机运动的细粒度控制方面存在缺陷，这对于与内容创作、视觉效果和三维视觉相关的下游应用至关重要。最近，有新的方法展示了使用事先训练的基于U-Net的扩散模型以显式区分空间和时间生成的方式生成具有可控相机姿势的视频的能力。然而，目前不存在任何方法能够为处理综合了空间和时间信息的基于transformer的视频扩散模型提供相机控制。在这里，我们提出使用类似ControlNet的调节机制以及基于Plucker坐标的时空相机嵌入来控制三维相机的transformer视频模型。该方法经过在RealEstate10K数据集上微调后展示了最先进的可控视频生成性能。据我们所知，我们的工作是首次为基于transformer的视频扩散模型提供相机控制的方法。

Abstract

Modern text-to-video synthesis models demonstrate coherent, photorealistic generation of complex videos from a text description. However, most existing models lack fine-grained control over camera movement, which is critical for downstream applications related to content creation, visu