Feb, 2024

Direct-a-Video: 用户定制化视频生成与用户指导的摄像机移动和物体运动

TL;DR我们引入 Direct-a-Video,一个可以让用户独立指定一个或多个对象的运动和 / 或相机的移动,就像导演一个视频一样。通过使用模型的先验知识,我们提出了一种简单又有效的对象运动和相机移动解耦控制策略。我们还引入了新的时间交叉注意力层来解释定量的相机移动参数。通过在小规模数据集上自监督方式训练这些层,我们消除了显式运动注释的需求。我们的方法能够独立运作,并能够广泛适用于开放领域的场景。大量实验证明了我们方法的优越性和有效性。