Jun, 2024

Ctrl-V: 用边界框控制的对象动作实现更高保真度的视频生成

TL;DR使用像素级渲染的二维或三维边界框作为条件,提出了一种可控视频生成模型,并创建了一个边界框预测器,可以预测 25 帧剪辑中每帧的多达 15 个边界框。在 KITTI、Virtual-KITTI 2 和 BDD100k 等三个著名视频数据集上进行了实验证明。