Ctrl-V: 用边界框控制的对象动作实现更高保真度的视频生成

Jun, 2024

Ctrl-V: 用边界框控制的对象动作实现更高保真度的视频生成

Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion

Ge Ya Luo, Zhi Hao Luo, Anthony Gosselin, Alexia Jolicoeur-Martineau, Christopher Pal

TL;DR使用像素级渲染的二维或三维边界框作为条件，提出了一种可控视频生成模型，并创建了一个边界框预测器，可以预测 25 帧剪辑中每帧的多达 15 个边界框。在 KITTI、Virtual-KITTI 2 和 BDD100k 等三个著名视频数据集上进行了实验证明。

Abstract

With recent advances in video prediction, controllable video generation has been attracting more attention. Generating high fidelity videos according to simple and flexible →

video prediction controllable video generation conditioning bounding boxes video datasets

发现论文，激发创造

TrailBlazer：基于扩散的视频生成的轨迹控制

通过使用边界框来引导主题，在不进行神经网络训练、微调、推理时间优化或使用现有视频的情况下，本文专注于改善视频合成中的可控性。

Dec, 2023

Boximator: 生成富有丰富和可控的动作用于视频合成

Boximator 是一种新的视频合成方法，通过引入硬盒和软盒两种约束类型，在条件帧中选择目标物体并在未来帧中粗略或严格定义其位置、形状或运动路径，以实现丰富且可控的运动；在训练过程中，通过冻结原始权重并仅训练控制模块，保持基础模型的知识；通过引入一种新颖的自我追踪技术，大大简化了目标物体与盒子的相关性学习；实验证明，Boximator 在视频质量和运动可控性上均取得了最先进的结果，并经过引入盒子约束进一步提升，用户评估结果也表明用户喜欢 Boximator 的生成结果。

Feb, 2024

ControlVideo: 无需训练的可控文本到视频生成

ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成，使用三个模块实现外观协调、帧插值以及分层采样，能够在轻松几分钟之内生成高质量的短视频和长视频。

May, 2023

协同视频扩散：具有摄像机控制的一致多视频生成

视频生成的研究最近取得了巨大的进展，使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标，并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而，从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散（CVD）作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块，通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明，在针对视频生成的最先进相机控制模块的基础上训练，CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。

May, 2024

跟踪与传递：通过观看视频模拟强人类监督以进行弱监督目标检测

该论文介绍了一种利用弱标记视频中的跟踪对象框传输到弱标记图像中生成伪 Ground Truth 框的框架，用以训练对象检测器，该方法包括从弱标记图像集合中挖掘分辨率区域以形成伪 GT 框，然后设计霍夫变换算法对每个图像投票以选择最佳盒子，目前已在 PASCAL 2007 和 2010 数据集上实现了最先进的弱监督检测结果。

Apr, 2016

视频生成的无需训练摄像机控制

我们提出了一种无需训练且稳健的解决方案，为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作，不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反，它可以与大多数预训练的视频扩散模型插入和播放，并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验，因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列，如果它们的噪点隐藏变量相应改变，视频可以按照特定的摄像机运动进行重新组织。基于此，我们提出了我们的方法 CamTrol，实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先，我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次，我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外，我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。

Jun, 2024

基于控制的视频预测基准测试

该论文提出了一个基于视频预测的机器人操作基准测试，使用 11 个任务类别和 310 个任务实例定义来评估模型预测准确性及其相应执行成功率，通过分析五种高性能视频预测模型的效果，发现在建模视觉多样化环境时，规模可以提高感知质量，而不同的属性，如不确定性意识对计划性能的提升也是有帮助的。

Apr, 2023

Vid2Game: 从现实世界视频中提取可控角色

该研究介绍了一种使用可控模型和神经网络生成具有自定义运动控制、背景及外观的人物影像序列的方法，展示了该方法在多个舞蹈家和运动员视频中的高质量表现。

Apr, 2019

一种新的边界框回归方法用于单目标跟踪

本研究通过引入两种新的边界框回归网络（inception 和 deformable）来在目标检测中提高定位准确性，并在多个基准测试中取得了优于现有方法的表现。

May, 2024

MotionClone：无需训练的可控视频生成运动克隆

MotionClone 是一个无需训练的框架，通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成，同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力，实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色，并具有运动保真度高、文本对齐准确和时序一致等显著优势。

Jun, 2024