FreeTraj: 视频扩散模型中的无调节轨迹控制
通过使用拓扑约束扩散模型的可控轨迹生成框架 ControlTraj,该研究提出了一种生成高度保真轨迹的方法,并整合了道路网络拓扑的结构约束,以指导地理结果。
Apr, 2024
利用大规模视频数据集和扩散模型的进展,本研究通过引入多个文本条件,拓展了文本驱动视频生成模型的生成能力,解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。
Oct, 2023
本文提出基于扩散模型的轨迹生成框架 Diff-Traj,并通过轨迹 UNet (Traj-UNet) 结构提取轨迹特征,使其能视为高质量的轨迹生成应用程序,并保留原始分布。
Apr, 2023
我们提出了一种无需训练且稳健的解决方案,为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作,不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练的视频扩散模型插入和播放,并且只需一个图像或文本提示作为输入即可生成可控摄像机的视频。我们的工作灵感来自于中间隐藏变量对生成结果的布局先验,因此重新排列其中的噪点像素将重新分配输出内容。由于摄像机移动也可以被视为透视变化引起的像素重新排列,如果它们的噪点隐藏变量相应改变,视频可以按照特定的摄像机运动进行重新组织。基于此,我们提出了我们的方法 CamTrol,实现了对视频扩散模型的稳健摄像机控制。这通过两个阶段的过程实现。首先,我们在三维点云空间中建模图像布局重新排列通过显式摄像机运动。其次,我们使用一系列重新排列的图像形成的噪点隐藏变量的布局先验生成具有摄像机运动的视频。广泛的实验证明了我们的方法在控制生成视频的摄像机运动方面的鲁棒性。此外,我们展示了我们的方法在生成具有动态内容的三维旋转视频方面产生的令人印象深刻的结果。
Jun, 2024
本研究通过主成分分析 (PC) 分析,揭示了视频扩散模型中稳健的运动感知特征,并通过提出的运动特征 (MOFT) 实现了无需训练的视频运动控制框架,为生成自然逼真的运动提供了竞争性能、架构无关的见解以及在各种下游任务中的适用性。
May, 2024
在计算机视觉中,从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法,能够实现对可移动区域的运动方向和速度的精确控制,同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。
May, 2024
基于扩散模型的轨迹优化问题传统上使用神经网络生成高质量且多样化的解决方案,本文提出了一种新颖的考虑约束的扩散模型用于轨迹优化,引入了一种新颖的混合损失函数进行训练,能够最小化扩散样本与真实数据之间的约束违规问题,同时恢复原始数据分布,实验证明在桌面操纵和双车回避问题上,该模型在最小化约束违规和生成接近局部最优解的样本方面优于传统扩散模型。
Jun, 2024
我们提出了一种新颖的零样条移动物体轨迹控制框架 Motion-Zero,通过提供基于位置的先验来改善移动物体的外观稳定性和位置准确性,并利用 U-net 的注意力图在扩散模型的去噪过程中直接应用空间约束,从而进一步确保移动物体的位置和空间一致性,并通过引入移动注意力机制实现时序一致性的保证。这种方法可以灵活运用于各种最先进的视频扩散模型,无需任何训练过程,大量实验证明我们的方法可以控制物体的运动轨迹并生成高质量的视频。
Jan, 2024
自动驾驶任务中,在复杂交通环境中进行轨迹预测需要遵循现实世界的环境条件和行为多模态。我们介绍了一种名为 Controllable Diffusion Trajectory (CDT) 的新型轨迹生成器,它将地图信息和社交交互融入到基于 Transformer 的条件去噪扩散模型中,以指导未来轨迹的预测。通过引入行为标记,如直行、向右转或向左转,确保轨迹呈现多模态,并且使用预测的终点作为替代行为标记,以促进准确轨迹的预测。在 Argoverse 2 基准测试中的大量实验表明,CDT 在复杂城市环境中生成多样且符合场景要求的轨迹。
Feb, 2024