生成动态场景的长视频
本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法,并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证,同时还展示了结合文本和音频等条件扩展的方法。
Apr, 2022
利用大量未标记的视频来学习场景动态的模型,提出了一种具有时空卷积结构的生成对抗网络来生成视频,该模型能够更好地预测静态图像的合理未来,并且能够识别动作的有用特征,这表明场景动态是表示学习的一个有前途的信号。
Sep, 2016
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准,然而现有方法在提高感知模型方面有效,但我们发现这些方法未能提高端到端自动驾驶模型的规划性能,原因在于生成的视频通常少于 8 帧且空间和时间不一致,为此我们提出了一种基于扩散的长视频生成方法 Delphi,通过跨多视角的共享噪声建模机制提高空间一致性,并引入特征对齐模块实现精确可控性和时间一致性,相比现有方法,我们的方法最多可生成 40 帧的视频而保持一致性,这是现有方法的 5 倍之多,进一步我们通过构建一个失败案例驱动框架,借助预训练视觉语言模型,设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据,提高了样本效率,广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频,首次超越现有最先进的方法,而且仅使用了训练数据集的 4%,我们的框架能够将自动驾驶模型的规划性能提升 25%。
Jun, 2024
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
通过引入基于向量量化的潜在动态视频预测模型和 MaskGit 先验,我们提出了一种名为 TECO 的模型,它可以在训练和生成过程中有效地处理数百帧的长视频以实现长期时间一致性,不仅在简单的迷宫和大型 3D 世界中,而且在真实世界的复杂视频中也优于 SOTA 基准。
Oct, 2022
本研究综述了长视频生成的最新进展,总结并归类了两个主要方法:分治时序自回归。针对每种方法中常用的模型、网络设计和条件技术进行了深入探究。此外,我们还提供了对数据集和评估指标的全面概述和分类,对于推动长视频生成研究至关重要。在总结现有研究的同时,我们讨论了这个动态领域中出现的挑战和未来发展方向。希望本综述能成为研究者和从业者在长视频生成领域的重要参考。
Mar, 2024
通过 StreamingT2V 方法,可以实现高质量的长视频生成,该方法采用文本到视频扩散模型并引入条件注意模块,具有一致性和高运动量。
Mar, 2024
通过估计 4D(包括 3D 几何和场景运动)并填充遮挡区域,本文提出了 Make-It-4D 方法,从单个图像中生成一致的长期动态视频。通过使用分层深度图像(LDIs)表示场景,并利用运动估计和相应的相机姿势引导的场景流来位移特征点云,我们的方法能够保持生成动态视频的全局一致性,并利用预训练扩散模型来修补输入图像的遮挡区域,从而适用于大幅度相机运动。实验结果证明了我们方法的有效性,展示了引人注目的渲染结果。
Aug, 2023