- 视频生成的无需训练摄像机控制
我们提出了一种无需训练且稳健的解决方案,为现成的视频扩散模型提供摄像机运动控制。我们的方法不同于以前的工作,不需要在带有摄像机注释的数据集上进行有监督的微调或通过数据增强进行自监督训练。相反,它可以与大多数预训练的视频扩散模型插入和播放,并 - 搜索先验使文本到视频的合成更好
本文使用搜索为基础的生成流程,将传统的文本到视频生成过程重构,并利用先前的视频作为动作先验数据库,以此增强生成视频动作的真实感。
- CamCo:可控相机的三维一致的图像到视频生成
通过引入 CamCo,我们为图像到视频生成器提供了精确参数化的相机姿态输入,通过 Plücker 坐标,以增强视频生成的 3D 一致性和相机控制能力,同时有效生成可信的物体运动。
- ZeroSmooth:无需训练的扩散器自适应高帧率视频生成
我们提出了一种对生成式视频扩散模型的训练无关的视频插值方法,通过将视频模型转换为自级联视频扩散模型并结合设计的隐藏状态校正模块,保持关键帧与插值帧之间的时间一致性。在多个受欢迎的视频模型上进行了广泛的评估,证明了该方法的有效性,特别是我们的 - VividDream: 生成带有环境动力学的 3D 场景
用单一的输入图像或文本提示生成可以探索的带有环境动态的 4D 场景的方法。通过迭代修复和几何融合将输入图像扩展为静态的 3D 点云,然后使用质量细化技术并以从采样的相机轨迹渲染的静态 3D 场景为条件,生成带有动态视频集合的动画视频集合。最 - EG4D:无分数蒸馏的 4D 对象明确生成
借鉴视频扩散模型的最新进展,我们提出了 DG4D,一种新颖的多阶段框架,通过明确从一个输入图像生成多视角视频来生成高质量和一致的 4D 资产,该框架在生成质量方面超过了基准方法。
- Diffusion4D:基于视频扩散模型的快速时空一致的 4D 生成
基于大规模多模态数据集和扩散模型的进展,我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D,具备时空一致性、多视角一致性和生成效率方面的优势。
- NVS-Solver: 视频扩散模型作为零样本新视角合成器
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了 NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调 - 基于条件扩散模型的语义一致视频修复
通过将视频修复问题作为条件生成建模问题加以解决的框架,以及利用生成方法的优势,本文展示了能够生成多样化且高质量修复效果的方法,并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。
- X 射线:一种用于生成的序列 3D 表示
通过借鉴 X 射线扫描的深度揭示能力,我们引入了一种创新的 3D 生成方法 X-Ray,它采用了一种新的序列表示方法,精确捕捉了物体的外部和内部特征。我们的方法的核心是利用源自相机视图的光线投射技术,详细记录了所有相交表面上遇到的几何和纹理 - ICLR通过内容 - 帧运动 - 潜变分解实现高效视频扩散模型
该研究提出了一种内容 - 动态潜在扩散模型 (CMD),它是针对视频生成的预训练图像扩散模型的一种高效扩展。CMD 通过使用预训练图像扩散模型生成内容帧和训练轻量级扩散模型生成动态潜在表征,实现了更高质量的视频生成和降低的计算成本。
- EchoReel: 提升现有视频扩散模型的动作生成能力
通过模仿现有视频中的动作,EchoReel 强化了 Video Diffusion Models(VDMs)在生成复杂动作方面的能力,并将新的动作特征无缝地整合到 VDMs 中,从而改进了生成逼真动作的效果。
- VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型
本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源,通过微调其多视图生成能力,生成一个大规模的合成多视图数据集,从而训练出一个前馈的 3D 生成模型。该模型在近 300 - V3D:视频扩散模型是有效的 3D 生成器
基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破,能够生成高质量的网格和 3D 高斯帧,并且在场景级别的新视角合成方面取得了优越的性能表现。
- UniCtrl:通过无需训练的统一注意力控制提升文本到视频扩散模型的时空一致性
通过引入 UniCtrl 方法,我们解决了使用文本提示作为控制条件时保持一致性的挑战,提升了文本到视频模型生成的视频的时空一致性和运动多样性,实验证实了其效果和普适性。
- AnimateLCM:个性化扩散模型和适配器的动画加速与解耦一致性学习
通过提出的 AnimaLCM 方法,我们可以在最小的步骤内实现高保真度的视频生成,通过解耦图像生成先验和动作生成先验的一致性学习策略,提高了训练效率和生成的视觉质量。同时,我们还提出了一种有效的策略,使得现有的适配器可在稳定的扩散社区内实现 - ActAnywhere:主体感知视频背景生成
ActAnywhere 是一种生成式模型,可以自动调整与前景主体运动相吻合的视频背景,同时遵循艺术家的创意意图,通过使用大规模视频扩散模型进行训练,它可以根据前景主体分割的序列和描述所需场景的图像作为条件,生成具有真实的前景 - 背景交互并 - 月球计划:以多模态条件实现可控视频生成和编辑
这项研究展示了一种新的视频生成模型 Moonshot,该模型同时考虑图像和文本的多模态输入,在控制视频的外观和几何结构方面具有更好的能力,并通过与预训练图像 ControlNet 模块集成,展现了较现有模型更优的视觉质量和时间一致性,可以用 - FreeNoise:无需调整的长视频扩散通过噪音重新调度
利用大规模视频数据集和扩散模型的进展,本研究通过引入多个文本条件,拓展了文本驱动视频生成模型的生成能力,解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。
- 视频传播模型调查
近期 AI 生成内容 (AIGC) 的浪潮在计算机视觉领域取得了巨大的成功,其中扩散模型在这一成就中发挥了至关重要的作用。本文在 AIGC 时代提供了对视频扩散模型的全面回顾,包括视频生成、视频编辑和其他视频理解任务的研究概述,并讨论了该领