4D 场景的 4D 编辑:利用 2D 扩散将其编辑为伪 3D 场景
为了解决现有动态场景生成方法的局限性,本研究提出一种新的流程,通过使用视频生成模型,摒弃了对多视图生成模型的依赖,从而充分利用了在多样真实世界数据集上训练的视频生成模型,生成具有增强的逼真度和结构完整性的动态场景,可从多个角度查看,为 4D 场景生成树立了新的标准。
Jun, 2024
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023
基于大规模多模态数据集和扩散模型的进展,我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D,具备时空一致性、多视角一致性和生成效率方面的优势。
May, 2024
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。
May, 2024
本研究提出了一种基于 4D 表示和 2D 扩散编辑器的 Control4D 方法,通过使用肖像编辑生成的鉴别器以改进发生式 4D 肖像编辑的稳定性。
May, 2023
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024
该研究讨论了计算机视觉中的一个前沿课题,3D 视频生成,以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型,研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示,来实现高质量的动态 3D 场景生成,从而不再需要显式建模多视角一致性或三维时间动态,为此任务提供更简单的生成算法。
Jun, 2024
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023
提出了一种新颖的无需重新训练模型的 3D 场景编辑技术 Free-Editor,采用单视图编辑方案以避免多视角风格不一致问题,并使用 Edit Transformer 实现视图内一致性和视图间风格迁移,实现了快速且多样化的编辑能力。
Dec, 2023
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
Apr, 2024