Control4D: 通过学习 4D GAN 从 2D 扩散式编辑器实现动态肖像编辑
本文提出了 Instruct 4D-to-4D 方法,用于实现 2D 扩散模型的 4D 感知和时空一致性,以生成高质量的指导动态场景编辑结果。
Jun, 2024
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023
为了解决现有动态场景生成方法的局限性,本研究提出一种新的流程,通过使用视频生成模型,摒弃了对多视图生成模型的依赖,从而充分利用了在多样真实世界数据集上训练的视频生成模型,生成具有增强的逼真度和结构完整性的动态场景,可从多个角度查看,为 4D 场景生成树立了新的标准。
Jun, 2024
本研究旨在建立一个简单而有效的基于训练无关扩散模型的长视频编辑基线,通过分割长视频并采用新颖的跨窗口注意机制,以确保全局风格的一致性和窗口之间的平滑性。通过 DDIM 反演从源视频中提取信息,并将结果整合到生成的潜在状态中,同时结合视频帧插值模型以减轻帧级闪烁问题。经过广泛的实证研究,验证了我们的方法在替换前景物体属性、风格转移和背景替换等场景下相对竞争基准的卓越有效性。
Oct, 2023
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
本文提出了一种新的人像图像编辑方法,采用不对称条件 GAN 架构,支持几何、颜色、光和阴影的细粒度编辑。通过向生成器提供可以直接由用户编辑的条件输入来实现编辑,例如边缘图、颜色板、滑块和蒙版。该方法具有较好的编辑效果,并且支持几何、颜色、阴影、光的多种编辑方式,同时也支持从手绘草图到图像的转换和颜色转换等任务。
Apr, 2022
视频生成的研究最近取得了巨大的进展,使得高质量的视频可以从文字提示或图像中生成。为视频生成过程添加控制是一个重要的目标,并且最近的方法通过在相机轨迹上条件化视频生成模型来朝着这个目标迈进。然而,从多个不同相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以实现可编辑相机轨迹的大规模三维场景生成等应用。我们引入了协作视频扩散(CVD)作为实现这一愿景的重要一步。CVD 框架包括一个新颖的跨视频同步模块,通过使用一个极线注意机制促进不同相机姿态下相同视频的对应帧之间的一致性。经过大量实验证明,在针对视频生成的最先进相机控制模块的基础上训练,CVD 生成的从不同相机轨迹渲染的多个视频比基准线具有显著更好的一致性。
May, 2024
我们的研究侧重于探索生成性面部图像编辑中明确的细粒度控制,同时生成忠实和一致的个性化面部外貌。我们确定了这项任务的关键挑战是在生成过程中对解缠条件控制的探索,并相应地提出了一种新的基于扩散的框架,称为 DisControlFace,包括两个解耦的组件。
Dec, 2023
借鉴视频扩散模型的最新进展,我们提出了 DG4D,一种新颖的多阶段框架,通过明确从一个输入图像生成多视角视频来生成高质量和一致的 4D 资产,该框架在生成质量方面超过了基准方法。
May, 2024
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023