EG4D：无分数蒸馏的 4D 对象明确生成

May, 2024

EG4D：无分数蒸馏的 4D 对象明确生成

EG4D: Explicit Generation of 4D Object without Score Distillation

Qi Sun, Zhiyang Guo, Ziyu Wan, Jing Nathan Yan, Shengming Yin...

TL;DR借鉴视频扩散模型的最新进展，我们提出了 DG4D，一种新颖的多阶段框架，通过明确从一个输入图像生成多视角视频来生成高质量和一致的 4D 资产，该框架在生成质量方面超过了基准方法。

Abstract

In recent years, the increasing demand for dynamic 3d assets in design and gaming applications has given rise to powerful generative pipelines capable of synthesizing high-quality →

3d assets generative pipelines 4d objects video diffusion models dg4d

发现论文，激发创造

从单视角视频快速动态生成三维物体

提出了一种高效的视频到 4D 对象生成框架 Efficient4D，能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像，通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型，大大提升了速度，同时保持创新视角合成质量。

Jan, 2024

STAG4D：空间 - 时间定位生成的 4D 高斯

在本研究中，我们提出了 STAG4D，这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架，用于高保真度的 4D 生成，通过利用多视图扩散模型初始化输入视频帧上的多视图图像，以确保多视图序列初始化的时间一致性，并应用得分蒸馏采样来优化 4D 高斯点云。

Mar, 2024

4DGen: 基于时空一致性的基于地面的 4D 内容生成

4DGen 是一种新颖的综合框架，将 4D 内容创建任务拆分为多个阶段，利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分，使用动态 3D Gaussians 构建 4D 表示，在训练期间利用渲染进行高分辨率监督，从而实现了高质量的 4D 生成，并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验，相比现有基线方法，在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果，最重要的是，我们的方法支持基于实际场景的生成，为用户提供了增强控制，这是以前方法难以实现的特点。

Dec, 2023

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

Diffusion4D：基于视频扩散模型的快速时空一致的 4D 生成

基于大规模多模态数据集和扩散模型的进展，我们提出了一种用于高效和可扩展的 4D 内容生成的新框架 Diffusion4D，具备时空一致性、多视角一致性和生成效率方面的优势。

May, 2024

DreamGaussian4D: 生成 4D 高斯飞溅

DreamGaussian4D 是一种高效的 4D 生成框架，它建立在 4D 高斯喷洒表示的基础上，通过显式地建模高斯喷洒中的空间变换，提高了 4D 生成的适用性，同时减少了优化时间，增加了对生成的三维动画的灵活控制，产生的动画网格在 3D 引擎中能被高效渲染。

Dec, 2023

SC4D：稀疏控制的视频到 4D 生成和运动转换

提出了一种高效的稀疏控制视频到 4D 框架 (SC4D)，通过解耦动作和外观，实现了 superior 的视频到 4D 生成，并引入了自适应高斯初始化和高斯对齐损失来解决形状退化问题，确保了学习的动作和形状的准确性，实验证明该方法在质量和效率方面优于现有方法，并且通过对运动和外观进行解耦，我们设计了一种新的应用，根据文本描述将学习到的运动无缝传输到各种 4D 实体。

Apr, 2024

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024

文本和图像引导的 4D 场景生成的统一方法

通过使用扩散生成模型，我们提出了 Dream-in-4D 方法，可以有效地实现从文本和图像生成动态的 3D 场景，该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究，我们证明了与基线方法相比，我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示，我们的方法还可以轻松应用于可控的生成，其中外观由一个或多个图像定义，无需修改运动学习阶段。因此，我们的方法首次提供了一种统一的方法，用于文本到 4D、图像到 4D 和个性化 4D 生成任务。

Nov, 2023