VividDream: 生成带有环境动力学的 3D 场景

May, 2024

VividDream: 生成带有环境动力学的 3D 场景

VividDream: Generating 3D Scene with Ambient Dynamics

Yao-Chih Lee, Yi-Ting Chen, Andrew Wang, Ting-Hsuan Liao, Brandon Y. Feng...

TL;DR用单一的输入图像或文本提示生成可以探索的带有环境动态的 4D 场景的方法。通过迭代修复和几何融合将输入图像扩展为静态的 3D 点云，然后使用质量细化技术并以从采样的相机轨迹渲染的静态 3D 场景为条件，生成带有动态视频集合的动画视频集合。最终优化包含动画视频集合的规范化 4D 场景表示，使用每个视频的运动嵌入和可见性蒙版来减轻不一致性，从而实现 3D 场景的自由视角探索，并且实验证明 VividDream 可以根据不同的真实图像和文本提示为人类观众提供引人入胜的 4D 体验。

Abstract

We introduce vividdream, a method for generating explorable 4d scenes with ambient dynamics from a single input image or text prompt.

vividdream 4d scenes ambient dynamics exploration video diffusion models

发现论文，激发创造

文本和图像引导的 4D 场景生成的统一方法

通过使用扩散生成模型，我们提出了 Dream-in-4D 方法，可以有效地实现从文本和图像生成动态的 3D 场景，该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究，我们证明了与基线方法相比，我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示，我们的方法还可以轻松应用于可控的生成，其中外观由一个或多个图像定义，无需修改运动学习阶段。因此，我们的方法首次提供了一种统一的方法，用于文本到 4D、图像到 4D 和个性化 4D 生成任务。

Nov, 2023

基于文本的 4D 动态场景生成

MAV3D 使用 4D 神经辐射场和 T2V 模型从文本描述中生成 3D 动态场景，无需 3D 或 4D 数据，通过综合的定量和定性实验证明其有效性，并显示比已建立的内部基线更好的性能。

Jan, 2023

4Real: 通过视频扩散模型实现逼真的四维场景生成

为了解决现有动态场景生成方法的局限性，本研究提出一种新的流程，通过使用视频生成模型，摒弃了对多视图生成模型的依赖，从而充分利用了在多样真实世界数据集上训练的视频生成模型，生成具有增强的逼真度和结构完整性的动态场景，可从多个角度查看，为 4D 场景生成树立了新的标准。

Jun, 2024

MVDream：多视角扩散用于 3D 生成

我们提出 MVDream，这是一个多视图扩散模型，能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集，所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验，通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题，从而极大地提高了稳定性。最后，我们展示了多视图扩散模型也可以在少量样本设置下进行微调，用于个性化的 3D 生成，即 DreamBooth3D 应用中，在学习主体身份之后可以保持一致性。

Aug, 2023

Vid3D：使用 2D 视频扩散合成动态 3D 场景

该研究讨论了计算机视觉中的一个前沿课题，3D 视频生成，以生成场景的时变 3D 表示为目标。通过提出 Vid3D 模型，研究表明可以通过生成视频的二维 “种子” 和独立生成每个时间步的三维表示，来实现高质量的动态 3D 场景生成，从而不再需要显式建模多视角一致性或三维时间动态，为此任务提供更简单的生成算法。

Jun, 2024

ImageDream: 图像启发式多视角扩散用于 3D 生成

使用 ImageDream 创新的图像提示多视角扩散模型进行 3D 物体生成，通过提高视觉几何准确性来产生比现有最先进的图像条件方法更高质量的 3D 模型。

Dec, 2023

建模环境场景动态以进行自由视角合成

我们介绍了一种新颖的方法，可以从单目捕捉中进行动态自由视图合成，为观看体验带来沉浸感。我们的方法基于对复杂静态场景进行忠实重建的 3D 高斯点插值（3DGS）的最新进展。通过利用环境动力学的周期性来学习运动轨迹模型，并结合谨慎的正则化来克服以往将 3DGS 扩展到表示动态时遇到的局限性，这些局限性包括仅适用于有界场景或需要多摄像机捕捉，并且通常无法推广到未见过的运动，限制了它们的实际应用。我们还提出了一些重要的实用策略，以提高基线 3DGS 静态重建的视觉质量，并提高 GPU 内存密集学习的内存效率，展示了多个环境自然场景的高质量照片逼真的新视图合成，其中包含复杂的纹理和精细的结构元素。

Jun, 2024

生成渲染：可控的 4D 引导视频生成与 2D 扩散模型

通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合，我们提出了一种新的方法来自动化计算机生成的视频的创作过程，并输出高质量和时间上一致的帧。

Dec, 2023

生成图像动力学

我们提出了一种对场景动态进行图像空间先验建模的方法，该先验是从包含自然振动运动（如树木、花朵、蜡烛和风中的衣物）的真实视频序列中提取的一系列运动轨迹学习得到的。通过一个经过训练的模型，我们使用一种频率协调扩散抽样过程来预测傅里叶域中每个像素长期运动表示，我们称之为神经随机运动纹理。这种表示可以转换为跨越整个视频的密集运动轨迹。结合基于图像的渲染模块，这些轨迹可以用于许多下游应用，例如将静止图像转换为无缝循环的动态视频，或者允许用户在真实图片中与物体进行真实交互。

Sep, 2023

Animate124：一个将一张静态图片转化为 4D 动态场景的动画技术

通过文本动作描述将野外的单幅图像动画化为 3D 视频是我们引入的 Animate124（一个图像到 4D 的动画）的第一个工作，这是一个尚未深入探索但具有重要应用的问题。我们的 4D 生成利用了先进的 4D 网格动态神经辐射场（NeRF）模型，在三个不同阶段使用多个扩散先验进行优化。

Nov, 2023