DreamTime: 文本到 3D 内容创作的优化策略改进

Jun, 2023

DreamTime: 文本到 3D 内容创作的优化策略改进

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha...

TL;DR本文研究基于 Text-to-Image 散射模型精调的神经放射场的 3D 建模问题。研究表明一些局限性的存在是方法本身优化和统一时间步骤采样之间的矛盾所造成的。提出通过使用单调非递增函数优先采样时间步长来解决这个矛盾，从而获得更高质量和多样性的 3D 模型。

Abstract

text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3d content creation by optimizing a randomly initialized →

text-to-image diffusion models neural radiance fields score distillation 3d content creation monotonically non-increasing functions

发现论文，激发创造

Magic3D：高分辨率文本到 3D 内容生成

本文提出了一种名为 Magic3D 的优化框架，利用低分辨率扩散先验和稀疏 3D 哈希格网结构，通过两阶段优化过程加速生成高质量 3D 网格模型，相对于 DreamFusion 优化用时减少一倍，同时也实现了更高分辨率的生成。用户调查表明，高达 61.7% 的用户更喜欢 Magic3D 模型。

Nov, 2022

DreamFusion: 使用 2D 扩散进行文本到 3D 转换

本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法，该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制，将 2D 的扩散模型作为先验，通过梯度下降优化 3D 模型（Neural Radiance Field），并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

Sep, 2022

DreamFlow：通过近似概率流进行高质量的文字到三维图像生成

通过利用预训练的 T2I 扩散模型，借助预定时间步长安排，将文本到 3D 优化提升为多视角图像到图像转换问题，我们提出了一种新的优化算法和实用的三阶段粗到精的文本到 3D 优化框架 DreamFlow，实现快速生成高质量、高分辨率（1024x1024）的 3D 内容。

Mar, 2024

HiFA：高保真度文本到三维生成与高级扩散引导

我们通过使用扩散先验来改进已有的文本生成 3D 模型的技术，提出了一种新的训练方法，并应用了深度监督和密度场正则化来提高几何表示和图像质量。实验结果表明我们的方法在提高真实感和多视角一致性方面优于现有技术。

May, 2023

Text2NeRF: 使用神经辐射场进行文本驱动的 3D 场景生成

Text2NeRF 是一种基于 NeRF 模型以自然语言描述为输入的 3D 场景生成方法，利用预训练的文本到图像扩散模型和单目深度估计方法约束 NeRF 模型以保持内容和几何一致，同时使用逐步场景修复和更新策略保证场景视角一致性。实验结果表明该方法能够生成高保真度，多视角一致性和多样性的真实感 3D 场景。

May, 2023

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

OrientDream: 通过明确的方向控制简化文本到三维生成

通过引入 OrientDream，这篇研究介绍了一种基于相机方向条件的框架，用于从文本提示生成高质量、具有一致多视图属性的 NeRF 模型，并达到比现有方法更快的优化速度。

Jun, 2024

从文本提示生成逼真的 3D 网格

通过引入 SDF backbon，扩展 NeRF 来进行 3D 模型生成，并通过新颖的方法对网格纹理进行微调以改善输出的细节。

Apr, 2023

Instant3D：稀疏视图生成和大型重建模型下的快速文本到 3D

通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图，然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D，一种新颖的方法，以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明，我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产，比之前需要 1 到 10 小时的基于优化的方法快两个数量级。

Nov, 2023

3D-SceneDreamer: 文本驱动的 3D 一致场景生成

利用文本驱动的 3D 场景生成技术，在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复，同时结合查询和聚合全局 3D 信息来生成高质量的新内容，并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。

Mar, 2024