VP3D：释放 2D 视觉提示以实现文本到 3D 生成

CVPRMar, 2024

VP3D：释放 2D 视觉提示以实现文本到 3D 生成

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei

TL;DR通过可视化引导的扩散模型，从 2D 可视化提示中显式释放视觉外观知识以增强 3D 模型的生成。

Abstract

Recent innovations on text-to-3d generation have featured Score Distillation Sampling (SDS), which enables the zero-shot learning of implicit 3d models (NeRF) by directly distilling prior knowledge from 2D diffus

text-to-3d generation score distillation sampling visual prompt-guided diffusion model 3d models

发现论文，激发创造

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023

Instant3D：稀疏视图生成和大型重建模型下的快速文本到 3D

通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图，然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D，一种新颖的方法，以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明，我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产，比之前需要 1 到 10 小时的基于优化的方法快两个数量级。

Nov, 2023

ProlificDreamer: 高保真度和多样性的文本生成 3D 影像技术，基于变分分数精炼

本文提出了一种新的面向文本到三维立体生成的方法，即基于随机变量的粒子变分打分抽样，通过此方法在保证样本质量和多样性的同时避免了过饱和、过平滑和低多样性等问题，并在 NeRF 算法基础上生成了高保真渲染效果的三维网格。

May, 2023

基於預訓練多視圖擴散模型的扎實可組件化且多樣性的文本至三維

本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法，通过使用预训练的多视角扩散模型，在准确遵循复杂的、构成性的文本提示的同时实现高保真度，生成能够准确遵循复杂、构成性文本提示的 3D 资产。

Apr, 2024

VividDreamer：朝向高保真高效的文本到 3D 生成

提出了一种基于姿态相关性蒸馏采样（PCDS）的扩散式三维生成任务的新目标，其通过最小采样步骤（1-3）建立了在扩散轨迹内的姿态相关性函数，以近似真实梯度，并通过粗到细的优化策略实现高质量的三维物体生成。

Jun, 2024

Instant3D：即时文本到三维生成

提出了一种新的基于文本的 3D 生成框架，名为 Instant3D，使用前向网络在不到一秒的时间内为未见的文本提示创建一个 3D 对象，并解决了 Janus 问题的多头效应。

Nov, 2023

4D-fy: 使用混合分数蒸馏抽样实现文本到 4D 生成

使用混合得分蒸馏取样的方法，我们展示了具有引人注目外观、3D 结构和动态的 4D 场景的合成。

Nov, 2023

一种基于得分蒸馏采样的文本到 3D 的定量评估

通过定量评估指标、交叉验证人类评级以及分析 SDS 技术的失败案例，我们提出了一种新的计算效率基准模型，以解决生成模型中的艺术问题，包括 3D 模型准确性和文本提示之间的错位问题，并在所提出的评估指标上达到了最先进的性能。

Feb, 2024

偏差校正 2D 扩散的分值和提示以实现鲁棒的文本到 3D 生成

研究了文本到 3D 生成中的 Janus 问题，提出了得分去偏置和提示去偏置两种方法来解决该问题，并通过实验证明了这些方法的有效性。

Mar, 2023

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023