DiverseDream: 借助增强的文本嵌入进行多样化的文本到三维合成

Dec, 2023

DiverseDream: 借助增强的文本嵌入进行多样化的文本到三维合成

DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding

Uy Dieu Tran, Minh Luu, Phong Nguyen, Janne Heikkila, Khoi Nguyen...

TL;DR使用文本转图像模型作为视觉先验进行文本到 3D 合成，通过对参考图像进行文本反转来增强文本提示，提高文本到 3D 合成的多样性。

Abstract

text-to-3d synthesis has recently emerged as a new approach to sampling 3D models by adopting pretrained text-to-image models as guiding visual priors. An intriguing but underexplored problem with existing text-t

text-to-3d synthesis sampling 3d models text-to-image models mode collapses diversity

发现论文，激发创造

基於預訓練多視圖擴散模型的扎實可組件化且多樣性的文本至三維

本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法，通过使用预训练的多视角扩散模型，在准确遵循复杂的、构成性的文本提示的同时实现高保真度，生成能够准确遵循复杂、构成性文本提示的 3D 资产。

Apr, 2024

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

IT3D：通过显式视图合成改进的文本生成 3D 方法

利用多视角图像和 Diffusion-GAN 方法在 Text-to-3D 技术中生成高质量图像。

Aug, 2023

ATT3D: 文本生成三维物体的摊薄

通过将生成式文本转图像模型和图像到 3D 方法相结合，如神经辐射场，文本到 3D 建模已经取得了令人兴奋的进展，但目前需要逐个优化来创建 3D 对象。我们提出了一种新的框架 - 摊销文本到 3D（ATT3D）- 通过以统一模型同时训练多个提示来摊销优化，从而在更短的时间内共享提示集的计算，实现了跨提示的知识共享，可以概括未见过的设置，并使文本之间的插值更加平滑，从而实现了新资产和简单动画的 3D 建模。

Jun, 2023

Instant3D：稀疏视图生成和大型重建模型下的快速文本到 3D

通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图，然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D，一种新颖的方法，以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明，我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产，比之前需要 1 到 10 小时的基于优化的方法快两个数量级。

Nov, 2023

DivAvatar: 利用单个提示生成多样化的 3D 角色模型

Text-to-Avatar generation has made significant progress with DivAvatar, a framework that generates diverse avatars from a single text prompt by fine-tuning a 3D generative model through noise sampling and semantic-aware zoom mechanisms, resulting in avatars of rich and varied appearances.

Feb, 2024

DATID-3D: 使用文图扩散保持多样性的 3D 生成模型域适应

DATID-3D 是一种适用于 3D 生成模型的领域适应方法，采用文本到图像扩散模型，在不收集附加数据的情况下，将源领域的最先进 3D 生成器微调为文本引导的目标领域，从而实现高分辨率、多视角一致的图像合成，并提出并演示了多样的 3D 图像操作。

Nov, 2022

DreamFusion: 使用 2D 扩散进行文本到 3D 转换

本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法，该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制，将 2D 的扩散模型作为先验，通过梯度下降优化 3D 模型（Neural Radiance Field），并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

Sep, 2022

ET3D：通过多视角蒸馏实现高效的文本到三维生成

通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号，我们提出了一种高效的文本到 3D 生成方法，在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产，并且不需要 3D 训练数据，通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。

Nov, 2023

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023