ET3D：通过多视角蒸馏实现高效的文本到三维生成

Nov, 2023

ET3D：通过多视角蒸馏实现高效的文本到三维生成

ET3D: Efficient Text-to-3D Generation via Multi-View Distillation

Yiming Chen, Zhiqi Li, Peidong Liu

TL;DR通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号，我们提出了一种高效的文本到 3D 生成方法，在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产，并且不需要 3D 训练数据，通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。

Abstract

Recent breakthroughs in text-to-image generation has shown encouraging results via large generative models. Due to the scarcity of 3D assets, it is hardly to transfer the success of text-to-image generation to that of text-to-3d generation. Existing →

text-to-3d generation efficient pre-trained models generative adversarial network training

发现论文，激发创造

Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成

我们提出了 Dual3D，一种新颖的文本到 3D 生成框架，仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型，通过单个潜在去噪网络可以有效去噪多视图潜在，在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块，避免了从头训练的昂贵代价。同时，我们提出了双模态切换推理策略，仅使用 1/10 的去噪步骤和 3D 模式，在仅 10 秒的时间内成功生成高质量的 3D 资产，同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理，大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。

May, 2024

Instant3D：稀疏视图生成和大型重建模型下的快速文本到 3D

通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图，然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D，一种新颖的方法，以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明，我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产，比之前需要 1 到 10 小时的基于优化的方法快两个数量级。

Nov, 2023

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

IT3D：通过显式视图合成改进的文本生成 3D 方法

利用多视角图像和 Diffusion-GAN 方法在 Text-to-3D 技术中生成高质量图像。

Aug, 2023

DreamFusion: 使用 2D 扩散进行文本到 3D 转换

本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法，该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制，将 2D 的扩散模型作为先验，通过梯度下降优化 3D 模型（Neural Radiance Field），并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

Sep, 2022

IM-3D：迭代多视图扩散与重建的高质量 3D 生成

在本文中，我们通过考虑视频生成器，使用高斯喷洒的 3D 重建算法，减少 2D 生成器网络的评估次数 10-100 倍，实现更高效的处理管道，提供更高质量、更少几何不一致性和更多可用的 3D 资源。

Feb, 2024

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023

基於預訓練多視圖擴散模型的扎實可組件化且多樣性的文本至三維

本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法，通过使用预训练的多视角扩散模型，在准确遵循复杂的、构成性的文本提示的同时实现高保真度，生成能够准确遵循复杂、构成性文本提示的 3D 资产。

Apr, 2024

PI3D：高效的文本到 3D 生成与伪图像扩散

本文介绍了 PI3D，一个高效的框架，利用预训练的文本到图像扩散模型在几分钟内生成高质量的 3D 形状。通过将预训练的 2D 扩散模型微调为 3D 扩散模型，PI3D 具备了 3D 生成能力和源自 2D 模型的泛化能力，并利用 2D 扩散模型的分数蒸馏抽样快速提高采样的 3D 形状的质量。通过将知识迁移为一组伪图像，PI3D 实现了从图像到三视图生成的迁移。我们通过调整预训练模型中的模块，实现了使用伪图像和真实图像进行混合训练，这已被证明是一种提高泛化能力的有效策略。PI3D 的效率在于能够在几秒钟内采样多样性的 3D 模型，并在几分钟内对其进行改进。实验结果证实了 PI3D 相对于基于 3D 扩散模型或提升 2D 扩散模型的现有方法在快速生成一致且高质量的 3D 模型方面的优势。建议的 PI3D 是文本到 3D 生成领域的一个有前景的进展，我们希望它能激发更多关于利用 2D 和 3D 数据知识的 3D 生成研究。

Dec, 2023

VividDreamer：朝向高保真高效的文本到 3D 生成

提出了一种基于姿态相关性蒸馏采样（PCDS）的扩散式三维生成任务的新目标，其通过最小采样步骤（1-3）建立了在扩散轨迹内的姿态相关性函数，以近似真实梯度，并通过粗到细的优化策略实现高质量的三维物体生成。

Jun, 2024