ET3D:通过多视角蒸馏实现高效的文本到三维生成
我们提出了 Dual3D,一种新颖的文本到 3D 生成框架,仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型,通过单个潜在去噪网络可以有效去噪多视图潜在,在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块,避免了从头训练的昂贵代价。同时,我们提出了双模态切换推理策略,仅使用 1/10 的去噪步骤和 3D 模式,在仅 10 秒的时间内成功生成高质量的 3D 资产,同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理,大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。
May, 2024
通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图,然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D,一种新颖的方法,以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明,我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产,比之前需要 1 到 10 小时的基于优化的方法快两个数量级。
Nov, 2023
本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID 降低 30%,KID 降低 37%)。
Mar, 2024
本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法,该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制,将 2D 的扩散模型作为先验,通过梯度下降优化 3D 模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022
在本文中,我们通过考虑视频生成器,使用高斯喷洒的 3D 重建算法,减少 2D 生成器网络的评估次数 10-100 倍,实现更高效的处理管道,提供更高质量、更少几何不一致性和更多可用的 3D 资源。
Feb, 2024
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023
本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法,通过使用预训练的多视角扩散模型,在准确遵循复杂的、构成性的文本提示的同时实现高保真度,生成能够准确遵循复杂、构成性文本提示的 3D 资产。
Apr, 2024
本文介绍了 PI3D,一个高效的框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的 3D 形状。通过将预训练的 2D 扩散模型微调为 3D 扩散模型,PI3D 具备了 3D 生成能力和源自 2D 模型的泛化能力,并利用 2D 扩散模型的分数蒸馏抽样快速提高采样的 3D 形状的质量。通过将知识迁移为一组伪图像,PI3D 实现了从图像到三视图生成的迁移。我们通过调整预训练模型中的模块,实现了使用伪图像和真实图像进行混合训练,这已被证明是一种提高泛化能力的有效策略。PI3D 的效率在于能够在几秒钟内采样多样性的 3D 模型,并在几分钟内对其进行改进。实验结果证实了 PI3D 相对于基于 3D 扩散模型或提升 2D 扩散模型的现有方法在快速生成一致且高质量的 3D 模型方面的优势。建议的 PI3D 是文本到 3D 生成领域的一个有前景的进展,我们希望它能激发更多关于利用 2D 和 3D 数据知识的 3D 生成研究。
Dec, 2023
提出了一种基于姿态相关性蒸馏采样(PCDS)的扩散式三维生成任务的新目标,其通过最小采样步骤(1-3)建立了在扩散轨迹内的姿态相关性函数,以近似真实梯度,并通过粗到细的优化策略实现高质量的三维物体生成。
Jun, 2024