Instant3D:即时文本到三维生成
通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图,然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D,一种新颖的方法,以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明,我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产,比之前需要 1 到 10 小时的基于优化的方法快两个数量级。
Nov, 2023
通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号,我们提出了一种高效的文本到 3D 生成方法,在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产,并且不需要 3D 训练数据,通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。
Nov, 2023
通过将生成式文本转图像模型和图像到 3D 方法相结合,如神经辐射场,文本到 3D 建模已经取得了令人兴奋的进展,但目前需要逐个优化来创建 3D 对象。我们提出了一种新的框架 - 摊销文本到 3D(ATT3D)- 通过以统一模型同时训练多个提示来摊销优化,从而在更短的时间内共享提示集的计算,实现了跨提示的知识共享,可以概括未见过的设置,并使文本之间的插值更加平滑,从而实现了新资产和简单动画的 3D 建模。
Jun, 2023
我们提出了 Dual3D,一种新颖的文本到 3D 生成框架,仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型,通过单个潜在去噪网络可以有效去噪多视图潜在,在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块,避免了从头训练的昂贵代价。同时,我们提出了双模态切换推理策略,仅使用 1/10 的去噪步骤和 3D 模式,在仅 10 秒的时间内成功生成高质量的 3D 资产,同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理,大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。
May, 2024
DIRECT-3D 是一种基于扩散的三维生成模型,从文本提示中创建高质量的三维资产(由神经辐射场表示);通过直接在大规模无序三维资产上训练,同时过滤和对齐噪声数据,使用迭代优化的扩散过程估计物体的三维姿势并选择有益数据,并通过两个条件性扩散模型实现分离对象几何和颜色特征的高效三维表示;模型能在几秒内生成具有准确几何细节的高质量、高分辨率、逼真而复杂的三维对象,并在单类别生成和文本到三维生成方面达到最先进的性能。
Jun, 2024
本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法,相较之前的方法,此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染,并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例,最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性,得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。
Jul, 2019
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023
本文介绍了 PI3D,一个高效的框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的 3D 形状。通过将预训练的 2D 扩散模型微调为 3D 扩散模型,PI3D 具备了 3D 生成能力和源自 2D 模型的泛化能力,并利用 2D 扩散模型的分数蒸馏抽样快速提高采样的 3D 形状的质量。通过将知识迁移为一组伪图像,PI3D 实现了从图像到三视图生成的迁移。我们通过调整预训练模型中的模块,实现了使用伪图像和真实图像进行混合训练,这已被证明是一种提高泛化能力的有效策略。PI3D 的效率在于能够在几秒钟内采样多样性的 3D 模型,并在几分钟内对其进行改进。实验结果证实了 PI3D 相对于基于 3D 扩散模型或提升 2D 扩散模型的现有方法在快速生成一致且高质量的 3D 模型方面的优势。建议的 PI3D 是文本到 3D 生成领域的一个有前景的进展,我们希望它能激发更多关于利用 2D 和 3D 数据知识的 3D 生成研究。
Dec, 2023