VP3D:释放 2D 视觉提示以实现文本到 3D 生成
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023
通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图,然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D,一种新颖的方法,以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明,我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产,比之前需要 1 到 10 小时的基于优化的方法快两个数量级。
Nov, 2023
本文提出了一种新的面向文本到三维立体生成的方法,即基于随机变量的粒子变分打分抽样,通过此方法在保证样本质量和多样性的同时避免了过饱和、过平滑和低多样性等问题,并在 NeRF 算法基础上生成了高保真渲染效果的三维网格。
May, 2023
本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法,通过使用预训练的多视角扩散模型,在准确遵循复杂的、构成性的文本提示的同时实现高保真度,生成能够准确遵循复杂、构成性文本提示的 3D 资产。
Apr, 2024
提出了一种基于姿态相关性蒸馏采样(PCDS)的扩散式三维生成任务的新目标,其通过最小采样步骤(1-3)建立了在扩散轨迹内的姿态相关性函数,以近似真实梯度,并通过粗到细的优化策略实现高质量的三维物体生成。
Jun, 2024
提出了一种新的基于文本的 3D 生成框架,名为 Instant3D,使用前向网络在不到一秒的时间内为未见的文本提示创建一个 3D 对象,并解决了 Janus 问题的多头效应。
Nov, 2023
通过定量评估指标、交叉验证人类评级以及分析 SDS 技术的失败案例,我们提出了一种新的计算效率基准模型,以解决生成模型中的艺术问题,包括 3D 模型准确性和文本提示之间的错位问题,并在所提出的评估指标上达到了最先进的性能。
Feb, 2024
研究了文本到 3D 生成中的 Janus 问题,提出了得分去偏置和提示去偏置两种方法来解决该问题,并通过实验证明了这些方法的有效性。
Mar, 2023
通过将预训练的二维扩散模型引入神经光辐射场(NeRFs),文本到三维生成方法取得了巨大的进展,其中许多最先进的方法通常使用得分蒸馏采样(SDS)来优化 NeRF 表示,该方法通过预训练的文本条件的二维扩散模型(例如 ImData)监督 NeRF 优化。然而,由这种预训练扩散模型提供的监督信号仅依赖于文本提示,并不限制多视角一致性。为了将跨视角一致性引入扩散先验中,一些最近的工作通过多视角数据微调二维扩散模型,但仍缺乏细粒度的视图连贯性。为了解决这个挑战,我们将多视角图像条件纳入 NeRF 优化的监督信号中,明确强制执行细粒度的视图一致性。通过这种更强的监督,我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明,我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。
Dec, 2023