通过引入熵项于 3D 分数蒸馏目标函数并采用无分类器指导技巧,本论文提出了一种名为 'Entropic Score Distillation' 的方法,有效解决了分数蒸馏中的 Janus 人工生成物问题。
Dec, 2023
通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像,从而利用正交视图图像引导生成高保真度的三维内容,并应用渐进式三维合成策略,显著提高了生成效率和质量,包括解决了 Janus 问题,并在定量和定性评估中证明了优越性。
Aug, 2023
通过定量评估指标、交叉验证人类评级以及分析 SDS 技术的失败案例,我们提出了一种新的计算效率基准模型,以解决生成模型中的艺术问题,包括 3D 模型准确性和文本提示之间的错位问题,并在所提出的评估指标上达到了最先进的性能。
Feb, 2024
通过可视化引导的扩散模型,从 2D 可视化提示中显式释放视觉外观知识以增强 3D 模型的生成。
Mar, 2024
通过检索辅助的方法,RetDream 解决了文本到 3D 生成中存在的 3D 几何不一致问题,并实现了几何一致性和生成场景的忠实度的显著改进。
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
本研究提出了一种名为 DreamPortrait 的算法,它可以在一个前向传递中生成文本引导下的 3D 感知画像,通过 Score Distillation Sampling 和 GAN 损失正则化方法来优化分布,进一步设计了 3D 感知门控交叉关注机制,生成高效且具有鲁棒的多视图语义一致性的人像。
Jun, 2023
利用 DiffuRank 方法解决了在 3D 物体描述中产生错觉的问题,通过排名评估 2D 渲染视图与 3D 物体之间的对齐,提高了标题的准确性和细节,并在多个数据集上验证了其适用性。
Apr, 2024
通过将预训练的二维扩散模型引入神经光辐射场(NeRFs),文本到三维生成方法取得了巨大的进展,其中许多最先进的方法通常使用得分蒸馏采样(SDS)来优化 NeRF 表示,该方法通过预训练的文本条件的二维扩散模型(例如 ImData)监督 NeRF 优化。然而,由这种预训练扩散模型提供的监督信号仅依赖于文本提示,并不限制多视角一致性。为了将跨视角一致性引入扩散先验中,一些最近的工作通过多视角数据微调二维扩散模型,但仍缺乏细粒度的视图连贯性。为了解决这个挑战,我们将多视角图像条件纳入 NeRF 优化的监督信号中,明确强制执行细粒度的视图一致性。通过这种更强的监督,我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明,我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。