Magic-Boost:使用多视图条件扩散提升 3D 生成
BoostDream 是一个高效的插件式 3D 细化方法,能够将粗糙的 3D 资产转化为高质量的 3D 资产,通过引入 3D 模型蒸馏、新颖的多视角 SDS 损失设计以及使用提示和多视角一致的法线图作为指导。与常规基于 SDS 方法相比,BoostDream 在生成高质量的 3D 资产方面表现出色,克服了双面问题,从而实现了 3D 生成过程的效率和质量的重大进展。
Jan, 2024
通过使用经过微调的 2D 扩散模型的多视角 2.5D 扩散方法,我们填补了 2D 扩散和直接 3D 扩散方法之间的差距,为 3D 内容生成提供了多样性、无模式寻找和高保真度,仅需 10 秒。
Nov, 2023
本文提出了一种名为 Magic3D 的优化框架,利用低分辨率扩散先验和稀疏 3D 哈希格网结构,通过两阶段优化过程加速生成高质量 3D 网格模型,相对于 DreamFusion 优化用时减少一倍,同时也实现了更高分辨率的生成。用户调查表明,高达 61.7% 的用户更喜欢 Magic3D 模型。
Nov, 2022
通过将预训练的二维扩散模型引入神经光辐射场(NeRFs),文本到三维生成方法取得了巨大的进展,其中许多最先进的方法通常使用得分蒸馏采样(SDS)来优化 NeRF 表示,该方法通过预训练的文本条件的二维扩散模型(例如 ImData)监督 NeRF 优化。然而,由这种预训练扩散模型提供的监督信号仅依赖于文本提示,并不限制多视角一致性。为了将跨视角一致性引入扩散先验中,一些最近的工作通过多视角数据微调二维扩散模型,但仍缺乏细粒度的视图连贯性。为了解决这个挑战,我们将多视角图像条件纳入 NeRF 优化的监督信号中,明确强制执行细粒度的视图一致性。通过这种更强的监督,我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明,我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。
Dec, 2023
我们提出 MVDream,这是一个多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集,所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验,通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题,从而极大地提高了稳定性。最后,我们展示了多视图扩散模型也可以在少量样本设置下进行微调,用于个性化的 3D 生成,即 DreamBooth3D 应用中,在学习主体身份之后可以保持一致性。
Aug, 2023
我们提出了一种新颖的方法,用于从多个图像中进行 3D 物体表面重建,其中只捕获了物体的一部分。我们的方法基于两个最新发展:使用神经辐射场进行表面重建,用于重建表面的可见部分,以及使用预训练的 2D 扩散模型的指导(SDS)完成未观察到的区域的形状。我们引入了三个组件:首先,建议使用法线图作为 SDS 的纯几何表示,而不是与外观信息交织在一起的颜色渲染。其次,我们在训练过程中使 SDS 噪声保持固定,这会导致更一致的梯度和更好的收敛性。第三,我们提出了多视角 SDS 作为一种在不对底层 2D 稳定扩散模型进行微调或更改的情况下对非可观察部分的生成进行条件化的方法。我们在 BlendedMVS 数据集上对我们的方法进行评估,结果显示相比竞争方法,我们取得了显著的定量和定性改进。
Dec, 2023
Magic123 提出通过使用 2D 和 3D 先验知识,用单张无姿态图像实现高质量纹理 3D 网格的生成,通过参考视图监督和新视角的结合引导学习 3D 内容,并在训练过程中引入单一权衡参数控制对生成几何结构的探索和开发。此外,该模型采用文本反演和单目深度正则化以保证视角一致性和防止退化解,并在综合合成和真实场景测试中体现了较大提升。
Jun, 2023
提出一种名为 Bootstrap3D 的新框架,它能自动生成任意数量的多视图图像,为多视图扩散模型的训练提供帮助。还引入了数据生成流水线和训练时间步骤重新安排策略,并通过大量实验证明 Bootstrap3D 能生成具有高质量、美学性、图像 - 文本对齐度和视图一致性的多视图图像。
May, 2024
在本文中,我们通过考虑视频生成器,使用高斯喷洒的 3D 重建算法,减少 2D 生成器网络的评估次数 10-100 倍,实现更高效的处理管道,提供更高质量、更少几何不一致性和更多可用的 3D 资源。
Feb, 2024
通过引入情景表示变换器和视图条件扩散模型,该论文提出了一个通用框架,用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性,该模型能够从仅一个图像输入生成超过基准方法在评估指标(包括 PSNR、SSIM 和 LPIPS)方面的三维网格。
May, 2024