Direct2.5: 多视角 2.5D 扩散下的多样化文本到 3D 生成
以 Bidirectional Diffusion(BiDiff)为框架,同时整合 3D 和 2D 扩散过程,既保持了 3D 的真实性,又保留了 2D 纹理的丰富性,通过新颖的双向引导进一步提高一致性,将生成的过程从 3.4 小时减少到 20 分钟,以达到高质量、多样性和可伸缩性的 3D 生成。
Dec, 2023
在本文中,我们通过考虑视频生成器,使用高斯喷洒的 3D 重建算法,减少 2D 生成器网络的评估次数 10-100 倍,实现更高效的处理管道,提供更高质量、更少几何不一致性和更多可用的 3D 资源。
Feb, 2024
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
Apr, 2024
Wonder3D 是一种将单视图图像转化为高保真纹理网格的新方法,通过引入一种跨域扩散模型生成多视图法线贴图和相应的彩色图像,从而从多视图 2D 表示中提取高质量表面
Oct, 2023
这篇论文提出了一种创新的方法 One-2-3-45++,可以在大约一分钟内将单张图像转化为详细的 3D 纹理网格,通过利用二维扩散模型的知识和有限的三维数据的先验信息,该方法能够快速生成高质量、多样化且与原始输入图像紧密相似的 3D 模型。
Nov, 2023
本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法,该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制,将 2D 的扩散模型作为先验,通过梯度下降优化 3D 模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022
我们提出了一种新颖的方法,用于从多个图像中进行 3D 物体表面重建,其中只捕获了物体的一部分。我们的方法基于两个最新发展:使用神经辐射场进行表面重建,用于重建表面的可见部分,以及使用预训练的 2D 扩散模型的指导(SDS)完成未观察到的区域的形状。我们引入了三个组件:首先,建议使用法线图作为 SDS 的纯几何表示,而不是与外观信息交织在一起的颜色渲染。其次,我们在训练过程中使 SDS 噪声保持固定,这会导致更一致的梯度和更好的收敛性。第三,我们提出了多视角 SDS 作为一种在不对底层 2D 稳定扩散模型进行微调或更改的情况下对非可观察部分的生成进行条件化的方法。我们在 BlendedMVS 数据集上对我们的方法进行评估,结果显示相比竞争方法,我们取得了显著的定量和定性改进。
Dec, 2023
我们提出 MVDream,这是一个多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集,所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验,通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题,从而极大地提高了稳定性。最后,我们展示了多视图扩散模型也可以在少量样本设置下进行微调,用于个性化的 3D 生成,即 DreamBooth3D 应用中,在学习主体身份之后可以保持一致性。
Aug, 2023
本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法,通过使用预训练的多视角扩散模型,在准确遵循复杂的、构成性的文本提示的同时实现高保真度,生成能够准确遵循复杂、构成性文本提示的 3D 资产。
Apr, 2024
通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像,从而利用正交视图图像引导生成高保真度的三维内容,并应用渐进式三维合成策略,显著提高了生成效率和质量,包括解决了 Janus 问题,并在定量和定性评估中证明了优越性。
Aug, 2023