Phidias:基于参考增强扩散生成文本、图像和3D条件下的3D内容模型
本研究提出了一种潜在扩散模型用于3D (LDM3D),可以从给定的文本提示生成图像和深度图像数据,使用生成的RGB和深度图像可以创建令人沉浸的和交互性360度视图体验,有潜力革新娱乐、游戏、建筑和设计等行业。
May, 2023
通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像,从而利用正交视图图像引导生成高保真度的三维内容,并应用渐进式三维合成策略,显著提高了生成效率和质量,包括解决了Janus问题,并在定量和定性评估中证明了优越性。
Aug, 2023
视觉计算领域因生成人工智能的出现而快速发展,介绍了扩散模型的基本数学概念、稳定扩散模型的实现细节和设计选择,以及包括个性化、条件设定、反转等在内的这些生成人工智能工具的重要方面的综述。此外,它还对基于扩散的生成和编辑的迅速增长的文献进行了全面的概述,按照生成介质的类型进行分类,其中包括2D图像、视频、3D对象、运动和4D场景。最后,我们讨论了可用的数据集、度量标准、开放性挑战和社会影响。这个综述为研究人员、艺术家和从业者提供了一个直观的起点来探索这个令人兴奋的主题。
Oct, 2023
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即Control3D,以增强用户的可控性。具体而言,我们通过改进的2D条件扩散模型(ControlNet)来引导作为NeRF参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
通过最新的生成模型,提出了一种名为LucidDreaming的有效管道,能够对3D生成进行精细控制,只需要最少的3D边界框输入,可以通过简单的文本提示使用大型语言模型推断,通过渲染和优化对象实现对象的分开生成,与基准方法相比,实现了更高水平的3D内容对齐,并提供了一个带有3D边界框的数据集,用于评估3D空间可控性。
Nov, 2023
通过将动态3D网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
本文介绍了PI3D,一个高效的框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的3D形状。通过将预训练的2D扩散模型微调为3D扩散模型,PI3D具备了3D生成能力和源自2D模型的泛化能力,并利用2D扩散模型的分数蒸馏抽样快速提高采样的3D形状的质量。通过将知识迁移为一组伪图像,PI3D实现了从图像到三视图生成的迁移。我们通过调整预训练模型中的模块,实现了使用伪图像和真实图像进行混合训练,这已被证明是一种提高泛化能力的有效策略。PI3D的效率在于能够在几秒钟内采样多样性的3D模型,并在几分钟内对其进行改进。实验结果证实了PI3D相对于基于3D扩散模型或提升2D扩散模型的现有方法在快速生成一致且高质量的3D模型方面的优势。建议的PI3D是文本到3D生成领域的一个有前景的进展,我们希望它能激发更多关于利用2D和3D数据知识的3D生成研究。
Dec, 2023
生成3D模型是计算机图形学的核心,并且已经成为几十年研究的重点。随着先进的神经表示和生成模型的出现,3D内容生成领域正在快速发展,使得越来越高品质和多样化的3D模型得以创建。本文调查了3D生成方法的基本方法,并建立了一个结构化的路线图,包括3D表示、生成方法、数据集和相关应用。最后,我们讨论可用的数据集、应用和面临的挑战。希望本调查能帮助读者探索这个激动人心的主题,并促进3D内容生成领域的进一步发展。
Jan, 2024
使用稀疏射线采样方法通过关键点监督,实现了在当前管道中显式注入来自检索参考对象的3D先验,以确保高质量和多样化的3D几何,同时保持2D扩散模型的生成质量和多视角一致性。
Mar, 2024
DIRECT-3D是一种基于扩散的三维生成模型,从文本提示中创建高质量的三维资产(由神经辐射场表示);通过直接在大规模无序三维资产上训练,同时过滤和对齐噪声数据,使用迭代优化的扩散过程估计物体的三维姿势并选择有益数据,并通过两个条件性扩散模型实现分离对象几何和颜色特征的高效三维表示;模型能在几秒内生成具有准确几何细节的高质量、高分辨率、逼真而复杂的三维对象,并在单类别生成和文本到三维生成方面达到最先进的性能。
Jun, 2024