多视图图像引导的多视图扩散用于改善 3D 生成
使用 ImageDream 创新的图像提示多视角扩散模型进行 3D 物体生成,通过提高视觉几何准确性来产生比现有最先进的图像条件方法更高质量的 3D 模型。
Dec, 2023
我们提出 MVDream,这是一个多视图扩散模型,能够根据给定的文本提示生成几何一致的多视图图像。通过利用在大规模 Web 数据集上预训练的图像扩散模型和从 3D 资源渲染的多视图数据集,所得到的多视图扩散模型可以实现 2D 扩散的概括性和 3D 数据的一致性。该模型可以被应用为 3D 生成的多视图先验,通过 Score Distillation Sampling 来解决现有 2D-lifting 方法中的 3D 一致性问题,从而极大地提高了稳定性。最后,我们展示了多视图扩散模型也可以在少量样本设置下进行微调,用于个性化的 3D 生成,即 DreamBooth3D 应用中,在学习主体身份之后可以保持一致性。
Aug, 2023
本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法,通过使用预训练的多视角扩散模型,在准确遵循复杂的、构成性的文本提示的同时实现高保真度,生成能够准确遵循复杂、构成性文本提示的 3D 资产。
Apr, 2024
本文提出了一种方法,用户只需提供每个定制主题的图像和文本,而不需要提供多张图像,通过引入 “多模态提示” 概念,将文本和图像相结合,简化用户交互,实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。
May, 2024
通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像,从而利用正交视图图像引导生成高保真度的三维内容,并应用渐进式三维合成策略,显著提高了生成效率和质量,包括解决了 Janus 问题,并在定量和定性评估中证明了优越性。
Aug, 2023
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023
最新的文字到 3D 生成技术取得了显著进展,现有的方法利用大规模的文字到图像扩散模型,如 DreamFusion,来监督 3D 生成。然而,这些方法生成的 3D 对象的外观通常是随机和不可控的,这在实现可控外观的 3D 对象方面是一个挑战。为了解决这个问题,我们引入了 IPDreamer,一种新颖的方法,它结合了图像提示,为 3D 对象生成提供特定和全面的外观信息。我们的结果表明,IPDreamer 有效地生成了与所提供的文本和图像提示一致的高质量 3D 对象,展示了它在可控外观的 3D 对象生成方面的潜能。
Oct, 2023
本研究引入了改进的 Prompt Diffusion(iPromptDiff),结合端到端训练的视觉编码器和文本提示,使扩散式视觉基础模型在各种训练任务中展现了多功能性和稳健性,特别是在新的视觉任务中的上下文学习方面表现出了优异的能力。
Dec, 2023
文章提出了 Prompt Diffusion 这个框架,可以实现基于扩散的生成模型的上下文学习,同时还展示了其在机器视觉中的应用,包括视觉 - 语言任务和文本指导的图像编辑。
May, 2023
通过混合倡议的多模态提示工程和细化,PromptCharm 系统支持初学者用户在生成图像和优化载体过程中的生成式 AI 领域的最新进展,并通过可视化模型注意力值进行模型解释和反馈循环以提高生成图像的质量和用户期望的符合度。
Mar, 2024