重新构想负面提示算法:将2D扩散转化为3D,缓解Janus问题及更多
本文提出了一种使用基于文本转图像的扩散模型进行文本到3D合成的方法,该方法绕过了需要大规模标记的3D数据集和能够去噪的3D数据的限制,将2D的扩散模型作为先验,通过梯度下降优化3D模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将2D扩散模型与3D模型相结合。这种方法不需要3D训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022
本文提出了 Dream3D 方法,将显式的三维形状先验引入 CLIP 导向的三维优化过程中,以生成高质量的三维形状。结合文本到图像扩散模型,Dream3D 能够生成精准而富有想象力的三维内容。
Dec, 2022
此篇论文提出了一种名为Prompt-Free Diffusion的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器(SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的T2I模型相媲美。
May, 2023
通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像,从而利用正交视图图像引导生成高保真度的三维内容,并应用渐进式三维合成策略,显著提高了生成效率和质量,包括解决了Janus问题,并在定量和定性评估中证明了优越性。
Aug, 2023
通过将预训练的二维扩散模型引入神经光辐射场(NeRFs),文本到三维生成方法取得了巨大的进展,其中许多最先进的方法通常使用得分蒸馏采样(SDS)来优化NeRF表示,该方法通过预训练的文本条件的二维扩散模型(例如ImData)监督NeRF优化。然而,由这种预训练扩散模型提供的监督信号仅依赖于文本提示,并不限制多视角一致性。为了将跨视角一致性引入扩散先验中,一些最近的工作通过多视角数据微调二维扩散模型,但仍缺乏细粒度的视图连贯性。为了解决这个挑战,我们将多视角图像条件纳入NeRF优化的监督信号中,明确强制执行细粒度的视图一致性。通过这种更强的监督,我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在T$^3$Bench数据集上的定量评估表明,我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。
Dec, 2023
通过使生成的图像内容与用户意图一致的提示,该方法利用扩散模型进行串行优化得到直观的语言提示,从而产生具有相似内容的多样化图像。
Dec, 2023
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到3D的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
该论文介绍了一个基于梯度的文本到图像扩散模型中的提示优化框架,通过在语言空间上将提示工程化为离散优化问题,并通过解决文本梯度困难和庞大的域空间挑战来提供主要技术贡献,该方法在多个来源的提示上经验验证表明它可以显著提高或破坏文本到图像扩散模型生成图像的可信度。
Jun, 2024