上下文扩散：上下文感知图像生成

Dec, 2023

上下文扩散：上下文感知图像生成

Context Diffusion: In-Context Aware Image Generation

Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan...

TL;DR我们提出了 Context Diffusion，这是一种基于扩散的框架，使图像生成模型能够从环境中呈现的可视示例中学习。通过为查询图像提供上下文示例和文本提示，最近的工作解决了图像生成中的这种上下文学习问题。然而，当没有提示时，生成的图像的质量和保真度会降低，表明这些模型无法真正从视觉环境中学习。为了解决这个问题，我们提出了一种新颖的框架，将可视环境的编码和查询图像结构分开。这使得我们的模型能够从视觉环境和文本提示中学习，也能从其中任何一个中学习。此外，我们使我们的模型能够处理少量示例的设置，以有效地解决不同的上下文学习场景。我们的实验证明和用户研究表明，与对应的模型相比，Context Diffusion 在领域内和领域外的任务中都表现出色，从而提高了图像质量和保真度。

Abstract

We propose context diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for →

context diffusion image generation in-context learning visual context few-shot settings

发现论文，激发创造

扩散模型中基于上下文的学习解锁

文章提出了 Prompt Diffusion 这个框架，可以实现基于扩散的生成模型的上下文学习，同时还展示了其在机器视觉中的应用，包括视觉 - 语言任务和文本指导的图像编辑。

May, 2023

通过视觉上下文调节提示来改善扩散模型中的上下文学习

本研究引入了改进的 Prompt Diffusion（iPromptDiff），结合端到端训练的视觉编码器和文本提示，使扩散式视觉基础模型在各种训练任务中展现了多功能性和稳健性，特别是在新的视觉任务中的上下文学习方面表现出了优异的能力。

Dec, 2023

改善基于扩散的图像合成

Diffusion models for image synthesis are improved using ConPreDiff, a method that incorporates context prediction, achieving superior results in unconditional image generation, text-to-image generation, and image inpainting.

Jan, 2024

跨模态语境扩散模型的文本导向视觉生成与编辑

我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的 ContextDiff 实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Feb, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

使用丰富提示进行零样本图像转换的扩散模型再生学习

本文提出了一种 ReDiffuser 图片修复模型，该模型使用自动生成的描述来完成图片编辑，利用再生学习和交叉注意力向导实现图片对形状的一致性保留，并引入一种协作更新策略，提高图片修复的质量和一致性。实验结果表明，该方法在真实和合成图片编辑方面优于现有方法。

May, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

通过潜在扩散模型探索上下文分割

通过使用代表性的生成模型 —— 潜在扩散模型（LDM），我们从新的角度探索了上下文分割问题，提出了两种元架构和相应的输出对齐和优化策略。我们通过全面的消融研究发现，分割质量取决于输出对齐和上下文指令。实验证明，我们的方法在挑战性的上下文分割任务中取得了与专业模型或视觉基础模型相当甚至更强的结果，证明了潜在扩散模型也可以达到足够好的效果。

Mar, 2024

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021