动态提示学习：解决文本为基础的图像编辑中的交叉注意力泄漏问题

Sep, 2023

动态提示学习：解决文本为基础的图像编辑中的交叉注意力泄漏问题

Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing

Kai Wang, Fei Yang, Shiqi Yang, Muhammad Atif Butt, Joost van de Weijer

TL;DR基于大规模的文本到图像生成模型，本研究针对图像编辑的问题，通过动态提示学习(DPL)方法修复交叉注意力图，实现对特定对象的精细图像编辑，防止对其他图像区域的意外更改。通过广泛的评估，DPL方法在多个指标上取得了卓越的结果，尤其是在复杂的多物体场景中进行的提示编辑，包括单词替换、提示改进和注意力重新加权。

Abstract

Large-scale text-to-image generative models have been a ground-breaking development in generative AI, with diffusion models showing their astounding ability to synthesize convincing images following an input text prompt. The goal of →

发现论文，激发创造

跨注意控制的提示到提示图像编辑

该文提出了一种基于文本的图像编辑框架，利用交叉注意力层控制图像布局和文本之间的关系，实现了在不改变原始内容情况下的全局和局部编辑，从而达到高质量的图像合成。

Aug, 2022

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为Prompt-Free Diffusion的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器(SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的T2I模型相媲美。

May, 2023

利用字幕和注入技术实现最小文本输入的用户友好型图像编辑

本文提出了两种基于提示生成框架的简单而有效的方法，以改善基于文本的图像编辑过程中用户工程的问题，并通过定性和定量实验证明了提示在基于文本的图像编辑中的重要性以及我们的方法可以与基于参考的提示相媲美。

Jun, 2023

稳定扩散提示的嵌入操纵

我们提出并分析了一种直接改变提示嵌入而非提示文本的方法，将生成的文本到图像模型视为一个连续函数，并在图像空间和提示嵌入空间之间传递梯度，通过解决不同的用户交互问题，应用于优化图像空间的度量、在创造性任务中帮助用户导航图像空间以及包含用户在特定种子中看到但难以在提示中描述的信息等三种场景。实验证明了所描述方法的可行性。

Aug, 2023

PromptCharm：多模态提示和精炼的文本到图像生成

通过混合倡议的多模态提示工程和细化，PromptCharm系统支持初学者用户在生成图像和优化载体过程中的生成式AI领域的最新进展，并通过可视化模型注意力值进行模型解释和反馈循环以提高生成图像的质量和用户期望的符合度。

Mar, 2024

物品有价值：具有分离控制的多用途图像编辑

基于预训练的扩散模型，我们提出了一种名为D-Edit的框架，通过在特定物品上操作相应提示来实现多样化的图像编辑，涵盖基于图像、文本、掩膜和物品删除的四种编辑操作类型，展示了编辑结果的质量和多样性。

Mar, 2024

文本到图像生成的动态提示优化

通过引入Prompt Auto-Editing (PAE)方法，我们改进了文本生成图像的初衷，进一步采用在线加强学习策略来探索每个词的权重和注入时间步长，从而实现了动态的精细控制提示。实验结果表明，我们的方法在改善原始提示的同时生成了视觉更吸引人的图像，并保持了语义的一致性。

Apr, 2024

LocInv: 文本指导图像编辑中的定位感知反转

基于T2I扩散模型，本研究提出了一种局部感知反演（LocInv）方法，通过利用分割地图或边界框作为额外的定位先验，精确修正扩散过程中的交互关注图，使其与文本提示中的正确名词和形容词单词紧密对齐，从而实现对特定对象的细粒度图像编辑，并防止对其他区域产生不希望的改变。该方法在COCO数据集的子集上经过广泛评估，定量和定性地都取得了优秀的结果。

May, 2024

提示-软盒-提示：一种用于图像编辑的自由文本嵌入控制方法

本研究解决了文本驱动的扩散模型在图像编辑中面临的文本嵌入复杂性和不透明性的问题。通过对Stable Diffusion XL中文本嵌入进行深入分析，提出了新颖的自由文本嵌入控制方法PSP，可以实现精准的图像编辑和风格转移。实验证明，PSP在物体更替、物体添加及风格转移任务中表现显著，推动了图像编辑技术的发展。

Aug, 2024

提示-软盒-提示：一种自由文本嵌入控制的图像编辑方法

本研究解决了文本驱动的扩散模型中，文本嵌入未充分探讨所带来的精确图像编辑问题。通过深入分析Stable Diffusion XL中的文本嵌入，提出了一种新的自由文本嵌入控制方法PSP，能够在不干扰图像其他区域的情况下，实现对象添加与替换以及风格转移。实验结果表明，PSP在相关任务上取得了显著效果。

Aug, 2024