跨注意控制的提示到提示图像编辑

Aug, 2022

跨注意控制的提示到提示图像编辑

Prompt-to-Prompt Image Editing with Cross Attention Control

Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch...

TL;DR该文提出了一种基于文本的图像编辑框架，利用交叉注意力层控制图像布局和文本之间的关系，实现了在不改变原始内容情况下的全局和局部编辑，从而达到高质量的图像合成。

Abstract

Recent large-scale text-driven synthesis models have attracted much attention thanks to their remarkable capabilities of generating highly diverse images that follow given text prompts. Such text-based synthesis methods are particularly appealing to humans who are used to verbally desc

text-driven synthesis image editing cross-attention layers prompt-to-prompt editing high-quality synthesis

发现论文，激发创造

动态提示学习：解决文本为基础的图像编辑中的交叉注意力泄漏问题

基于大规模的文本到图像生成模型，本研究针对图像编辑的问题，通过动态提示学习 (DPL) 方法修复交叉注意力图，实现对特定对象的精细图像编辑，防止对其他图像区域的意外更改。通过广泛的评估，DPL 方法在多个指标上取得了卓越的结果，尤其是在复杂的多物体场景中进行的提示编辑，包括单词替换、提示改进和注意力重新加权。

Sep, 2023

剪切和拼贴：主题驱动的视频编辑与注意力控制

本文提出了一种名为剪贴的创新框架，用于根据文本提示和额外参考图像进行现实语义视频编辑。

Nov, 2023

物品有价值：具有分离控制的多用途图像编辑

基于预训练的扩散模型，我们提出了一种名为 D-Edit 的框架，通过在特定物品上操作相应提示来实现多样化的图像编辑，涵盖基于图像、文本、掩膜和物品删除的四种编辑操作类型，展示了编辑结果的质量和多样性。

Mar, 2024

利用字幕和注入技术实现最小文本输入的用户友好型图像编辑

本文提出了两种基于提示生成框架的简单而有效的方法，以改善基于文本的图像编辑过程中用户工程的问题，并通过定性和定量实验证明了提示在基于文本的图像编辑中的重要性以及我们的方法可以与基于参考的提示相媲美。

Jun, 2023

基于提示的文本风格转移编辑

该论文提出了一种基于提示的文本风格转换编辑方法，其中使用预训练语言模型进行风格分类，使用分类概率计算风格得分，然后通过词级别的编辑，以最大化全面的评分函数来实现风格转换任务，实验表明其性能远高于具有 20 倍参数的现有技术。

Jan, 2023

文本到图像生成的动态提示优化

通过引入 Prompt Auto-Editing (PAE) 方法，我们改进了文本生成图像的初衷，进一步采用在线加强学习策略来探索每个词的权重和注入时间步长，从而实现了动态的精细控制提示。实验结果表明，我们的方法在改善原始提示的同时生成了视觉更吸引人的图像，并保持了语义的一致性。

Apr, 2024

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

使用扩散模型进行文本驱动图像编辑的 Prompt Tuning Inversion

本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术，用于文本驱动的图像编辑，能够在保留输入图像高准确度的同时进行灵活的编辑，实验证明该方法在 ImageNet 数据集上的表现优于现有技术。

May, 2023

通过可学习区域实现基于文本的图像编辑

这篇论文介绍了一种基于文本提示的区域图像编辑方法，无需用户提供的掩码或草图，通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域，实现了与当前图像生成模型兼容的灵活的编辑，并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致，具有高保真度和逼真度的竞争性表现。

Nov, 2023