ClickDiffusion：利用 LLMs 进行交互精确图像编辑

Apr, 2024

ClickDiffusion：利用 LLMs 进行交互精确图像编辑

ClickDiffusion: Harnessing LLMs for Interactive Precise Image Editing

Alec Helbling, Seongmin Lee, Polo Chau

TL;DR提出了一种名为 ClickDiffusion 的系统，结合自然语言指令和用户通过直接操作界面提供的可视化反馈，将图像和多模态指令序列化为文本表示形式，以实现图像的精确变换和生成。

Abstract

Recently, researchers have proposed powerful systems for generating and manipulating images using natural language instructions. However, it is difficult to precisely specify many common classes of image transfor

powerful systems image generation image manipulation natural language instructions clickdiffusion

发现论文，激发创造

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

Pix2Pix-OnTheFly：借助 LLMs 实现指导图像编辑

该研究论文通过语言处理和图像处理的组合吸引了越来越多的关注，其中一项最具挑战性的任务是仅基于自然语言指令对图像进行编辑。本论文提出了一种无需准备的方法，通过图像字幕和 DDIM 反演、获取编辑方向嵌入以及图像编辑等三个步骤有效地进行指令引导的图像编辑，该方法在 MAGICBRUSH 数据集上表现出色，优于最新的先进模型。

Mar, 2024

自然图像文本编辑的混合扩散

本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地（面向区域的）在通用自然图像中进行编辑的解决方案，利用 CLIP 预训练语言 - 图像模型指导编辑并使用扩散概率模型生成自然外观结果，以及应用扩散过程的增强进行抗击对抗攻击；通过在多个基线和相关方法上的定量和定性比较，表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案，并展示了多种文本驱动的编辑应用，如添加新对象，删除 / 替换 / 修改现有对象，背景替换和图像推理。

Nov, 2021

自校正的 LLM 控制扩散模型

使用 Self-correcting LLM-controlled Diffusion (SLD) 框架，该研究提出了一种迭代闭环过程，能够根据输入的提示生成图像、评估其与提示的对齐性，并纠正生成图像中的不准确性，从而提高文本到图像生成的正确性。该研究还发现，通过调整 LLM 的指令，SLD 可以执行图像编辑任务，弥合文本到图像生成与图像编辑流程之间的差距。

Nov, 2023

DiffChat: 学习与文本到图像合成模型对话以实现交互式图像创作

DiffChat 是一个新颖的方法，用于将大型语言模型（LLMs）与以 prompt 为输入的文本到图像合成（TIS）模型（例如 Stable Diffusion）进行对齐，以实现交互式图像生成。它能够根据给定的原始提示 / 图像和用户指定的指令有效地进行适当的修改并生成目标提示，从而帮助生成高质量的目标图像。DiffChat 通过收集名为 InstructPE 的指令跟踪提示工程数据集进行监督训练，提出了一个包括三个核心评估标准（美学、用户喜好和内容完整性）反馈的强化学习框架来实现这一目标。在离线采样过程中，它采用一种动态修改技术来获得更相关的正样本和更难的负样本。为了进一步提高生成图像的质量，还将内容完整性引入到值估计函数中。通过比较自动评估和人工评估，我们的方法表现出优于基准模型和强竞争对手的性能，充分证明了其有效性。

Mar, 2024

DiffusionGPT: 基于 LLM 的文本到图像生成系统

DiffusionGPT 结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

自然语言指令命令下的交互式图像操作

本论文提出了能够通过自然语言指令生成目标图像的交互式图像处理系统，使用了神经网络处理潜在空间中的图像向量将源向量转换为目标向量，成功地在我们的数据集中利用源图像和操作指令生成目标图像，从而实现更可控、更实用的自然语言条件下的图像生成。

Feb, 2018

LLM4GEN：利用语义表示的 LLM 用于文本到图像生成

LLM4GEN 通过结合 LLMs 特征设计的 Cross-Adapter 模块，有效提高了复杂和密集提示的语义理解能力，为 text-to-image 生成任务带来了显著改进，并在 sample 质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024