CoIE：面部多属性操作的指令链编辑

Dec, 2023

CoIE：面部多属性操作的指令链编辑

CoIE: Chain-of-Instruct Editing for Multi-Attribute Face Manipulation

Zhenduo Zhang, Bowen Zhang, Guang Liu

TL;DR通过使用一系列指令进行逐步编辑的方法，本研究提出了一种名为 Chain-of-Instruct Editing（CoIE）的创新概念，通过利用预训练的大型语言模型（如 GPT-4）的上下文学习能力，以及自行构建的指令引导人脸编辑数据集和超分辨率模块，成功提高了多属性人脸图像编辑的成功率和可控性。

Abstract

Current text-to-image editing models often encounter challenges with smoothly manipulating multiple attributes using a single instruction. Taking inspiration from the Chain-of-Thought prompting technique utilized in language models, we present an innovative concept known as

text-to-image editing chain-of-instruct editing face manipulation pretrained large language model multi-attribute facial image manipulation

发现论文，激发创造

指令链式编排：大型语言模型上的组合指令调整

改进大型语言模型的细化调整方法，通过使用多样的组合指令集合，提高了模型对不同任务的泛化性能；引入了链式指令的新概念（CoI），使模型能够处理由多个子任务组成的复合指令，将模型性能在多语言摘要生成任务中进行了验证。

Feb, 2024

通过多模态大规模语言模型引导基于指导的图像编辑

通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指令的图像编辑至关重要，而我们的 MGIE 在保持有竞争力的推理效率的同时，能够显著改善自动度量和人类评估。

Sep, 2023

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023

MoEController: 使用混合专家控制器进行基于指令的任意图像操作

基于扩散模型的文字引导图像生成在开放领域图像处理任务中取得了令人惊讶的进展，本研究提出了一种混合专家控制器的方法，以将不同类型的人类指令与不同的扩散模型的文字引导能力相结合，实现对各种开放领域图像处理任务的处理。

Sep, 2023

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit 是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集，定量和定性结果表明 SmartEdit 优于先前的方法，为复杂指令 - based 图像编辑的实际应用铺平了道路。

Dec, 2023

InstructGIE: 通向通用图像编辑的探索

一个新的图像编辑框架，通过增强上下文学习能力和统一语言指导以提高泛化鲁棒性，利用 VMamba Block 和编辑偏移匹配策略来增强图像编辑任务的能力，并结合选择性区域匹配技术和语言统一技术来改善生成图像的质量，同时提供第一个利用视觉提示和编辑指导的图像编辑数据集来提高上下文能力。

Mar, 2024

FICE: 带引导 GAN 反演的文本调制时尚图像编辑

本论文提出了一种新的文本引导时尚图片编辑方法 FICE，包括 GAN 反演、CLIP 模型语义信息和姿态、图片评估等多项约束，使其能够更好地控制图像合成的逼真程度，并与多种先进方法进行对比验证，结果表明 FICE 具有更强的编辑表现和高度逼真的时尚图像生成能力。

Jan, 2023

直观推理的图像链

通过使用连锁图像方法，将复杂的语言推理问题转化为简单的模式识别，并引入一种符号化的多模态大型语言模型，该模型可以根据语言指令生成图像并接受文本和图像作为输入，实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。

Nov, 2023

区域：零样本指导下的局部编辑

基于 Zero-shot 指令引导的局部图像编辑方法 ZONE 通过转换用户提供的指令，实现了对特定图像区域的任意操作，同时保留其他区域的编辑友好性，展现了出色的局部编辑效果，优于现有的最先进方法。

Dec, 2023