InstructRL4Pix：通过强化学习训练图像编辑的扩散

Jun, 2024

InstructRL4Pix：通过强化学习训练图像编辑的扩散

InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning

Tiancheng Li, Jinxiu Liu, Huajun Chen, Qi Liu

TL;DR通过使用增强学习引导图像编辑方法（InstructRL4Pix）来生成由目标对象的注意力地图引导的图像扩散模型，该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出，并使用邻近策略优化（PPO）对扩散模型进行微调，以实现基于自然人命令的准确图像编辑。实验证实 InstructRL4Pix 突破了传统数据集的限制，利用无监督学习来优化编辑目标，并实现了精确的图像编辑。

Abstract

instruction-based image editing has made a great process in using natural human language to manipulate the visual content of images. However, existing models are limited by the quality of the dataset and cannot accurately localize editing regions in images with complex object relations

instruction-based image editing reinforcement learning guided image editing method diffusion model attention maps unsupervised learning

发现论文，激发创造

InstructPix2Pix: 学习图像编辑指令

我们提出了一种图像编辑方法，可以根据用户的书面指令编辑图像，同时我们结合了两个预训练模型的知识生成了大量训练数据，使用训练好的模型可以快速地编辑图像，并且可以适用于不同的输入图像和书面指令。

Nov, 2022

基于扩散模型的像素级强化学习：从丰富反馈中进行强化学习

扩展了基于人类反馈训练的静态扩散模型生成算法，提出了基于像素的策略优化算法 (PXPO)，通过针对每个像素提供更细致的奖励给模型。

Apr, 2024

使用丰富提示进行零样本图像转换的扩散模型再生学习

本文提出了一种 ReDiffuser 图片修复模型，该模型使用自动生成的描述来完成图片编辑，利用再生学习和交叉注意力向导实现图片对形状的一致性保留，并引入一种协作更新策略，提高图片修复的质量和一致性。实验结果表明，该方法在真实和合成图片编辑方面优于现有方法。

May, 2023

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

小心行动：通过文本指令进行本地图像和场景编辑

我们提出了一种方法来定位文本指令中所隐含的期望编辑区域，并利用 InstructPix2Pix（IP2P）来确定在有和无指令的情况下 IP2P 预测之间的差异，以此差异作为相关性地图。相关性地图传达了每个像素更改的重要性，并用于指导修改，以确保不相关的像素保持不变。相关性地图进一步用于增强以神经辐射场形式的文本引导下 3D 场景的编辑质量。我们的方法在图像和 NeRF 编辑任务上实现了最先进的性能。

Aug, 2023

InstructPix2NeRF: 从单张图像指导的 3D 人像编辑

通过建立一种名为 InstructPix2NeRF 的端到端扩散型框架，实现对单个开放世界图像的人类指导的三维感知人像编辑，实现了多语义编辑，保存了人像身份信息，并通过身份一致性模块增强了多视角三维身份的一致性，实验证明了该方法在定量和定性上的优越性。

Nov, 2023

InstructDiffusion: 一个用于视觉任务的通用建模接口

我们提出了 InstructDiffusion，这是一个统一且通用的框架，用于将计算机视觉任务与人类指令对齐。相比于现有方法，该框架不需要融合先验知识或为每个视觉任务预定义输出空间，而是将不同的视觉任务转化为与人类直观感知一致的图像处理过程，其输出空间是一个灵活且交互式的像素空间。通过扩散过程训练模型以根据用户指令预测像素，例如在红色中圈出男人的左肩或在左辆车上应用蓝色口罩。InstructDiffusion 可处理各种视觉任务，包括理解任务（如分割和关键点检测）和生成任务（如编辑和增强）。它甚至能够处理未见过的任务，并在新数据集上优于先前的方法。这将推进计算机视觉领域的人工智能通用建模接口的发展。

Sep, 2023

基于迭代提示重标记的扩散模型与 RLDF

我们提出了迭代提示重新标记 (IP-RLDF) 算法，通过迭代图像采样和提示重新标记将图像与文本对齐。IP-RLDF 在三种不同模型上进行了彻底实验，包括 SDv2、GLIGEN 和 SDXL，测试了它们根据指令生成图像的能力，并在具有挑战性的空间关系 VISOR 基准测试中实现了高达 15.22% 的改进，相比之前的 RL 方法表现出更强的性能。

Dec, 2023

从扩散反馈中强化学习：图像搜索的 Q*

大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型，通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF（Reinforcement Learning from Diffusion Feedback），通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入，在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。

Nov, 2023