快速编辑：通过语义感知扩散微调实现快速文本引导单图编辑

Aug, 2024

快速编辑：通过语义感知扩散微调实现快速文本引导单图编辑

FastEdit: Fast Text-Guided Single-Image Editing via Semantic-Aware Diffusion Fine-Tuning

Zhi Chen, Zecheng Zhao, Yadan Luo, Zi Huang

TL;DR本研究解决了传统文本引导单图编辑方法所需的漫长迭代过程问题，提出了FastEdit，一种将编辑时间从7分钟缩短至17秒的高效编辑方法。该方法利用语义感知的扩散微调和参数高效的LoRA技术，显著减少了训练参数与迭代次数，同时保持了可比的编辑效果，具有广泛的实用潜力。

Abstract

Conventional Text-guided single-image editing approaches require a two-step process, including fine-tuning the target text embedding for over 1K iterations and the generative model for another 1.5K iterations. Although it ensures that the resulting image closely aligns with both the input image and the target text, this process often requires 7 minutes per i

发现论文，激发创造

基于扩散的语义图像编辑与掩模引导

本文提出了一种基于条件扩散模型的语义图像编辑方法DiffEdit，能够自动生成需要编辑的图像区域的遮罩，并利用潜在推理保留感兴趣区域的内容，该方法在ImageNet数据集上实现了最先进的编辑表现。

Oct, 2022

使用扩散模型进行文本驱动图像编辑的Prompt Tuning Inversion

本文提出了一种基于Prompt Tuning Inversion的精确快速反演技术，用于文本驱动的图像编辑，能够在保留输入图像高准确度的同时进行灵活的编辑，实验证明该方法在ImageNet数据集上的表现优于现有技术。

May, 2023

使用定制扩散模型进行文本引导的图像编辑

该研究提出了一种名为Custom-Edit的文本导向图像编辑方法，使用少量参考图像进行模型自定义，可以显著提高引用相似性同时保持源相似性，适用于各种数据集。

May, 2023

FISEdit: 通过启用缓存的稀疏扩散推理加速文本到图像编辑

提出了一个使用缓存优化的稀疏扩散模型推断引擎（FISEdit），用于高效的文本到图像编辑，结果表明，使用FISEdit可以提高推断速度至少3.4倍，并获得更高质量的图像。

May, 2023

Forgedit：通过学习和遗忘进行文本指导的图像编辑

通过图像重建、文本嵌入以及使用UNet结构和扩散模型，我们设计了一种新的文本引导图像编辑方法Forgedit，具有强大的编辑能力，并在具有挑战性的文本引导图像编辑基准测试TEdBench中超越了以往的方法Imagic，实现了最新的state-of-the-art结果。

Sep, 2023

EditVal: 基于扩散的文本引导图像编辑方法的基准测试

通过引入 EditVal，这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试，本研究对8种前沿扩散编辑方法进行了基准测试，发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性，而大多数编辑方法在空间操作方面失败，没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。

Oct, 2023

DiffEditor：基于扩散的图像编辑中的准确性和灵活性增强

我们提出了DiffEditor方法，利用图像提示和文本提示来改善细粒度的图像编辑，通过在扩散采样中引入局部组合的随机微分方程 (SDE)，梯度引导和时间旅行策略，我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。

Feb, 2024

TurboEdit: 即时文本基础图像编辑

本文解决了少步骤扩散模型中精确图像反演和解耦图像编辑的挑战。我们提出了一种基于编码器的迭代反演技术，通过条件输入图像和先前步骤重构图像来实现图像编辑。数据显示，利用自动生成的详细文本提示，可以在少步骤扩散模型中轻松实现解耦控制，显著提升编辑的实时性和效果。

Aug, 2024

面向任务的高保真文本编辑扩散反演

本研究解决了现有文本引导扩散模型在真实图像编辑中重建保真度与可编辑性之间的挑战。提出的面向任务的扩散反演（TODInv）框架通过优化扩展的\(\mathcal{P}^*\)空间中的提示嵌入，使反演和编辑结合，确保高保真度和精确可编辑性。实验结果表明，TODInv在基准数据集上优于现有方法，实现了定量和定性上的提升，并展示了其在少步扩散模型中的多样性和适应性。

Aug, 2024

扩散变换器中的潜在空间解耦实现零-shot细粒度语义编辑

本研究解决了扩散变换器在文本与图像潜在特征如何共同影响生成图像语义的知识空白。通过分析潜在空间，我们发现这两个空间可以解耦，并形成一个精确的语义表示空间，从而实现零-shot的细粒度语义控制。我们的研究提出了EMS框架，能够有效进行图像编辑，促进更精细的语义操控。

Aug, 2024