基于无条件扩散模型的实时文本驱动图像操作

Apr, 2023

基于无条件扩散模型的实时文本驱动图像操作

Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models

Nikita Starodubcev, Dmitry Baranchuk, Valentin Khrulkov, Artem Babenko

TL;DR该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Abstract

Recent advances in diffusion models enable many powerful instruments for image editing. One of these instruments is text-driven image manipulations: editing semantic attributes of an image according to the provided text description. % Popular text-conditional →

diffusion models text-driven image manipulation efficiency unconditional diffusion models pretrained model

发现论文，激发创造

基于扩散的语义图像编辑与掩模引导

本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit，能够自动生成需要编辑的图像区域的遮罩，并利用潜在推理保留感兴趣区域的内容，该方法在 ImageNet 数据集上实现了最先进的编辑表现。

Oct, 2022

使用定制扩散模型进行文本引导的图像编辑

该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法，使用少量参考图像进行模型自定义，可以显著提高引用相似性同时保持源相似性，适用于各种数据集。

May, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

生成 AI 中的文本与图像扩散模型：一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

基于扩散模型的图像编辑：一项综述

调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述，包括理论和实践方面，并从多个角度对这些作品进行了彻底分析和分类，介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外，对图像修复和扩展进行了特别关注，并探讨了早期的传统上下文驱动方法和当前的多模态条件方法，全面分析了它们的方法论。最后，讨论当前的限制并展望未来的研究方向。

Feb, 2024

基于扩散模型的文本实时图像编辑技术 Imagic

本文提出了一种名为 “Imagic” 的方法，该方法仅需要单个输入图像和目标文本，就能针对单张高分辨率的真实图像进行复杂的文本引导语义编辑，其采用预训练的文本到图像扩散模型进行柔性编辑，不需任何额外的输入或附加视图，从而展示了各个领域的高质量复杂语义图像编辑.

Oct, 2022

层级扩散：使用扩散模型进行分层控制图像编辑

本文提出了一种基于语义的分层控制图像编辑方法 ——LayerDiffusion，通过对大规模文本转图像模型的利用，结合分层控制优化策略和分层扩散训练，实现特定主题属性的非刚性编辑和属性修改，同时保持其独特的特征并无缝地融入新背景，而在扩散过程中采用迭代引导策略生成与文字描述相符的最终图像，在实验结果中发现 LayerDiffusion 能够生成高度一致、与给定文本描述密切符合的图像，同时保持与输入图像相似的特征，超越了当前领先的图像编辑方法，开启了图像编辑的新可能性。

May, 2023

多模态引导下的图像编辑与文本到图像扩散模型调查

图像编辑以满足用户特定需求为目标，近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾，介绍了综合的图像编辑范畴、各种控制信号和编辑场景，提出了一个统一的框架来规范编辑过程，并分成两个主要算法体系，为用户实现特定目标提供了一个设计空间。另外，对于基于训练的方法，我们讨论了它们的特点和适用场景，并介绍了在不同场景下源图像注入的方案。此外，我们还回顾了将二维技术应用于视频编辑，并突出了解决帧间不一致问题的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。

Jun, 2024

差分扩散：赋予每个像素以其强度

提出一种新的框架，使用户能够为每个图像碎片自定义更改量，增强了现代扩散模型的灵活性和表达能力，且无需模型训练或微调，可直接应用于现有模型，量化和定性结果表明，该方法实现了更好的可控性，并可产生现有模型无法达到的结果。

Jun, 2023