使用引导扩散模型编辑真实图像的知觉相似性引导与文本引导优化

Dec, 2023

使用引导扩散模型编辑真实图像的知觉相似性引导与文本引导优化

Perceptual Similarity guidance and text guidance optimization for Editing Real Images using Guided Diffusion Models

Ruichen Zhang

TL;DR使用扩散模型进行图像编辑时，我们采用了双向引导的方法来保持未改变区域与原图的高度保真度。首先，我们使用文本嵌入来指导潜空间，并使用无分类器的引导进行优化。其次，我们使用感知相似性引导，在反向过程中通过 Tweedie 公式进行后验采样来优化潜空间向量。此方法既可以保证对编辑元素进行逼真渲染，又可以保护原图未编辑部分的完整性。

Abstract

When using a diffusion model for image editing, there are times when the modified image can differ greatly from the source. To address this, we apply a →

diffusion model image editing dual-guidance approach text-guided optimization perceptual similarity guidance

发现论文，激发创造

GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑

本研究探讨了扩散模型在文本条件下生成图像的问题，并比较了不同的指导策略：CLIP 指导和无分类器指导。结果发现对于照片逼真度和字幕相似性，后者更受人类评估人员的青睐，还可以进行图像修复。

Dec, 2021

使用定制扩散模型进行文本引导的图像编辑

该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法，使用少量参考图像进行模型自定义，可以显著提高引用相似性同时保持源相似性，适用于各种数据集。

May, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

扩散自导式可控图片生成

本篇研究介绍了 self-guidance 这一新方法，通过指导扩散模型的内部表示，提供了对生成图像更强的控制力，可以从这些表示中提取对象的形状、位置和外观等属性，并使用它们来控制生成的采样，这种方法类似于分类器引导，但是不需要额外的模型或训练，作者演示了如何使用这种方法进行复杂的图像操作，如修改对象的位置或大小，合并图像中对象的外观和布局等，并证明了 self-guidance 还可以用于编辑真实图像。

Jun, 2023

多模态引导下的图像编辑与文本到图像扩散模型调查

图像编辑以满足用户特定需求为目标，近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾，介绍了综合的图像编辑范畴、各种控制信号和编辑场景，提出了一个统一的框架来规范编辑过程，并分成两个主要算法体系，为用户实现特定目标提供了一个设计空间。另外，对于基于训练的方法，我们讨论了它们的特点和适用场景，并介绍了在不同场景下源图像注入的方案。此外，我们还回顾了将二维技术应用于视频编辑，并突出了解决帧间不一致问题的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。

Jun, 2024

运动引导：基于可微运动估计的扩散图像编辑

通过使用导向梯度的扩散模型生成图像，我们提出了一种零样本技术 —— 运动导向，它允许用户指定复杂的运动场并精确编辑图像中对象的布局、位置、姿态和形状。通过同时从扩散模型中采样和引导样本以实现低导向损失，我们可以获得经过运动编辑的高质量图像。

Jan, 2024

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

使用潜在扩散模型进行高保真度的图像合成引导

本文提出了一种新的引导图像合成框架，该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时，本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系，用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。

Nov, 2022

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

基于图像信息去除的图像转换

本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息，以更好地保存文本不相关内容并避免相同映射问题，从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡，并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。

May, 2023