提升以主体为导向的图像合成技术：主体无关引导的优化

CVPRMay, 2024

提升以主体为导向的图像合成技术：主体无关引导的优化

Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance

Kelvin C.K. Chan, Yang Zhao, Xuhui Jia, Ming-Hsuan Yang, Huisheng Wang

TL;DR通过构建一个主题不可知条件并应用我们提出的双分类器自由指导，我们展示了我们的方法在生成与给定主题和输入文本提示一致的输出方面的有效性，并通过优化和编码方法验证了我们的方法的可行性，同时还展示了其在二阶定制方法中的适用性。

Abstract

In subject-driven text-to-image synthesis, the synthesis process tends to be heavily influenced by the reference images provided by users, often overlooking crucial attributes detailed in the text prompt. In this work, we propose →

text-to-image synthesis subject-agnostic guidance dual classifier-free guidance optimization-based methods encoder-based methods

发现论文，激发创造

无需训练的增强主体注意力引导的文本到图像生成

我们提出了一种主题驱动的生成框架，通过介入生成过程中的推理时间，强化注意力图，实现精确的属性绑定和特征注入，展示了卓越的零次生成能力，尤其在组合生成的挑战性任务中。

May, 2024

使用自注意力引导改善扩散模型的样本质量

本文提出了两种新的无需条件策略：模糊引导和高级自注意引导来增强生成图像的质量，这些方法不仅简单有效，还提高了各种扩散模型的性能。

Oct, 2022

通过学徒式学习实现基于主题的文本生成图像

本文介绍了一种基于 SuTI 的主体驱动图像生成器，它采用集体学习算法来替代特定主体的在线学习过程，可以快速生成高质量、定制化的主体特有图像。

Apr, 2023

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

无需训练的一致文本图像生成

ConsiStory 是一种无需训练的方法，通过共享预训练模型的内部激活来实现一致的主题生成，同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比，我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能，而无需进行任何优化步骤。最后，ConsiStory 可以自然地扩展到多主题场景，甚至可以对常见物体进行无需训练的个性化。

Feb, 2024

Cones 2: 多主体定制图像合成

研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题，并提出了一种方案，该方案利用文本嵌入和布局来生成图像，并通过实验证明了其在多个主题的自定义方面具有优越性。

May, 2023

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

基于文本指导的人物图像合成

本论文提出了一种新颖的方法，根据自然语言描述操纵人物图像的视觉外观和姿态，并进行了广泛的实验以证明该方法的有效性。

Apr, 2019

AGA: 属性引导增强

该研究提出了基于属性引导的数据增强方案 (AGA)，采用深度编码器 - 解码器架构来学习综合函数，以在 1-shot 对象识别和场景识别问题中改善模型在分类任务上的性能。

Dec, 2016