IP-Adapter：面向文本图像扩散模型的文本兼容图像提示适配器

Aug, 2023

IP-Adapter：面向文本图像扩散模型的文本兼容图像提示适配器

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang

TL;DRIP-Adapter 是一种有效且轻量级的适配器，通过分离交叉注意力层实现了预训练文本到图像扩散模型的图像提示能力，具有与完全微调的图像提示模型相媲美甚至更好的性能。利用分离的交叉注意力策略，图像提示可以与文本提示良好协作，实现多模态图像生成。

Abstract

Recent years have witnessed the strong power of large text-to-image diffusion models for the impressive generative capability to create high-fidelity images. However, it is very tricky to generate desired images using only text prompt as it often involves complex prompt engineering. An alternative to text prompt is →

text-to-image diffusion models image prompt ip-adapter cross-attention mechanism multimodal image generation

发现论文，激发创造

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器 (SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的 T2I 模型相媲美。

May, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

Inv-Adapter：基于图像反转和轻量级适配器的 ID 个性化生成

利用预训练的文本图像模型通过 DDIM 图像反转提取 ID 图像的传播域表示，不需要额外的图像编码器，然后通过精心设计的轻量级注意力适配器将提取的 ID 提示特征和文本图像模型的中间特征有效地嵌入到基础文本图像模型中，从而为 ID 定制生成和模型规模上提出的 Inv-Adapter 在 ID 忠实度、生成忠诚度、速度和训练参数等方面进行了广泛的实验评估表明其具有很高的竞争力。

Jun, 2024

DreamDistribution: 基于提示分布学习的文本 - 图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到 3D 的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023

提示硬或几乎不提示：用于文本到图像扩散模型的 Prompt 反转

通过使生成的图像内容与用户意图一致的提示，该方法利用扩散模型进行串行优化得到直观的语言提示，从而产生具有相似内容的多样化图像。

Dec, 2023

文本到图像生成的提示优化

该研究提出了一种文本生成图像的自适应提示适配框架，该框架使用预训练语言模型进行有监督的微调，再使用强化学习探索更好的提示，通过奖励函数鼓励策略生成更具美感的图像，实验结果表明，自适应提示适配方法优于手动人工优化提示工程，预训练检查点已经公开发布。

Dec, 2022

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

SUR-adapter：使用大型语言模型增强文本到图像预训练扩散模型

该研究探讨了如何改进文本生成图像的模型的问题，提出了一种称为 Semantic Understanding and Reasoning adapter (SUR-adapter) 的参数高效微调方法，以提高短文本输入的语义理解和常识推理能力，进而用提高的文本语义表征生成高质量图像。

May, 2023

并非所有提示都是相等的：基于提示的文本到图像扩散模型修剪

T2I 扩散模型的自适应提示优化裁剪 (APTP) 通过学习提示路由模型和架构代码来减少计算负担，优于单模型裁剪，在 FID、CLIP 和 CMMD 指标上具有更好的性能，并发现语义上有意义的聚类。

Jun, 2024