IP-Adapter:面向文本图像扩散模型的文本兼容图像提示适配器
此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器 (SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的 T2I 模型相媲美。
May, 2023
利用预训练的文本图像模型通过 DDIM 图像反转提取 ID 图像的传播域表示,不需要额外的图像编码器,然后通过精心设计的轻量级注意力适配器将提取的 ID 提示特征和文本图像模型的中间特征有效地嵌入到基础文本图像模型中,从而为 ID 定制生成和模型规模上提出的 Inv-Adapter 在 ID 忠实度、生成忠诚度、速度和训练参数等方面进行了广泛的实验评估表明其具有很高的竞争力。
Jun, 2024
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到 3D 的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
通过使生成的图像内容与用户意图一致的提示,该方法利用扩散模型进行串行优化得到直观的语言提示,从而产生具有相似内容的多样化图像。
Dec, 2023
该研究提出了一种文本生成图像的自适应提示适配框架,该框架使用预训练语言模型进行有监督的微调,再使用强化学习探索更好的提示,通过奖励函数鼓励策略生成更具美感的图像,实验结果表明,自适应提示适配方法优于手动人工优化提示工程,预训练检查点已经公开发布。
Dec, 2022
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
本论文介绍了一种 Prompt Expansion 框架,它帮助用户生成高质量多样化的图像,通过优化扩展了的文本提示,以便生成更吸引人的图像,并通过人类评估研究证明,使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。
Dec, 2023
该研究探讨了如何改进文本生成图像的模型的问题,提出了一种称为 Semantic Understanding and Reasoning adapter (SUR-adapter) 的参数高效微调方法,以提高短文本输入的语义理解和常识推理能力,进而用提高的文本语义表征生成高质量图像。
May, 2023
T2I 扩散模型的自适应提示优化裁剪 (APTP) 通过学习提示路由模型和架构代码来减少计算负担,优于单模型裁剪,在 FID、CLIP 和 CMMD 指标上具有更好的性能,并发现语义上有意义的聚类。
Jun, 2024