PALP: 文本到图像模型的明确个性化

Jan, 2024

PALP: 文本到图像模型的明确个性化

PALP: Prompt Aligned Personalization of Text-to-Image Models

Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter...

TL;DR使用单个提示进行对齐的个性化方法，改善文字对齐，实现与复杂和精细提示相关的图像创作。

Abstract

Content creators often aim to create personalized images using personal subjects that go beyond the capabilities of conventional text-to-image models. Additionally, they may want the resulting image to encompass

personalized images text-to-image models personalization methods prompt-aligned personalization target prompt

发现论文，激发创造

AlignIT: 提升文本图像模型自定义中的提示对齐

我们提出了一种新的后处理算法 AlignIT，该算法将感兴趣的概念的键和值与输入提示中的所有其他标记的键和值保持不变，从而解决了现有方法存在的问题，并显著提高了与输入提示的对齐性能。

Jun, 2024

个性化的改写提示增强文本生成图像

我们提出了一种将大型预训练模型视为搜索引擎的新视角，从而使以前用于提高搜索引擎性能的技术得以重新应用。通过个性化查询重写技术的示例，我们在文本到图像生成领域使用了这种视角。尽管该领域取得了显著进展，但仍然很难创建与个体用户的期望和偏好密切对齐的个性化视觉表示。这个过程需要用户用对模型理解且准确捕捉他们的愿景的文字来表达，这对许多用户来说很困难。在本文中，我们通过利用用户与系统的历史互动来提高用户提示的质量来解决这个挑战。我们提出了一种基于具有超过 300k 个提示的 3115 个用户的新大规模文本到图像数据集的用户提示重写方法。我们的重写模型增强了用户提示与其预期视觉输出之间的表达和对齐。实验证明了我们方法的优越性，这在我们的新离线评估方法和在线测试中得到了证明。我们的方法为应用更多搜索引擎技术来构建真正个性化的大型预训练模型打开了令人兴奋的可能性。

Oct, 2023

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

多模式提示下的用户友好定制生成

本文提出了一种方法，用户只需提供每个定制主题的图像和文本，而不需要提供多张图像，通过引入 “多模态提示” 概念，将文本和图像相结合，简化用户交互，实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。

May, 2024

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

文本到图像模型的最佳提示及其发现方法

本研究使用基因算法，结合人类反馈，学习组合最有用的提示关键字，以改善使用描述生成艺术图像的美感。

Sep, 2022

文本到图像生成的提示优化

该研究提出了一种文本生成图像的自适应提示适配框架，该框架使用预训练语言模型进行有监督的微调，再使用强化学习探索更好的提示，通过奖励函数鼓励策略生成更具美感的图像，实验结果表明，自适应提示适配方法优于手动人工优化提示工程，预训练检查点已经公开发布。

Dec, 2022

跨模态调整多模式令牌级提示对齐

利用最优传输的多模式令牌级调优框架，发现了多种视觉概念，实现了精确的语义对齐，优于传统方法。

Sep, 2023

通过自动提示优化提升文本到图像的一致性

通过利用大型语言模型，在文本到图像的生成模型中改善提示 - 图像的一致性，我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度，为构建可靠且强大的文本到图像模型铺平了道路。

Mar, 2024