个性化的改写提示增强文本生成图像

Oct, 2023

个性化的改写提示增强文本生成图像

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting

Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan

TL;DR我们提出了一种将大型预训练模型视为搜索引擎的新视角，从而使以前用于提高搜索引擎性能的技术得以重新应用。通过个性化查询重写技术的示例，我们在文本到图像生成领域使用了这种视角。尽管该领域取得了显著进展，但仍然很难创建与个体用户的期望和偏好密切对齐的个性化视觉表示。这个过程需要用户用对模型理解且准确捕捉他们的愿景的文字来表达，这对许多用户来说很困难。在本文中，我们通过利用用户与系统的历史互动来提高用户提示的质量来解决这个挑战。我们提出了一种基于具有超过 300k 个提示的 3115 个用户的新大规模文本到图像数据集的用户提示重写方法。我们的重写模型增强了用户提示与其预期视觉输出之间的表达和对齐。实验证明了我们方法的优越性，这在我们的新离线评估方法和在线测试中得到了证明。我们的方法为应用更多搜索引擎技术来构建真正个性化的大型预训练模型打开了令人兴奋的可能性。

Abstract

We propose a novel perspective of viewing large pretrained models as search engines, thereby enabling the repurposing of techniques previously used to enhance search engine performance. As an illustration, we employ a personalized query rewriting technique in the realm of →

large pretrained models search engines personalized query rewriting text-to-image generation user prompts

发现论文，激发创造

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

文本到图像生成的提示优化

该研究提出了一种文本生成图像的自适应提示适配框架，该框架使用预训练语言模型进行有监督的微调，再使用强化学习探索更好的提示，通过奖励函数鼓励策略生成更具美感的图像，实验结果表明，自适应提示适配方法优于手动人工优化提示工程，预训练检查点已经公开发布。

Dec, 2022

文本到图像生成系统的提示日志分析

最近，大型语言模型和生成式人工智能的出现，释放了文本转图像生成系统惊人的能力，以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录，这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距，并建议我们如何提高这些系统的性能。

Mar, 2023

PALP: 文本到图像模型的明确个性化

使用单个提示进行对齐的个性化方法，改善文字对齐，实现与复杂和精细提示相关的图像创作。

Jan, 2024

多模式提示下的用户友好定制生成

本文提出了一种方法，用户只需提供每个定制主题的图像和文本，而不需要提供多张图像，通过引入 “多模态提示” 概念，将文本和图像相结合，简化用户交互，实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。

May, 2024

文本到图片生成的定制助手

建立基于预训练大型语言模型和扩散模型的定制助手，能够在无需微调的情况下进行自定义生成，实现与用户的更友好交互。

Dec, 2023

Promptify: 基于大型语言模型的交互式提示探索文本到图像生成

Promptify 是一个交互式系统，支持文本到图像生成模型的提示探索和细化，它利用大型语言模型提供的建议引擎帮助用户快速探索和构建不同的提示，其反馈循环可以迭代地细化提示并增强所需的特征，从而有效地促进文本到图像工作流程并在用户研究中优于现有的基准工具。

Apr, 2023

BeautifulPrompt: 文本到图像合成的自动提示工程化

我们提出了 BeautifulPrompt，这是一个深度生成模型，可以从非常简单的原始描述中生成高质量的提示，从而使基于扩散模型生成更美丽的图像。我们使用视觉 AI 反馈的强化学习技术来进一步优化模型，以提高生成的提示和图像的质量，并将 BeautifulPrompt 集成到云原生 AI 平台，提供更好的云端文本到图像生成服务。

Nov, 2023

PromptMagician：文本到图像创作的交互式提示工程

开发有效的提示对于生成高质量图像的强大能力具有挑战性，因此本研究提出了 PromptMagician，一个视觉分析系统，通过推荐模型和多层次可视化来帮助用户探索和优化生成图像的输入提示。研究通过用户研究和专家访谈证明了该系统的有效性和可用性，从而改善生成图文模型的创造力支持。

Jul, 2023