模型反馈下的人类学习：迭代提示与中途过程动态

EMNLPNov, 2023

模型反馈下的人类学习：迭代提示与中途过程动态

Human Learning by Model Feedback: The Dynamics of Iterative Prompting with Midjourney

Shachar Don-Yehiya, Leshem Choshen, Omri Abend

TL;DR通过研究用户与 Text-to-Image 模型的迭代交互，分析了用户提示的动态，发现提示在迭代过程中趋于特定特征。进一步研究表明，这种趋同既可能是用户因忽略重要细节而调整，也可能是为适应模型的偏好而产生具有特定语言风格的更好图像。初步证据显示这两种可能性都存在。用户数据偏好模型的情况引发对进一步训练中重复使用用户数据的担忧，因为提示可能偏向于特定模型的偏好，而不是与人类意图和自然表达方式相一致。

Abstract

Generating images with a text-to-image model often requires multiple trials, where human users iteratively update their prompt based on feedback, namely the output image. Taking inspiration from cognitive work on reference games and dialogue alignment, this paper analyzes the dynamics

text-to-image model iterative interactions prompts convergence user data bias

发现论文，激发创造

批量指导梯度用于提示演化：增强文本到图像综合的系统性提示优化

通过多代理框架和迭代过程，基于高质量的初始查询和动态指令优化的图文生成模型，提供了改进用户输入提示设计的机制。

Jun, 2024

文本到图像生成的提示优化

该研究提出了一种文本生成图像的自适应提示适配框架，该框架使用预训练语言模型进行有监督的微调，再使用强化学习探索更好的提示，通过奖励函数鼓励策略生成更具美感的图像，实验结果表明，自适应提示适配方法优于手动人工优化提示工程，预训练检查点已经公开发布。

Dec, 2022

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

文本到图像模型的最佳提示及其发现方法

本研究使用基因算法，结合人类反馈，学习组合最有用的提示关键字，以改善使用描述生成艺术图像的美感。

Sep, 2022

神经引导：优化文本到图像生成的自适应框架

通过使用预先训练的语言模型生成与人类专家设计相似的提示语，NeuroPrompts 自适应框架可以改善文本到图像模型生成结果的质量，并提供用户对风格特征的控制。研究通过创建一个与 Stable Diffusion 相关的互动应用程序，展示了该框架的实用性。此外，通过利用大型数据集的人工设计提示，在文本到图像生成过程中，自动产生的改进提示可获得更高质量的图像。

Nov, 2023

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

文本到图像生成系统的提示日志分析

最近，大型语言模型和生成式人工智能的出现，释放了文本转图像生成系统惊人的能力，以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录，这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距，并建议我们如何提高这些系统的性能。

Mar, 2023

Promptify: 基于大型语言模型的交互式提示探索文本到图像生成

Promptify 是一个交互式系统，支持文本到图像生成模型的提示探索和细化，它利用大型语言模型提供的建议引擎帮助用户快速探索和构建不同的提示，其反馈循环可以迭代地细化提示并增强所需的特征，从而有效地促进文本到图像工作流程并在用户研究中优于现有的基准工具。

Apr, 2023

无尽索引：基于生成式文本 - 图像模型的信息检索

该研究将生成模型的提示工程重新构想为交互式基于文本的检索，并应用于游戏设计中的图像生成案例研究，并探讨主动学习在产生图像检索中的潜力。

Dec, 2022

稳定扩散提示的嵌入操纵

我们提出并分析了一种直接改变提示嵌入而非提示文本的方法，将生成的文本到图像模型视为一个连续函数，并在图像空间和提示嵌入空间之间传递梯度，通过解决不同的用户交互问题，应用于优化图像空间的度量、在创造性任务中帮助用户导航图像空间以及包含用户在特定种子中看到但难以在提示中描述的信息等三种场景。实验证明了所描述方法的可行性。

Aug, 2023