文本到图像生成的提示修饰符分类
通过综合分析基础提示、修饰词和顺序对 AI 文本生成模型进行的研究,揭示了稳定扩散、DALL-E 3 和 Adobe Firefly 等领先的文本到图像模型中社会偏见的微妙编码方式,从而推动了 AI 伦理学的发展并为控制偏见的未来研究提供了新的框架。
Jun, 2024
最近,大型语言模型和生成式人工智能的出现,释放了文本转图像生成系统惊人的能力,以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录,这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距,并建议我们如何提高这些系统的性能。
Mar, 2023
通过建立提示的结构化理解,本文通过整理提示技术的分类法和分析其使用,提供了 33 个词汇术语、58 种文本提示技术以及 40 种其他模态的技术,还对自然语言前缀提示的整个文献进行了元分析。
Jun, 2024
本论文介绍了一种 Prompt Expansion 框架,它帮助用户生成高质量多样化的图像,通过优化扩展了的文本提示,以便生成更吸引人的图像,并通过人类评估研究证明,使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。
Dec, 2023
开发有效的提示对于生成高质量图像的强大能力具有挑战性,因此本研究提出了 PromptMagician,一个视觉分析系统,通过推荐模型和多层次可视化来帮助用户探索和优化生成图像的输入提示。研究通过用户研究和专家访谈证明了该系统的有效性和可用性,从而改善生成图文模型的创造力支持。
Jul, 2023
Promptify 是一个交互式系统,支持文本到图像生成模型的提示探索和细化,它利用大型语言模型提供的建议引擎帮助用户快速探索和构建不同的提示,其反馈循环可以迭代地细化提示并增强所需的特征,从而有效地促进文本到图像工作流程并在用户研究中优于现有的基准工具。
Apr, 2023
本文提出了两种基于提示生成框架的简单而有效的方法,以改善基于文本的图像编辑过程中用户工程的问题,并通过定性和定量实验证明了提示在基于文本的图像编辑中的重要性以及我们的方法可以与基于参考的提示相媲美。
Jun, 2023
论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系,并相应地提出了一种简单而有效的方法,通过图像字幕和类名来提示生成模型,从而合成更具信息性和多样性的训练数据。实验证明,该方法显着提高了在合成训练数据上训练的模型的表现。
Jul, 2023
本文提出了一种方法,用户只需提供每个定制主题的图像和文本,而不需要提供多张图像,通过引入 “多模态提示” 概念,将文本和图像相结合,简化用户交互,实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。
May, 2024