协同生成人工智能:在文本到图像生成中集成 GPT-k 以进行高效编辑
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
本论文介绍了一种 Prompt Expansion 框架,它帮助用户生成高质量多样化的图像,通过优化扩展了的文本提示,以便生成更吸引人的图像,并通过人类评估研究证明,使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。
Dec, 2023
通过利用大型语言模型,在文本到图像的生成模型中改善提示 - 图像的一致性,我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度,为构建可靠且强大的文本到图像模型铺平了道路。
Mar, 2024
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释;作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
本研究提出了一种基于迭代文本编辑的数据到文本生成新方法,使用两个先前训练模型 LaserTagger 和 GPT-2,并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。
Nov, 2020
引入了 “Idea to Image” 系统,利用 GPT-4V (Vision) 进行多模态迭代自我精炼,实现自动图像设计与生成。
Oct, 2023
该研究探讨了自动文本生成的领域,从传统确定性方法到现代随机方法,研究了多种技术。通过对贪婪搜索、束搜索、顶 k 采样、顶 p 采样、对比搜索和局部典型搜索的分析,得出了每种方法的优点、缺点和潜在应用。使用多个标准度量评估了每种文本生成方法,并对方法的性能进行了比较研究。最后,还确定了自动文本生成领域的一些未来研究方向。
Apr, 2024
最近,大型语言模型和生成式人工智能的出现,释放了文本转图像生成系统惊人的能力,以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录,这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距,并建议我们如何提高这些系统的性能。
Mar, 2023
本研究通过提出一种交互式文本生成设置,在其中用户通过向系统发出编辑现有文本的命令与系统进行交互,来解决神经文本生成中一次生成的局限性,并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集,使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上,本研究分别从经验和定性分析方面展示了该模型的性能表现。
Oct, 2020