现实与幻想的构建:LLM辅助提示解释的现场生成
本文通过分析现有的文本到图像生成模型,发现它们可能存在的主体遗漏及属性捆绑问题,通过介绍“生成语义护理”(GSN)的概念和基于注意力机制的Attend-and-Excite方法,可以在推理过程中实时干预生成过程,大大提高所生成图像的真实性和语义连贯性。
Jan, 2023
该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到3D的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树,提供了一个统一的生成系统,能够适应各种类型的提示并集成领域专家模型,推动了多领域图像合成的边界。
Jan, 2024
提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG,该框架利用多模态LLMs的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。
Jan, 2024
通过使用生成AI进行图像生成,我们收集并分析了超过300万个提示和它们生成的图像,通过自然语言处理、主题分析和可视化方法,我们旨在共同理解人们如何使用文本提示,这些系统对艺术家的影响以及它们所推广的视觉文化。我们的研究表明,提示主要关注表面美学,强化文化规范、流行的传统表达和意象。我们还发现许多用户关注流行的主题(如制作填色书、幻想艺术或圣诞卡片),这表明所分析的系统的主要用途是娱乐而非艺术性。
Jan, 2024
通过介绍一种新的方法,本文研究了如何从单一的文本提示产生具有一致的视觉特征的角色表达,通过定量和定性分析,证明了该方法在生成具有一致视觉特征的角色方面优于现有方法,扩展了艺术和创作表达的可能性。
Jun, 2024
通过引入PhyBench评估数据集,我们评估了6个主要的T2I模型,发现当前的T2I模型主要关注文本到图像翻译,缺乏对物理常识的深入推理;我们提倡对T2I模型内在知识的更多关注,超越它们仅仅作为图像生成工具的实用性。
Jun, 2024
通过引入一种基于扩散的新框架,本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题,通过对不一致现象进行细致分析和分类,并利用先进的语言模型提取对象、构建知识图谱,结合图像生成模型进行了准确一致的图像生成实验。
Jun, 2024