基于连续语言指令的图像生成和修改

Nov, 2018

基于连续语言指令的图像生成和修改

Keep Drawing It: Iterative language-based image generation and editing

Alaaeldin El-Nouby, Shikhar Sharma, Hannes Schulz, Devon Hjelm, Layla El Asri...

TL;DR本文提出了一种基于递归模型的图像生成方法，可以根据过去的指令以及当前的反馈生成背景，添加新对象，并对现有对象进行简单的变换，这是交互式生成的一个重要步骤。

Abstract

conditional text-to-image generation approaches commonly focus on generating a single image in a single step. One practical extension beyond one-step generation is an interactive system that generates an image iteratively, conditioned on ongoing linguistic input / feedback. This is sig

发现论文，激发创造

Muse: 通过Masked生成变压器实现文本到图像生成

Muse是一种基于遮蔽建模任务在离散令牌空间中训练的文本到图像Transformer模型，借助预训练的大型语言模型，实现了高度还原原始文本意图的图像生成能力，同时也能够直接应用于图像编辑等任务。

Jan, 2023

从自然语言到可验证图像生成的视觉属性转移

本研究提出一种自然语言到有效图像生成（NL2VI）的方法，将自然提示转换为更适合图像生成的可视提示。通过实验，将自然提示与图像生成对齐可以提高生成图像的一致性，尤其在烹饪和DIY等领域具有广泛的推广和应用。

May, 2023

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释/可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen将T2I生成拆分成三个步骤，使用LM控制前两个步骤，并提供更强的空间控制；VPEval是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023

逐步文本到图像生成的序贯语义生成通信

该论文提出了一种新的通信系统框架，利用多模式生成模型的优势生成有前途的代沟能力。我们的主要研究方向是基于图像到文本转换和顺序传输单词令牌的通信系统设计，旨在为实际通信系统利用最先进的生成模型铺平新的道路。

Sep, 2023

ObjectComposer: 一致生成多个对象而无需进行微调

现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难，本论文介绍了一种名为ObjectComposer的方法，通过不修改底层模型的权重，训练了一种无需fine-tuning的方法，可一次生成多个特定对象的组合。

Oct, 2023

LLM蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

为实际手动任务生成连贯的视觉插图序列

通过将潜在扩散模型与大型语言模型结合，我们提出了一种生成一致图像序列的方法，用于配合多步骤的指南，并在人类参与实验中被46.6%的人选择为最佳方法，同时自动评价指标表明该方法在两个领域中能够维持语义连贯性和视觉一致性。

May, 2024

连贯的零射视觉指令生成

该论文提出了一种简单的、无需训练的框架，通过整合文本理解和图像生成，解决了在生成视觉指令中保持物体的一致性和平滑状态转换的问题，实验证明该方法可以生成一致且具有视觉吸引力的指令。

Jun, 2024

一种统一的框架用于整合LLMs、知识图谱和可控扩散模型的一致性图像生成（PCIG）

通过引入一种基于扩散的新框架，本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题，通过对不一致现象进行细致分析和分类，并利用先进的语言模型提取对象、构建知识图谱，结合图像生成模型进行了准确一致的图像生成实验。

Jun, 2024