文盲 DALL-E 学习创作

ICLROct, 2021

Illiterate DALL-E Learns to Compose

Gautam Singh, Fei Deng, Sungjin Ahn

TL;DR本文介绍了一种结合了 DALL-E 的构成性和 Slot Attention 模型的目标 - 中心表示模型的自动编码架构，名为 SLATE，可以在没有文本的情况下进行系统化的泛化，该模型基于 Image GPT 解码器，可以用于处理图像，实验结果表明，相较于混合解码器模型，该模型在内态和外态图像生成方面有着显著提高，并且具有与混合解码器模型相当或更好的感知机制结构。

Abstract

Although dall-e has shown an impressive ability of composition-based systematic generalization in image generation, it requires the dataset of text-image pairs and the compositionality is provided by the text. In contrast, object-centric representation models like the →

dall-e slot attention model zero-shot generation slate object-centric representations

发现论文，激发创造

用于文本到图像扩散模型的零样本空间布局调节

使用文本生成图像的方法已显著提高了生成图像建模的状态，通过结合自然语言界面和空间控制，在本文中，我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题，并提出了 ZestGuide，这是一种零 - shot 分割指导方法，可插入预先训练的文本到图像扩散模型中，我们的实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量，而在 COCO 数据集上，我们的结果比 Paint with Words 更好。

Jun, 2023

零样本文本到图像生成

本文介绍了一种基于 transformer 的 autoregressive 的文本 - 图像生成方法，其与以往的一些领域特定模型相比，具有更好的尺度和零样本表现。

Feb, 2021

零样本开放词汇分割的扩散模型

本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法，通过考虑采样的图像的背景来更好地定位对象并直接分割背景，并证明该方法可以在多个基准测试中表现出色，在 Pascal VOC 基准测试上领先了超过 10%。

Jun, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

分而治之：语言模型可用于规划和自我纠正组合式文本到图像生成

我们提出了 CompAgent，这是一种无需训练的组合文本到图像生成方法，核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性，尤其是在保留对象属性和关系方面，通过先将文本提示分解成独立的对象、属性和场景布局，并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。

Jan, 2024

零样本数据到文本生成的神经管线

本文利用预处理语言模型进行通用领域训练，使用由维基百科构建的 WikiFluent 数据集，在 WebNLG 和 E2E 数据集上进行实验证明，使用单个项目描述生成 D2T 是可行的，且可以从 RDF 三元组中完成零 - shot D2T 生成。

Mar, 2022

超越生成：利用文本至图像模型进行对象检测和分割

通过使用文本到图像合成框架（如 DALL-E、稳定扩散等），我们提出了一种新的范式，以自动产生具有准确标签的训练数据。该方法将训练数据生成分解为前景物体生成和上下文一致的背景生成部分，并演示了在五个物体检测和分割数据集上使用我们方法生成的合成数据用于训练可以产生与使用真实数据训练的模型性能相媲美甚至更好的目标检测器。

Sep, 2023

连贯的零射视觉指令生成

该论文提出了一种简单的、无需训练的框架，通过整合文本理解和图像生成，解决了在生成视觉指令中保持物体的一致性和平滑状态转换的问题，实验证明该方法可以生成一致且具有视觉吸引力的指令。

Jun, 2024

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022