文本到图像生成模型中的构成问题的理解和减轻

Jun, 2024

文本到图像生成模型中的构成问题的理解和减轻

Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models

Arman Zarei, Keivan Rezaei, Samyadeep Basu, Mehrdad Saberi, Mazda Moayeri...

TL;DR通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Abstract

Recent text-to-image diffusion-based generative models have the stunning ability to generate highly detailed and photo-realistic images and achieve state-of-the-art low FID scores on challenging image generation benchmarks. However, one of the primary failure modes of these text-to-image generative models is in composing attributes, objects, and their associ

text-to-image generative models compositionality-based failure mode clip text-encoder compositional scenes linear projection

发现论文，激发创造

ComCLIP: 无须训练的图文组合匹配

本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题，通过将输入图像分解为主题、对象和动作子图像，并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配，从而实现了对差异性语义的建模，提高了 CLIP 的零样本推理能力。

Nov, 2022

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

StyleT2I: 面向复合和高保真的文本到图像合成

本文提出了一种新的框架，StyleT2I，旨在改善文本到图像合成的组合性，并且使用 CLIP 引导的对比损失、语义匹配损失和空间约束等方法来识别属性的潜在方向，从而更好地解开属性的潜在表示，最终获得更好的合成图像的组合性。

Mar, 2022

CLIP 是否绑定概念？探索大型图像模型的组合能力

本文探讨了 CLIP 在合成知识下图像描述的能力，提出了五种计算模型并设计出新的训练算法 CoSI，在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现，结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合，但其无法可靠地绑定特性，对于对象之间的关系无法可靠地学习。

Dec, 2022

在文本图像生成模型中定位和编辑知识

文本到图像扩散模型研究了知识表示和视觉特征，采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的，并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时，发现在公共文本到图像模型中，只存在一个因果状态，这在其他语言模型中是不同的。基于这种观察，引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix，可以在短时间内编辑（删除）模型中的概念，提供了 1000 倍的加速和与现有微调方法相当的编辑性能。

Oct, 2023

通过基于文本的分解解释 CLIP 的图像表示

我们通过分析个别模型组件对最终表示的影响，研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和，并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头，我们确定了每个头的角色，通过自动寻找涵盖其输出空间的文本表示，揭示了许多头的特定角色（如位置或形状）。接下来，通过解释图像块，我们揭示了 CLIP 中的空间定位。最后，我们利用这一理解，从 CLIP 中去除虚假特征，并创建了一个强大的零样本图像分割器。我们的结果表明，可扩展的理解 transformer 模型是可行的，并可用于修复和改进模型。

Oct, 2023

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Mar, 2023

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

分而治之：语言模型可用于规划和自我纠正组合式文本到图像生成

我们提出了 CompAgent，这是一种无需训练的组合文本到图像生成方法，核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性，尤其是在保留对象属性和关系方面，通过先将文本提示分解成独立的对象、属性和场景布局，并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。

Jan, 2024