完美无误：改进文本到图像模型中的空间一致性

Apr, 2024

完美无误：改进文本到图像模型中的空间一致性

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh...

TL;DR当前文本到图像模型在生成空间关系时存在问题，本文通过创建新的数据集 SPRIGHT 和优化训练方法，提高了空间一致性，并为进一步研究提供了数据集和模型。

Abstract

One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. Fir

text-to-image models spatial relationships vision-language datasets spright dataset fine-tuning

发现论文，激发创造

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成 (T2I)，研究其中的空间理解能力，并提出了一个评估指标 VISOR，并引入一个大规模的数据集 SR2D 以及自动化评估管道，对 T2I 模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持 T2I 空间推理研究。

Dec, 2022

通过自动派生的数据集改进文本到图像生成中的显式空间关系

现有文献观察到当前的文本到图像系统不能准确反映物体之间的显式空间关系，我们假设这是因为训练这些模型的图像标题很少包含显式空间关系。为此，我们提出了一种自动方法，给定现有图像生成包含 14 种显式空间关系的合成标题。我们引入了 Spatial Relation for Generation (SR4G) 数据集，其中包含 990 万个图像标题对进行训练，并且包含超过 6 万个用于评估的标题。为了测试泛化性能，我们还提供了一个 ' 未见过 ' 的分割，其中训练和测试标题中的对象集是不相交的。SR4G 是首个可以用于空间微调文本到图像系统的数据集。我们显示微调两个不同的稳定扩散模型（称为 SD$_{SR4G}$）可以使 VISOR 指标提升高达 9 个点。改进结果在 ' 未见过 ' 的分割中依然有效，表明 SD$_{SR4G}$ 可以推广到未见过的对象。SD$_{SR4G}$ 通过更少的参数改进了最先进的方法，并避免了复杂的架构。我们的分析显示改进对于所有关系都是一致的。数据集和代码将公开提供。

Mar, 2024

通过自动提示优化提升文本到图像的一致性

通过利用大型语言模型，在文本到图像的生成模型中改善提示 - 图像的一致性，我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度，为构建可靠且强大的文本到图像模型铺平了道路。

Mar, 2024

具有语义 - 空间感知的 GAN 图像生成

该论文介绍了一种基于生成式对抗网络的图像生成方法，引入了一种简单有效的语义 - 空间感知块，学习语义自适应变换，并在弱监督方式下学习语义掩膜，从而在保持视觉保真度的同时，能够对输入文本精准对齐。

Apr, 2021

用于文本到图像扩散模型的零样本空间布局调节

使用文本生成图像的方法已显著提高了生成图像建模的状态，通过结合自然语言界面和空间控制，在本文中，我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题，并提出了 ZestGuide，这是一种零 - shot 分割指导方法，可插入预先训练的文本到图像扩散模型中，我们的实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量，而在 COCO 数据集上，我们的结果比 Paint with Words 更好。

Jun, 2023

SpaText: 控制型图像生成的空间文本表示

该论文提出了一种使用开放词汇场景控制的文本到图像生成方法 SpaText，基于 CLIP 的空间 - 文本表示方法，通过支持自由形式的自然语言描述的感兴趣区域的分割图来控制场景的布局和不同区域对象的形状。此外，该论文还提供了几种自动评估指标，并使用它们以及 FID 指标和用户研究来评估其方法，在具有自由形式文本场景控制的图像生成方面实现了最先进的结果。

Nov, 2022

基于直接一致性优化的文本到图像个性化

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标，称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力，并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后，我们强调必须使用详尽的标题作为参考图像，以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面（this https URL）中找到。

Feb, 2024

视觉空间描述：受控的空间定向图像到文本生成

提出了一种名为 VSD 的新的图像与文本方向，其着眼于空间语义，通过使用 VL-BART 和 VL-T5 作为支撑，构建了几个基准编码 - 解码模型，并在我们的基准测试集上进行实验，结果显示我们的模型性能令人印象深刻。同时 VSRC 将会有巨大的潜力，而联合端到端架构是更好的选择。

Oct, 2022

卫星字幕：大规模语言模型助力标注

通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Dec, 2023

VersaT2I：利用多功能奖励改进文本到图像模型

最近的文本到图像 (T2I) 模型在大规模和高质量数据的帮助下，展现出令人印象深刻的性能，然而，这些 T2I 模型在生成具有美感、几何精确、忠实于文本和具有良好低级质量的图像方面仍然存在困难。我们提出了 VersaT2I，这是一个多功能的训练框架，可以通过多个奖励机制提高任何 T2I 模型的性能。我们将图像的质量分解为几个方面，例如美学、文本 - 图像对齐、几何、低级质量等。然后，对于每个质量方面，我们选择模型生成的该方面的高质量图像作为训练集，使用低秩自适应 (LoRA) 来微调 T2I 模型。此外，我们引入了一个门控函数，用于结合多个质量方面，以避免不同质量方面之间的冲突。我们的方法易于扩展，不需要任何手动注释、强化学习或模型架构更改。大量实验证明，VersaT2I 在各种质量标准上优于基线方法。

Mar, 2024