学习生成语义布局以实现文本到图像综合中更高的文本 - 图像对应性

ICCVAug, 2023

学习生成语义布局以实现文本到图像综合中更高的文本 - 图像对应性

Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis

Minho Park, Jooyeol Yun, Seunghwan Choi, Jaegul Choo

TL;DR通过利用可用的语义布局，我们提出了一种增强文本 - 图像对应关系的新方法。具体而言，我们提出了一种高斯 - 分类扩散过程，同时生成图像和相应的布局对。我们的实验证明，通过训练模型为每个像素生成语义标签，我们可以引导文本 - 图像生成模型意识到不同图像区域的语义，从而达到比现有方法更高的文本 - 图像对应关系。

Abstract

Existing text-to-image generation approaches have set high standards for photorealism and text-image correspondence, largely benefiting from web-scale text-image datasets, which can include up to 5~billion pairs.

text-to-image generation text-image correspondence web-scale datasets semantic layouts gaussian-categorical diffusion process

发现论文，激发创造

层次化文本图像合成的语义布局推断

本文提出一种新的基于语义布局的文本到图像的分层方法，通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成，能够提高图像质量和与输入文本的语义对齐性。

Jan, 2018

LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

细粒度图像 - 文本检索中的配对交叉模态数据增强

该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题，并提出了一种新的框架用于成对数据增强，以揭示 StyleGAN2 模型的隐藏语义信息。

Jul, 2022

使用稳定扩散进行无监督语义对应

本论文提出了一种新的利用语义知识的图像生成方法，通过优化模型中的提示值，可以实现在多张图片中寻找相同语义意义的位置，可以在多个数据集上达到最先进的性能。

May, 2023

文本到图像生成的语义分离

该文提出了一种新的文本图像生成模型，使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性，并在 CUB 和 MS-COCO 数据集上展示了其优异性能。

Apr, 2019

为了正确的收益选择恰当的损失函数：使用分布敏感的损失函数改善深度文本到图像生成的语义一致性

使用对比学习方法和两个损失函数（fake-to-fake 和 fake-to-real）来提高文本到图像合成任务中生成图像的语义一致性和精细细节，实验结果在 CUB 数据集上的 AttnGAN 模型和 COCO 数据集上的 Lafite 模型上优于现有方法。

Dec, 2023

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

超越生成：利用文本至图像模型进行对象检测和分割

通过使用文本到图像合成框架（如 DALL-E、稳定扩散等），我们提出了一种新的范式，以自动产生具有准确标签的训练数据。该方法将训练数据生成分解为前景物体生成和上下文一致的背景生成部分，并演示了在五个物体检测和分割数据集上使用我们方法生成的合成数据用于训练可以产生与使用真实数据训练的模型性能相媲美甚至更好的目标检测器。

Sep, 2023

文本到图像合成中的语义关联对抗学习

本研究提出了一种新的方法，改进了生成对抗网络（GANs）训练的能力，可以根据文本输入合成多样的图像，这种方法基于条件版本的 GANs，扩展了前人利用判别器中的辅助任务，通过负样本采样来构造积极和消极的训练样例，通过牛津 102 花卉数据集的实验结果表明，生成的图像更具多样性，特别是当负样本逐渐靠近语义空间中的积极样本时。

Dec, 2018

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018