文本到图像生成的语义分离

CVPRApr, 2019

Semantics Disentangling for Text-to-Image Generation

Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang...

TL;DR该文提出了一种新的文本图像生成模型，使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性，并在 CUB 和 MS-COCO 数据集上展示了其优异性能。

Abstract

Synthesizing photo-realistic images from text descriptions is a challenging problem. Previous studies have shown remarkable progresses on visual quality of the generated images. In this paper, we consider semantics from the input text descriptions in helping render →

photo-realistic images text-to-image generation semantic consistency semantic diversity visual-semantic embedding

发现论文，激发创造

通过对抗学习进行语义图像合成

本文提出了一种使用自然语言描述直接合成逼真图像的方法，它有很多有用的应用，例如智能图像操作。我们提出了一种端到端的神经架构，利用对抗学习自动学习隐式损失函数，实现语义分离并生成新图像。通过在 Caltech-200 鸟类数据集和 Oxford-102 花卉数据集上进行实验，我们证明了我们的模型能够合成符合描述要求的逼真图像，同时仍保留原始图像的其他特征。

Jul, 2017

文本到图像合成中的语义关联对抗学习

本研究提出了一种新的方法，改进了生成对抗网络（GANs）训练的能力，可以根据文本输入合成多样的图像，这种方法基于条件版本的 GANs，扩展了前人利用判别器中的辅助任务，通过负样本采样来构造积极和消极的训练样例，通过牛津 102 花卉数据集的实验结果表明，生成的图像更具多样性，特别是当负样本逐渐靠近语义空间中的积极样本时。

Dec, 2018

为了正确的收益选择恰当的损失函数：使用分布敏感的损失函数改善深度文本到图像生成的语义一致性

使用对比学习方法和两个损失函数（fake-to-fake 和 fake-to-real）来提高文本到图像合成任务中生成图像的语义一致性和精细细节，实验结果在 CUB 数据集上的 AttnGAN 模型和 COCO 数据集上的 Lafite 模型上优于现有方法。

Dec, 2023

具有语义 - 空间感知的 GAN 图像生成

该论文介绍了一种基于生成式对抗网络的图像生成方法，引入了一种简单有效的语义 - 空间感知块，学习语义自适应变换，并在弱监督方式下学习语义掩膜，从而在保持视觉保真度的同时，能够对输入文本精准对齐。

Apr, 2021

语义绘图工程用于文本到图像的生成

通过生成对抗网络（GAN）或变压器模型进行文本到图像生成。提出了一种方法，利用人工智能模型进行主题创造，并对实际绘画过程进行分类建模。通过将所有视觉元素转化为可量化的数据结构来创建图像，并与现有的图像生成算法进行语义准确性、图像可复现性和计算效率方面的有效性评估。

Dec, 2023

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

层次化文本图像合成的语义布局推断

本文提出一种新的基于语义布局的文本到图像的分层方法，通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成，能够提高图像质量和与输入文本的语义对齐性。

Jan, 2018

具有分层嵌套对抗网络的照片到图像合成

本文提出了一种新颖的方法来生成基于语义图像描述的摄影图像，并通过采用伴随的分层嵌套对抗目标函数进行中层表示规范化及生成器训练来改善图像质量，以及引入新的视觉语义相似度衡量来评估其生成的图像的语义一致性，最终在三个主流数据集上实验验证表明，该方法在各种评估指标上显著优于先前的最先进技术。

Feb, 2018

采用对比学习改进文本生成图像技术

本篇论文提出一种基于对比学习方法的文本到图像合成框架，旨在提升合成图像的质量和语义一致性，通过对 pretraining 和 GAN training 阶段进行改进，该方法在两个流行数据集上的实验结果表明，相对于 AttnGAN 和 DM-GAN，能够显著提高合成图像的质量。

Jul, 2021

学习生成语义布局以实现文本到图像综合中更高的文本 - 图像对应性

通过利用可用的语义布局，我们提出了一种增强文本 - 图像对应关系的新方法。具体而言，我们提出了一种高斯 - 分类扩散过程，同时生成图像和相应的布局对。我们的实验证明，通过训练模型为每个像素生成语义标签，我们可以引导文本 - 图像生成模型意识到不同图像区域的语义，从而达到比现有方法更高的文本 - 图像对应关系。

Aug, 2023