文本到图像合成中的语义关联对抗学习
本文提出了一种使用自然语言描述直接合成逼真图像的方法,它有很多有用的应用,例如智能图像操作。我们提出了一种端到端的神经架构,利用对抗学习自动学习隐式损失函数,实现语义分离并生成新图像。通过在 Caltech-200 鸟类数据集和 Oxford-102 花卉数据集上进行实验,我们证明了我们的模型能够合成符合描述要求的逼真图像,同时仍保留原始图像的其他特征。
Jul, 2017
该文提出了一种新的文本图像生成模型,使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性,并在 CUB 和 MS-COCO 数据集上展示了其优异性能。
Apr, 2019
使用对比学习方法和两个损失函数(fake-to-fake 和 fake-to-real)来提高文本到图像合成任务中生成图像的语义一致性和精细细节,实验结果在 CUB 数据集上的 AttnGAN 模型和 COCO 数据集上的 Lafite 模型上优于现有方法。
Dec, 2023
本篇论文提出一种基于对比学习方法的文本到图像合成框架,旨在提升合成图像的质量和语义一致性,通过对 pretraining 和 GAN training 阶段进行改进,该方法在两个流行数据集上的实验结果表明,相对于 AttnGAN 和 DM-GAN,能够显著提高合成图像的质量。
Jul, 2021
利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式,将字符转换为像素,有效地将文本和图像建模相结合,从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。
May, 2016
使用条件生成对抗网络(conditional GANs)从语义标签图中合成高分辨率照片般真实的图像,并通过使用新的对抗性损失、多尺度生成器和鉴别器体系结构,生成 2048x1024 的视觉吸引力结果。此外,我们将我们的框架扩展到与两个额外功能的交互式视觉操作,它们是:将对象实例分割信息整合进去以进行对象操作(如删除 / 添加对象和更改对象类别),以及提出一种方法,可以在给定相同输入的情况下,生成不同的结果,允许用户交互式地编辑对象外观。人的意见研究表明,我们的方法在深层图像合成和编辑方面的质量和分辨率方面都显着优于现有方法。
Nov, 2017
通过重新设计辨别器作为语义分割网络,直接使用给定的语义标签映射作为训练的地面实况,通过提供更强的监督和对空间和语义感知的辨别器反馈以及通过向生成器注入 3D 噪声张量进行全局和局部采样,我们能够合成更高保真度的图像,并实现高质量的多模态图像合成。
Dec, 2020
本文提出了一种新颖的方法来生成基于语义图像描述的摄影图像,并通过采用伴随的分层嵌套对抗目标函数进行中层表示规范化及生成器训练来改善图像质量,以及引入新的视觉语义相似度衡量来评估其生成的图像的语义一致性,最终在三个主流数据集上实验验证表明,该方法在各种评估指标上显著优于先前的最先进技术。
Feb, 2018