T2CI-GAN:使用生成对抗网络进行文本到压缩图像的生成
利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式,将字符转换为像素,有效地将文本和图像建模相结合,从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。
May, 2016
本文提出 StackGAN,借助生成对抗网络,通过文本生成真实的 256x256 图像,经过两个 GAN 进行图像细节加强和修复,并且引入新的条件增强技术以提高图像多样性和稳定性,并取得了重大进展。
Dec, 2016
该论文介绍了一种基于生成式对抗网络的图像生成方法,引入了一种简单有效的语义 - 空间感知块,学习语义自适应变换,并在弱监督方式下学习语义掩膜,从而在保持视觉保真度的同时,能够对输入文本精准对齐。
Apr, 2021
该论文研究了如何将基于 Billion-scale 数据集预训练的文本到图片生成模型用于图像压缩,并证明这些模型可以在很低的比特率情况下实现比学习压缩器更好的感知和语义保真度。
Jul, 2023
本研究提出一种动态内存生成对抗网络(DM-GAN),用于解决现有文字生成图片方法在生成高质量图像过程中存在的问题。DM-GAN 能够更准确地从文本描述生成图像,其中一个动态内存模块被引入以完善模糊的图像内容,并通过一个内存写入门来选择重要的文本关键信息。实验结果表明,DM-GAN 模型在 Caltech-UCSD 鸟类 200 数据集和 Microsoft COCO 数据集上的性能超越了现有方法。
Apr, 2019
通过生成对抗网络(GAN)或变压器模型进行文本到图像生成。提出了一种方法,利用人工智能模型进行主题创造,并对实际绘画过程进行分类建模。通过将所有视觉元素转化为可量化的数据结构来创建图像,并与现有的图像生成算法进行语义准确性、图像可复现性和计算效率方面的有效性评估。
Dec, 2023
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020
本文提出一种文本适应的生成对抗网络 (TAGAN),用以保留不相关的图片内容,并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器,按照输入的文本进行细粒度属性的独立分类,实现只修改特定区域的图像。经实验验证,该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。
Oct, 2018
该论文提出了一种新颖的可控文本到图像生成对抗网络 (ControlGAN),它能够有效地合成高质量图像并根据自然语言描述控制图像的生成。该方法采用词级空间和通道注意力机制对不同的视觉属性进行分离,并通过词级鉴别器提供细粒度的监督反馈,使生成器能够对特定的视觉属性进行操作。通过大量的实验证明,我们的方法优于现有的最先进技术,并能够通过自然语言描述有效地操作合成图像。
Sep, 2019