TediGAN: 基于文本引导的多样化人脸图像生成和操作

CVPRDec, 2020

TediGAN: 基于文本引导的多样化人脸图像生成和操作

TediGAN: Text-Guided Diverse Face Image Generation and Manipulation

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu

TL;DR本文提出 TediGAN 框架，用于多模态图像生成和操作。该方法包括三个组件：StyleGAN 反演模块，视觉 - 语言相似度学习和实例级优化。模型可使用多模态输入生成多样化，分辨率为 1024 的高质量图像，并提出 Multi-Modal CelebA-HQ 数据集以支持文本引导的多模态综合。经过广泛实验，本方法展现出优越性能。

Abstract

In this work, we propose tedigan, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and →

tedigan multi-modal image generation visual-linguistic similarity learning instance-level optimization multi-modal celeba-hq dataset

发现论文，激发创造

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

用户指定内容的条件图像生成与操作

提出了一种单一的文本到图像生成和操纵的流程，其中在我们的流程的第一部分，介绍了 TextStyleGAN 这个在文本上进行训练的模型；第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵，并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵，并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展，其中包含了人脸及相应的文本描述。

May, 2020

基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成

我们提出了一种新的多模态人脸图像生成方法，通过将文本提示和视觉输入转化为逼真的人脸图像，结合了生成对抗网络和扩散模型的优势，并通过简单映射和风格调节网络将两个模型结合起来，将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成对抗网络的翻转，可以生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略，将文本和结构表示反映到生成的图像中。我们的方法生成逼真的 2D、多视图和风格化的人脸图像，并与输入对齐。我们使用预训练的 2D 和 3D 生成对抗网络验证了我们的方法，结果优于现有方法。

May, 2024

循环一致性反向生成对抗网络用于文本到图像合成

本文提出了一种新颖的循环一致性逆向生成对抗网络 (CI-GAN) 框架，用于文本到图像生成和文本引导下的图像操作任务，在该框架中，我们采用循环一致性训练来学习更加稳健一致的潜变量，并通过学习文本表示与潜变量之间的相似度模型，在文本引导的优化模块中生成具有所需语义属性的图像，实验证明该框架具有良好的性能。

Aug, 2021

实体级文本引导图像操作

本文提出了基于文本指导的实体级别真实世界图像操纵方法 SeMani，通过语义对齐和图像操纵两个阶段，使用离散自回归生成和扩散模型连续去噪生成开发了两个版本的生成过程，对 CUB，Oxford 和 COCO 数据集进行了实验验证。

Feb, 2023

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

样式生成：基于粗略匹配的图像合成

使用粗略匹配的文本作为引导，本研究介绍了一种新颖的基于文本的风格生成方法，通过两阶段的生成对抗网络生成与细化图像风格，并通过实验证实了该方法的有效性和实际应用价值。

Sep, 2023

基于文本指导的三维人脸合成 -- 从生成到编辑

通过文本引导的三维人脸合成，从生成到编辑的统一框架，通过解耦生成几何和纹理来提高几何细节的生成效果，并利用生成几何作为纹理生成的条件，进一步提升几何与纹理的一致性结果；通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑，并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改，并提出自导向一致性权重策略以提高编辑效果与保持一致性；通过全面实验展示了该方法在人脸合成方面的优越性。

Dec, 2023

多模态条件下的三维感知图像生成和编辑

本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型，通过纯噪声、文本和参考图像等多种条件输入，在 3D 生成对抗网络（GANs）的潜在空间中深入研究并提出解缠特性较好的生成策略，同时采用统一框架进行灵活的图像生成和编辑任务，实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明，该方法在图像生成和编辑方面在质量和数量上均优于替代方法。

Mar, 2024

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020