面部图像生成和操作的开放式文本引导实现

Apr, 2021

面部图像生成和操作的开放式文本引导实现

Towards Open-World Text-Guided Face Image Generation and Manipulation

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu

TL;DR该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Abstract

The existing text-guided image synthesis methods can only produce limited quality results with at most \mbox{$\text{256}^2$} resolution and the textual instructions are constrained in a small Corpus. In this work, we propose a unified framework for both →

text-guided image synthesis face image generation gan model multi-modal inputs semantic segmentation

发现论文，激发创造

TediGAN: 基于文本引导的多样化人脸图像生成和操作

本文提出 TediGAN 框架，用于多模态图像生成和操作。该方法包括三个组件：StyleGAN 反演模块，视觉 - 语言相似度学习和实例级优化。模型可使用多模态输入生成多样化，分辨率为 1024 的高质量图像，并提出 Multi-Modal CelebA-HQ 数据集以支持文本引导的多模态综合。经过广泛实验，本方法展现出优越性能。

Dec, 2020

文本和图像帮助下的 3D 头像创造与操作

该论文介绍了一种基于文本或图像的提示（如 “年轻的脸” 或 “惊讶的脸”）来操纵三维生成模型中形态和纹理的方法，利用了对比语言图像预训练模型（CLIP）和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。

Feb, 2022

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

用户指定内容的条件图像生成与操作

提出了一种单一的文本到图像生成和操纵的流程，其中在我们的流程的第一部分，介绍了 TextStyleGAN 这个在文本上进行训练的模型；第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵，并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵，并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展，其中包含了人脸及相应的文本描述。

May, 2020

基于文本指导的三维人脸合成 -- 从生成到编辑

通过文本引导的三维人脸合成，从生成到编辑的统一框架，通过解耦生成几何和纹理来提高几何细节的生成效果，并利用生成几何作为纹理生成的条件，进一步提升几何与纹理的一致性结果；通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑，并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改，并提出自导向一致性权重策略以提高编辑效果与保持一致性；通过全面实验展示了该方法在人脸合成方面的优越性。

Dec, 2023

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020

细粒度图像 - 文本检索中的配对交叉模态数据增强

该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题，并提出了一种新的框架用于成对数据增强，以揭示 StyleGAN2 模型的隐藏语义信息。

Jul, 2022

样式生成：基于粗略匹配的图像合成

使用粗略匹配的文本作为引导，本研究介绍了一种新颖的基于文本的风格生成方法，通过两阶段的生成对抗网络生成与细化图像风格，并通过实验证实了该方法的有效性和实际应用价值。

Sep, 2023

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021