面部图像生成和操作的开放式文本引导实现
本文提出 TediGAN 框架,用于多模态图像生成和操作。该方法包括三个组件:StyleGAN 反演模块,视觉 - 语言相似度学习和实例级优化。模型可使用多模态输入生成多样化,分辨率为 1024 的高质量图像,并提出 Multi-Modal CelebA-HQ 数据集以支持文本引导的多模态综合。经过广泛实验,本方法展现出优越性能。
Dec, 2020
该论文介绍了一种基于文本或图像的提示(如 “年轻的脸” 或 “惊讶的脸”)来操纵三维生成模型中形态和纹理的方法,利用了对比语言图像预训练模型(CLIP)和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。
Feb, 2022
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
通过引入文本条件,该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020
通过文本引导的三维人脸合成,从生成到编辑的统一框架,通过解耦生成几何和纹理来提高几何细节的生成效果,并利用生成几何作为纹理生成的条件,进一步提升几何与纹理的一致性结果;通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑,并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改,并提出自导向一致性权重策略以提高编辑效果与保持一致性;通过全面实验展示了该方法在人脸合成方面的优越性。
Dec, 2023
本研究提出一种基于 GAN 的多模态图片编辑方法,利用自然语言指令局部修改图片特征,实现对包含多个对象的图像进行编辑,并在三个公共数据集上展示出优异的表现,包括更高的保真度和语义相关性以及更好的图像检索性能。
Aug, 2020
该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题,并提出了一种新的框架用于成对数据增强,以揭示 StyleGAN2 模型的隐藏语义信息。
Jul, 2022
使用粗略匹配的文本作为引导,本研究介绍了一种新颖的基于文本的风格生成方法,通过两阶段的生成对抗网络生成与细化图像风格,并通过实验证实了该方法的有效性和实际应用价值。
Sep, 2023
本文研究了图片到文本和文本到图片生成的联合学习,使用了基于 Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架,实验证明,该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID(37.0→29.9)和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分(100.9%→122.6%)。
Oct, 2021