Sep, 2023

TextCLIP:无对抗训练的文本指导人脸图像生成与操作

TL;DR提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。