CVPRMay, 2024

基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成

TL;DR我们提出了一种新的多模态人脸图像生成方法,通过将文本提示和视觉输入转化为逼真的人脸图像,结合了生成对抗网络和扩散模型的优势,并通过简单映射和风格调节网络将两个模型结合起来,将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成对抗网络的翻转,可以生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略,将文本和结构表示反映到生成的图像中。我们的方法生成逼真的 2D、多视图和风格化的人脸图像,并与输入对齐。我们使用预训练的 2D 和 3D 生成对抗网络验证了我们的方法,结果优于现有方法。