基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成

CVPRMay, 2024

基于扩散驱动的 GAN 反向传递用于多模态人脸图像生成

Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation

Jihyun Kim, Changjae Oh, Hoseok Do, Soohyun Kim, Kwanghoon Sohn

TL;DR我们提出了一种新的多模态人脸图像生成方法，通过将文本提示和视觉输入转化为逼真的人脸图像，结合了生成对抗网络和扩散模型的优势，并通过简单映射和风格调节网络将两个模型结合起来，将特征图和注意力图中的有意义的表示转化为潜空间编码。使用预训练的生成对抗网络的翻转，可以生成 2D 或 3D 感知的面部图像。我们进一步提出了一种多步骤训练策略，将文本和结构表示反映到生成的图像中。我们的方法生成逼真的 2D、多视图和风格化的人脸图像，并与输入对齐。我们使用预训练的 2D 和 3D 生成对抗网络验证了我们的方法，结果优于现有方法。

Abstract

We present a new multi-modal face image generation method that converts a text prompt and a visual input, such as a semantic mask or scribble map, into a photo-realistic face image. To do this, we combine the strengths of Generative Adversarial networks (GANs) and →

multi-modal face image generation generative adversarial networks diffusion models latent codes realistic 2d and 3d face images

发现论文，激发创造

基于伪多视角优化的高保真三维 GAN 反演

提出了一种高保真的三维对抗生成网络，可以在保留输入图像的特定细节的同时合成逼真的新视图。该方法通过伪多视图估计和能见度分析建立，有效解决了三维反演中的几何纹理平衡问题，并成功实现了单张图像的高保真三维重建和新视图合成。并且本方法亦适用于图像属性编辑和 3D 纹理修改，因此有望被广泛应用于人工智能生成的三维内容领域。

Nov, 2022

多视角反演的三维感知生成对抗网络

当前针对人头的 3D GAN 反演方法通常只使用一个正面图像来重建整个 3D 头部模型，从而忽略了多视角数据或动态视频时的有意义信息。本研究基于现有先进的 3D GAN 反演技术，允许一致且同时地反演同一主体的多个视角。我们采用多潜变量扩展来处理动态人脸视频中的不一致性，从而从序列中重新合成一致的 3D 表示。由于我们的方法使用了有关目标主体的额外信息，我们观察到在几何精度和图像质量方面显著提高，尤其是在宽视角下的渲染。此外，我们展示了反演 3D 渲染的可编辑性，这使它们与基于 NeRF 的场景重建有所区别。

Dec, 2023

InvertAvatar：用于广义头像的增量 GAN 反演

提出了一种新颖的框架，增量 3D GAN 逆转，通过增加逆转质量随帧数增加来提高数字头像重建性能，引入了一个带有两个关键修改的唯一可动画的 3D GAN 先验，以及一种基于 UV 参数化对纹理特征空间进行分类的创新神经纹理编码器。

Dec, 2023

稳健的 GAN 倒置

通过在本身潜在空间中调节生成器网络来恢复缺失的图像细节，我们的方法在重建质量和计算效率方面优于传统方法，具有更低的失真和 4 倍少的参数数量。

Aug, 2023

JoIN: 联合 GAN 逆向用于固有图像分解

该研究提出使用 GAN 作为先验来解决不适定的反演成像问题，并将方法应用于面部和材料的固有图像分解。该方法建立在 GAN 成功捕捉复杂图像分布的基础上，并展示了通过逆转多个 GAN 来维持分布先前的可能性，其是模块化的，可以成功地分解合成和真实图像，并利用 GAN 潜在空间的属性，提供了额外的优势，如图像重照。

May, 2023

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023

GAN 反演的多样修复和编辑

利用样式生成对抗网络（StyleGAN）的潜在空间，将真实图像反转并通过语义丰富的特征表示进行多项编辑，进一步扩展到将被擦除的图像反转到 GAN 的潜在空间中进行逼真修复和编辑的更为困难的任务，通过将反转的潜在编码与随机样本的 StyleGAN 映射特征组合，通过训练编码器和混合网络，利用生成的数据来鼓励混合网络同时利用两个输入，并利用高速特征来防止修复部分与未被擦除部分的颜色不一致，并通过与先进的反转和修复方法进行实验和对比，定量指标和视觉比较显示出显著的改进。

Jul, 2023

三维 GAN 反演的元辅网络

该文章提出了一种新的元辅助框架，利用新开发的 3D GANs 作为生成器，在两个阶段中利用辅助网络来编辑输入图像，实现更好的 GAN 反演和图像编辑性能。

May, 2023

针对忠实重建和可编辑性的领域内 GAN 逆转

通过在原始潜在空间中规范反转代码，本研究提出了领域指导编码器和领域正则化优化器，以满足对图像编辑应用的需求，实现了广泛的编辑功能。

Sep, 2023

3D-FM GAN: 面部三维可控制变化

提出了一种新的 3D 可控脸部操作方法：3D-FM GAN，通过将输入脸部图像和 3D 编辑的真实渲染相结合，可以提供高质量、身份保留、3D 可控的脸部操作，相较于现有技术，具有更好的可编辑性、更强的身份保护和更高的照片逼真度。

Aug, 2022