文本和图像帮助下的 3D 头像创造与操作

Feb, 2022

文本和图像帮助下的 3D 头像创造与操作

Text and Image Guided 3D Avatar Generation and Manipulation

Zehranaz Canfes, M. Furkan Atasoy, Alara Dirik, Pinar Yanardag

TL;DR该论文介绍了一种基于文本或图像的提示（如 “年轻的脸” 或 “惊讶的脸”）来操纵三维生成模型中形态和纹理的方法，利用了对比语言图像预训练模型（CLIP）和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。

Abstract

The manipulation of latent space has recently become an interesting topic in the field of generative models. Recent research shows that latent directions can be used to manipulate images towards certain attributes. However, controlling the generation process of 3D →

latent space manipulation generative models 3d manipulation clip model fully differentiable rendering pipeline

发现论文，激发创造

ChatFace: 通过扩散潜空间操作实现聊天引导的真实人脸编辑

提出了基于扩散模型的文本驱动实际面部图像编辑方法，并通过 ChatFace 交互式系统实现了精确的零样本和多属性操纵。

May, 2023

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

使用文本到图像扩散模型生成带有关节的 3D 头像

本文提出了一种新的基于 3D 可塑模型（3DMM）的文本引导头部生成方法，利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身，以此在一定程度上提高 3D 头部生成的精度和多样性。

Jul, 2023

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

MaGRITTe: 图像、鸟瞰与文本的操控和生成 3D 实现

使用部分图像、顶视图的布局信息和文本提示来控制和生成多模态条件下的 3D 场景，通过预训练的文本到图像模型微调，以及布局条件的深度估计和神经辐射场（NeRF），实现从给定条件生成 2D 图像和从 2D 图像生成 3D 场景，避免创建庞大的数据集，得到了定性和定量的实验结果，证明了该方法能够根据多模态条件生成多领域的 3D 场景。

Mar, 2024

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

FEAT: 带有注意力机制的人脸编辑

本文介绍了一种基于 StyleGAN 生成器和学习到的注意力图的方法，通过在编辑图像时使用注意力图作为掩蔽层，同时使用 CLIP 算法来引导潜空间的编辑，实现对面部局部区域的控制性编辑。实验结果表明，与其他替代方法相比，我们的方法可以实现非常可控的面部区域编辑，具有更好的性能。

Feb, 2022

利用潜空间操纵优化 CAD 模型

该研究论文研究了如何利用 StyleCLIP 和神经网络技术来对 CAD 模型进行自动化相关特性的优化，扩展了 StyleCLIP 的能力以适用三维 CAD 模型，从而利用未标记的 CAD 数据量实现设计优化。

Mar, 2023

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023

AvatarMMC: 三维头像生成和编辑，多模态条件下

我们介绍了一种基于 3D 生成对抗网络（GAN）和潜在扩散模型（LDM）的多模态条件的 3D 头像生成和编辑方法。我们的方法可以根据混合控制信号（例如 RGB 输入，分割掩模和全局属性）生成和编辑 3D 头像，从而在全局和局部方面提供对合成头像的更好控制。

Feb, 2024