基于文本条件的语境化头像生成用于零样本定制化

Apr, 2023

基于文本条件的语境化头像生成用于零样本定制化

Text-Conditional Contextualized Avatars For Zero-Shot Personalization

Samaneh Azadi, Thomas Hayes, Akbar Shah, Guan Pang, Devi Parikh...

TL;DR本文提出了一个零射击的管道，该管道可以通过捕捉用户的身份以令人愉悦的方式进行头像生成，具有个性化的图像生成特征，此外，作者使用大规模图像数据集学习人类 3D 姿态参数，克服了动作捕捉数据集的局限性。

Abstract

Recent large-scale text-to-image generation models have made significant improvements in the quality, realism, and diversity of the synthesized images and enable users to control the created content through language. However, the →

text-to-image generation personalization avatar text-to-3d pose diffusion model large-scale image datasets

发现论文，激发创造

ZeroAvatar: 从单张图像生成零样本 3D 头像

本研究提出了一种名为 ZeroAvatar 的方法，它使用人体先验约束来保持更复杂的图形（如人体）的几何形状以及完成不可见部位的纹理修复，并且在优化的图像到 3D 人体生成中表现出色，优于存在的一些零样本图像到 3D 方法。

May, 2023

AvatarCLIP: 零样本文本驱动的 3D 头像生成与动画

提出了一种使用自然语言驱动的零样本文本框架 --AvatarCLIP，用于三维头像的生成和动画制作，并利用 CLIP 来监督神经人类的生成，实现了超强的零样本能力。

May, 2022

StyleAvatar3D: 基于图像文本扩散模型实现高保真 3D 头像生成

本文提出了一种新的方法，结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络，用于生成高质量，风格化的 3D 头像，并在视觉质量和多样性方面优于现有最先进的方法。

May, 2023

Text2Avatar：基于编码本驱动的身体可控属性的文本生成三维人体化身

使用 Text2Avatar 生成的 3D 真实风格人物化身，可通过耦合的文本数据生成逼真的 3D 角色模型，从而帮助减少人物建模的成本和时间。

Jan, 2024

使用文本到图像扩散模型生成带有关节的 3D 头像

本文提出了一种新的基于 3D 可塑模型（3DMM）的文本引导头部生成方法，利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身，以此在一定程度上提高 3D 头部生成的精度和多样性。

Jul, 2023

AvatarStudio：高保真和可动画三维头像从文本创建

通过 AvatarStudio 生成高质量的、可动画的 3D 人物头像，首先使用低分辨率的基于 NeRF 的表示进行初步生成，然后结合 SMPL 引导关节活动增加明确的网格表示并支持头像动画和高分辨率渲染，在结果头像中引入基于 DensePose 的 2D 扩散模型以确保视角一致性和姿态可控性，利用 AvatarStudio 可以从文本中生成高质量的头像并具备动态效果，优于之前的方法，并且适用于多模态头像动画和风格引导头像创作等多个应用。

Nov, 2023

AvatarVerse: 高质量 & 稳定的 3D 角色创建系统

从高度定制的文本描述和姿势指导中创建富有表达力、多样化和高质量的 3D 头像是一项具有挑战性的任务。我们提出了 AvatarVerse，一个稳定的流水线，可以仅仅通过文本描述和姿势指导生成富有表达力和高质量的 3D 头像。

Aug, 2023

Guide3D：根据文本和图像指导创建 3D 化身

通过结合文字和图像信息，利用扩散模型，我们开发了一种零样本的三维生成模型，能够合成高分辨率纹理网格，实现了将二维图像直接转化为三维空间的功能。

Aug, 2023

One2Avatar: 少样本用户自适应的生成式隐式头像

使用少量图像创建高质量的个性化头像，通过学习生成模型和 3DMM 锚定的神经辐射场骨干构建先验，实现基于少量输入图像的自动解码，优化 3DMM 拟合和相机校准以改进少样本自适应，开创了创建更高效个性化头像的道路，超越现有最先进的方法。

Feb, 2024

文本和图像帮助下的 3D 头像创造与操作

该论文介绍了一种基于文本或图像的提示（如 “年轻的脸” 或 “惊讶的脸”）来操纵三维生成模型中形态和纹理的方法，利用了对比语言图像预训练模型（CLIP）和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。

Feb, 2022