MagicMirror: 基于受限搜索空间的快速高质量头像生成

Apr, 2024

MagicMirror: 基于受限搜索空间的快速高质量头像生成

MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space

Armand Comas-Massagué, Di Qiu, Menglei Chai, Marcel Bühler, Amit Raj...

TL;DR我们介绍了一个新颖的框架用于 3D 人体头像的生成和个性化，利用文本提示来提高用户参与度和定制性。通过克服面向照片真实感头像合成的挑战，我们的方法的核心创新在于应用条件神经辐射场（NeRF）模型，利用大规模多视角未注释数据集，创造出一个多功能的初始解空间，加速和多样化生成头像。此外，我们开发几何先验，利用文本到图像扩散模型的能力，确保视角不变性，并实现对头像几何的直接优化。这些基础思想结合我们基于变分分数蒸馏（VSD）的优化流程，有效减轻纹理损失和过饱和问题。通过广泛的实验验证，这些策略共同实现了具有无与伦比的视觉质量和更好的符合输入文本提示的定制头像的创建。您可以在我们的网站上找到更多的结果和视频。

Abstract

We introduce a novel framework for 3d human avatar generation and personalization, leveraging text prompts to enhance user engagement and customization. Central to our approach are key innovations aimed at overco

3d human avatar generation text prompts neural radiance fields text-to-image diffusion models variational score distillation

发现论文，激发创造

DreamAvatar: 基于扩散模型的文本和形状指导下的 3D 人体化身生成

DreamAvatar 是一个生成高质量、可控制姿态的 3D 人类头像的框架，它使用了可训练的 NeRF 生成 3D 点密度和颜色特征以及预先训练的文本到图像扩散模型提供 2D 自监督。通过 SMPL 模型提供粗略的姿势和形状指导生成，并引入了包含规范空间和观察空间的双重空间设计，它们之间由 NeRF 学习的变形场联系，从规范空间将优化的纹理和几何转移到目标位置头像，添加正常一致性正则化以获得更生动的几何和纹理。经过广泛的评估，证明 DreamAvatar 明显优于现有方法，为文本和形状引导的 3D 人体生成设立了新的技术水准。

Apr, 2023

AvatarStudio：基于文本的 3D 动态人头像编辑

本文提出了 AvatarStudio—— 一种基于文本的方法，用于编辑动态全头人物角色的外观。该方法与现有的神经辐射场 (NeRF) 捕捉动态表现的工作相结合，并用文本 - 图像扩散模型对其进行编辑。经过我们视觉和数字方面的用户体验后，发现我们的方法优于现有的方法。

Jun, 2023

HAvatar: 基于面部模型调节的高保真头部化身

通过融合传统模型的先验信息和新的神经辐射场模型，我们提出了一种新的混合显示 - 隐式 3D 表示方法，用于建模可动画化的 3D 人头头像。我们的方法实现了高分辨率、逼真且视角一致的动态头部外观综合，达到了与以前方法相比的最先进性能。

Sep, 2023

神经图像化人头像：适用于人类化身建模的通用辐射场

本文提出一种基于稀疏多视图图像的神经图像化头像生成方法，利用了近年来提出的体视图下的神经反射场（NeRF）模型及图像合成技术，提高了新姿势下头像的变形能力和形体形变下姿势生成的只优。

Apr, 2023

ZeroAvatar: 从单张图像生成零样本 3D 头像

本研究提出了一种名为 ZeroAvatar 的方法，它使用人体先验约束来保持更复杂的图形（如人体）的几何形状以及完成不可见部位的纹理修复，并且在优化的图像到 3D 人体生成中表现出色，优于存在的一些零样本图像到 3D 方法。

May, 2023

基于文本指导的合成型 3D 人物生成与编辑

通过使用 3D 面部化身、文本引导生成、组合式化身、NeRF 和虚拟试穿，我们提出了一个新方法（TECA）来创建逼真的 3D 面部化身，同时实现可编辑性和特征转移。

Sep, 2023

BakedAvatar: 实时头像合成的神经场烘焙技术

实时神经头像合成方法 BakedAvatar 可用于 VR/AR、远程呈现和视频游戏应用中，通过提取多层可变形网格和计算表情、姿势和视角相关的外观，将结果烘培为静态贴图以提高栅格化效率，并通过差分栅格化来优化贴图细节，从而在减少推理时间的同时生成与先进方法相当质量的合成结果。

Nov, 2023

基于几何引导文本图像扩散模型的神经辐射场可控三维化身生成

提出了一种可控的文本到三维头像生成方法 Text2Control3D，利用 ControlNet 生成视角感知图像，并通过交叉注意力注入可控的面部表情和外貌，通过高斯潜变量的低通滤波解决了视角不可知纹理问题，以及通过学习图片形变表构建三维头像。

Sep, 2023

使用文本到图像扩散模型生成带有关节的 3D 头像

本文提出了一种新的基于 3D 可塑模型（3DMM）的文本引导头部生成方法，利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身，以此在一定程度上提高 3D 头部生成的精度和多样性。

Jul, 2023

SEEAvatar: 受限几何和外观的照片级文本到 3D 头像生成

使用大规模文本到图像生成模型，我们提出了 SEEAvatar，一种通过自进化约束生成具有真实感的 3D 头像的方法。通过对几何形状进行全局和局部部分的约束，并使用扩散模型和物理渲染管线生成逼真的纹理，我们的方法在全局和局部几何形状和外观质量上都优于以前的方法。

Dec, 2023