使用图像扩散模型进行即时三维人体化身生成

Jun, 2024

使用图像扩散模型进行即时三维人体化身生成

Instant 3D Human Avatar Generation using Image Diffusion Models

Nikos Kolotouros, Thiemo Alldieck, Enric Corona, Eduard Gabriel Bazavan, Cristian Sminchisescu

TL;DR通过 AvatarPopUp 方法，可以从不同输入模态生成快速且高质量的 3D 人体化身，具有对生成的姿势和形状的控制，使用基于扩散的图片生成网络和 3D 提升网络。该方法根据每个特定任务进行精细调优，能够在几秒内生成高质量的 3D 模型，远快于现有大多数方法，可以用于需要大规模控制 3D 生成的人体化身应用。

Abstract

We present avatarpopup, a method for fast, high quality 3D human avatar generation from different input modalities, such as images and text prompts and with control over the generated pose and shape. The common theme is the use of →

avatarpopup 3d human avatar generation diffusion-based image generation networks image conditioning controlled 3d generation

发现论文，激发创造

可塑扩散：单图像化身创造的三维一致扩散

本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中，增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下，生成流水线模型在单图像的新视角合成任务上的性能改进，更重要的是，这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知，我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型；广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。

Jan, 2024

使用文本到图像扩散模型生成带有关节的 3D 头像

本文提出了一种新的基于 3D 可塑模型（3DMM）的文本引导头部生成方法，利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身，以此在一定程度上提高 3D 头部生成的精度和多样性。

Jul, 2023

StyleAvatar3D: 基于图像文本扩散模型实现高保真 3D 头像生成

本文提出了一种新的方法，结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络，用于生成高质量，风格化的 3D 头像，并在视觉质量和多样性方面优于现有最先进的方法。

May, 2023

Human 3Diffusion：透过明确的 3D 一致性扩散模型实现逼真的头像创作

通过构建新的模型，通过将 2D 扩散模型和 3D 重建模型进行紧密耦合，我们可以从单个 RGB 图像中创建逼真的头像，并实现几何和外观上的高保真度。

Jun, 2024

DreamAvatar: 基于扩散模型的文本和形状指导下的 3D 人体化身生成

DreamAvatar 是一个生成高质量、可控制姿态的 3D 人类头像的框架，它使用了可训练的 NeRF 生成 3D 点密度和颜色特征以及预先训练的文本到图像扩散模型提供 2D 自监督。通过 SMPL 模型提供粗略的姿势和形状指导生成，并引入了包含规范空间和观察空间的双重空间设计，它们之间由 NeRF 学习的变形场联系，从规范空间将优化的纹理和几何转移到目标位置头像，添加正常一致性正则化以获得更生动的几何和纹理。经过广泛的评估，证明 DreamAvatar 明显优于现有方法，为文本和形状引导的 3D 人体生成设立了新的技术水准。

Apr, 2023

AvatarBooth：高质量和可定制的 3D 人类化身生成

AvatarBooth 是一种新方法，通过使用文本提示或特定图像生成高质量的 3D 头像，可以从捕捉的面部或身体图像中创建个性化头像，其利用双精度扩散模型控制头部和身体生成，增强了合成头部图像的多视图一致性，实现了高度逼真的头像生成，具有出色的渲染和几何质量。

Jun, 2023

DiffusionAvatars：高保真 3D 头像的延迟扩散

DiffusionAvatars 通过合成高保真度的三维头像人物，提供了对姿态和表情的直观控制。我们提出了一种基于扩散的神经渲染器，利用通用的二维先验生成引人注目的人脸图像。通过从目标视点渲染神经参数头模型（NPHM）对表情和头部姿态进行粗略指导，我们作为人物的代理几何体。此外，为了增强精细面部表情的建模，我们直接在 NPHM 中通过交叉注意力采用从 NPHM 获得的表情代码来调整 DiffusionAvatars。最后，为了在不同视点和表情之间综合一致地细化表面细节，我们通过 NPHM 的规范空间在头部表面上装配可学习的空间特征。我们使用人物的 RGB 视频和相应跟踪的 NPHM 网格对 DiffusionAvatars 进行训练，并在自我重演和动画场景中测试所得到的头像。我们的实验证明，DiffusionAvatars 在生成人物的新姿态和表情的时候能够产生时间上连贯而视觉上有吸引力的视频，优于现有方法。

Nov, 2023

DivAvatar: 利用单个提示生成多样化的 3D 角色模型

Text-to-Avatar generation has made significant progress with DivAvatar, a framework that generates diverse avatars from a single text prompt by fine-tuning a 3D generative model through noise sampling and semantic-aware zoom mechanisms, resulting in avatars of rich and varied appearances.

Feb, 2024

基于文本条件的语境化头像生成用于零样本定制化

本文提出了一个零射击的管道，该管道可以通过捕捉用户的身份以令人愉悦的方式进行头像生成，具有个性化的图像生成特征，此外，作者使用大规模图像数据集学习人类 3D 姿态参数，克服了动作捕捉数据集的局限性。

Apr, 2023

DiffHuman：人体的概率光真实三维重建

DiffHuman 是一种基于概率的方法，通过一个单一的 RGB 图像实现逼真的三维人体重建。与确定性方法不同，DiffHuman 根据二维图像预测三维重建的概率分布，可以生成与图像一致的多个详细的三维人体模型。此外，DiffHuman 还引入了一个生成器神经网络，可以以大幅减少的运行时间进行渲染，从而实现了一种新颖的双分支扩散框架。在实验中，DiffHuman 在重建可见表面方面与现有技术不相上下，并且可以对输入图像中未见或不确定的部分生成多样且详细的重建结果。

Mar, 2024