VLOGGER: 身体化头像合成的多模态扩散

Mar, 2024

VLOGGER: 身体化头像合成的多模态扩散

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck...

TL;DR提出了一种名为 VLOGGER 的从单个人物输入图像进行音频驱动的人体视频生成方法，该方法通过扩展最新的扩散生成模型，在人体到 3D 动作扩散模型和扩散式架构两方面加入空间和时间控制，实现了通过高层人脸和身体表征对可变长度的高质量视频生成的支持。使用新的且更大规模（800,000 个身份）的 MENTOR 数据集，训练并评估了主要技术贡献，VLOGGER 在图像质量、身份保持、时间一致性以及生成上半身手势等方面都优于现有的最先进方法，并展示了在视频编辑和个性化方面的应用。

Abstract

We propose vlogger, a method for audio-driven human video generation from a single input image of a person, which builds on the success of recent generative →

vlogger audio-driven human video generation diffusion models text-to-image models mentor dataset

发现论文，激发创造

记录生活：实现你的 Vlog 梦想

我们提出了 Vlogger，一个通用的人工智能系统，用于生成用户描述的分钟级视频博客。通过智能地利用大型语言模型作为导演，我们将视频生成任务分解为四个关键阶段，通过顶级规划和底层拍摄的合作，以模拟人类生成 vlogs。此外，我们引入了一种新颖的视频传播模型 ShowMaker，用于生成每个拍摄场景的视频片段，并通过引入文本和视觉提示来提高片段的时空一致性。实验证明，我们的方法在零样本 T2V 生成和预测任务上达到了最先进的性能，并且 Vlogger 能够从开放世界描述中生成超过 5 分钟的 vlogs，且在脚本和演员方面保持了视频的连贯性。

Jan, 2024

可塑扩散：单图像化身创造的三维一致扩散

本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中，增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下，生成流水线模型在单图像的新视角合成任务上的性能改进，更重要的是，这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知，我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型；广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。

Jan, 2024

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

魔法化身：多模态化身生成与动画

MagicAvatar 是一种用于多模态视频生成和人体化身动画的框架，通过将动作明确分离为两个阶段：多模态到动作转换和动作到视频生成，在提供的人物图像的基础上能够实现简单的人物动画和根据第一阶段产生的具体动作实现特定身份的人物动画。

Aug, 2023

使用文本到图像扩散模型生成带有关节的 3D 头像

本文提出了一种新的基于 3D 可塑模型（3DMM）的文本引导头部生成方法，利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身，以此在一定程度上提高 3D 头部生成的精度和多样性。

Jul, 2023

DualTalker: 语音驱动的三维面部动画的跨模态双重学习方法

通过交叉模态的双学习框架和辅助的模态一致性损失，提高数据使用效率、关联交叉模态的依赖关系，并增强微妙面部表情动力学的映射，从而在语音驱动三维面部动画中提高性能。

Nov, 2023

StyleAvatar3D: 基于图像文本扩散模型实现高保真 3D 头像生成

本文提出了一种新的方法，结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络，用于生成高质量，风格化的 3D 头像，并在视觉质量和多样性方面优于现有最先进的方法。

May, 2023

舞动的阿凡达：基于姿势和文本引导的人体动作视频合成与图像扩散模型

提出了一种名为 “Dancing Avatar” 的方法，通过文本和姿势驱动，利用训练良好的 T2I 扩散模型生成逐帧人体运动视频，同时保持上下文相关性、人物外观一致性和背景连续性，实现生成具有出色质量的人类视频。

Aug, 2023

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023

基于视频的神经头像动画

使用视频驱动的动画模型，通过 LSTM 神经网络将人对应的表情特征转化为个性化的人物动画参数，从而实现了从视频输入中实现独立于个体的动画。

Mar, 2024