情绪增强的多模一次拍摄头像

Apr, 2024

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

Nikita Drobyshev, Antoni Bigata Casademunt, Konstantinos Vougioukas, Zoe Landgraf, Stavros Petridis...

TL;DR我们对 MegaPortraits 模型进行了深入的检查和评估，重点关注其用于面部表情描述符的潜在空间，并发现了其表达强烈面部动作能力的几个局限。为解决这些限制，我们提出了针对训练流程和模型架构的重大改进，推出了我们的 EMOPortraits 模型。该模型增强了对于真实支持强烈非对称面部表情的能力，在情感转移任务中取得了新的技术水平，在指标和质量方面超越了以往的方法。此外，我们将语音驱动模式融入模型，实现了在音频驱动的面部动画中的顶级性能，使得通过不同的模态，包括视觉信号、音频或两者的混合驱动源标识成为可能。还提出了一个新颖的多视角视频数据集，包括广泛范围的强烈非对称面部表情，填补了现有数据集中这类数据的空白。

Abstract

head avatars animated by visual signals have gained popularity, particularly in cross-driving synthesis where the driver differs from the

head avatars visual signals cross-driving synthesis latent space facial expressions

发现论文，激发创造

音频驱动的情感视频肖像

本文提出一种称为情感视频肖像 (EVP) 的系统，通过 Cross-Reconstructed Emotion Disentanglement 技术来将语音分解为情感和内容空间并提取二维情感面部特征，然后通过 Target-Adaptive Face Synthesis 技术来生成高质量的情感动态视频人像，该方法在定性和定量实验中均表现出良好的效果。

Apr, 2021

MegaPortraits：一次性百万像素神经头像

本文提出了一种新的神经头像技术，可以以百万像素分辨率完成跨驱动综合任务，其基于新的神经结构和训练方法，可以同时利用中等分辨率视频数据和高分辨率图像数据来生成高质量的头像。通过实验证明，该技术在跨驱动方案中性能更好，并可在实时操作中锁定神经头像的身份，适用于实际应用场景。

Jul, 2022

EMO: 表情肖像的生命之躍 - 在弱條件下使用 Audio2Video 擴散模型生成有表情的肖像視頻

在这项工作中，我们通过关注音频线索和面部动作之间的动态和微妙关系，解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性，常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题，我们提出了 EMO，这是一个新颖的框架，利用直接的音频到视频合成方法，绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护，从而产生高度表现力和逼真的动画。实验结果表明，EMO 不仅能够产生令人信服的说话视频，还能以各种风格生成唱歌视频，其在表现力和逼真度方面明显优于现有最先进的方法学。

Feb, 2024

情感演讲驱动的动画，包含内容 - 情感解缠技术

为了实现面部三维动画的情感表达和语音的同步，研究者开发了一种名为 EMOTE 的系统，它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情，同时维持与语音同步且具有完全的情感表达。

Jun, 2023

Emo-Avatar: 通过纹理渲染实现高效的单目视频风格化头像

艺术视频肖像生成是计算机图形学和视觉领域中一个重要且受追捧的任务。针对现有方法所面临的大样本数据集、定制过程繁琐和图像质量下降等挑战，我们提出了一种名为 Emo-Avatar 的高效单调视频风格化头像生成方法，利用延迟神经渲染技术增强 StyleGAN 生成动态的可驾驶肖像视频的能力。该方法通过两阶段的延迟神经渲染流程，结合 PIT 初始化和拉普拉斯金字塔纹理采样等技术，实现了对风格化肖像视频的快速生成和编辑，具有比现有方法更高的训练效率、渲染质量和可编辑性。

Feb, 2024

X-Portrait: 表情丰富的分层动作关注人像动画

我们提出了 X-Portrait，一种创新的条件扩散模型，专门用于生成富有表现力且时间连贯的肖像动画。

Mar, 2024

通用单次神经头像模拟

该研究提出了一种通过对单视角幅面图像进行重建和动画化的三维头像，通过三个三角面分别捕捉源图像的粗略三维几何，详细外观以及目标图像的表情实现，再通过超分辨率模块的渲染进行填充并通过单向传递网络的高效性进行动画。实验表明，该方法在重建和动画方面优于当前最先进的基线方法，并且对新的验证数据集有很好的泛化能力。

Jun, 2023

OPHAvatars: 一次成像逼真的头像

我们提出了一种从只有一个肖像作为参考的照片逼真数字化头像的合成方法。该方法使用驱动关键点特征合成粗糙的说话头视频。使用粗糙视频，该方法使用变形神经辐射场合成粗糙的说话头头像。通过渲染粗糙头像的图像，该方法使用盲目人脸修复模型更新低质量图像。通过更新后的图像，我们重新训练以获得更高质量的头像。经过几轮迭代，我们的方法可以合成逼真的可动画的 3D 神经头像。我们的方法通过在各种主题上进行定量和定性研究超越了最先进的方法。

Jul, 2023

EmoTalker: 通过扩散模型生成情感可编辑的说话脸部

提出了基于扩散模型的 EmoTalker 方法，该方法能够在生成高质量的、可定制的面部表情时，保留原始肖像的身份特征，通过引入 Emotion Intensity Block 对来自提示的细粒度情绪进行分析和提取，从而增强了对文本输入的情感理解。

Jan, 2024

单目 RGB 视频生成神经头像

我们提出了神经头像，该方法能够显式建模动画人物头像的表面几何形状和外观，是虚拟现实和其他电影或游戏应用中数字人物的一种有效表示方法，它能够从单目 RGB 人像视频中学习，能够精确地外推到未知姿态和观察角度，并产生自然的表情和清晰的纹理细节。

Dec, 2021