3D 说话风格的捕捉、学习和综合

CVPRMay, 2019

Capture, Learning, and Synthesis of 3D Speaking Styles

Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, Michael J. Black

TL;DR我们介绍了一个独特的 4D 人脸数据集，使用它训练的神经网络 VOCA 可以根据语音信号实现逼真的人脸动画，可被用于游戏视频、虚拟现实头像等多种领域。

Abstract

audio-driven 3d facial animation has been widely explored, but achieving realistic, human-like performance is still unsolved. This is due to the lack of available 3D datasets, models, and standard evaluation metrics. To address this, we introduce a unique 4D face →

audio-driven 3d facial animation neural network voca dataset realistic speaking styles

发现论文，激发创造

EmoVOCA: 语音驱动的情感三维交谈头像

提出了一种创新的数据驱动技术，通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合，创建了一个合成数据集 EmoVOCA，再使用该数据集设计和训练了一个情感 3D 说话头生成器，通过接受 3D 面部、音频文件、情感标签和强度值作为输入，并学习将音频同步的唇部动作与面部的表情特征相结合，实验结果证明了该方法在合成逼真动画方面的优势。

Mar, 2024

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

为面部注入生命：利用自然头部姿势和详细形状进行由语音驱动的 3D 面部动画

VividTalker 是一个新框架，旨在辅助具有灵活头部姿势和自然面部细节的以语音驱动的 3D 面部动画，通过将面部动画显式地分解为头部姿势和口腔运动，并将其单独编码为离散潜在空间，然后利用基于窗口的 Transformer 架构通过自回归过程生成这些特征。在与语音内容一致的情况下，使用新的 3D 数据集构建了具有详细形状的面部细节合成并学习。广泛的定量和定性实验证明，VividTalker 胜过了现有最先进的方法，实现了生动逼真的以语音驱动的 3D 面部动画。

Oct, 2023

VASA-1：实时生成栩栩如生的音频驱动说话人脸

VASA 框架通过单张静态图像和语音音频剪辑生成具有真实感和吸引力的说话脸部，支持实时与模拟人类对话行为的逼真头像进行互动。

Apr, 2024

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法，通过音频和 3D 运动系数生成 3D 头部姿态和表情，利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成，并使用生成的 3D 运动系数合成最终视频，实验结果表明了该方法优于其他方法。

Nov, 2022

MultiTalk: 多语种视频数据集增强跨语言的三维说话头生成

通过多语种 2D 视频数据集，引入多语种增强模型，利用语言特定的样式嵌入，提高了 3D 说话人模型的多语种性能，并提出了度量多语种环境下的唇同步准确性指标。

Jun, 2024

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

3DiFACE：基于扩散的语音驱动 3D 面部动画和编辑

我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型，我们能够在保持表现力丰富的唇部运动输出的同时，允许随机性和动作编辑。经过定量和定性评估，我们展示了我们的方法优于现有的技术，并产生更具保真度和多样性的语音驱动动画。

Dec, 2023

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021