Audio2Rig：面向艺术家的面部动画深度学习工具

May, 2024

Audio2Rig：面向艺术家的面部动画深度学习工具

Audio2Rig: Artist-oriented deep learning tool for facial animation

Bastien Arcelin, Nicolas Chaverou

TL;DRAudio2Rig 是一种基于深度学习的工具，通过从音频文件中生成面部和嘴唇同步的动画来减少动画师所需的时间和技能，同时保持高质量和风格一致性。

Abstract

Creating realistic or stylized facial and lip sync animation is a tedious task. It requires lot of time and skills to sync the lips with audio and convey the right emotion to the character's face. To allow animators to spend more time on the artistic and creative part of the animation,

facial animation lip sync deep learning rig animation audio2rig

发现论文，激发创造

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

RealTalk：基于 3D 面部先验引导的身份对齐网络的实时和逼真的音频驱动人脸生成

该论文提出了一个新颖的通用音频驱动框架 RealTalk，包括音频到表情转换和表情到人脸渲染两个组成部分，通过跨模态注意力对丰富的面部先验信息进行对齐，以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明，它在唇语同步和生成质量方面具有明显的优势，并且具有高效且需要较少计算资源的特点，非常适合实际应用。

Jun, 2024

使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画

本文提出了一种端到端的深度学习方法，用于从音频中实时生成面部动画，采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示，并自动推断不同水平的面部动作，并随着输入音频中的相应音高和潜在说话风格保持一致，无需预设或进一步的人类干预，评估结果表明，我们的方法不仅能够从音频中生成准确的嘴唇运动，还能成功回归说话人的时间变化的面部运动。

May, 2019

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

VideoReTalking: 野外环境中基于音频的人工合成视频嘴型同步技术

VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频，其中包括三个连续的步骤：生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤，且不需要任何用户干预，适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。

Nov, 2022

Learn2Talk: 3D 口型学习 2D 口型

提出了一种名为 Learn2Talk 的学习框架，该框架可以通过利用 2D 说话面领域的两个专业点来构建更好的 3D 说话面网络，主要关注嘴唇同步、语音感知、音频 - 3D 动作回归网络等方面的研究。

Apr, 2024

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

神经语音傀儡术：基于音频的面部再现

本文介绍了神经语音操纵 (Neural Voice Puppetry) 的新方法，即通过深度神经网络驱动的三维面部模型，实现了基于音频和文本的视频合成，包括生成音频驱动的虚拟形象和文本驱动的谈话头像等多种用途。

Dec, 2019

MakeItTalk: 面向发言人的说话人头动画

本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法，并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像，并通过定量和定性方法的评估以及用户研究，证明其比现有技术的生成头像的质量显着更高。

Apr, 2020

AniPortrait：音频驱动的逼真人像动画合成

提出了 AniPortrait，这是一个由音频和参考肖像图像驱动的，用于生成高质量动画的新框架。通过从音频提取 3D 中间表示并将其投影到一系列 2D 面部标志中，然后使用强大的扩散模型和动画模块将标志序列转换为逼真且时间连续的肖像动画，实验结果表明 AniPortrait 在面部自然度、姿势多样性和视觉质量方面具有优势，因此提供了增强的感知体验。此外，我们的方法在灵活性和可控性方面具有相当大的潜力，可在面部动作编辑或面部再现等领域有效应用。

Mar, 2024