VisemeNet：音频驱动的动画师中心语音动画

May, 2018

VisemeNet：音频驱动的动画师中心语音动画

VisemeNet: Audio-Driven Animator-Centric Speech Animation

Yang Zhou, Zhan Xu, Chris Landreth, Evangelos Kalogerakis, Subhransu Maji...

TL;DR本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

Abstract

We present a novel deep-learning based approach to producing animator-centric speech motion curves that drive a JALI or standard FACS-based production face-rig, directly from input audio. Our three-stage Long Sho

deep learning speech motion curves face-rig lstm network architecture lip-synchronization

发现论文，激发创造

使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画

本文提出了一种端到端的深度学习方法，用于从音频中实时生成面部动画，采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示，并自动推断不同水平的面部动作，并随着输入音频中的相应音高和潜在说话风格保持一致，无需预设或进一步的人类干预，评估结果表明，我们的方法不仅能够从音频中生成准确的嘴唇运动，还能成功回归说话人的时间变化的面部运动。

May, 2019

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

利用唇语专家的视听指导增强语音驱动的三维面部动画

本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法，通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外，我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家，以整合提出的视听感知损失，并通过广泛的实验证实了我们的方法的有效性，显示了嘴唇同步和可读性性能的明显改善。

Jul, 2024

实时 2D 动画唇同步

本论文介绍了一种基于深度学习和 LSTM 模型的互动系统，该系统可以自动生成分层 2D 角色的实时唇形同步。采用小而有用的前瞻性设计，结合数据增强过程，可以在很少手工制作的培训数据下获得好的结果。

Oct, 2019

SyncTalkFace：通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成

该论文提出了一个名为 Audio-Lip Memory 的技术，使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形，从而使得面部运动与音频之间出现了更加精细的时序一致性，实现了更高质量的谈话面部生成。

Nov, 2022

DualTalker: 语音驱动的三维面部动画的跨模态双重学习方法

通过交叉模态的双学习框架和辅助的模态一致性损失，提高数据使用效率、关联交叉模态的依赖关系，并增强微妙面部表情动力学的映射，从而在语音驱动三维面部动画中提高性能。

Nov, 2023

MeshTalk: 通过跨模态分离实现从语音到三维面部动画

本文提出了一种利用音频生成三维面部动画的通用方法，该方法建立一个针对面部动画的分类潜空间，根据音频相关和不相关的信息进行信息分离，实现面部动画中高度逼真的运动合成结果，包括高准确度的唇部运动，以及未相关到音频信号的面部其他部位的合理动画，此方法在定性和定量方面均优于现有基线，且具有高逼真度。

Apr, 2021

基于时间 GAN 的端到端语音驱动的面部动画

使用时间依赖的 GAN 模型和音视频同步的方法，实现了从原始音频和人物图像生成高质量且与个体无关的自然面部表情和嘴唇运动的视频。

May, 2018

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023