MeshTalk: 通过跨模态分离实现从语音到三维面部动画

Apr, 2021

MeshTalk: 通过跨模态分离实现从语音到三维面部动画

MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement

Alexander Richard, Michael Zollhoefer, Yandong Wen, Fernando de la Torre, Yaser Sheikh

TL;DR本文提出了一种利用音频生成三维面部动画的通用方法，该方法建立一个针对面部动画的分类潜空间，根据音频相关和不相关的信息进行信息分离，实现面部动画中高度逼真的运动合成结果，包括高准确度的唇部运动，以及未相关到音频信号的面部其他部位的合理动画，此方法在定性和定量方面均优于现有基线，且具有高逼真度。

Abstract

This paper presents a generic method for generating full facial 3D animation from speech. Existing approaches to audio-driven facial animation exhibit uncanny or static upper face animation, fail to produce accurate and plausible co-articulation or rely on person-specific models that l

3d facial animation audio-driven motion synthesis latent space plausible animation

发现论文，激发创造

DualTalker: 语音驱动的三维面部动画的跨模态双重学习方法

通过交叉模态的双学习框架和辅助的模态一致性损失，提高数据使用效率、关联交叉模态的依赖关系，并增强微妙面部表情动力学的映射，从而在语音驱动三维面部动画中提高性能。

Nov, 2023

CodeTalker: 利用离散运动先验驱动的语音驱动 3D 面部动画

本文提出将基于语音的面部动画转化为在学习到的码本的有限代理空间中的代码查询任务，有效地减少了跨模态映射的不确定性，从而提高了生成的运动的生动性，并且通过使用一个自动回归模型，演示了我们方法在视觉和感知质量上均优于当前最先进的方法。

Jan, 2023

PMMTalk：基于互补伪多模特征的语音驱动 3D 面部动画

PMMTalk 是一种使用伪多模态特征的新框架，通过跨模态对齐模块和 PMMTalk 解码器提高面部动画的准确性，同时引入面部混合形状系数，从而产生更准确的结果。

Dec, 2023

利用唇语专家的视听指导增强语音驱动的三维面部动画

本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法，通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外，我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家，以整合提出的视听感知损失，并通过广泛的实验证实了我们的方法的有效性，显示了嘴唇同步和可读性性能的明显改善。

Jul, 2024

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

Mimic：语音驱动三维面部动画的说话风格解耦

通过创新的说话风格解缠方法，我们提出了一种名为躺椅的新框架，用于学习面部运动的解缠表示，并通过建立风格和内容的二个潜在空间来实现任意主题说话风格的编码，从而实现更真实的语音驱动面部动画的合成。

Dec, 2023

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

语音到视频生成的跨模态蒸馏技术（Speech2Video: Cross-Modal Distillation for Speech to Video Generation）

这篇研究论文介绍了一种仅基于语音生成说话脸部视频的全新方法，并提出了一种轻量级的跨模态蒸馏方法，这种方法能够从未标记的视频输入中提取出情感和身份信息，然后使用对抗生成网络将提取的特征整合到说话脸部视频片段中，实验结果表明这一提出的框架能够从语音中捕获情感表达，生成的视频具有自发的面部动作，且在情感表达方面优于已有的算法。

Jul, 2021

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021