AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

Feb, 2024

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation

Yasheng Sun, Wenqing Chu, Hang Zhou, Kaisiyuan Wang, Hideki Koike

TL;DR利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Abstract

While considerable progress has been made in achieving accurate lip synchronization for 3D speech-driven talking face generation, the task of incorporating expressive facial detail synthesis aligned with the spea

lip synchronization talking face generation expressive facial detail synthesis audio-visual instruction system large language models

发现论文，激发创造

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

InstructAvatar：基于文本的情绪和动作控制的角色生成

本文提出了一种新颖的以文本为导向的方法，用于生成情感表达的二维化身，提供了细粒度控制、改进的交互性和对生成视频的泛化能力，实验结果表明，该方法在细粒度情感控制、唇同步质量和自然度方面优于现有方法。

May, 2024

Learn2Talk: 3D 口型学习 2D 口型

提出了一种名为 Learn2Talk 的学习框架，该框架可以通过利用 2D 说话面领域的两个专业点来构建更好的 3D 说话面网络，主要关注嘴唇同步、语音感知、音频 - 3D 动作回归网络等方面的研究。

Apr, 2024

通过注意力音视一致性学习实现任意说话人脸生成

本文提出了一种新的任意说话脸生成框架，通过提出的 AMIE 发现音频和视频信息之间的视听一致性，以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示，该方法在性别和姿势变化方面具有鲁棒的高分辨率综合，改进了现有方法在普遍指标上的性能。

Dec, 2018

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024

利用唇语专家的视听指导增强语音驱动的三维面部动画

本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法，通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外，我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家，以整合提出的视听感知损失，并通过广泛的实验证实了我们的方法的有效性，显示了嘴唇同步和可读性性能的明显改善。

Jul, 2024

增强式说话人脸视频生成与评估的音频视觉语音表示专家

使用 AV-HuBERT 进行口型同步损失的计算，并引入三种新的口型同步评估指标，以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。

May, 2024

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021