分层交叉模态对话脸动态像素损失生成

May, 2019

分层交叉模态对话脸动态像素损失生成

Hierarchical Cross-Modal Talking Face Generationwith Dynamic Pixel-Wise Loss

Lele Chen, Ross K. Maddox, Zhiyao Duan, Chenliang Xu

TL;DR提出了级联 GAN 方法来生成对话式人脸视频，该方法在不同的人脸形状、视角、面部特征和嘈杂声音条件下具有鲁棒性，通过将音频转换为高级结构，即面部标志点，然后在标志点的条件下生成视频帧，避免了不相关的音频视觉信号之间的假冒关联，利用动态可调整像素级损失和注意机制来解决像素抖动问题，并提出了一种新的基于回归的鉴别器结构来生成更清晰、更同步的面部动作图像，实验结果表明，我们的方法比现有方法在定量和定性比较中取得了显著更好的效果。

Abstract

We devise a cascade gan approach to generate talking face video, which is robust to different face shapes, view angles, facial characteristics, and noisy audio conditions. Instead of learning a direct mapping fro

gan talking face video facial landmarks audio-to-image regression-based discriminator

发现论文，激发创造

一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点，本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联，通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈，再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画，实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。

Jul, 2023

DaGAN++：用于生成逼真视频的深度感知生成对抗网络

本研究提出了一种自监督学习的方法来学习面部视频的稠密三维几何结构，用于进一步引导面部特征点估计和生成高度逼真的聊天头像视频。

May, 2023

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

基于时间 GAN 的端到端语音驱动的面部动画

使用时间依赖的 GAN 模型和音视频同步的方法，实现了从原始音频和人物图像生成高质量且与个体无关的自然面部表情和嘴唇运动的视频。

May, 2018

通过注意力音视一致性学习实现任意说话人脸生成

本文提出了一种新的任意说话脸生成框架，通过提出的 AMIE 发现音频和视频信息之间的视听一致性，以及通过训练阶段中选择性聚焦输入图像的嘴唇区域来进一步增强唇部同步。在 LRW 数据集和 GRID 数据集上进行的实验结果显示，该方法在性别和姿势变化方面具有鲁棒的高分辨率综合，改进了现有方法在普遍指标上的性能。

Dec, 2018

上下文感知的说话人脸视频生成

通过使用面部特征作为控制信号，我们提供了一个两阶段和跨模态可控的视频生成流程，以自然地生成与驱动音频和对话环境空间上连贯的视频内容。实验结果表明，该方法在音视频同步、视频保真度和帧一致性方面优于其他基准方法。

Feb, 2024

利用 GAN 实现逼真的语音驱动面部动画

本文介绍了一种基于语音信号自动生成会说话的角色的方法，该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步，并且产生了自然的面部表情。

Jun, 2019

基于关键点和外观先验的身份保持说话人脸生成

提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点，并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中，视频渲染模型将关键点转换为面部图像，并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。

May, 2023

通过对抗性解缠音视频表示生成会说话的面部表情

该研究旨在通过学习分解的音频 - 视觉表示来实现任意主题的对话面生成，并证明所学习的音频 - 视觉表示对于自动读唇和音频 - 视频检索任务非常有用。

Jul, 2018