一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

Jul, 2023

一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation

Louis Airale, Dominique Vaufreydaz, Xavier Alameda-Pineda

TL;DR利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点，本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联，通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈，再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画，实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。

Abstract

Animating still face images with deep generative models using a speech input signal is an active research topic and has seen important recent progress. However, much of the effort has been put into lip syncing an

deep generative models speech input head motion audio-visual synchrony multi-scale generator network

发现论文，激发创造

Hallo: 分层音频驱动的肖像图像动画综合

通过采用扩散法为基础的方法框架，该研究提出了一种音频驱动下的肖像图像动画技术，通过引入层次化的音频驱动视觉合成模块，实现了更准确的音频输入与视觉输出的对齐，包括嘴唇、表情和姿势的动作，并通过定性和定量分析进行综合评估。

Jun, 2024

基于学习的个性化头部姿势音频驱动的说话人脸视频生成

本文提出了一种基于深度神经网络的方法，通过输入音频信号和短视频，生成个性化头部姿态、表情和口型同步，并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明，该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。

Feb, 2020

带节奏头部动作的虚拟说话人生成

本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法，通过显式建模头部运动和面部表情，精心处理 3D 动画以及动态嵌入参考图像，实现了可控、逼真、时序连贯的说话者头像视频，并在多个标准基准测试中表现出优异的结果。

Jul, 2020

分层交叉模态对话脸动态像素损失生成

提出了级联 GAN 方法来生成对话式人脸视频，该方法在不同的人脸形状、视角、面部特征和嘈杂声音条件下具有鲁棒性，通过将音频转换为高级结构，即面部标志点，然后在标志点的条件下生成视频帧，避免了不相关的音频视觉信号之间的假冒关联，利用动态可调整像素级损失和注意机制来解决像素抖动问题，并提出了一种新的基于回归的鉴别器结构来生成更清晰、更同步的面部动作图像，实验结果表明，我们的方法比现有方法在定量和定性比较中取得了显著更好的效果。

May, 2019

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

利用 GAN 实现逼真的语音驱动面部动画

本文介绍了一种基于语音信号自动生成会说话的角色的方法，该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步，并且产生了自然的面部表情。

Jun, 2019

Audio2Head：基于音频的单次对话生成，自然的头部运动

本文提出一种基于音频驱动的头像动画方法，该方法同时解决了面部动画和头部运动的问题，并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示，本方法产生的头像动画具有很好的空间和时间连续性，并且性能优于现有技术。

Jul, 2021