具有视觉上下文注意力的唇语到语音合成生成对抗网络

Apr, 2022

具有视觉上下文注意力的唇语到语音合成生成对抗网络

Lip to Speech Synthesis with Visual Context Attentional GAN

PDF

Minsu Kim, Joanna Hong, Yong Man Ro

TL;DR本文介绍了一种新型嘴唇到语音生成对抗网络 - 视觉上下文关注 GAN（VCA-GAN），它可以在语音合成期间同时建模本地和全局唇部动作，并通过同步学习指导生成器根据给定的输入唇部动作合成语音。

Abstract

In this paper, we propose a novel lip-to-speech generative adversarial network, visual context Attentional gan (VCA-→

lip-to-speech gan speech synthesis visual context synchronization learning

发现论文，激发创造

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

利用 GAN 实现逼真的语音驱动面部动画

本文介绍了一种基于语音信号自动生成会说话的角色的方法，该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步，并且产生了自然的面部表情。

Jun, 2019

FACIAL：利用隐式属性学习合成动态言语人脸

本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法，该方法包括 FACIAL-GAN （FACe Implicit Attribute Learning Generative Adversarial Network）和 Rendering-to-Video 网络，并可以产生不仅与语音同步的唇部运动，而且还有自然的头部运动和眼部闪烁。

Aug, 2021

基于视觉感知的音频特征增强，用于稳健的端对端音视频语音识别

本文提出了一种噪声强韧的端到端的视听语音识别系统，其中使用视觉背景驱动音频特征增强模块（V-CAFE）通过考虑所获得的视觉背景来生成噪声降低掩模，进而提升音频特征，结合 Conformer 和 Transformer 模型进一步提高了噪声稳健性，并在大型视听数据集 LRS2 和 LRS3 上进行了实验验证。

Jul, 2022

基于 Transformer 的音视觉上下文利用的遮蔽唇同步预测

本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术，可同时利用音频和视频信息，通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略，对图像进行口型蒙版、填充和修改，从而在保证图像真实性的前提下，生成高质量的口型同步结果。

Dec, 2022

基于时间 GAN 的端到端语音驱动的面部动画

使用时间依赖的 GAN 模型和音视频同步的方法，实现了从原始音频和人物图像生成高质量且与个体无关的自然面部表情和嘴唇运动的视频。

May, 2018

一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点，本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联，通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈，再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画，实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。

Jul, 2023

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

具条件的顺序生成对抗网络下基于语音的表情丰富的说话嘴唇模型

该论文提出了一种基于条件生成对抗网络的技术，该技术能够通过提取的带感情的语音特征来生成具自然性和表现力的口型动画，实验结果表明该技术与三种最先进的方法相比在客观和主观上都有明显的改进。

Jun, 2018

基于注意力机制的唇部音频视觉合成技术用于生成野外交谈人脸

本文提出了一种 AttnWav2Lip 模型，该模型将空间注意和通道注意模块纳入到口型同步策略中，并着重于唇部区域重构，从而实现了更精准的口型同步，通过在多个基准唇同步数据集上的实验，表明该模型展现了超越基线的良好表现。

Mar, 2022