具有视觉上下文注意力的唇语到语音合成生成对抗网络
本文介绍了一种基于语音信号自动生成会说话的角色的方法,该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步,并且产生了自然的面部表情。
Jun, 2019
本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法,该方法包括 FACIAL-GAN (FACe Implicit Attribute Learning Generative Adversarial Network)和 Rendering-to-Video 网络,并可以产生不仅与语音同步的唇部运动,而且还有自然的头部运动和眼部闪烁。
Aug, 2021
本文提出了一种噪声强韧的端到端的视听语音识别系统,其中使用视觉背景驱动音频特征增强模块(V-CAFE)通过考虑所获得的视觉背景来生成噪声降低掩模,进而提升音频特征,结合 Conformer 和 Transformer 模型进一步提高了噪声稳健性,并在大型视听数据集 LRS2 和 LRS3 上进行了实验验证。
Jul, 2022
本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术,可同时利用音频和视频信息,通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略,对图像进行口型蒙版、填充和修改,从而在保证图像真实性的前提下,生成高质量的口型同步结果。
Dec, 2022
利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点,本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联,通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈,再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画,实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。
Jul, 2023
本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。
Jun, 2023
该论文提出了一种基于条件生成对抗网络的技术,该技术能够通过提取的带感情的语音特征来生成具自然性和表现力的口型动画,实验结果表明该技术与三种最先进的方法相比在客观和主观上都有明显的改进。
Jun, 2018
本文提出了一种 AttnWav2Lip 模型,该模型将空间注意和通道注意模块纳入到口型同步策略中,并着重于唇部区域重构,从而实现了更精准的口型同步,通过在多个基准唇同步数据集上的实验,表明该模型展现了超越基线的良好表现。
Mar, 2022