Jun, 2023
基于上下文的语音修补:以视频为导向的语音合成
Speech inpainting: Context-based speech synthesis guided by video
Juan F. Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen
TL;DR本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。