Jun, 2023

基于上下文的语音修补:以视频为导向的语音合成

TL;DR本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。