Apr, 2021

基于生成对抗网络的端到端视频语音合成

TL;DR该论文提出了一种基于生成对抗网络的端到端视频到语音模型,该模型能够直接合成原始音频波形,无需使用中间表示或单独的波形重建算法,同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。