Jun, 2019

利用生成对抗网络进行视频驱动的语音重建

TL;DR本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准确性方面对生成的音频进行评价。