Jul, 2021

FoleyGAN:基于视觉引导的生成对抗网络同步静默视频音效生成

TL;DR本研究提出了一种基于深度学习的视听生成模型,通过使用时间上的视觉信息来引导生成模型输出音频,以适应视听模态之间的同步性,该模型能够生成逼真的视听同步音轨,并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。