Aug, 2023

学习生成寂静视频的逼真音频的初步探索

TL;DR通过深度学习的框架及改进的人工音频生成技术,本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构,其中基于 Transformer 的架构效果最为优秀,能有效地匹配低频的视觉模式,但在生成细微波形方面表现不佳。