Oct, 2021

控制视觉引导的声音生成

TL;DR本文在视觉诱发音频生成方面进行了研究,提出了一种单一模型,可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音,并使用新型的 FID 和 MKL 度量标准对其进行了评估。