CVPRMar, 2023

音频到视觉潜在对齐的声音转视觉场景生成

TL;DR本文提出了一种通过声音生成场景图像的方法,采用了深度学习等技术,结合声音定位和跨模态信息对齐来提高图像生成质量,并在相关数据集上得到了较好结果。