Aug, 2023

V2A-Mapper: 连接基础模型的轻量级视觉到音频生成解决方案

TL;DR提供了一个轻量级的解决方案,通过利用CLIP、CLAP和AudioLDM等基础模型,提出了一种简单而有效的V2A-Mapper机制来解决视觉到音频生成问题,并在两个V2A数据集上进行了客观和主观评估,结果表明我们的方法相对于目前的最先进方法在FD和CS方面分别取得了53%和19%的改进,参数减少了86%。