Mar, 2023

使用 BriVL 生成音频形象 GAN 表示

TL;DR本文提出了一种基于 BriVL 的音频表述学习方法 WavBriVL,该方法将音频、图像和文本投影到共享的嵌入式空间中,实现多模态应用,并通过定性评估展示了 WavBriVL 所生成图像的相关性。该方法可有效地从音频中生成适当的图像,探索了一种新的图像生成方式。