Oct, 2021

Wav2CLIP:从CLIP中学习稳健的音频表示

TL;DR通过从对比语言-图像预训练中提炼得出的Wav2CLIP,我们提出了一种稳健的音频表示学习方法。在分类、检索和生成等各种音频任务上,我们系统评估了Wav2CLIP,并表明Wav2CLIP可以胜过公开可用的多种预训练音频表示算法。Wav2CLIP将音频投影到与图像和文本共享的嵌入空间中,实现了零样本分类和跨模态检索等多模态应用。此外,Wav2CLIP只需要约10%的数据就能达到与全监督模型竞争性能的结果,且比竞品方法更高效,因为它不需要学习视觉模型来辅助听觉模型的学习。最后,我们通过Wav2CLIP说明了图像生成,作为共享嵌入空间的定性评估。